タグ

2010年7月30日のブックマーク (5件)

  • Compressed Suffix Arrayの解説(1) -Suffix Array- - EchizenBlog-Zwei

    < ---- < | > Compressed Suffix Arrayの解説(2) -SAの計算量- > ================================================ 最近(でもないか)話題のCompressed Suffix Array(CSA)について解説してみる。 CSAとはSuffix Array(SA)のインデックスを圧縮して小さくしたもの。大規模テキストデータに対する検索インデックスを作る場合など少しでもインデックスを小さくしたい場合に使われる。 CSAを知るにはSAから!ということで今回はSAの解説を。 Suffix Array(SA)とはデータ構造の一種で事前に(サイズがNの)テキストに対してインデックスを作っておくことでキーとなる文字列を入力として与えるとテキストに含まれるキーの位置をO(logN)で探索できる、というもの。 たとえば

    Compressed Suffix Arrayの解説(1) -Suffix Array- - EchizenBlog-Zwei
  • アイデア創発の素振り:「はてなタクシー」に学ぶ――新事業アイデアを見つける方法 (1/2) - ITmedia Biz.ID

    既存事業が好調だとしても、いずれは成熟し、ついには縮小する。1つの事業では限界がやってくるのだ。だから、ビジネスパーソンには新しいビジネスを発想するチカラが必要だ。でも、新しい事業のアイデアなんて、そうそう思いつけるわけない……。いや、それは違う! 実は、あなたの事業のすぐ隣にも、新事業のアイデアはたくさん潜んでいるのだ。 筆者はときどき、苦しいアイデア会議に出席することがある。「経営学のフレームワークで分析的に考えたり、ブレインストーミングも試したけれど、いいアイデアが出てこないんですよ」とクライアントは言う。確かに彼らは「顧客や業界のしがらみが強く、自社だけで変革はできない」「イノベーションが期待できそうな新しいトピックが全然見当たらない」など、厳しい状況にある。 しかしそんな状況でも、必ず、新事業アイデアを引き出すことは可能だ。「はてなタクシー」という事例から、新事業アイデアを見つけ

    アイデア創発の素振り:「はてなタクシー」に学ぶ――新事業アイデアを見つける方法 (1/2) - ITmedia Biz.ID
  • HTML5についてのおさらい|Web制作 W3G

    Updated 2010.07.29 / Published 2010.07.29 これからHTML5を使いはじめようという方に向けたHTML5のおさらいです。HTML5の記述方法にはじまり、導入にあたって間違いやすいところや勘違いしがちなところをまとめてあります。 hgroup, header, footer要素の説明を含めた続きもあります(続HTML5についてのおさらい)。 HTML5の記述方法 まず最初に、必ずDOCTYPE宣言を行います。HTML5には公式のDTDがないので、すごくシンプルになっています。 <!DOCTYPE html> 続いて、html要素にドキュメントの言語を宣言します。 <html lang="ja"> そして順番にhead要素ときて、文字エンコーディングの指定ですが、charset属性が新たに利用できるようになりました。 <meta charset="UTF

    HTML5についてのおさらい|Web制作 W3G
  • TF-IDF - 0001

    TF-IDF (TFIDF) 情報検索でよく使われる TF-IDF (TFIDF, term frequency - inverse document frequency) に関するメモ。 IDF (inverse document frequency) The IDF page - ... In 1972, Karen Spärck Jones published in the Journal of Documentation the paper which defined the term weighting scheme now known as inverse document frequency (IDF). This was reprinted in 2004 ... Karen Spärck Jones IDF の原典 情報検索と言語処理 を見ると、IDF (inverse

  • tf-idf - Wikipedia

    情報検索の分野において、tf–idf (または、 TF*IDF、TFIDF、TF–IDF、Tf–idf)は、term frequency–inverse document frequencyの略であり、コーパスや収集された文書群において、ある単語がいかに重要なのかを反映させることを意図した統計量(数値)である[1]。また、tf-idfは情報検索や、テキストマイニング、ユーザーモデリング(英語版)における重み係数(英語版)にもよく用いられる。ある単語のtf-idfの値は文書内におけるその単語の出現回数に比例して増加し、また、その単語を含むコーパス内の文書数によってその増加が相殺される。この性質は、一般にいくつかの単語はより出現しやすいという事実をうまく調整することに役立っている。今日、tf-idfはもっとも有名な語の重みづけ(term-weighting)手法である。2015年に行われた研究