hiroyadoraemonのブックマーク / 2010年7月30日

hiroyadoraemon id:hiroyadoraemon

2010年7月30日のブックマーク (5件)

Compressed Suffix Arrayの解説(1) -Suffix Array- - EchizenBlog-Zwei
< ---- < | > Compressed Suffix Arrayの解説(2) -SAの計算量- > ================================================ 最近(でもないか)話題のCompressed Suffix Array(CSA)について解説してみる。 CSAとはSuffix Array(SA)のインデックスを圧縮して小さくしたもの。大規模テキストデータに対する検索インデックスを作る場合など少しでもインデックスを小さくしたい場合に使われる。 CSAを知るにはSAから！ということで今回はSAの解説を。 Suffix Array(SA)とはデータ構造の一種で事前に(サイズがNの)テキストに対してインデックスを作っておくことでキーとなる文字列を入力として与えるとテキストに含まれるキーの位置をO(logN)で探索できる、というもの。たとえば
hiroyadoraemon 2010/07/30
Suffix Array

algorithm

compression

suffixarray
リンク
アイデア創発の素振り：「はてなタクシー」に学ぶ――新事業アイデアを見つける方法 (1/2) - ITmedia Biz.ID
既存事業が好調だとしても、いずれは成熟し、ついには縮小する。1つの事業では限界がやってくるのだ。だから、ビジネスパーソンには新しいビジネスを発想するチカラが必要だ。でも、新しい事業のアイデアなんて、そうそう思いつけるわけない……。いや、それは違う！　実は、あなたの事業のすぐ隣にも、新事業のアイデアはたくさん潜んでいるのだ。筆者はときどき、苦しいアイデア会議に出席することがある。「経営学のフレームワークで分析的に考えたり、ブレインストーミングも試したけれど、いいアイデアが出てこないんですよ」とクライアントは言う。確かに彼らは「顧客や業界のしがらみが強く、自社だけで変革はできない」「イノベーションが期待できそうな新しいトピックが全然見当たらない」など、厳しい状況にある。しかしそんな状況でも、必ず、新事業アイデアを引き出すことは可能だ。「はてなタクシー」という事例から、新事業アイデアを見つけ
hiroyadoraemon 2010/07/30
*アイデア
リンク
HTML5についてのおさらい｜Web制作 W3G
Updated 2010.07.29 / Published 2010.07.29 これからHTML5を使いはじめようという方に向けたHTML5のおさらいです。HTML5の記述方法にはじまり、導入にあたって間違いやすいところや勘違いしがちなところをまとめてあります。 hgroup, header, footer要素の説明を含めた続きもあります(続HTML5についてのおさらい)。 HTML5の記述方法まず最初に、必ずDOCTYPE宣言を行います。HTML5には公式のDTDがないので、すごくシンプルになっています。 <!DOCTYPE html> 続いて、html要素にドキュメントの言語を宣言します。 <html lang="ja"> そして順番にhead要素ときて、文字エンコーディングの指定ですが、charset属性が新たに利用できるようになりました。 <meta charset="UTF
hiroyadoraemon 2010/07/30
html5

*あとで読む
リンク
TF-IDF - 0001
TF-IDF (TFIDF) 情報検索でよく使われる TF-IDF (TFIDF, term frequency - inverse document frequency) に関するメモ。 IDF (inverse document frequency) The IDF page - ... In 1972, Karen Spärck Jones published in the Journal of Documentation the paper which defined the term weighting scheme now known as inverse document frequency (IDF). This was reprinted in 2004 ... Karen Spärck Jones IDF の原典情報検索と言語処理を見ると、IDF (inverse
hiroyadoraemon 2010/07/30
tf-idf

NLP
リンク
tf-idf - Wikipedia
情報検索の分野において、tf–idf (または、 TF*IDF、TFIDF、TF–IDF、Tf–idf)は、term frequency–inverse document frequencyの略であり、コーパスや収集された文書群において、ある単語がいかに重要なのかを反映させることを意図した統計量（数値）である[1]。また、tf-idfは情報検索や、テキストマイニング、ユーザーモデリング（英語版）における重み係数（英語版）にもよく用いられる。ある単語のtf-idfの値は文書内におけるその単語の出現回数に比例して増加し、また、その単語を含むコーパス内の文書数によってその増加が相殺される。この性質は、一般にいくつかの単語はより出現しやすいという事実をうまく調整することに役立っている。今日、tf-idfはもっとも有名な語の重みづけ(term-weighting)手法である。2015年に行われた研究
hiroyadoraemon 2010/07/30
自然言語処理

テキストマイニング

tf-idf
リンク
- 2010年8月2日
- 2010年7月30日
- 2010年7月29日