タグ

2009年1月21日のブックマーク (4件)

  • tf-idf - Wikipedia

    情報検索の分野において、tf–idf (または、 TF*IDF、TFIDF、TF–IDF、Tf–idf)は、term frequency–inverse document frequencyの略であり、コーパスや収集された文書群において、ある単語がいかに重要なのかを反映させることを意図した統計量(数値)である[1]。また、tf-idfは情報検索や、テキストマイニング、ユーザーモデリング(英語版)における重み係数(英語版)にもよく用いられる。ある単語のtf-idfの値は文書内におけるその単語の出現回数に比例して増加し、また、その単語を含むコーパス内の文書数によってその増加が相殺される。この性質は、一般にいくつかの単語はより出現しやすいという事実をうまく調整することに役立っている。今日、tf-idfはもっとも有名な語の重みづけ(term-weighting)手法である。2015年に行われた研究

  • 形態素解析と検索APIとTF-IDFでキーワード抽出

    形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽 出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。 教科書に載っているような基中の基ですが、あらためてエッセンスを 簡単な例で解説したいと思います。 目的:キーワード抽出対象テキストから、そのテキストを代表する キーワードを抽出します。TF-IDF という指標を用います。(この値が大 きいほどその単語が代表キーワードっぽいということでよろしく。) TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード候補が含まれるドキュメ

    形態素解析と検索APIとTF-IDFでキーワード抽出
  • C#で実感する「LINQ to XML」の素晴らしさ(1/2) - @IT

    稿は「連載:C# 3.0入門」からスピンオフした(平たくいえばページの都合で掲載されなかった)、「LINQ to XML」に関する紹介である(LINQ自体の基的な内容については、同連載の第6~8回で解説している)。 C# 3.0入門 第9回では、なぜSQL Serverが使えないかについて述べたが、稿では、なぜXMLが「使えない」のかという話から始めよう。 XML最大の災厄 XMLという技術を襲った最大の災厄とは、「僕の賢さ」を誇示しようとする「精神の子どもたち」の大挙流入にあるといえる。ここでいう「精神の子どもたち」とは、自分自身を自らの能力以上に優れた存在だと思い込んでいる者たちを示す。別のいい方をすれば、自己評価と社会からの評価にギャップがあるという問題を抱え込んでいる者たちだともいえる。つまり、「僕は当はもっと優秀なのに、社会はそれを認めてくれない」という屈折を抱えた者たち

    adeton
    adeton 2009/01/21
    「素晴らしさ」がさっぱり伝わらなってこないものも珍しい。むしろ本題は序盤か。
  • テストの実行: Microsoft UI オートメーション ライブラリ

    At this point in my test automation code, I have launched the application under test, entered "30 60" into the input (textBox1) control, selected the Geometric Mean (radioButton2) control, and clicked on the Calculate (button1) control. Now I examine the textBox2 control to see if I have an expected value: Console.WriteLine("\nChecking textBox2 for '42.4264'"); TextPattern tpTextBox2 = (TextPatter

    テストの実行: Microsoft UI オートメーション ライブラリ