タグ

2008年7月22日のブックマーク (4件)

  • MySQLでTF-IDFの計算、あと2つのベクトルの内積の計算 (2006-12-19)

    文を形態素分解し、必要な品詞をtfテーブルとdfテーブルに入れる。分析対象となる文書群すべてについてこの処理を行い、各形態素のTF-IDF値を求めて文書をベクトル化する。他の文書ベクトルと内積を比較し、小さい順に「似ている記事」を求めたい (クラスタリングとかは別途)。 HarmanによるTF値の正規化とSparok JonesによるDF値の正規化をする場合のTF-IDF値の計算式は以下のようになる (参考文献): tfidf(i,j) = log2(freq(i,j) + 1) / log2(NoT) * (log2(N / Dfreq(i)) + 1)

    dealrest
    dealrest 2008/07/22
    本文を形態素分解し、必要な品詞をtfテーブルとdfテーブルに入れる。分析対象となる文書群すべてについてこの処理を行い、各形態素のTF-IDF値を求めて文書をベクトル化する。他の文書ベ
  • http://next1.msi.sk.shibaura-it.ac.jp/MULTIMEDIA/fourier/node3.html

    dealrest
    dealrest 2008/07/22
    ベクトル空間の中には大きさや方向を考える必要のないものもありますが,大きさを与えることのできるベクトル空間を計量ベクトル空間(normed vector space)といいます.ここでは内積が定義で
  • 内積空間 [物理のかぎしっぽ]

    この記事の内容は,ここまで考えてきた双対基底や,共変ベクトル,反変ベクトルといった話題とは直接関係ありません.しかし,せっかくベクトル空間や双対空間など,抽象的な概念を紹介しましたので,ついでにもう一つ,内積空間について勉強してしまおうと思います. 今すぐに大事なのは『ベクトル の長さは と定義する』という式だけです.その他の部分は,内積,角度,図形の長さといった概念に関する数学的背景ですので,興味の無い人は読まないで先へ進んでも大丈夫です. 長さとは? 復習になりますが,ベクトル空間とは,ベクトルの満たす加法とスカラー積の演算法則を抽象化し,一般化した概念でした. しかし,まだこれだけでは幾何学を始めるのに十分ではありません.(普通の)幾何学をするには,さらに『長さの概念』を導入しなければなりません.元の間に長さが定義されている集合を 距離空間 と呼びます. 私たちの日常の感覚から言うと

    dealrest
    dealrest 2008/07/22
    『ベクトル \bm{A} の長さは |\bm{A}|=\sqrt{\bm{A}\cdot \bm{A}} と定義する』
  • Lists of the full-text retrieval softwares which can handle japanese properly.

    INDEX このページの目的 全文検索技術について簡単に フリーソフトウェアで日語の通るもの フリーソフトウェアだが日語が通らないもの 商用製品で日語の通るもの どのシステムを選ぶべきか 実際の導入事例の比較一覧 参考文献紹介 掲載ありがとう ページ作者のつぶやき Since: Thu Apr 17 13:43:10 1997 Last Refreshed: Fri Nov 12 00:05:46 JST 2004 時間の都合上、この一年ほどは十分にメンテナンスできていません。 ご利用の際には、その旨、悪しからずご了承下さい。(2002/5/31) ★ (2003/7/1) 拙著『Namazuシステムの構築と活用』を改訂しました。 詳しくは サポートページをご覧ください。 ★ (2003/5/21) MitakeSearch v4.0 リリース。 ★ (2003/4/25) Ver

    dealrest
    dealrest 2008/07/22
    このページでは、現在流通している、 自サイトで簡単に構築できる全文検索ソフトウェアの数々を、 独自に調査した豊富な導入事例と共に、網羅的に解説・紹介しています。