タグ

2013年11月26日のブックマーク (2件)

  • TF-IDFで遊んでみた - uncertain world

    最近,何が分かってて何が分かってないのかがゴチャゴチャしてきたので, 頭の整理と勉強の為に, 某ニュースサイトの記事をクローリングして集めていたものを使って色々遊んでみました. 今回はTF-IDFの計算をMySQLでやるというお題. ここで言うTFとIDFの意味は以下のような感じです. 単語の文書における重みをとすると, 以下のような指標によってを特徴付けることができる. ・TF(局所的重み付け) 単語の文書における出現頻度を元に計算される重み. = 単語の文書における出現回数 / 文書に出現した単語数 ここで注意するのは,"文書に出現した単語数"は単語数であり,単語の種類数ではないという事. 例えば,「今日は東京で太郎君と東京タワーに行ってきました.東京まんじゅう美味いな.」という文書があった場合, 今日/は/東京/で/太郎/君/と/東京タワー/に/行っ/て/き/まし/た/./東京/まん

    TF-IDFで遊んでみた - uncertain world
  • YaCyで日本語Web検索 - niitsuma blog

    YaCyはWeb検索データをP2Pで共有するフリーソフトの検索エンジン。 試しに動かしてみた例 http://www.suri.cs.okayama-u.ac.jp:8090 YaCyは正式には日語検索に対応していないが、誰かが日語検索データをP2Pネットワーク上にあげてくれれば日語検索が可能にできる。その日語検索データ作成方法は以下 Linuxで動かす手順( windowsでの手順はここ http://d.hatena.ne.jp/niitsuma/20100416/1273138280 ) kakasi  libtext-kakasi-perl をインストール ubuntuなら sudo apt-get install kakasi libtext-kakasi-perl またはgentooなら emerge dev-perl/Text-Kakasi app-i18n/kaka

    YaCyで日本語Web検索 - niitsuma blog