タグ

perlとtext-miningに関するnabinnoのブックマーク (1)

  • TF・IDF演習資料

    文書からの自動的なメタデータの生成例として,TF・IDFを用いた単語出現頻度によるメタデータ生成を行う.メタデータの応用例として、Web上の全文検索エンジンを次のURLで公開している。http://web.sfc.keio.ac.jp/~kurabaya/cgi-bin/fulltext.cgi 1: 対象文書群の選び方 メタデータ付与対象とする文書群を決定する.TF・IDFの性質上,共通のトピックに関する文書群である等,ある程度同質性の高い文書群を選ぶのが望ましい.稿では英語の対象文書としてProject GutenbergよりA Short History of the United Statesを,日語の対象文書として青空文庫より「こころ」を選び適用例を示す. 1.1: 対象文書群の準備 対象文書群を特定のディレクトリ(フォルダ)に格納する.1つの対象文書に対し,1つのファイル

  • 1