タグ
Lucene本の6章では、TermFreqVectorを使って、ブッシュ大統領の就任演説や小泉純一郎首相(当時)の所信表明演説の単語の出現頻度分析を行うプログラムを紹介した。そのプログラムでは「ごみ」を取り除くために「3文字以下のひらがな」を一律に切り捨てていた。... 続きを読む
ゼミ用資料 関係のない方はスルーしてください グーグル様に聞けばすばらしい資料がいっぱい出ますが、とりあえず出たやつをまとめました。無料のものから商用向けまで非常に多くの形態素解析エンジンが開発されている。形態素解析とは?対象言語の文法の知識... 続きを読む

