前回は Python で文書の類似度判定を行うプログラムのアルゴリズムについて紹介しました。 今回の話は、前回の類似度判定を行うプログラムの使い方と、前回の記事のアルゴリズムを用いた文書の類似度検索を行うプログラムの設計と類似度判定プログラムの実装について紹介します。 また、作成したプログラムのコードは github [1] に上げました。 まずは使い方。github からコードをダウンロードして、以下のコマンドを叩きます (argparse を使っているので python2.7 以降じゃないと動かないです、あと形態素解析に “MeCab” [2] を使っているので、そっちもインストールしてください) 。
個人的に Python が熱いです。以前にも同じような事を言った気がしますが。多分デジャブです。 Python といえば、アリエルには言わずと知れた Python 界隈の大物が御座しますが。そんな大物の縄張りで、僕のようなチンピラがこれまた安っちい記事を書くのはかなり恐縮ですが。その辺りは気にせず、図太い精神で書いてこうと思います。 Python は、再帰の途中で内部状態を維持しつつ途中結果を返すジェネレータだったり、(mutable ながら)リストに対して map とか filter とか出来ちゃうところで Lisp を感じられる辺り、かなりオモロい言語です。 せっかくだし何か書きたいなという事で、ベクトル空間モデル [1] を使った類似文書検索プログラムを作ってみました。 出来たものだけ見せると、以下のように動作します。 入力文書は標準入力から受け取ってます。4 行目の「国会図書館は…
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く