タグ

seq2sparseに関するnodatのブックマーク (1)

  • Mahoutのseqdirectoryとseq2sparseを使って文書クラスタリング | mwSoft

    概要 Mahoutのexamples/binの下には、cluster-reuters.shというロイターの記事をクラスタリングする処理を実演してくれるシェルがいる。 このシェルでは、seqdirectoryとseq2sparseという2つのコマンドを使って、テキスト文書をVectorに変換している。 これを参考にして、青空文庫から取ってきたいくつかの文書をクラスタリングして遊んでみる。 Mahoutのバージョンは0.7。 bin/mahout seqdirectoryは、テキストファイルの入ったディレクトリから、シーケンスファイルを生成する。 とりあえず下記のようなテキストファイルを適当なディレクトリ(仮に/tmp/tekitou/sample.txtとする)に入れて、実行してみる。 我輩はプログラマである。 仕事はしていない。 ファイルはHDFSに置く。 $ hadoop fs -put

  • 1