エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Mahoutのseqdirectoryとseq2sparseを使って文書クラスタリング | mwSoft
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Mahoutのseqdirectoryとseq2sparseを使って文書クラスタリング | mwSoft
概要 Mahoutのexamples/binの下には、cluster-reuters.shというロイターの記事をクラスタリングする処理... 概要 Mahoutのexamples/binの下には、cluster-reuters.shというロイターの記事をクラスタリングする処理を実演してくれるシェルがいる。 このシェルでは、seqdirectoryとseq2sparseという2つのコマンドを使って、テキスト文書をVectorに変換している。 これを参考にして、青空文庫から取ってきたいくつかの文書をクラスタリングして遊んでみる。 Mahoutのバージョンは0.7。 bin/mahout seqdirectoryは、テキストファイルの入ったディレクトリから、シーケンスファイルを生成する。 とりあえず下記のようなテキストファイルを適当なディレクトリ(仮に/tmp/tekitou/sample.txtとする)に入れて、実行してみる。 我輩はプログラマである。 仕事はしていない。 ファイルはHDFSに置く。 $ hadoop fs -put