Mahoutのseqdirectoryとseq2sparseを使って文書クラスタリング | mwSoft

テクノロジーカテゴリーの変更を依頼記事元:

www.mwsoft.jp

17 usersがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

Mahoutのseqdirectoryとseq2sparseを使って文書クラスタリング | mwSoft

概要 Mahoutのexamples/binの下には、cluster-reuters.shというロイターの記事をクラスタリングする処理... 概要 Mahoutのexamples/binの下には、cluster-reuters.shというロイターの記事をクラスタリングする処理を実演してくれるシェルがいる。このシェルでは、seqdirectoryとseq2sparseという2つのコマンドを使って、テキスト文書をVectorに変換している。これを参考にして、青空文庫から取ってきたいくつかの文書をクラスタリングして遊んでみる。 Mahoutのバージョンは0.7。 bin/mahout seqdirectoryは、テキストファイルの入ったディレクトリから、シーケンスファイルを生成する。とりあえず下記のようなテキストファイルを適当なディレクトリ（仮に/tmp/tekitou/sample.txtとする）に入れて、実行してみる。我輩はプログラマである。仕事はしていない。ファイルはHDFSに置く。 $ hadoop fs -put

ブックマークしたユーザー

Arahabica2015/05/03
nodat2015/02/13
ymmtmdk2015/01/14
ssm_kariya2014/01/09
nagayama2013/12/29
hirokist2013/08/20
mkozo2013/08/07
daisuke-m2013/01/02
kechako2012/12/12
Naruhodius2012/12/11
yhana-09212012/11/16
xxpugxx2012/09/03

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx