最近すっかり"Webサービスを作ってみた"系の記事ばっかりでしたが、今回は久々にEC2上でのHadoopのお話。 以前の記事でEC2上でHadoopを動かした時は、MeCabがデフォルトで入っていなかったので、事前に自宅サーバ上で分かち書きしたデータを使っていました。 ただ、日本語処理するならMeCabはほぼ必須だろうし、せっかくならMeCabが使える状態でMapReduceしたいのが人情ってもんです。 という訳で、EC2上のHadoopを使って、MeCabを利用した日本語文章の単語カウントMapReduceに挑戦してみました。 基本的な方向性としては以下の通りです。 EC2上でインスタンス起動。 起動したインスタンスにMeCabをインストール。 AMIとして保存。 Hadoopを起動する時にこのAMIが使われるようにする。 で、実際にやってみた訳なんですが、結論から言うとうまくいきません