ビッグデータ活用:その分析実装として注目されるMahout 長年蓄積した企業内データや、ソーシャルネットワークサービス、センサ端末から集められる膨大なデータを活用し、企業における利益向上やコスト削減などに活用する動きが活発になってきました。 データの分析手段として最近とみに注目されている技術として「機械学習」があります。大規模データの処理を得意とする大規模分散処理基盤「Apache Hadoop」の強みを生かし、簡単に機械学習を行うためのライブラリが、「Apache Mahout」(以下、Mahout)です。 本稿ではMahoutを用いたデータ分析の例として「文書分類」を取り上げます。マシンを用いて分析実行する際の手順や陥りがちなポイント、チューニング方法の一例を紹介します。 Mahoutとは? MahoutとはApache Software Foundationが公開しているOSSの機械
![Apache Mahoutの使い方:テキスト分類のアルゴリズムを活用する](https://cdn-ak-scissors.b.st-hatena.com/image/square/96be7c40328bb4a8017004957a94b9f898f07463/height=288;version=1;width=512/https%3A%2F%2Fimage.itmedia.co.jp%2Fait%2Farticles%2F1312%2F04%2Fmhdb_mah01.jpg)