MapReduce処理の向き不向き さて、前回構築したHadoop環境ですが、それを使ってのMapReduce処理の実装をしてみましょう。が、その前に、どのような処理が向いているのか確認してみたいと思います。 MapReduceは計算フレームワークですが、HDFSと組み合わせることにより、特に大規模データの分散処理に有用なものとなります(小さい入力データについて処理を分散させることも可能です)。 入力に使用されるデータの種類は テキスト XML バイナリ データベースから という風にいくつかの入力を受け付けることが可能です。今回はテキストファイルを入力としたMapReduceを行いたいと思います。 大規模なテキストデータ 入力となるテキストデータを今回はインターネット上のコンテンツから取得したいと思います。 2ちゃんねるという巨大掲示板サイトは、みなさんご存じかと思います。2ちゃんねる
![第9回 MapReduce処理をやってみよう![準備編] | gihyo.jp](https://cdn-ak-scissors.b.st-hatena.com/image/square/ac4528e1e8558a2a237e2fe78909b2702ee0a6df/height=288;version=1;width=512/https%3A%2F%2Fgihyo.jp%2Fassets%2Fimages%2FICON%2F2010%2F682_rdt.jpg)