タグ

MapReduceに関するstingrazeのブックマーク (5)

  • 「ビッグデータ」が注目される理由

    IT業界に新しい流行語がやってきた。「ビッグデータ」である。巨大なデータを、高度なデータマイニング手法によって深く分析し、その結果を活用する。そうすることで、専門家でさえ気づかない事象の変化への対応や、人を介さない意思決定が実現可能になる。ネット企業でなければ難しかったビッグデータの活用は、最近になって一般企業にも可能になってきた。そのためビッグデータの注目度が、一気に上がっている。 ビッグデータの活用は、米グーグルや米フェイスブックといったネット企業にとっては、企業競争力の源泉である。例えばグーグルは2010年6月の学会「ACM Symposium on Cloud Computing(SOCC)2010」で、同社が自社開発した分散バッチ処理基盤「MapReduce」を使って、月間94万6460テラバイト(2010年5月時点)というデータを処理していることを明らかにした。グーグルは毎月、

    「ビッグデータ」が注目される理由
  • Amazon EC2上のHadoopでMeCabを使えるようにしてみた…い - Stellaqua - TOMの技術日記

    最近すっかり"Webサービスを作ってみた"系の記事ばっかりでしたが、今回は久々にEC2上でのHadoopのお話。 以前の記事でEC2上でHadoopを動かした時は、MeCabがデフォルトで入っていなかったので、事前に自宅サーバ上で分かち書きしたデータを使っていました。 ただ、日語処理するならMeCabはほぼ必須だろうし、せっかくならMeCabが使える状態でMapReduceしたいのが人情ってもんです。 という訳で、EC2上のHadoopを使って、MeCabを利用した日語文章の単語カウントMapReduceに挑戦してみました。 基的な方向性としては以下の通りです。 EC2上でインスタンス起動。 起動したインスタンスにMeCabをインストール。 AMIとして保存。 Hadoopを起動する時にこのAMIが使われるようにする。 で、実際にやってみた訳なんですが、結論から言うとうまくいきません

    Amazon EC2上のHadoopでMeCabを使えるようにしてみた…い - Stellaqua - TOMの技術日記
  • GoogleのMapReduceアルゴリズムをJavaで理解する

    ■分散処理のMapタスクを実行する「MapTask」クラス 前述のとおり、MapReduceアルゴリズムでは、MapタスクとReduceタスクという2つのタスクに処理を分けて実行します。ここでは、Mapタスクに対応するMapTaskクラスを用意します。このプログラムは単純で、次のように、与えられた文字列を先頭から読み込んで、keyが文字、valueが1であるEntryオブジェクトを生成して、listへ追加するものです。 public class MapTask { // 指定された文字列から生成されるEntryのリスト public java.util.List<MapEntry> list = new java.util.LinkedList<MapEntry>(); public void execute(String target) { byte[] bs = target.getB

    GoogleのMapReduceアルゴリズムをJavaで理解する
  • Java MapReduce

  • 開発メモ: ローカルMapReduceの性能

    Kyoto CabinetMapReduceを実装したという話は前回書いたが、そのLuaバインディングでもMapReduceをサポートした。また、Kyoto Tycoonとそのスクリプト言語拡張でもMapReduceをサポートした。今回はその性能について解説する。 ローカルMapReduceのツボ 世に言うMapReduceは分散処理のフレームワークだけれども、KC/KTの「ローカルMapReduce」は分散処理を行わない。分散処理をしなかったらデータ処理能力が上がらないじゃないかと思うかもしれないけれども、そうとも限らないのだ。前回も書いたけども、MapReduceフレームワーク部分をうまく実装すると、時間効率と空間効率の双方を向上させることができる。特にキャッシュとソートの部分に工夫がある。 MapReduceは、リポジトリ内(KCではデータベースファイル内)の各レコードからキーと値

  • 1