[B! MapReduce] stingrazeのブックマーク

「ビッグデータ」が注目される理由

IT業界に新しい流行語がやってきた。「ビッグデータ」である。巨大なデータを、高度なデータマイニング手法によって深く分析し、その結果を活用する。そうすることで、専門家でさえ気づかない事象の変化への対応や、人を介さない意思決定が実現可能になる。ネット企業でなければ難しかったビッグデータの活用は、最近になって一般企業にも可能になってきた。そのためビッグデータの注目度が、一気に上がっている。ビッグデータの活用は、米グーグルや米フェイスブックといったネット企業にとっては、企業競争力の源泉である。例えばグーグルは2010年6月の学会「ACM Symposium on Cloud Computing（SOCC）2010」で、同社が自社開発した分散バッチ処理基盤「MapReduce」を使って、月間94万6460テラバイト（2010年5月時点）というデータを処理していることを明らかにした。グーグルは毎月、

stingraze 2011/09/27

リンク

Amazon EC2上のHadoopでMeCabを使えるようにしてみた…い - Stellaqua - ＴＯＭの技術日記

最近すっかり"Webサービスを作ってみた"系の記事ばっかりでしたが、今回は久々にEC2上でのHadoopのお話。以前の記事でEC2上でHadoopを動かした時は、MeCabがデフォルトで入っていなかったので、事前に自宅サーバ上で分かち書きしたデータを使っていました。ただ、日本語処理するならMeCabはほぼ必須だろうし、せっかくならMeCabが使える状態でMapReduceしたいのが人情ってもんです。という訳で、EC2上のHadoopを使って、MeCabを利用した日本語文章の単語カウントMapReduceに挑戦してみました。基本的な方向性としては以下の通りです。 EC2上でインスタンス起動。起動したインスタンスにMeCabをインストール。 AMIとして保存。 Hadoopを起動する時にこのAMIが使われるようにする。で、実際にやってみた訳なんですが、結論から言うとうまくいきません

stingraze 2011/02/11

リンク

GoogleのMapReduceアルゴリズムをJavaで理解する

■分散処理のMapタスクを実行する「MapTask」クラス前述のとおり、MapReduceアルゴリズムでは、MapタスクとReduceタスクという2つのタスクに処理を分けて実行します。ここでは、Mapタスクに対応するMapTaskクラスを用意します。このプログラムは単純で、次のように、与えられた文字列を先頭から読み込んで、keyが文字、valueが1であるEntryオブジェクトを生成して、listへ追加するものです。 public class MapTask { // 指定された文字列から生成されるEntryのリスト public java.util.List<MapEntry> list = new java.util.LinkedList<MapEntry>(); public void execute(String target) { byte[] bs = target.getB

stingraze 2010/11/12

リンク

Java MapReduce

stingraze 2010/11/12

リンク

開発メモ: ローカルMapReduceの性能

Kyoto CabinetにMapReduceを実装したという話は前回書いたが、そのLuaバインディングでもMapReduceをサポートした。また、Kyoto Tycoonとそのスクリプト言語拡張でもMapReduceをサポートした。今回はその性能について解説する。ローカルMapReduceのツボ世に言うMapReduceは分散処理のフレームワークだけれども、KC/KTの「ローカルMapReduce」は分散処理を行わない。分散処理をしなかったらデータ処理能力が上がらないじゃないかと思うかもしれないけれども、そうとも限らないのだ。前回も書いたけども、MapReduceフレームワーク部分をうまく実装すると、時間効率と空間効率の双方を向上させることができる。特にキャッシュとソートの部分に工夫がある。 MapReduceは、リポジトリ内（KCではデータベースファイル内）の各レコードからキーと値

stingraze 2010/11/12

MapReduce

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

MapReduceに関するstingrazeのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第1週）

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス