Welcome back to TechCrunch’s Week in Review — TechCrunch’s newsletter recapping the week’s biggest news. Want it in your inbox every Saturday? Sign up here. Over the past eight years,…
OSSの分散処理フレームワーク「Hadoop MapReduce」は便利ですが、少しハードルが高い面もあります。MapReduceをより使いやすくするツールが「Pig」と「Hive」で、大容量データを簡単に処理したいケースで威力を発揮します。個人でも手軽にPigとHiveを“体感”する方法を解説します。(NTTコムウェア 研究開発部 川前 徳章) クラウドコンピューティング時代の代表的な分散処理技術「Hadoop」がいま、熱い注目を集めています。Hadoopは、米Google社が開発した大規模ファイルシステム「Google File System」、および大量のデータを高速に処理できる分散処理フレームワーク「MapReduce」を、Googleが発表した論文を基に実装したオープンソースソフトウエアです。Google File Systemに対応するのが「Hadoop Distributed
そんなわけでもうそろそろ6月ですが、3月のに行ったインターンで学んだこととか思い出すためにHadoopで遊んでみました。 方針的にはHBaseを中心に、適当にTwitter検索的なものを作ってみたり、あとはPigとかいじれればいいなぁ、と考えてます。 あと、基本的には「Hadoop徹底入門」をベースに経験をプラス、といったところです。 あまり有用な情報があるかは分かりませんが、メモ程度に。 兎にも角にもとりあえず準備から。 準備 手頃なマシンもないし、最初はEC2とか使ってみようかなー、とか思ったのですが、諸般の都合でVMWare上でやってます。 OSは適当にCentOS。Gentooとかも考えたんだけど、めんどそうなので一番簡単そうなせんとくんで。 HadoopはClouderaのをyumで。一番簡単そうn(ry ついでにいえば、一番簡単そうな疑似分散モードで遊ぼうと思ってます。 気が向
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く