Hadoop(0.22以前や1.0.0)のHDFSはNameNodeがSPOF(単一障害点)なので、ファイルサーバーやデータの“バックアップ”には向かないという話です。 HDFS上に構築されているHBaseの場合、(HBase自身にはSPOFは無いけれども)HDFSにSPOFがあるので、NameNodeは冗長化した方が良いようです。 冗長化には以下のような仕組みが考えられているようです。 続きを読む
業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という
Hadoop を install したので、Map/Reduce のサンプルプログラムを書いてみました。 Map/Reduce Tutorial に文字数をカウントするプログラムについての説明が載っているので、超初心者の自分でも簡単に書くことはできたのですが、いざコンパイルしてみると、deprecate の嵐。 deprecated でも動くことは動くんですが、そのうちなくなるであろうクラスを使うのも気持ち悪いので、deprecated でないクラスで書き直してみることにしました。 また、文字数カウントしてもしょうがないので、apache のログを読み込んで、UserAgent をカウントするようにしました。 1つ書けばコピーして使いまわせるので、備忘録的に書いておきます。 Map/Reduce Tutorial では JobConf クラスを使用しています、この JobConf が de
「データのライフ・サイクル」を考える RDBMSは、「非定型処理への活用」、「バッチ処理のスケール・アウト」という観点で限界に突き当たっています。しかし、RDBMSの豊富な機能が現代のコンピュータ・システムに欠かせない存在であることも間違いありません。この矛盾をどう解決すればいいのでしょうか。 この問題を解決する鍵は、「データのライフ・サイクル」にあります。 RDBMSは、管理するデータはすべて「起きている(活動している)」、つまり「いつでも更新される可能性がある」ことを前提に設計されています。例えば、銀行の口座残高は、バッチ処理が進んでいる最中にも、ATMからの引き出しなどのリアルタイム処理で更新される可能性があります。 しかし、すべてのデータが「起きている」わけではありません。例えば、銀行口座の「昨日の取引履歴」は、過去のデータなので、更新される可能性はまずありません(過去の取引履歴を
8月に入社した佐々木です。こんにちわ! 入社してからはHadoopを使うことが多く、日々、大規模データと格闘しています。大変ではありますが、個人ではなかなか触ることが出来ないような大規模データを触れるのは楽しいです。 さて、Hadoopは最近色々なところで使われ始めてきていると思うんですが、実際に利用してみて困った事やtipsなど、実践的な情報はまだあまり公開されていません。その辺の情報をみんな求めているはず…!! そこで、僕が実際に触ってみて困った事やHadoopを使う上でポイントだと思ったことなどを社内勉強会で発表したので公開してみます。Hadoopを使っている(使いたいと思っている)方の参考になれば幸いです。 [slideshare id=2711363&doc=20091214techblog-091213183529-phpapp02] Hadoopの利用はまだまだ試行錯誤の連続
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く