第2回 NHNテクノロジーカンファレンス 講演資料(2012年8月18日) 日々進化するHadoopの 「いま」 株式会社NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス シニアエキスパート 濱野 賢一朗 (日本Hadoopユーザー会) NTT DATA CORPORATION System Platforms Secter Senior Expert Kenichiro Hamano
次世代Hadoopの開発が進んでいる。現状の推移では、少なくとも分散クラウドでの「OSSインフラ」としてはHadoopが最有力候補であることは間違いない。クラウド上での分散処理基盤での技術競争ではGoogleやAmazonが相当抜きんでいる現在、それに対抗しうる可能性があるOSSはHadoopの潮流の延長線上にしか考えられない。その形としてHadoop-MapReduce2.0があるように見える。現在の状態で自分なりの次世代Hadoopの理解をまとめておく。基本的に全部は見切れていないので、そのあたりはあしからず。基本的に次世代Hadoopの仕組みは大きく二つの要素からなる 現在のところの柱はHDFSとMapreduce2.0の二つだ。 まずMapReduce。これは従来の「MapReduce」というものからはほど遠い。むしろ「任意」の分散処理実行フレームワークにたいして、適切なリソースを
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1 Hadoopで真に大事なのは、テスト環境だったりする。基本的に分散環境が前提になるので、どのレベルまでが単体テストなのか?どの程度までローカルでテストできなくてはいけないのか?というのは常に問題になるわけで。その意味ではCI含めた開発環境の重要性は以前よりも高いな、と今日思った。 2011-06-21 00:50:47 御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1 HadoopのOS化ってのは一つの流れだとは思うけど、その場合、その上位のDSLが開発環境になるわけで。では、そのDSLにどこまで、どのようなテスト実行環境があるの?ってのは、やっぱり重要で。そもそも「プラットフォーム」って何って考えるところまで行く
ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1 Hadoopのような分散環境が普通に出てくると、実は逆に仮想化の取り扱いが困ってくるという問題が発生する(というかしてる)。分散ではハードの代替性が高いので、対障害性という意味での仮想化は利用箇所が局所的になる。全面仮想化マンセーはちょっと困ったことになる。 2011-06-09 22:17:20 御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1 特に運用側面から見ると、仮想化の位置づけはきわめて有効な部分と、そうでない部分があるのは意識したほうがいいと思う。仮想化の前提がLAMPSであるなら、なおさら分散クラウドでの位置づけは再考した方が良いと思う。前提が違う時は、手当が必要になることが多い。なんとなくそう思う。
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1 Hadoopのような分散環境が普通に出てくると、実は逆に仮想化の取り扱いが困ってくるという問題が発生する(というかしてる)。分散ではハードの代替性が高いので、対障害性という意味での仮想化は利用箇所が局所的になる。全面仮想化マンセーはちょっと困ったことになる。 2011-06-09 22:17:20 御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1 特に運用側面から見ると、仮想化の位置づけはきわめて有効な部分と、そうでない部分があるのは意識したほうがいいと思う。仮想化の前提がLAMPSであるなら、なおさら分散クラウドでの位置づけは再考した方が良いと思う。前提が違う時は、手当が必要になることが多い。なんとなくそう思う。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く