タグ

Hadoopに関するsasaplus1のブックマーク (7)

  • 日々進化するHadoopの 「いま」

    第2回 NHNテクノロジーカンファレンス 講演資料(2012年8月18日) 日々進化するHadoopの 「いま」 株式会社NTTデータ 基盤システム事業部 OSSプロフェッショナルサービス シニアエキスパート 濱野 賢一朗 (日Hadoopユーザー会) NTT DATA CORPORATION System Platforms Secter Senior Expert Kenichiro Hamano

    日々進化するHadoopの 「いま」
  • Mapreduce2.0 - 急がば回れ、選ぶなら近道

    次世代Hadoopの開発が進んでいる。現状の推移では、少なくとも分散クラウドでの「OSSインフラ」としてはHadoopが最有力候補であることは間違いない。クラウド上での分散処理基盤での技術競争ではGoogleAmazonが相当抜きんでいる現在、それに対抗しうる可能性があるOSSはHadoopの潮流の延長線上にしか考えられない。その形としてHadoop-MapReduce2.0があるように見える。現在の状態で自分なりの次世代Hadoopの理解をまとめておく。基的に全部は見切れていないので、そのあたりはあしからず。基的に次世代Hadoopの仕組みは大きく二つの要素からなる 現在のところの柱はHDFSとMapreduce2.0の二つだ。 まずMapReduce。これは従来の「MapReduce」というものからはほど遠い。むしろ「任意」の分散処理実行フレームワークにたいして、適切なリソースを

    Mapreduce2.0 - 急がば回れ、選ぶなら近道
  • Hadoopのテスト環境はどうやるのがいいのか?

    御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1 Hadoopで真に大事なのは、テスト環境だったりする。基的に分散環境が前提になるので、どのレベルまでが単体テストなのか?どの程度までローカルでテストできなくてはいけないのか?というのは常に問題になるわけで。その意味ではCI含めた開発環境の重要性は以前よりも高いな、と今日思った。 2011-06-21 00:50:47 御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1 HadoopのOS化ってのは一つの流れだとは思うけど、その場合、その上位のDSLが開発環境になるわけで。では、そのDSLにどこまで、どのようなテスト実行環境があるの?ってのは、やっぱり重要で。そもそも「プラットフォーム」って何って考えるところまで行く

    Hadoopのテスト環境はどうやるのがいいのか?
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • hadoopと仮想化的な話

    御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1 Hadoopのような分散環境が普通に出てくると、実は逆に仮想化の取り扱いが困ってくるという問題が発生する(というかしてる)。分散ではハードの代替性が高いので、対障害性という意味での仮想化は利用箇所が局所的になる。全面仮想化マンセーはちょっと困ったことになる。 2011-06-09 22:17:20 御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1 特に運用側面から見ると、仮想化の位置づけはきわめて有効な部分と、そうでない部分があるのは意識したほうがいいと思う。仮想化の前提がLAMPSであるなら、なおさら分散クラウドでの位置づけは再考した方が良いと思う。前提が違う時は、手当が必要になることが多い。なんとなくそう思う。

    hadoopと仮想化的な話
  • Hadoopは仮想化の流れに逆行するのか?

    御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1 Hadoopのような分散環境が普通に出てくると、実は逆に仮想化の取り扱いが困ってくるという問題が発生する(というかしてる)。分散ではハードの代替性が高いので、対障害性という意味での仮想化は利用箇所が局所的になる。全面仮想化マンセーはちょっと困ったことになる。 2011-06-09 22:17:20 御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1 特に運用側面から見ると、仮想化の位置づけはきわめて有効な部分と、そうでない部分があるのは意識したほうがいいと思う。仮想化の前提がLAMPSであるなら、なおさら分散クラウドでの位置づけは再考した方が良いと思う。前提が違う時は、手当が必要になることが多い。なんとなくそう思う。

    Hadoopは仮想化の流れに逆行するのか?
  • Hadoopを用いた大規模ログ解析

    JCBの Payment as a Service 実現にむけたゼロベースの組織変革とテクニカル・イネーブラー(NTTデータ テクノロジーカンファレンス ...NTT DATA Technology & Innovation

    Hadoopを用いた大規模ログ解析
  • 1