Datanami社によるデータベース専門家とのインタビューの結果によると、Hadoopを採用したい企業の多くは、失敗プロジェクトに終わっている、と指摘している。 Snowflake Computing社CEO, Bob Muglia氏によると、今までHadoopを採用してい幸せになった企業はみた事が無いし、今後も出てくるような気配が無い、と言い切っている。 すでに、Hadoopは多くの企業で使われ...
![(日本語)Hadoopは失敗した、という分析](https://cdn-ak-scissors.b.st-hatena.com/image/square/fd98767a3e257069e9a83edd8d65c6607989ebc9/height=288;version=1;width=512/https%3A%2F%2Fcdn1.evernote.com%2Fevernote.com%2Fimg%2Fsocial-meta%2Fshared-note-thumbnail.png)
WebAssemblyとBlazor 、WebAssembly System Interfaceでコンテナライズの設計を解説Takao Tetsuro
HadoopのSQL対応分散クエリエンジン「Cloudera Impala」。Clouderaがオープンソースで公開 Hadoopのディストリビューションベンダとして知られるClouderaは10月25日、SQLに対応し、データの分析速度はMapReduceよりも何倍も高速だという新しい分散クエリエンジン「Cloudera Impala」(製品名「Cloudera Enterprise RTQ」)をオープンソースで公開しました。 これまでHadoopでは内部でMapReduceと呼ばれる処理が用いられていましたが、ImpalaではMapReduceを使わず、Clouderaが2年かけて開発した独自の分散クエリエンジンを用いて処理を行います。Hiveの上位互換のSQLが利用でき、Hive/MapReduceで数分かかっていた応答時間を数秒に短縮すると説明されています。 グーグルのDremel
2012年の現在、割と悩んでいるのでメモっておく。 年度末ぐらいに再調査の予定。・・なので暫定ですよ。 まず前提として、現行のHadoopの実行フレームワークであるMapReduceは、実行効率は決して良くはないです。この辺が割と辛い。 とはいえ、大規模並列処理を一般的に行うという観点での品質や取り回しを考えた場合、”結果として”非常にバランスがとれており、普及している。その上で、このMapReduceですが、今後の見通しについては、潮流は今のところ二つに割れているよう見える。ので、その辺のメモ。 ■YARN 一つの方向性は、現在のHadoop2.0系で実装されているMapReduce2.0、というか、MapReduceとは別の実行基盤を利用するという方向ですね。すなわちBSPや、MPIを利用する。要は、今までの並列処理の成果をそのまま利用しましょう、という流れに近い。 MapReduce
大規模な分散処理フレームワークとしてHadoopが登場したことにより、ビッグデータのブームや、大規模なソーシャルゲームでのログ解析による改善、コマースサイトでの機械学習によるレコメンデーションなど、多くの変化が引き起こされてきました。 そしてそのHadoop自体も、日々進化し続けています。 Hadoopとはどういうソフトウェアであり、いまどのような状況になっているのか。NTTデータの濱野賢一朗氏が、先日行われた第2回 NHNテクノロジーカンファレンスで行ったセッション「日々進化するHadoopの『いま』」で分かりやすく解説しています。 この記事ではそのセッションの内容をダイジェストで紹介しましょう。 日々進化するHadoopの「いま」 NTTデータ 基盤システム事業部 濱野賢一朗氏。 NTTデータというところで仕事をしています。NTTデータ自体はもう5年くらいHadoopをやってまして、そ
ビッグデータ時代―なぜ、いま機械学習なのか Apache Hadoop(以下、Hadoop)の登場で、今まで捨てていたデータ、貯めるだけで処理しきれなかったデータを活用できるようになりました。 活用手段として最近とみに注目されている技術が「機械学習」であり、Hadoopの強みを生かし簡単に機械学習を行うためのライブラリが、「Apache Mahout」(以下、Mahout)です。 本稿ではMahoutを動かしてみることで、機械学習の常識を身に付けます。 そもそも、機械学習とは? 機械学習とは、一定のデータをコンピュータ・プログラムに「学習」させ(すなわち、そのデータに潜むパターンや規則性を表す「モデル」を自動的に構築させ)、他のデータにそのモデルを適用すれば、あたかも人間のように複雑で柔軟な判断が行えるようにするという試みです。 機械学習をビジネスに活用した例は、レコメンド(ユーザーや商品
次世代Hadoopの開発が進んでいる。現状の推移では、少なくとも分散クラウドでの「OSSインフラ」としてはHadoopが最有力候補であることは間違いない。クラウド上での分散処理基盤での技術競争ではGoogleやAmazonが相当抜きんでいる現在、それに対抗しうる可能性があるOSSはHadoopの潮流の延長線上にしか考えられない。その形としてHadoop-MapReduce2.0があるように見える。現在の状態で自分なりの次世代Hadoopの理解をまとめておく。基本的に全部は見切れていないので、そのあたりはあしからず。基本的に次世代Hadoopの仕組みは大きく二つの要素からなる 現在のところの柱はHDFSとMapreduce2.0の二つだ。 まずMapReduce。これは従来の「MapReduce」というものからはほど遠い。むしろ「任意」の分散処理実行フレームワークにたいして、適切なリソースを
Amazon CAPTCHA Hadoop MapReduce デザインパターン の監修という事をさせたもらったので その内容とかについてですね。 まず、元の本はこれです。 http://www.amazon.co.jp/Data-Intensive-Processing-MapReduce-Synthesis-Technologies/dp/1608453421/ref=sr_1_1?s=english-books&ie=UTF8&qid=1316817977&sr=1-1 著者のJimmy Linは 現在Clouderaに所属と聞いています。 (が、割と所属不明な感じみたいです。) 現実にClouderaのトレーニングの内容は 特にアプリサイドの、かなりの部分を この本の内容に準拠していました。 なので、Hadoopを利用する際には ほぼ必須の書籍と見ていいと思います。 この本の特長と
もともとHadoopは注目の仕組みであったけど ここに来てさらに大きな流れになろうとしてる。 各種のイベントや記事にしても大型のものが多く 一種のHype状態になってきている。 Hadoop Japan Conference 2011 Fall Hadoop Conference Japan 2011 Fall Tickets, Mon, Sep 26, 2011 at 10:00 AM | Eventbrite 登録人数で1000人を超えている。 Cloud Computing World Tokyo 2011 & Next Generation Data Center2011 Apache Hadoop: A New Paradigm for Data Processing http://www.idg.co.jp/expo/ngdc/2011/index.html このイベントがあっ
Hadoopはほんとブームです。バブルだと言っていい気がします。各種セミナーはすぐに埋まりますし、実際に聞きに行くと会場は満員です。 この分野は日本だとNTTデータが先頭をきったように見えます。 NTTデータ、Hadoopの商用ディストリビューション「CDH3」を販売開始 | 日経 xTECH(クロステック) またHadoop専業会社「ノーチラス・テクノロジー」というのもできました。 ウルシステムズとイーシー・ワンが経営統合、Hadoop専業会社を立ち上げ | 日経 xTECH(クロステック) しかし最近では富士通やIBMもHadoopソリューションを展開しておりレッドオーシャンな感じです。 富士通がビッグデータ分析・活用向けのPaaSサービス | 日経 xTECH(クロステック) 日本IBM、表計算のように分析できるHadoopソフト新版「BigInsights」 | 日経 xTECH(
「青空文庫」をテキストマイニング! 前回の「いまさら聞けないHadoopとテキストマイニング入門」では、Hadoopとテキストマイニングの概要や構成、MapReduceの仕組み、Hadoopの活用場面などを解説し、Hadoopの実行環境を構築しました。今回から、Hadoopを使い、テキストマイニングのMapReduceプログラムを作成していきます。 「青空文庫」というサイトをご存じでしょうか。青空文庫は、著作権が切れた日本の文学作品を掲載しているWebサイトで、青空文庫の全データをDVDや、BitTorrentによる配信で入手できます。今回は、このデータを使ってテキストマイニングを行いましょう。 前回、テキスト分類で、著者の性別、年齢、地域、職業などの属性も推定できると書きましたが、青空文庫は、他のデータにはない、著者属性があります。青空文庫の作品は、著作権が切れて、作者がなくなっている場
ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1
筆者らは、オープンソースソフトウエアの分散処理ミドルウエア「Hadoop」を、基幹系のバッチ処理システムに適用するためのフレームワーク「Asakusa」を開発した。AsakusaはHadoopと同様に、オープンソースソフトウエアとして公開する。公開日は、本連載の4回目をお届けする2011年3月31日の予定である。 Asakusaを使うことでHadoopによる分散処理のメリットを享受することが可能となり、これまでRDBMSを利用していた場合と比べて、多くのケースでバッチ処理システムの性能を大幅に向上することができる。筆者らが実際に構築を支援したシステムでは、それまで4時間かかっていた処理が数分で終わるようなケースも出てきている。 盛んに報道されているように、Hadoopはすでに多くの導入実績がある。ただしその用途は、ログ分析システムやレコメンデーションエンジンなどのビジネスインテリジェンス(
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く