タグ

hadoopに関するhonamisのブックマーク (8)

  • (日本語)Hadoopは失敗した、という分析

    Datanami社によるデータベース専門家とのインタビューの結果によると、Hadoopを採用したい企業の多くは、失敗プロジェクトに終わっている、と指摘している。 Snowflake Computing社CEO, Bob Muglia氏によると、今までHadoopを採用してい幸せになった企業はみた事が無いし、今後も出てくるような気配が無い、と言い切っている。 すでに、Hadoopは多くの企業で使われ...

    (日本語)Hadoopは失敗した、という分析
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • NoSQL 時代のデータモデル

    Masayoshi Hagiwara @masayh RDBMS対Hadoopという比較自体は適切ではない。正確には、RDBMSとHadoopにおける並列アルゴリズムやデータ管理技術の比較。すでにRDBMSのアルゴリズムはデータ管理技術は非RDBMS化していて、それはHadoopやその他のNoSQLにも適用可能となっている。 2010-11-05 14:09:34 Masayoshi Hagiwara @masayh たとえば、NoSQLでもスキーマや正規化の考え方を設計に取り入れた方がいいし、それを実装に入れて、現在のNoSQLの持つデータモデルの優位性を損なうことなく最適化することができるでしょう。 2010-11-05 14:12:20 Masayoshi Hagiwara @masayh 関係代数や関係論理といった技術的基盤をもっと参照して、現在のNoSQLやその他のデータ管理技術

    NoSQL 時代のデータモデル
  • HBaseとはどんなNoSQLデータベースなのか? 日本語で読める情報を集めてみた

    Facebookが新しいサービス「Messages」の基盤として、NoSQLデータベースの「HBase」を選択したことを、先日の記事「Facebookが新サービスの基盤にしたのは、MySQLでもCassandraでもなく、HBaseだった」で紹介しました。 HBaseは、Facebookによると次のような特徴を備えていると説明されてます。 負荷に対して非常に高いスケーラビリティと性能を発揮 CassandraよりもシンプルなConsistency Model(一貫性モデル)を備えている 自動ロードバランス、フェイルオーバー、圧縮機能 サーバーごとに数十個のシャードを割り当て可能、などなど このHBaseはどのようなデータベースなのでしょうか? 情報を集めてみました。 HBase入門のプレゼンテーション 最初に紹介するのは「HBaseエバンジェリスト」Tatsuya Kawano氏のプレゼン

    HBaseとはどんなNoSQLデータベースなのか? 日本語で読める情報を集めてみた
  • リアルタイムなHadoop? 「Real-Time MapReduce」を実現するS4、オープンソースとしてYahoo!が公開 - Publickey

    Yahoo!は、大規模データの分散処理を実現するMapReduceをリアルタイムに行うソフトウェア「S4」を、オープンソースとして公開しました。 MapReduceを実行するソフトウェアとして、オープンソースの「Hadoop」がありますが、Hadoopはあらかじめジョブを定義して投入するバッチ処理を前提としていました。 S4は、データをキーとバリューのペアで構成されるストリームデータとして非同期に受け取ることができ、処理結果もキーバリューのペアで構成されたストリームデータとして出力するようになっているとのこと。 この非同期なストリームデータによる入出力が、リアルタイムなMapReduceを実現するフレームワークとしてのS4の特徴といえます。 リアルタイムなMapReduceで何ができる? リアルタイムなMapReduceにはどのような用途が考えられるのでしょうか? S4の公開を表明したY

    リアルタイムなHadoop? 「Real-Time MapReduce」を実現するS4、オープンソースとしてYahoo!が公開 - Publickey
  • Hadoopと3つのRDBMSの比較評価。 Hadoop World: NYC 2010

    先週10月12日に、ニューヨークでHadoopのイベント「Hadoop World: NYC 2010」が開催されました。主催はHadoopのディストリビューションベンダであるCloudera。参加者は900名を超えたともいわれ、日からも30名程度が参加しました。 このイベントでClouderaはNTTデータとの提携を発表。両社でアジア太平洋地域と日でのHadoopビジネスを積極展開することを明らかにしています。NTTデータによる講演のなかでリクルートの米谷修氏が行ったHadoopに関する比較評価を紹介します。 この記事はHadoop WorldでClouderaと提携したNTTデータが目指すもの。Hadoop World: NYC 2010」の続きです。 3種類のデータベースとHadoopを比較 リクルート MIT United システム基盤室エグゼクティブマネージャー 米谷修氏。

    Hadoopと3つのRDBMSの比較評価。 Hadoop World: NYC 2010
  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
  • 大学で Hadoop 使う場面ってどんなのだろうか - 武蔵野日記

    今さらだが @kzk_mover くんによるHadoop World NYC 参加記の紹介。Hadoop って考え方は単純なのだけど、ドキュメントがものすごい勢いで陳腐化したり、チューニングしないといけないパラメータがたくさんあったり(デフォルトで適当な値に設定されているのだけど)、コンセプトはいいのだけど使うとなると手を出しづらい技術の筆頭格だと思う。Yahoo! の例だけ引用してみると、 Hadoop Applications at Yahoo! Yahooでの使用事例の話です。Yahooでは現在約25000台程度のノード上でHadoopが走っているようです。そのうちの約20%が番用、約60%がResearch目的という事でした。 ただ、Yahoo.comのトップページに表示されているコンテンツの裏では結構使われているようで、Ad Optimization, Search Index

    大学で Hadoop 使う場面ってどんなのだろうか - 武蔵野日記
  • 1