タグ

hadoopと@ITに関するwasaiのブックマーク (8)

  • データセンター技術への投資としては「過去最大」:米インテルがクラウデラに出資、Hadoopディストリビューション「CDH」へ統合 - @IT

    米インテルがクラウデラに出資、Hadoopディストリビューション「CDH」へ統合:データセンター技術への投資としては「過去最大」 米インテルは2014年3月27日、Apache Hadoopディストリビューションプロバイダーの米クラウデラ(Cloudera)への出資を発表した。インテルのHadoopディストリビューションは、クラウデラの「Cloudera's Distribution including Apache Hadoop」(CDH)に統合する予定だ。 米インテルは2014年3月27日、Apache Hadoopディストリビューションプロバイダーの米クラウデラ(Cloudera)への出資と、広範な戦略提携を発表した。インテルは同社の筆頭戦略株主となり、取締役に就任する。 クラウデラへの出資は、インテルがデータセンター技術に行う投資としては過去最大級。Hadoopをベースとするクラウ

    データセンター技術への投資としては「過去最大」:米インテルがクラウデラに出資、Hadoopディストリビューション「CDH」へ統合 - @IT
  • グラフ問題とバルク同期並列の常識をGiraphで体得

    グラフ問題とバルク同期並列の常識をGiraphで体得:ビッグデータ処理の常識をJavaで身につける(5)(1/3 ページ) Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク/ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載 ソーシャル時代の「グラフ問題」の重要性 「グラフ問題」とは、どのようなものか、ご存じでしょうか? ご存じでない方でも実は、「グラフ」を活用したシステムを日常的に使っているのです。 その1つは「Google」「Yahoo!」といった、Webの検索システムです。Webの検索システムでは、検索結果の表示順の判断基準の1つとして、Webページの重要度を示す「PageRank(ページランク)」と呼ばれる指標を用います。このPageRankは「注目に値する重要なWebページは、たくさんのページ

    グラフ問題とバルク同期並列の常識をGiraphで体得
  • 並列分散処理の常識をHadoopファミリから学ぶ

    Hadoopプロジェクトは3つの「サブプロジェクト」で構成されています。 Common:Hadoopの基機能FileSystem、RPC、Serializationのライブラリ HDFS:分散ストレージを仮想的に1つに扱うためのファイルシステム MapReduce:膨大なデータセットをクラスタ上で分散処理するためのソフトウェアフレームワーク これらが、「Hadoopファミリ」の核であり、並列分散処理機構を支えています。それ以外の「関連プロジェクト」は2011年12月時点では下記のようになっています。 Avro:Commonの持つ機能を拡張したデータシリアライズシステム Cassandra:単一障害点のないスケーラブルなマルチマスタデータベース Chukwa:大規模な分散システムでのデータ収集システム HBase:大規模な構造化データをサポートする、スケーラブルな分散データベース Hive

    並列分散処理の常識をHadoopファミリから学ぶ
  • Hadoopによるテキストマイニングの精度を上げる2つのアルゴリズム

    Hadoopによるテキストマイニングの精度を上げる2つのアルゴリズム:テキストマイニングで始める実践Hadoop活用(最終回)(1/3 ページ) Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します Passive-Aggressiveとロジスティック回帰で精度向上 前回の「実践! 「MapReduceでテキストマイニング」徹底解説」では、「青空文庫」の作品から学習を行い、テキストデータから著者の寿命を推定するMapReduceプログラムを作成しました。 今回は、前回のプログラムを少し変更するだけで、精度が上がる「Passive-Aggressive」というアルゴリズムを実装します。また、テキスト分類のアルゴリズムと

    Hadoopによるテキストマイニングの精度を上げる2つのアルゴリズム
    wasai
    wasai 2011/10/03
    あとで読んでおこう
  • 次世代Hadoopの特徴は、MapReduce 2とGiraph - @IT

    次世代Hadoopの特徴は、 MapReduce 2とGiraph Hadoopの父に聞く、HadoopとClouderaの現在・未来 有限会社オングス 後藤 大地 2011/9/15 ■ 増え続けるHadoop活用企業 大規模データの分析に、Javaのフレームワーク「Apache Hadoop」(以下、Hadoop)を採用する事例が増えている。HadoopはMapReduceの実装系の1つで、特にログデータ解析やリサーチ目的の大規模データ分析や計算などに活用されている。TwitterやFacebook、mixi、LinkedIn、Groupon、Amazon、eBay、Yahoo!楽天クックパッド、リクルート、ディー・エヌ・エー、サイバーエージェントなどのいわゆるWebサービス系企業だけでなく、NTTデータ、Amazon Web Services、国立国会図書館EMC、PFI、ウル

    wasai
    wasai 2011/09/16
    読んでおこう
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • 情報爆発にいかに対応するか

    ・著=ASCII.technologies編集部 ・発行=アスキー・メディアワークス ・2011年4月 ・ISBN-10:4048705741 ・ISBN-13:978-4048705745 ・2300円+税 ※注文ページへ 近年、日々大量に生成・蓄積される情報の管理・処理が企業の一大課題となっている。めまぐるしく変わる市場環境、顧客ニーズに追従するためには、自社の業務データ、顧客データなどを迅速に処理しなければならない。特に“情報爆発”とも形容されるほど情報量が増大している今、迅速な処理を実現する上ではITシステム側にも新しい仕組みが求められている。 そうした中、注目を集めているのがHadoopとNoSQLだ。特に昨今は、Webサービス企業を中心に採用例が急増していることも手伝って、Hadoopが話題に上ることが増えたのではないだろうか。 周知の通り、Hadoopは大規模なデータを複数の

    情報爆発にいかに対応するか
  • Hadoopの死角、COBOLバッチ処理の並列化

    Hadoopの死角、COBOLバッチ処理の並列化:現場にキく、Webシステムの問題解決ノウハウ(8) 連載は、日立製作所が提供するアプリケーションサーバ「Cosminexus」の開発担当者へのインタビューを通じて、Webシステムにおける、さまざまな問題/トラブルの解決に効くノウハウや注意点を紹介していく。現在起きている問題の解決や、今後の開発のご参考に(編集部) クラウドで可能になった大量データ処理とバッチ処理 クラウド・コンピューティングを前提として、多数のサーバを使い大量のデータ処理をするための手法として、「MapReduce」や、MapReduceをJavaで実現するフレームワーク「Hadoop」に代表される分散並列処理に注目が集まっている。 多数のサーバを使い計算処理を並列化し、それまで非現実的と思われていた大量の計算処理も可能とする手法で、まさに「クラウド時代の技術」といえるだ

    Hadoopの死角、COBOLバッチ処理の並列化
    wasai
    wasai 2011/01/27
    まだ汎用機運用を横で見ている身からすると、こう簡単には置き換えられそうになさそうです
  • 1