タグ

hadoopに関するytotoyのブックマーク (7)

  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • Hadoopで基幹バッチを高速化、オープンソースのフレームワーク登場 - @IT

    2011/02/10 ウルシステムズは2月9日、Hadoopを使って企業の基幹業務システムのバッチを高速処理するためのソフトウェアフレームワーク「Asakusa Framework」を開発、正式版をオープンソースとして3月頃に提供すると発表した。なお、インテックは自社の仮想ホスティングサービス「EINS/SPS(アインスエスピーエス)」上にHadoop基盤を構築した。ウルシステムズはこのHadoop基盤を用い、Asakusaを使った基幹業務処理の基盤サービスを自社の顧客に対して提供するという。インテックは順次、ウルシステムズ以外の顧客にもHadoop基盤サービスを提供開始する。 ウルシステムズの開発した Asakusaは、大量データの処理に適したオープンソースの分散処理基盤ソフトウェアであるHadoopを、基幹システムのバッチ処理高速化に使うためのフレームワーク。Asakusaは、Hado

  • グーグル発「Hadoop」、日本企業も利用へ

    Hadoopは、グーグルが検索エンジン用に開発したバッチ処理システムを基に開発された、オープンソースソフトだ。グーグルが開発した分散ファイルシステム「Google File System(GFS)」を模した「Hadoop Distributed File System(HD FS)」と、データ処理機構「MapReduce」を模した「Hadoop MapReduce」で構成する。 米国では米VISAや米JPモルガン・チェースのような大手金融機関が、バッチ処理にHadoopを使用する。 そのHadoopがいよいよ、日企業でも使われ始めた。例えば楽天は、ある商品に対するお薦め商品をリストアップする「レコメンド処理」にHadoopを使用する。NTTデータは、全国の渋滞情報をリアルタイムに可視化するシステムの構築にHadoopを採用した。三菱UFJインフォメーションテクノロジーもHadoopを使っ

    グーグル発「Hadoop」、日本企業も利用へ
  • Hadoopの死角、COBOLバッチ処理の並列化

    Hadoopの死角、COBOLバッチ処理の並列化:現場にキく、Webシステムの問題解決ノウハウ(8) 連載は、日立製作所が提供するアプリケーションサーバ「Cosminexus」の開発担当者へのインタビューを通じて、Webシステムにおける、さまざまな問題/トラブルの解決に効くノウハウや注意点を紹介していく。現在起きている問題の解決や、今後の開発のご参考に(編集部) クラウドで可能になった大量データ処理とバッチ処理 クラウド・コンピューティングを前提として、多数のサーバを使い大量のデータ処理をするための手法として、「MapReduce」や、MapReduceをJavaで実現するフレームワーク「Hadoop」に代表される分散並列処理に注目が集まっている。 多数のサーバを使い計算処理を並列化し、それまで非現実的と思われていた大量の計算処理も可能とする手法で、まさに「クラウド時代の技術」といえるだ

    Hadoopの死角、COBOLバッチ処理の並列化
  • HBaseとはどんなNoSQLデータベースなのか? 日本語で読める情報を集めてみた

    Facebookが新しいサービス「Messages」の基盤として、NoSQLデータベースの「HBase」を選択したことを、先日の記事「Facebookが新サービスの基盤にしたのは、MySQLでもCassandraでもなく、HBaseだった」で紹介しました。 HBaseは、Facebookによると次のような特徴を備えていると説明されてます。 負荷に対して非常に高いスケーラビリティと性能を発揮 CassandraよりもシンプルなConsistency Model(一貫性モデル)を備えている 自動ロードバランス、フェイルオーバー、圧縮機能 サーバーごとに数十個のシャードを割り当て可能、などなど このHBaseはどのようなデータベースなのでしょうか? 情報を集めてみました。 HBase入門のプレゼンテーション 最初に紹介するのは「HBaseエバンジェリスト」Tatsuya Kawano氏のプレゼン

    HBaseとはどんなNoSQLデータベースなのか? 日本語で読める情報を集めてみた
  • Hadoop MapReduceプログラムを解剖する

    オープンソース・ソフトウェア「Hadoop」のMapReduceジョブは、標準ではJavaで記述します(その他には、Pig、Hive、JAQLといったものがあります)。しかし、意外と初心者には分かりにくいと筆者は感じます。記事では、MapReduceジョブのサンプルコードを使って、できる限り正しくコードの意味を理解し、MapReduceへの入り口を示したいと思います。 HadoopでMapReduceを記述するときに使うAPIが、0.19から0.20に変わるところで新しくなっています。実は、現時点でHadoopプロジェクト体からでさえも、新APIを使ったサンプルが提示されていません。記事では、新しいAPIで筆者が書き直したサンプルを使って解説しますので、このサンプルは0.19以前のHadoopでは動かないことに注意してください。この記事は、0.20.2を使って検証し、解説しています。

  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
  • 1