タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

hadoopに関するkonoのブックマーク (4)

  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
    kono
    kono 2010/06/22
  • 「Big Data」はどこにでもある

    最近、米国で開催されるクラウドコンピューティング関連のカンファレンスや雑誌/ブログ記事などで「Big Data」という単語を目にする機会が増えた。Big Dataとは文字通り「巨大なデータ」という意味だ。いま、「Hadoop」のような新技術に注目が集まるのは、巨大データと格闘する企業が増えているからだという。 Hadoopについてはそろそろ説明は不要かも知れないが、念のためにおさらいしておこう。Hadoopとは、米グーグルが開発した分散処理ソフト「Google File System(GFS)」と「MapReduce」を模したオープンソースソフトだ。複数台の安価なPCサーバーを連携させ、数十テラ~数ペタバイトに及ぶデータを高速に処理できる(関連記事:ヤフーを変え始めたHadoop)。 日経コンピュータ2010年4月28日号のレポート記事「リアルタイムに近づくバッチ処理」でも取り上げたが、こ

    「Big Data」はどこにでもある
    kono
    kono 2010/06/17
  • 大量データのバッチ処理を高速化するHadoop

    Hadoopというソフトウエアが、いま注目を集めています。米Googleが発表した論文のアイディアをオープンソース・モデルで実装したソフトウエアです。膨大な量のデータを処理する必要に迫られた企業や研究組織が、続々とHadoopを実際に活用しはじめています。 私たちの研究グループでは、Wikipediaなどの巨大なテキスト・データを解析するために、2007年頃からHadoopを利用しはじめましたが、日国内でも2009年あたりからHadoopを使った事例を多く見聞きするようになりました。国内で初めてのHadoop関連イベントが2009年11月に東京で開催され、オライリー・ジャパンから2010年1月にHadoopの邦訳が出版されるなど、Hadoopが多くの開発者の注目を浴びています。 しかしながら、「Hadoopは何となくすごそうなんだけど、複雑だし、どんなソフトなのかいまいち分からないんだ

  • 優良企業はなぜHadoopに走るのか

    ちなみに、この分析のために必要とされるMapReduceのコードであるが、そのサイズはわずか20ステップだという。Yahoo!のプレゼンテーターである、エリック・バルデシュバイラー氏によると、たとえ経験の浅いエンジニアであっても、MapReduceによるプログラミングは可能であるとされる。 また、VISAのジョー・カニンガム氏からも、貴重なデータが提供されていたので以下に紹介する。同社では、1日に1億トランザクションが発生するため、2年間で700億強のトランザクションログが蓄積され、そのデータ量は36テラバイトに至るという。こうしたスケールのデータを、従来のRDBを用いて分析するには、約1カ月の時間が必要とされてきたが、Hadoopを用いることで13分に短縮されたという。 これまでは、Yahoo!にしろVISAにしろ、膨大なデータをRDBに押し込むほかに方法はなく、その分析に数十日を要する

    優良企業はなぜHadoopに走るのか
    kono
    kono 2009/10/15
    "う、特定のデータベースベンダーに、膨大なライセンス料を支払う時代ではない" わしもそう思う。
  • 1