タグ

hadoopと大規模データ処理に関するkatotakuのブックマーク (5)

  • グーグルとフェイスブックが「別格」たるもう1つの理由:日経ビジネスオンライン

    前回のコラムで、「Hulu(フールー)」などのネット映像配信の価値は、「配信」の部分でなく、検索・過去履歴・オススメ・ソーシャルなどといった「ネット独特のインテリジェンス」にある、ということを書いた。 このようにウェブの世界は、クラウドの中に存在するあらゆるデータを燃料として「インテリジェンス」を作り出す巨大な「発電所」の顔を持つ。そして、それを支える技術が、最近話題の「ビッグデータ」だ。 ビッグデータとは、膨大な量のデータを処理・分析し、その結果を業務に活用する仕組みのこと。金融など、定型的なトランザクションデータが膨大に発生する業界では、従来から自社内でそのデータを処理・分析して、株価の予測やオプション取引の価格づけなど、さまざまな目的に活用していた。 ところが、「ウェブ2.0」「クラウド」「ソーシャル」といった一連のネットの進化の中、ユーザーが生成するデータの増加、コンテンツのデジタ

    グーグルとフェイスブックが「別格」たるもう1つの理由:日経ビジネスオンライン
  • 第14回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 14th)-大規模分散データマイニング 祭り- を開催しました - hamadakoichi blog

    2011/10/16 "第14回 データマイニング+WEB 勉強会@東京"を開催しました。 第14回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 14th)−大規模分散データマイニング 祭り−: Eventbrite Google グループ 会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。 参加者ID・バックグラウンド一覧: 以下、全講師資料、関連資料、ツイートまとめです。 AGENDA: ■Opening Talk: O1.「データマイニング+WEB勉強会@東京 について」(10分) 講師 : id:hamadakoichi [Twitter:@hamadakoichi] オープニングト

    第14回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 14th)-大規模分散データマイニング 祭り- を開催しました - hamadakoichi blog
  • 米Twitter、リアルタイムデータ処理システム「Storm」をオープンソースで公開 | OSDN Magazine

    Twitterは8月4日、リアルタイムデータ処理システム「Storm」をオープンソースにする計画を発表した。Stormは同社が7月に買収した米BackType Technologyの技術で、データストリームの解析などに利用できるという。 Stormは「リアルタイムデータ処理のHadoop」を標榜する技術で、大量データの分散処理を行うためのクラスタシステム。BackTypeがTwitterに買収される前の6月に発表、オープンソースにする計画を明らかにしていた。 StormJava仮想マシン上で動作し、さまざまなプログラミング言語で行う処理を実装できる。クラスタシステムはクラスタをコントロールする「Nimbus」、実際の処理作業を実行する「Supervisor」、Supervisorを監視・制御する「Zookeeper」から構成され、Supervisorノードが処理を分割してZookeep

    米Twitter、リアルタイムデータ処理システム「Storm」をオープンソースで公開 | OSDN Magazine
  • KOF2009「ウェブサービスのパフォーマンスとスケーラビリティ」 - stanaka's blog

    KOF2009にて、「ウェブサービスのパフォーマンスとスケーラビリティ」と題して発表してきました。発表資料を以下に置いておきます。 Performance and Scalability of Web ServiceView more presentations from Shinji Tanaka. 概要は、「ウェブサービスのパフォーマンスを向上させスケーラビリティを高めるために、はてなでは様々な取組みを行っています。セッションでは、はてなで採用している具体的な技術、ノウハウ、可視化手法と、それらの効果について紹介します。」というものです。 最近の、Interopやカーネル読書会あたりで話した内容をまとめつつ、レスポンスタイムの可視化という最近の取り組みについて話しました。 最近、レスポンスタイムについては、以下のようなグラフを使っています。 x軸がレスポンス時間、y軸がその時間内に収

    KOF2009「ウェブサービスのパフォーマンスとスケーラビリティ」 - stanaka's blog
  • クックパッドとHadoop - クックパッド開発者ブログ

    はじめまして。今年の5月に入社した勝間@さがすチームです。 入社してからは、なかなか大変なことも多いですが、最近はお酒好きが集まって月曜から飲み合う 「勝間会」なるものも発足して、仕事面でも仕事以外の面でも密度の高い毎日を過ごしています! さて、僕は「さがす」チーム所属ということで、普段はレシピを「さがす」ユーザの満足度を上げるために、 クックパッドの検索まわりについて、いろいろな開発を行っています。 一方で、ユーザの「さがす欲求」について深く知るために、大規模なデータ解析を行い、欲求の分析を行う機会も増えてきました。 ところが、クックパッドのログは膨大な数があるので、一口のデータ解析と言っても通常のバッチ処理だと間に合わないため、 分散処理環境の必要性が高まってきました。 そこで、まずは手軽に試せる分散処理の王道ということで、最近ではHadoopを使ったデータ解析環境を整備しています。

    クックパッドとHadoop - クックパッド開発者ブログ
  • 1