タグ

hadoopに関するtaketsのブックマーク (11)

  • "BigData"では何が問題なのか? - 急がば回れ、選ぶなら近道

    ”ビッグデータで奇跡が起こる” はいどうも。まず、個人的には楽天的な進歩史観には、まったく組しない。 従って、突然に新技術ができて、なんか凄い事になる、というのはさらにまったく同意しない。すべからくブレイクスルーは課題解決により起こると思っているので、問題意識のないところに、こんなものできました的な発想は、基的にプラスにならないことが多いと思っている。現状のビッグデータブームは2011年の秋口現在は完全にハイプになっており、バブルと言ってもいいと思う。印象として、十数年前のナノテク・ブームに似ている。 とはいえ、過度の期待という側面を除けば、それなり効果もある部分もあり、”そこだけ”を見ていけばそれなりに効果はある(と思う)。大体において、今後は以下の二つのユースケース・カテゴリーに集約されると思う。すなわち、ビッグデータの拠り所はまずもって以下の2点だ。 1 Webのログ解析 というか

    "BigData"では何が問題なのか? - 急がば回れ、選ぶなら近道
  • Hadoop&Asakusaを基幹業務で使い倒す--ノーチラス 神林飛志氏

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 日立ソリューションズは12月2日、東京・品川にて「Hadoopが導く分散処理における次世代のバッチ処理開発とは〜Asakusa FrameworkによるHadoopエンタープライズ適用セミナー〜」を開催した。 稿ではその中から、ノーチラス・テクノロジーズ代表取締役副社長 神林飛志氏による講演「Hadoopによるバッチ処理の導入」を紹介する。 Hadoopを定義するのにビッグデータという言葉は必要ありません——神林氏は冒頭、こう切り出した。 いまやバズワードとして定着し始めている「ビッグデータ」だが、その言葉が語られるときはサブセットのごとく「並列分散処理システム」としてHadoopも引き合いに出されることが多い。だが神林氏は「ビッグデ

    Hadoop&Asakusaを基幹業務で使い倒す--ノーチラス 神林飛志氏
  • AWSと国内DCサービス - 急がば回れ、選ぶなら近道

    自分的な話題なので書いておきたい。 まず立場的はっきりさせて置く。AWSを基的にはエンタープライズ・ユースで考えています。もっと直裁にいえば、Asakusaの実行基盤として、すなわちEnterpise Hadoopの実行基盤として見ています。クラウドの利用は単社ではできないことをできるのが特長であり、それは現時点では分散処理です。多数のノードを利用する分散処理は、単社で持つにはコスト的にペイしません。ので、一種のハードの共同利用としてクラウドを利用すべきです。単純にレンタル・サーバーの延長上で見るのであれば、クラウドのメリットはないでしょう。分散処理を一定の計算資源を利用して行うことがクラウドでできるかどうかがポイントと考えています。AWSは十二分にこの目的には合致しています。特にパブリックではないVPCの存在は非常に大きい。 (分散処理としてHadoopMapReduceが最適か?とい

    AWSと国内DCサービス - 急がば回れ、選ぶなら近道
  • 普通の女子大生がなぜ、Google+で「日本一」になったのか - nanapi Web

    Google+日一は、早稲田の女子大生 Googleが今年6月にオープンしたSNSGoogle+」で日一人気があるユーザーは、普通の女子大生だ。 早稲田大学社会科学部3年生の坂口綾優(さかぐちあや)さん。坂口さんの投稿をチェックしている人(被サークル数)は2万9000人以上(11年11月21日時点)おり、9月下旬からずっと、国内1位をキープしている。 人気の理由は、彼女がアップする美しい写真だ。iPhone 4で撮られた空の写真だ。紫からオレンジにグラデーションする朝焼け。真っ赤な夕焼け……。 写真1枚に、多い時で300程度の「+1」(いいね!)が付き、100人近くが共有し、100程度のコメントが付く。「きれいな朝焼け!」「very nice photos !」「Increible, excelente diseno!!!」「火燒 很像末日」??日語、英語スペイン語、中国語……。

  • アトムとビット〜Hadoopでバッチが速くなって何がうれしいか? - 急がば回れ、選ぶなら近道

    まず、社内のオープニングで説明した内容だったりするのですが、一回まとめておきたいので。 断っておくとこの言い方はニコラス・ネグロポンティから取っています。彼の主張は明確でいままでアトム(物質)的な存在だったものが、ビット(電子情報)的な存在に凌駕される、いや大きく姿を変えてるという指摘でございますね。Being digitalが出版されたのが95年なので、もう15年以上になるわけですね。ま、ざっくりすぎてアレですが。・・ワーディングとして便利なので利用させてもらいます。 まず、主題は何かというと、「バッチが速くなって何がうれしいのか?」という問題の背景をちゃんと説明しておきたい。もともとHadoopで何がしたかったのかというと、そもそもバッチのスピードを上げたかった。そもそもRDBMSではまぁ限界があったというのが事の起こり。んで分散処理を行うとIOが分散されるので、スピードがあがりますね

    アトムとビット〜Hadoopでバッチが速くなって何がうれしいか? - 急がば回れ、選ぶなら近道
  • Mapreduce2.0 - 急がば回れ、選ぶなら近道

    次世代Hadoopの開発が進んでいる。現状の推移では、少なくとも分散クラウドでの「OSSインフラ」としてはHadoopが最有力候補であることは間違いない。クラウド上での分散処理基盤での技術競争ではGoogleAmazonが相当抜きんでいる現在、それに対抗しうる可能性があるOSSはHadoopの潮流の延長線上にしか考えられない。その形としてHadoop-MapReduce2.0があるように見える。現在の状態で自分なりの次世代Hadoopの理解をまとめておく。基的に全部は見切れていないので、そのあたりはあしからず。基的に次世代Hadoopの仕組みは大きく二つの要素からなる 現在のところの柱はHDFSとMapreduce2.0の二つだ。 まずMapReduce。これは従来の「MapReduce」というものからはほど遠い。むしろ「任意」の分散処理実行フレームワークにたいして、適切なリソースを

    Mapreduce2.0 - 急がば回れ、選ぶなら近道
  • 『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011

    『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011 2011/02/22 [登壇後エントリ] :" 「モバゲーの大規模データマイニング基盤におけるHadoop活用」-Hadoop Conference Japan 2011 #hcj2011 で登壇してきました " http://d.hatena.ne.jp/hamadakoichi/20110222/p1Read less

    『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011
  • 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th) を開催しました −1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り− - hamadakoichi blog

    2011/02/27 "第10回 データマイニング+WEB 勉強会@東京−1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り−"を開催しました。 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)−1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り−: Eventbrite Google グループ 会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。 以下、全講師資料、関連資料、ツイートまとめ、参加者の声です。 AGENDA: ■10回開催記念トーク: 1. 「データマイニング+WEB〜データマイニング・機械学習活用による継続進化〜」 (発表40分

    第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th) を開催しました −1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り− - hamadakoichi blog
  • HadoopとMongoDBを活用したソーシャルアプリのログ解析

    The Ring programming language version 1.7 book - Part 47 of 196Mahmoud Samir Fayed

    HadoopとMongoDBを活用したソーシャルアプリのログ解析
  • ヤフーを変え始めたHadoop

    ヤフーが日独自の検索関連サービスの開発で、オープンソースの分散処理ソフトである「Hadoop」の活用を進めている。Hadoopを使うことで、従来は6時間以上かかった処理がわずか5分半で済むようになった例もある。2009年秋には組織を整備し、適用範囲を全社に広げている。 Hadoopは、米グーグルが開発した分散処理ソフト「Google File System(GFS)」と「MapReduce」を模したオープンソースソフトである(図)。GFSとMapReduceは、グーグルのクラウドを支える基盤技術。Hadoopを使うと、複数台の安価なPCサーバーを連携させ、数十テラ~数ペタバイトに及ぶデ ータを高速に処理できる。 Hadoopを日国内で最も積極的に利用している企業はヤフーだ。2008年ごろから部署単位でHadoopの導入を進め、Hadoopを使う事例が10件を超えるようになった(表)。

    ヤフーを変え始めたHadoop
    takets
    takets 2010/06/14
    YahooにおけるHadoopの実際的な用途について。
  • Hadoopは企業のための新たな情報分析プラットフォームとなる、とCloudera

    グーグルが大規模分散システムのために用いているMapReduceという技術を、オープンソースとして実装したJavaベースのソフトウェア「Hadoop」です。 Hadoopは当初、Yahoo!やFacebook、Facebookといったネット企業が数テラバイト、ペタバイトにおよぶ大規模なログなどを分析するのに利用していましたが、現在ではVISAやJP Morgan Chase、China Moblieなど一般の企業でも大規模なデータ処理にHadoopを用いています。多くの処理がネットで行われるにつれ、「Big Data」と呼ばれる大規模データは処理のニーズはさまざまな企業に広がっています。 Hadoopは新しいデータ分析プラットフォームになる Hadoopの商用ディストリビューションを提供する「Cloudera」は、Hadoopをあらゆる企業、組織の情報分析プラットフォームにするというビジョ

    Hadoopは企業のための新たな情報分析プラットフォームとなる、とCloudera
    takets
    takets 2010/06/12
    Hadoopの資料いろいろ
  • 1