タグ

hadoopに関するhaseharuのブックマーク (3)

  • 第3回 レコメンドシステム-協調フィルタリングのHadoopへの実装[前編] | gihyo.jp

    今回はいよいよHadoopを用いたレコメンドシステムについて説明します。 今回のポイントは以下の通りです。 処理をMapReduceフレームワークへ変換することで、分散処理のメリットを享受 アウトプットからkeyについて着目し、処理ロジックを考える 簡単な処理でも数段階のMapReduce処理を踏む場合がある 前回までのおさらい 分散処理の基的な考え方は、大規模データあるいは処理する問題を小さく、かつ、互いに独立した単位に分割して並列に処理することで、各処理単位の出力を結合することで最終的な結果を得るというものです。Hadoopは数ある分散処理のフレームワークの実装のひとつで、システムレベルの詳細の多くを意識せず、処理ロジックに集中して設計できる特徴があります。 Hadoopで処理するため、前回紹介したユーザの映画評価の履歴をHDFSのディレクトリにコピーすると、HDFSは履歴を各ノード

    第3回 レコメンドシステム-協調フィルタリングのHadoopへの実装[前編] | gihyo.jp
  • ビッグデータ活用は事業戦略そのものだ

    「今の時点で、ビッグデータで何が変わるのだろうと考えているとしたら、危機感を持ってほしい」。分散バッチ処理ソフトのHadoopおよびHadoopディストリビューション「Cloudera's Distribution including Apache Hadoop」を掲げ、ビッグデータを活用したシステム構築を促進するNTTデータ 基盤システム事業部 シニアエキスパートの濱野 賢一朗氏に、ビッグデータ活用の重要性について聞いた。 これまでを振り返ってみると、企業戦略としてのビッグデータ活用が最初からあったわけではない。「大量のデータを蓄積して解析したい」という顧客からの要望が、Hadoopおよびビッグデータに取り組むきっかけだった。 2007年ごろ、テレコム系のある顧客から、大量のログを蓄積して活用することで、新たなサービスを創出したいという要望があった。その要望に応えようとしたときに、ペタ

    ビッグデータ活用は事業戦略そのものだ
    haseharu
    haseharu 2011/12/11
    「一つは、国立国会図書館(NDL=National Diet Library)の検索サービス。この国立国会図書館サーチ(NDL Search)は、国会図書館をはじめ、全国の図書館や公文書館などの蔵書を横断的に検索できる。」
  • ビッグデータ座談会 前編--ビッグデータは新しい付加価値を生み出す

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 近年のITインフラにとって、ビッグデータの取扱いは極めて深刻な課題とされている。ビッグデータを迅速かつリアルタイムに処理することは、インターネット上に氾濫する情報のビジネスへの活用に直結するからだ。 そこで注目されているのが大量かつ大容量のデータに対応した分散処理技術である。特にこの分野を牽引している「Hadoop」への期待は大きい。 そこで今回、Hadoopへの取り組みを進めている3社に集まってもらった。導入を進めている企業の代表としてリクルート、システム開発事業に取り入れようとするNTTデータ、アセスメントサービスなどを提供する日立製作所の3社だ。 それぞれ立場が異なるものの、「ビッグデータ」という課題から見たIT業界の現状や、Ha

    ビッグデータ座談会 前編--ビッグデータは新しい付加価値を生み出す
  • 1