タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

hadoopに関するwillnetのブックマーク (5)

  • 第2回 レコメンドシステムの実装と課題 | gihyo.jp

    今回はレコメンドシステムの実装の問題と、その解決策として利用するHadoopについて説明します。 今回のポイントは以下の通りです。 スケールアップの限界 分散処理フレームワークの民主化 Hadoop Map Reduceの概要 増え続けるデータをどう扱うか レコメンドシステムを協調フィルタリングのうち、ユーザベース方式により実装することを考えます。このシステムでは次のような映画の評価履歴を使い、「⁠この映画を評価した人はこの映画も評価しています」という映画の推薦を行います。 駄右衛門、ザスーラ、5、2009/12/21、・・・・ 駄右衛門、ジュマンジ、5、2009/12/28、・・・・ 菊之助、ブルースブラザーズ、5、2009/12/29、・・・・ 利平、ザスーラ、4、2010/01/01、・・・・ 十三、ハングオーバー、4、2010/01/01、・・・・ 利平、ジュマンジ、4、2010/

    第2回 レコメンドシステムの実装と課題 | gihyo.jp
    willnet
    willnet 2011/11/18
    コサイン関数がよくわからないなー/なんだ内積なのか。知らない名前だから難しい公式なのかと。 id:mongrelP さんありがとうございます!
  • Twitter、分散リアルタイム処理システム「Storm」公開 | gihyo.jp

    2011年9月18日、Twitterは分散リアルタイム処理システム「Storm」をオープンソースで公開しました。より正確に言うと、2011年7月に買収されたBackTypeのメンバーが買収以前より開発を進めていたものです。BackTypeはTwitterのつぶやきを解析するシステムを開発していたスタートアップ企業でHadoopのヘビーユーザでもありましたが、リアルタイム性の問題点を解消すべくStormの開発に至ったようです。ちなみに同じオープンソースの分散リアルタイム処理システムとして米Yahoo! が「S4」を公開していますが、Stormはデータを処理する信頼性の高さやAPIのシンプルさに違いがあります。 StormのアーキテクチャはHadoopと似通っており、クラスタはMaster-Workerパターンに基づいています。Masterノードには「Nimbus⁠」⁠、Workerノードには

    Twitter、分散リアルタイム処理システム「Storm」公開 | gihyo.jp
    willnet
    willnet 2011/10/24
    リアルタイムなhadoopってことかな
  • ウルシステムズ、業界初、基幹バッチ用のHadoopフレームワーク「Asakusa」 を開発、オープンソース化して提供開始 | ウルシステムズ株式会社

    ウルシステムズ、業界初、基幹バッチ用のHadoopフレームワーク「Asakusa」 を開発、オープンソース化して提供開始 ウルシステムズ株式会社(社:東京都中央区、代表取締役社長:漆原 茂、以下 ウルシステムズ)は、基幹業務システムのバッチを高速処理するためのソフトウェアフレームワーク 「Asakusa FrameworkTM(以下、Asakusa)」を業界で初めて開発、オープンソース化して提供することを発表します。 クラウド技術の普及が進むと共に、企業内システムへの適用の検討が進んでいます。特にHadoop(注1)は、オープンソースの分散処理基盤ソフトウェアとして注目を浴びており、大容量データを多数のサーバーに分散し並列処理させることで高速なデータ処理を実現できます。しかしこれまでは、Webデータの分析や消費者の行動解析などのB2C分野での利用がほとんどであり、企業の基幹業務システムに

    ウルシステムズ、業界初、基幹バッチ用のHadoopフレームワーク「Asakusa」 を開発、オープンソース化して提供開始 | ウルシステムズ株式会社
    willnet
    willnet 2011/02/09
    hadoopのラッパ?
  • Hadoopを業務で使ってみた話 - クックパッド開発者ブログ

    8月に入社した佐々木です。こんにちわ! 入社してからはHadoopを使うことが多く、日々、大規模データと格闘しています。大変ではありますが、個人ではなかなか触ることが出来ないような大規模データを触れるのは楽しいです。 さて、Hadoopは最近色々なところで使われ始めてきていると思うんですが、実際に利用してみて困った事やtipsなど、実践的な情報はまだあまり公開されていません。その辺の情報をみんな求めているはず…!! そこで、僕が実際に触ってみて困った事やHadoopを使う上でポイントだと思ったことなどを社内勉強会で発表したので公開してみます。Hadoopを使っている(使いたいと思っている)方の参考になれば幸いです。 [slideshare id=2711363&doc=20091214techblog-091213183529-phpapp02] Hadoopの利用はまだまだ試行錯誤の連続

    Hadoopを業務で使ってみた話 - クックパッド開発者ブログ
  • RubyでHadoopをラップ、分散処理ツールキットが登場 - @IT

    2009/05/12 米新聞社大手のニューヨーク・タイムズは5月11日、Rubyによる大規模分散処理のツールキット「Map/Reduce Toolkit」(MRToolkit)をGPLv3の下にオープンソースで公開したと発表した。MRToolkitは、すでに稼働しているクラスタ上のHadoopと合わせて使うことでRubyで容易にMap/Reduce処理を記述することができる一種のラッパー。処理自体はHadoopが行う。すでにHadoopを使っているユーザーであれば、中小規模のプロジェクトに対して、すぐにMRToolkitを適用可能としている。 デフォルトで有用なMap、Reduceの処理モジュールが含まれていて、数行のRubyスクリプトを書くだけで、例えば膨大なApacheのログからIPアドレス別の閲覧履歴をまとめるといった処理が可能という。独自にMapやReduceの処理を定義することも

    willnet
    willnet 2009/05/13
    rubyによるHadoopのラッパー。ニューヨークタイムズがオープンソースで公開したっぽい。
  • 1