タグ

blogとHadoopに関するshirasyのブックマーク (2)

  • Amazon MapReduceを使ってPHPで画像処理してみる - ku-sukeのブログ

    今日はとある私的なプロジェクトで画像の情報操作が必要になったので、ローカルで計算してもいいんだけど今後もパラメータチューニングで何度か発生しそうなので、AmazonMapReduceを使ってみました。 今回の構成図はこんなかんじ。全部Amazonで全部PHPでやってみた。 やろうとおもったきっかけ 別に5万枚くらいじゃ実はAmazonじゃなくてもよかったりします。一晩ペチぺーのスクリプトを4〜5平行で走らせておけば、ローカルのMySQLに結果をためるくらい可能です。でも、 今後のために勉強したかった。MapReduceで調べても、Apacheのログとかテキスト操作くらいしか見つからなかったので。 データをオンラインに置きたかった・ローカルに置きたくなかった。 そうすると、MapReduceするにせよしないにせよS3がよさそうだった。 じゃあ、EC2一晩動かすより、MapReduceで一

    Amazon MapReduceを使ってPHPで画像処理してみる - ku-sukeのブログ
  • Hadoop Streaming で Locality-Sensitive Hashing を実装してみる | Atsushi TATSUMA Web Page

    はじめに 研究室では、大規模データベースを対象とした検索インデックスについて研究しています。 分散処理によるインデックス作成を考えていて、今回 Hadoop Streaming でどこまでできるかを試すべく、 Locality-Sensitive Hashing (LSH) を実装してみました。 実装したアルゴリズムについて LSH にはいくつかのアルゴリズムのバリエーションがあります。 LSH の詳細は、ブログなり論文なりなりありますので、ここでは省略しますが、 類似したデータに同じハッシュ値を与えることで、検索を高速化しようというアイディアです。 このハッシュ値には、0101 とかの短いバイナリ符号が好まれます。 今回は、いくつかある LSH のアルゴリズムのうち、 Charikar,M., Similarity estimation techniques from ro

  • 1