今日はとある私的なプロジェクトで画像の情報操作が必要になったので、ローカルで計算してもいいんだけど今後もパラメータチューニングで何度か発生しそうなので、AmazonのMapReduceを使ってみました。 今回の構成図はこんなかんじ。全部Amazonで全部PHPでやってみた。 やろうとおもったきっかけ 別に5万枚くらいじゃ実はAmazonじゃなくてもよかったりします。一晩ペチぺーのスクリプトを4〜5本平行で走らせておけば、ローカルのMySQLに結果をためるくらい可能です。でも、 今後のために勉強したかった。MapReduceで調べても、Apacheのログとかテキスト操作くらいしか見つからなかったので。 データをオンラインに置きたかった・ローカルに置きたくなかった。 そうすると、MapReduceするにせよしないにせよS3がよさそうだった。 じゃあ、EC2一晩動かすより、MapReduceで一
はじめに 研究室では、大規模データベースを対象とした検索インデックスについて研究しています。 分散処理によるインデックス作成を考えていて、今回 Hadoop Streaming でどこまでできるかを試すべく、 Locality-Sensitive Hashing (LSH) を実装してみました。 実装したアルゴリズムについて LSH にはいくつかのアルゴリズムのバリエーションがあります。 LSH の詳細は、ブログなり論文なり本なりありますので、ここでは省略しますが、 類似したデータに同じハッシュ値を与えることで、検索を高速化しようというアイディアです。 このハッシュ値には、0101 とかの短いバイナリ符号が好まれます。 今回は、いくつかある LSH のアルゴリズムのうち、 Charikar,M., Similarity estimation techniques from ro
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く