タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

hadoopに関するhironobu-sのブックマーク (3)

  • 『Hadoopストリーミングでキーを数値としてソートする』

    Hadoopストリーミングのときにキーを数値としてソートする方法を書きます。 Hadoopはmapperからの出力をキー順にソートしてreducerに渡すのですが、ソートするときは文字列としてソートしているようです。 なので、キーを数値順に並べたいときは不都合です。 こういうときは、KeyFieldBasedComparatorを使うといいそうです。 Hadoopストリーミングをするときに、以下の設定を追加することで数値によるソートが出来るそうです。 -D mapred.output.key.comparator.class=org.apache.hadoop.mapred.lib.KeyFieldBasedComparator \ -D mapred.text.key.comparator.options="-k1n" \ 参考書として使っているHadoopには全く同じ設定はないのです

    『Hadoopストリーミングでキーを数値としてソートする』
  • Hadoop Streaming で Locality-Sensitive Hashing を実装してみる | Atsushi TATSUMA Web Page

    はじめに 研究室では、大規模データベースを対象とした検索インデックスについて研究しています。 分散処理によるインデックス作成を考えていて、今回 Hadoop Streaming でどこまでできるかを試すべく、 Locality-Sensitive Hashing (LSH) を実装してみました。 実装したアルゴリズムについて LSH にはいくつかのアルゴリズムのバリエーションがあります。 LSH の詳細は、ブログなり論文なりなりありますので、ここでは省略しますが、 類似したデータに同じハッシュ値を与えることで、検索を高速化しようというアイディアです。 このハッシュ値には、0101 とかの短いバイナリ符号が好まれます。 今回は、いくつかある LSH のアルゴリズムのうち、 Charikar,M., Similarity estimation techniques from ro

  • Runtime error - Meta Search

    Error message : Directory is not found or not writable (DATA_DIR) Directory is not found or not writable (DIFF_DIR) Directory is not found or not writable (BACKUP_DIR) Directory is not found or not writable (CACHE_DIR) Site admin: whitestar Copyright © 2006-2023 whitestar. All Rights Reserved. Icons powered by famfamfam. PukiWiki 1.5.0 Copyright © 2001-2006 PukiWiki Developers Team. License is GPL

  • 1