一定期間更新がないため広告を表示しています
Hadoop + Luceneで分散インデクシング 2008-08-27 (Wed) 1:07 Hadoop Hadoop (0.17系) + Lucene (2.3系) で検索用インデックスを分散インデクシングするコードを公開してみます。HDDに眠らせてるのはちょっともったいない。 いきなりソースコード。 package net.kzk9; import java.io.*; import java.util.*; import org.apache.hadoop.conf.*; import org.apache.hadoop.fs.*; import org.apache.hadoop.io.*; import org.apache.hadoop.mapred.*; import org.apache.hadoop.util.*; import org.apache.lucene.i
関口宏司さんのLuceneブログによると、 Lucene 2.2がリリースされ、 ペイロードをつけることができるようになったようだ。 Lucene 2.2のリリース | 関口宏司のLuceneブログ 記事から名詞だけを取り出す | 関口宏司のLuceneブログ 人名がヒットしたときはスコアを上げる | 関口宏司のLuceneブログ ペイロードを使ってのスコア操作についても 実例を挙げて説明している。面白い。 Senの品詞情報や読み情報を利用した検索・スコアリングは 夢が広がりまくりんぐな感じ。 んで、Lucene 2.2でついたペイロード以外の機能も調べてみた。 Luceneの知識は適当なので、間違っていたら訂正・突っ込み求む。 point-in-time機能 インデックスを読み込むIndexReaderクラスと インデックスを用いて検索を行うIndexSearcherクラスにおいて、 イ
JiroSearchとは 「JiroSearch」 は、様々な全文検索ニーズに対応できることを目指し、オープンソースとJavaで開発された全文検索エンジンです。 面倒な設定作業やコーディング作業なしに、全文検索機能を導入することが出来るとともに、様々な検索ニーズに合致したカスタマイズを行うことができます。 基本的な特徴 Webサイト内の日本語全文検索「namazu」と同様のことができます オープンソース(GPLライセンス)ですので、無償で利用することができます Linux, Windowsのサーバ上で動作します インストールして、そのまま利用していただくことができます N-gram形式のインデックス生成型の全文検索として動作します 検索対象ファイルの自動更新を可能にします CSSファイルを直すことで検索結果ページのデザインを変更することができますjspファイルを修正することで、自由に検索結
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く