[B! Lucene] mskのブックマーク

Montezuma, Common Lisp の Lucene エンジン：セマンティックWeb ダイアリー - AOLダイアリー

msk 2008/12/04

リンク

形態素解析するときは未知語の扱いに注意 - kaisehのブログ

僕が全文検索システムを作るときに使っている方法は、 Senでテキストを形態素に分解して、FULLTEXTインデックスを張ったMySQLのMyISAMテーブルに突っ込む。 LuceneにJapaneseAnalyzer(Sen)を組み合わせて使う。のどちらかです。MySQL+FULLTEXTよりLuceneの方が高パフォーマンスなので最近はLuceneばかり使ってますが、いずれにしてもSenによる形態素解析処理が必要になります。 N-gramではなく形態素解析を選ぶ以上、多少の検索漏れの発生は我慢しないといけない訳ですが、「さすがにそれはまずいだろ」と思っていることがあるので書きます。それは未知語の扱いです。 Senの場合（他の形態素解析エンジンでも同様だと思いますが）、辞書にない語句入力が長々と続いた場合に、その語句群全体を1つの未知語として切り出します。この結果を素直に全文インデックス

msk 2007/12/27

シンプルな解決

Lucene

リンク

Luceneでベイズ分類（experimental） | 関口宏司のLuceneブログ

一定期間更新がないため広告を表示しています

msk 2007/11/01

Lucene

リンク

関口宏司のLuceneブログ

一定期間更新がないため広告を表示しています

msk 2007/10/31

Lucene

リンク

グニャラくんのグニャグニャ備忘録@はてな - Lucene 2.2の新機能を調べてみた。

関口宏司さんのLuceneブログによると、 Lucene 2.2がリリースされ、ペイロードをつけることができるようになったようだ。 Lucene 2.2のリリース | 関口宏司のLuceneブログ記事から名詞だけを取り出す | 関口宏司のLuceneブログ人名がヒットしたときはスコアを上げる | 関口宏司のLuceneブログペイロードを使ってのスコア操作についても実例を挙げて説明している。面白い。 Senの品詞情報や読み情報を利用した検索・スコアリングは夢が広がりまくりんぐな感じ。んで、Lucene 2.2でついたペイロード以外の機能も調べてみた。 Luceneの知識は適当なので、間違っていたら訂正・突っ込み求む。 point-in-time機能インデックスを読み込むIndexReaderクラスとインデックスを用いて検索を行うIndexSearcherクラスにおいて、イ

msk 2007/08/01

Lucene

リンク

Best Practices for Distributing Lucene Indexing and Searching

msk 2007/01/15

lucene

リンク

http://static.compassframework.org/docs/latest/jdbcdirectory.html

msk 2007/01/15

jdbc

lucene

リンク

IndexSearcherのパフォーマンス | 関口宏司のLuceneブログ

一定期間更新がないため広告を表示しています

msk 2007/01/11

Lucene

リンク

はじめてのLucene全文検索プログラム | 関口宏司のLuceneブログ

一定期間更新がないため広告を表示しています

msk 2006/12/22

Lucene

リンク

Luke - Lucene Index Toolbox

Luke - Lucene Index Toolbox Important note: Luke is now hosted at Google Code: http://code.google.com/p/luke/ and you should go to that page to obtain the latest release of Luke. This page contains only information about past releases and is no longer up to date. Lucene is an Open Source, mature and high-performance Java search engine. It is highly flexible, and scala ble from hundreds to millions