概要 英字を小文字で揃えるLowerCaseFilter、カタカナの長音の有無を揃えるJapaneseKatakanaStemFilter等、LuceneのTokenFilterやCharFilter系のクラスの中で、使いそうなものを一覧にしてみた。 Lucene3.6を利用。
先日、Lucene/Solrのbranch_3x(3.6)とtrunk(4.0)にコミットされた日本語向けのトークナイザ・トークンフィルタをご紹介します。 LuceneのJIRAのチケット LUCENE-3305 にて、日本語形態素解析器Kuromojiが導入されました。 これにより、日本語ドキュメントに対して形態素解析に基づく単語分割が可能になります。 従来、Lucene/Solrで日本語対応をする場合は、lucene-gosenやSenを使用する方法などをとってきましたが、今回の対応であらかじめLucene/Solrに組み込まれたものを使用するということが可能になります。 また一方で、LUCENE-2906にて、CJK文字に関するトークンフィルタも追加されました。 本記事では、これらのトークナイザ・トークンフィルタに関して、2012/2/23時点のソースに基づいて調査したものを解説いた
OSSAJ ミニセミナー(2011年度第3回目) 全文検索エンジン Lucene/Solr の全貌 ミニセミナー概要 今回のミニセミナーではオープンソースの全文検索エンジン「Lucene/Solr」(ルシーン/ソーラー)を取り上げ、早くから「Lucene/Solr」を手掛けているお二人の専門家をお招きして様々な視点から解説していただきます。 オープンソースソフトウェア検索サーバ Solr 入門 大谷純 氏(株式会社シーマーク) Apache Solr(ソーラー)は簡単に全文検索の機能が導入できるオープンソースソフトウェアの検索サーバです。今回は、Solrの良さを知っていただくために、検索エンジンの基本的な仕組み、利用シーンを元にSolrの機能を紹介します。また、検索エンジンライブラリApache Lucene(ルシーン)を中心にしたオープンソースソフトウェアのエコシステムについても簡単に紹
Solr の勉強会 (2011/12/19 19:00 to 21:30) に行ってきました。 第7回Solr勉強会 - atnd.org #SolrJP - twitter.com 2011/12/19_第7回 Solr&検索エンジン勉強会( #SolrJP ) - togetter.com Solr勉強会第7回に参加しました。(発表もしました) - johtani.jugem.jp ので、そのメモ。 会場を提供してくださった VOYAGE GROUP さん、運営者の方々、ありがとうございました。 Solr に特化した内容ではなく、ちょっと間口を広げて検索一般の話もあって勉強になりました。 というか、ちゃんと統計とか数学とかを勉強し直さないと先がないなぁ、と思ったり。。。 Solrベースの全文検索サーバFess 株式会社エヌツーエスエム 菅谷 信介さん オープンソース全文検索サーバー F
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く