ita-wasaのブックマーク / 2013年3月24日

ita-wasa id:ita-wasa

2013年3月24日のブックマーク (4件)

Luceneフィルタ一覧 | mwSoft
概要英字を小文字で揃えるLowerCaseFilter、カタカナの長音の有無を揃えるJapaneseKatakanaStemFilter等、LuceneのTokenFilterやCharFilter系のクラスの中で、使いそうなものを一覧にしてみた。 Lucene3.6を利用。
ita-wasa 2013/03/24
リンク
LuceneのIndexファイルに関するメモ書き | mwSoft
概要 LuceneとかSolrを使っている時に、インデックスファイルを見て状況を把握すると手っ取り早いケースなんかがたまにあります。そうした時に適切な判断ができるように、小規模なインデックスファイルを目視で確認して、それらがどういったファイルなのか軽く確認してみた。さらっと見ただけのメモ書きなので、適当なことを書いている可能性があります。出力コード例として「content」というフィールドを持つ2つのドキュメントを登録してみます。登録した文字列は以下の2つ。 i have a dream it is a dream deeply このマーチン・ルーサー・キングには夢がある。下記のようなコードでインデックスを生成。 IndexWriterConfig conf = new IndexWriterConfig(Version.LUCENE_36, new WhitespaceAnal
ita-wasa 2013/03/24
概要 LuceneとかSolrを使っている時に、インデックスファイルを見て状況を把握すると手っ取り早いケースなんかがたまにあります。そうした時に適切な判断ができるように、小規模なインデックスファイルを目視で確認して
リンク
http://googleads.g.doubleclick.net/pagead/ads?client=ca-pub-5203428669823392&output=html&h=36&slotname=8452755623&w=960&ea=0&color_bg=3B3835&color_border=3B3835&flash=11.2.202&url=http%3A%2F%2Fwww.slideshare.net%2Flucenerevolution%2Fjapanese-linguistics-i
ita-wasa 2013/03/24
リンク
強烈に素晴らしいプロダクトに変貌した Apache Solr - Solr 4.0 登場 - にょきにょきブログ
Apache Solr 4.0 がリリースされた。本記事では Solr 4.0 の新機能や改善された点のうち気になるものを紹介する。概要 Solr 4.0 では、下記の変更が入る。 83 個の新機能 13 個の最適化 121 個のバグ改修 Solr 4.0 はメジャーバージョンアップにふさわしい、非常に強力なリリースとなる。 SolrCloud Solr 4.0 の数ある新機能のうちの目玉機能。 SolrCloud という名前から推測できるように、Solr の分散構成が行えるようになった。とはいうものの、Solr 3.6 以前でもレプリケーションは行えたのだが、Solr 4.0 は一味ちがう。今までより断然賢くなった。シャーディングもクラスタリングも簡単な設定で行うことができる。インデクス書き込みも複数ノードから行える。そしてなにより自動フェイルオーバーができるようになった。さらに
ita-wasa 2013/03/24
反復記号の正規化日本語圏の我々にとって嬉しい機能。日本語には々, ゞ, ゝ, ヽといった、前の文字の繰り返しを表す踊り字というものがある。これらの文字を正規化できる JapaneseIterationMarkCharFilterFactory というクラスが
リンク
- 2013年3月26日
- 2013年3月24日
- 2013年3月16日