タグ

ブックマーク / alexride.blog83.fc2.com (1)

  • Ride(らいど)の技術メモ solr schema.xml (1文字の日本語検索が CJKAnalyzer では駄目だった)

    CJKAnalizerでは「花」の1文字の検索を行うと、検索出来ない不具合が見つかった。 その他に検索できない日語が色々出てきたので、CJKAnalizerには身を引いてもらいます。 んで、色々試したのですがどれも一長一短すぎ、使い物にならないので、 N-Gramを使用することにしました。 N-Gram を 1-gram で使用した場合、語句に関係無く文字が一致するとヒットしてしまうので、検索ワードが2文字以上の場合は 2-gram を使用する方針としました。 データ上に検索キーワードが存在するのに CJKAnalizer ではヒットしない場合があるなんて、信じられない!。 solrを使用している事例は日語のページでも見ますが、こういう事が明らかにされていないのは非常に不親切ではないでしょか?? 実際solrの問い合わせパラメータを日語で説明しているサイトも無いし、オープンソースなん

    yuiseki
    yuiseki 2010/08/07
  • 1