タグ

navicsearchに関するinventのブックマーク (1)

  • ECナビ デベロッパー ネットワーク: NavicSearch API で利用しているTokenizer 0.5

    NavicSearch APIで利用している Tokenizerは, Solr付属のCJKTokenizerとほぼ同等の動きをします. ラテン文字についてはスペースで分割してTokenを作成. 非ラテン文字については bi-gram でTokenを切り出します. 前者の問題を解決するTokenizerがtwist-bend coupling: CJKTokenizer書き直しにて公開されているので, これを利用して後者の問題も解決するTokenizerを作成して利用しています. ソース: ecnavi-tokenizer-0.5.tar.bz2 ECナビ デベロッパー ネットワーク: NavicSearch API で利用しているTokenizer 0.1からの変更点は以下の通りです. Solr 1.3に対応しました. トークンの位置情報がずれることがあったの修正しました. 非ラテン文字の

  • 1