タグ

ブックマーク / takaki-web.media-as.org (1)

  • whooshで日本語検索 - Takaki's web

    whooshはPythonで書かれた検索モジュールである。普通に英文の検索をするのならドキュメントを見ながらやれば問題ない。日語の検索で昔から問題になるのが分かち書き。ただwhooshはN-gramインデックスも使えるので分かち書きは問題ではない。ただドキュメントの記述が不十分なので自分でごちゃごちゃ書いてみた。一応動くようだ。 #!/usr/bin/python # -*- coding: utf-8 -*- from whoosh.index import create_in from whoosh.fields import * from whoosh.analysis import NgramTokenizer schema = Schema(body=TEXT(stored=True, analyzer=NgramTokenizer(minsize=1,maxsize =4))

    peketamin
    peketamin 2017/09/06
  • 1