タグ

tipsとsennaに関するmaxyのブックマーク (1)

  • koress.jp: Ruby on Rails + MySQL 日本語全文検索まとめ

    「よいさいと」で日語の検索やろうと思って忘れていました。せっかくなので、最近のMySQLの日語全文検索の事情についてまとめてみます。2007/10/3時点。 ちなみに、以前に別のアプリで全文検索を実装したときには、例の如く「メカブで分解して16進の文字列で格納する」という方法でやっていたのですが、もうやりたくないです。 アルゴリズムいろいろ インデキシングの方法です。 単語分かち書き 形態素解析エンジンを使って、日語の文章を分解し、スペースを挿入してインデキシング。 形態素解析のエンジンにはmeCabとかchaSenがある。 インデックスのサイズはn-gramと比較して小さい。 辞書に登録されていない単語がある場合にはナイーブ。「脳トレ」「みっくみっく」 n-gram 基的に文章の任意の位置から後方n文字を切り出してインデキシングする。 bigramの場合 「その域に達していない」

  • 1