タグ

ブックマーク / juno106.seesaa.net (2)

  • junoのへたれサーバ管理日記: Senna+mecab(②mysql編)

    前回書いたように、Senna+mecabを使用するにはmysqlのパッチあてと再インストールが必要だ(正確に言うと、mysqlバインドを使用する場合)。 今までmysqlのパッケージはyumでインストールして、アップデートもおまかせでやってきていたのだが、これからは手動インストールで運用することにする、残念。 ということでmysqlの再インストール編です。 さて、mysqlにはsennaのパッチをあてるだけでなく、2indというパッチもあてておく必要があるらしい。これはSQLで1つのクエリに対して2つのインデックスを使用するために必要となるパッチだ。全文検索の結果はORDER BYやLIMITで制限することが多いと思うが、これをいれておかないとスキャンが発生するためすごくレスポンスが遅くなる(経験者談^^;)。 ■ダウンロード  まずはダウンロード。  http://dev.mysql.c

  • junoのへたれサーバ管理日記: Senna+mecab(①インストール編)

    ここんとこずっとやっているwinny通信の可視化の結果をmysqlに蓄積してファイル名の検索をしてみようと思う。 mysqlは4.0から日語の全文検索ができるのだが、日語の全文検索に弱い。これは英語のように単語ごとにスペースが入るような構造に日語がなっていないからインデックスが作りにくいというのが理由らしい。そこで友人からの薦めもあって日語に強い全文検索エンジンのSennaとMecabを入れてみた。 sennaはn-gramと形態素を使用したアルゴリズムによりインデックスを作成するので、かなり高速化が期待できるようだ(詳しくは参考のリンクを参照)。しかもmysqlにパッチをあててインストールすると、mysqlのインターフェースをほとんど変えずに日語全文検索ができるようになるらしい。これはおいしい♪ さらにgoogleのようにポイントをつけた検索結果もだせるらしい(この辺は未検証)

    labduck
    labduck 2007/04/27
    senna
  • 1