タグ

rubyとsennaに関するmaxyのブックマーク (2)

  • Ruby on Rails + MySQL で全文検索 - ドワンゴ 研究開発ブログ

    このエントリでは Ruby on RailsMySQL を使って日語の全文検索を行う方法を記述する。Ruby on Rails のバージョンは 2.0.2、MySQL のバージョンは 5.0.67、Tritonn のバージョンは 1.0.12、Hyper Estraier のバージョンは 1.4.10 を使用した。サンプルの文章データとして、あらゆる日人にとって極めて身近な著作権切れ文章である『ドグラ・マグラ』と『黒死館殺人事件』を利用した。処理のために整形したデータはエントリに添付しておく。またデータベースへアクセスするコードではマイグレーションを除きできるだけベンチマークを取るようにし、その結果はエントリの最後に記載する。 ページネーション Rails でページネーションを実現する will_paginate という plugin は ActiveRecord に標準でつ

  • koress.jp: Ruby on Rails + MySQL 日本語全文検索まとめ

    「よいさいと」で日語の検索やろうと思って忘れていました。せっかくなので、最近のMySQLの日語全文検索の事情についてまとめてみます。2007/10/3時点。 ちなみに、以前に別のアプリで全文検索を実装したときには、例の如く「メカブで分解して16進の文字列で格納する」という方法でやっていたのですが、もうやりたくないです。 アルゴリズムいろいろ インデキシングの方法です。 単語分かち書き 形態素解析エンジンを使って、日語の文章を分解し、スペースを挿入してインデキシング。 形態素解析のエンジンにはmeCabとかchaSenがある。 インデックスのサイズはn-gramと比較して小さい。 辞書に登録されていない単語がある場合にはナイーブ。「脳トレ」「みっくみっく」 n-gram 基的に文章の任意の位置から後方n文字を切り出してインデキシングする。 bigramの場合 「その域に達していない」

  • 1