タグ

ブックマーク / kyow.cocolog-nifty.com (2)

  • igo-rubyの性能 - 猫背ミジンコ

    この辺で作った形態素解析エンジンigo-ruby。 あまりにも大きいドキュメントを解析するのは時間がかかるだろうと予想できるけど、どのくらいの粒度のドキュメントを解析すると実用的なのか、計測してみました。 一応、この辺で問題なく動いているんですけど、こういうのをそれなりに測定して、数字を知っておくと、それなりに有効だったりするわけです。 方針 計測用のドキュメントを用意するのは面倒なので、Twitterの自分のアカウントのステータスを200個取得して、1ステータスずつ200回解析する場合と、200ステータスを結合した上で1回解析する場合を比較してみる。 解析するドキュメントサイズは同じなんだけど、細かく解析した方がいいのか、まとめて解析した方がいいのか、差がある場合、どのくらい差が出るのかを知りたい。 テストコード 使用するigo-rubyの機能は「分かち書き」にした。(内部で形態素解析

    igo-rubyの性能 - 猫背ミジンコ
    yuiseki
    yuiseki 2011/01/08
    1ステータスずつ200回解析する方が、200ステータスを結合したドキュメントを1回解析するより、一桁速い。その差、14倍弱。
  • 形態素解析器IgoのRuby版を作った - 猫背ミジンコ

    解析結果がほぼMeCab互換のJavaおよびCommon Lispで実装された形態素解析器IgoRuby版を作りました。 正確にはIgoのエンジン部分をRubyに移植しましたですけれども。 ソース ソースはGitHubに公開。 また、RubyGems.orgにgemを公開してあるので、インターネットに接続している環境ならRubyGemsでインストールできます。 インストール コマンドラインで下記を入力。$ gem install igo-rubyigo-rubyは、別途Igoと同じ解析用辞書ファイルが必要です。(igo-pythonと同じ方式。ただし、igo-pythonの方は辞書ファイルの生成機能も実装予定とのことです。) 解析用辞書ファイルの生成方法については、Igoのページを参照してください。 使い方 Igo::Taggerクラスのコンストラクタに辞書ファイルが入ったディレクトリを

    形態素解析器IgoのRuby版を作った - 猫背ミジンコ
    yuiseki
    yuiseki 2010/12/17
  • 1