yuisekiのブックマーク - はてなブックマーク

igo-rubyの性能 - 猫背ミジンコ
この辺で作った形態素解析エンジンigo-ruby。あまりにも大きいドキュメントを解析するのは時間がかかるだろうと予想できるけど、どのくらいの粒度のドキュメントを解析すると実用的なのか、計測してみました。一応、この辺で問題なく動いているんですけど、こういうのをそれなりに測定して、数字を知っておくと、それなりに有効だったりするわけです。方針計測用のドキュメントを用意するのは面倒なので、Twitterの自分のアカウントのステータスを200個取得して、1ステータスずつ200回解析する場合と、200ステータスを結合した上で1回解析する場合を比較してみる。解析するドキュメントサイズは同じなんだけど、細かく解析した方がいいのか、まとめて解析した方がいいのか、差がある場合、どのくらい差が出るのかを知りたい。テストコード使用するigo-rubyの機能は「分かち書き」にした。(内部で形態素解析を
yuiseki 2011/01/08
1ステータスずつ200回解析する方が、200ステータスを結合したドキュメントを1回解析するより、一桁速い。その差、14倍弱。
リンク
形態素解析器IgoのRuby版を作った - 猫背ミジンコ
解析結果がほぼMeCab互換のJavaおよびCommon Lispで実装された形態素解析器IgoのRuby版を作りました。正確にはIgoのエンジン部分をRubyに移植しましたですけれども。ソースソースはGitHubに公開。また、RubyGems.orgにgemを公開してあるので、インターネットに接続している環境ならRubyGemsでインストールできます。インストールコマンドラインで下記を入力。$ gem install igo-rubyigo-rubyは、別途Igoと同じ解析用辞書ファイルが必要です。(igo-pythonと同じ方式。ただし、igo-pythonの方は辞書ファイルの生成機能も実装予定とのことです。) 解析用辞書ファイルの生成方法については、Igoのページを参照してください。使い方 Igo::Taggerクラスのコンストラクタに辞書ファイルが入ったディレクトリを
yuiseki 2010/12/17
リンク
1

はてなブックマーク

タグ

ブックマーク / kyow.cocolog-nifty.com (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / kyow.cocolog-nifty.com (2)

igo-rubyの性能 - 猫背ミジンコ

形態素解析器IgoのRuby版を作った - 猫背ミジンコ

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス