この辺で作った形態素解析エンジンigo-ruby。 あまりにも大きいドキュメントを解析するのは時間がかかるだろうと予想できるけど、どのくらいの粒度のドキュメントを解析すると実用的なのか、計測してみました。 一応、この辺で問題なく動いているんですけど、こういうのをそれなりに測定して、数字を知っておくと、それなりに有効だったりするわけです。 方針 計測用のドキュメントを用意するのは面倒なので、Twitterの自分のアカウントのステータスを200個取得して、1ステータスずつ200回解析する場合と、200ステータスを結合した上で1回解析する場合を比較してみる。 解析するドキュメントサイズは同じなんだけど、細かく解析した方がいいのか、まとめて解析した方がいいのか、差がある場合、どのくらい差が出るのかを知りたい。 テストコード 使用するigo-rubyの機能は「分かち書き」にした。(内部で形態素解析を