ブックマーク / sile.hatenablog.jp (2)

  • Sanmoku(0.0.4): 辞書データサイズ縮小 - sileのブログ

    この一週間でSanmokuの辞書データサイズの縮小をいろいろ試していたので、その結果を載せておく。 現時点でのバージョンは 0.0.4。 やったこと 試した主なこと。 データ 内容 サイズ (Gomoku-0.0.4 => Sanmoku-0.0.4) 連接コストデータ (matrix.bin) 類似品詞の連接コストを併合*1 + コスト値を14bitで保持 3.5MB => 2.2MB 形態素辞書引きインデックス (surface-id.bin) 2バイト文字(UTF-16)DAWGから、1バイト文字(UTF-8)DAWGに変更。 かつIPADICに合わせてノードレイアウトを最適化 2.7MB => 1.5MB 形態素データ (morpheme.bin,id-morphems-map.bin) 4バイト(品詞情報:2バイト、単語コスト:2バイト)から2バイトに 1.8MB => 1.0M

    Sanmoku(0.0.4): 辞書データサイズ縮小 - sileのブログ
  • Sanmoku: 省メモリな形態素解析器 - sileのブログ

    GomokuをベースにしたSanmokuという形態素解析器を実装した。 Gomokuに比べて解析時に必要なメモリ量が少ないのと初期ロード時間が短いのが特徴。 将来的には解析精度を若干落として、辞書サイズ*1をさらに削減する可能性もあるけど、現状は解析結果はGomoku互換。 Android等のリソースの制限が厳しい環境での使用を想定。 最低メモリ所要量とロード時間 以下、自分の環境*2での計測結果。 ## 最低メモリ所要量 # Gomoku(0.0.4)は 26MBのメモリが必要 $ java -Xmx26m -cp gomoku-0.0.4.jar net.reduls.gomoku.bin.Gomoku < /path/to/natsume-soseki.txt > /dev/null # Sanmoku(0.0.1)は 11MBのメモリが必要 $ java -Xmx11m -cp s

    Sanmoku: 省メモリな形態素解析器 - sileのブログ
  • 1