タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

形態素解析に関するmwsoftのブックマーク (1)

  • Sanmoku(0.0.4): 辞書データサイズ縮小 - sileのブログ

    この一週間でSanmokuの辞書データサイズの縮小をいろいろ試していたので、その結果を載せておく。 現時点でのバージョンは 0.0.4。 やったこと 試した主なこと。 データ 内容 サイズ (Gomoku-0.0.4 => Sanmoku-0.0.4) 連接コストデータ (matrix.bin) 類似品詞の連接コストを併合*1 + コスト値を14bitで保持 3.5MB => 2.2MB 形態素辞書引きインデックス (surface-id.bin) 2バイト文字(UTF-16)DAWGから、1バイト文字(UTF-8)DAWGに変更。 かつIPADICに合わせてノードレイアウトを最適化 2.7MB => 1.5MB 形態素データ (morpheme.bin,id-morphems-map.bin) 4バイト(品詞情報:2バイト、単語コスト:2バイト)から2バイトに 1.8MB => 1.0M

    Sanmoku(0.0.4): 辞書データサイズ縮小 - sileのブログ
  • 1