たった50MBに「ケタ違いの語彙データ」を徹底的に詰め込んだ ―― ところで、流行語なども含めると、データ量が相当大きくなるはずなのに、プログラムも含めてダウンロードサイズが50MBに収まっているのも驚きでした。 及川 そこはかなり拘っています。圧縮技術は手前味噌ですが、スゴいです(笑)。 小松 収録語彙数をお教えできないのが残念ですが、相当詰め込んであります。 工藤 データは「TRIE」と呼ばれる構造になっており、ツリー状に、例えば「あ」に連なる言葉として「い」という枝が伸びて「愛」という言葉になるように、一文字ずつ辞書に収めています。これをプログラムに実装する手法として「LOUDS」と呼ばれるアルゴリズムを採用しています。LOUDSのメリットはデータの圧縮率が高いという点ですね。 小松 圧縮率は高いのですが、速度はそれほどでもありません。速さだけを追求するならば他の選択肢もありましたが