たった50MBに「ケタ違いの語彙データ」を徹底的に詰め込んだ ―― ところで、流行語なども含めると、データ量が相当大きくなるはずなのに、プログラムも含めてダウンロードサイズが50MBに収まっているのも驚きでした。 及川 そこはかなり拘っています。圧縮技術は手前味噌ですが、スゴいです(笑)。 小松 収録語彙数をお教えできないのが残念ですが、相当詰め込んであります。 工藤 データは「TRIE」と呼ばれる構造になっており、ツリー状に、例えば「あ」に連なる言葉として「い」という枝が伸びて「愛」という言葉になるように、一文字ずつ辞書に収めています。これをプログラムに実装する手法として「LOUDS」と呼ばれるアルゴリズムを採用しています。LOUDSのメリットはデータの圧縮率が高いという点ですね。 小松 圧縮率は高いのですが、速度はそれほどでもありません。速さだけを追求するならば他の選択肢もありましたが
![IMEとして「変態」 開発陣が語るGoogle日本語入力 (4/5)](https://cdn-ak-scissors.b.st-hatena.com/image/square/4ab95e9d496078a6ca172f9f58f2a921fd52e4a0/height=288;version=1;width=512/https%3A%2F%2Fascii.jp%2Fimg%2F2009%2F12%2F24%2F1572951%2Fl%2F07f72b11a1dea43a.jpg%3F20200122)