ポエムを適当に書きます。2本立て。週末のノリなので、適当です。 Sentencepieceの紹介記事を読んだ 文書分類でneologdとmecabを比較した まとめ Sentencepieceの紹介記事を読んだ ニューラル言語処理向けトークナイザのSentencepieceについて書かれた紹介記事を読みました。 自分用の要約すると ニューラル言語処理では語彙数が大きくなると扱いにくい 単語をサブワードに分割できるものは分割して、語彙数を制限する(数千から数万)方法がよく使われる 尤度を最大にするエントロピー圧縮の一部と見なせる スペースもメタ文字に置き換えて生文を食わせることにより、detokenizeが言語によらず簡単になる 翻訳等のタスクで助かる! こういうのが必要なくなる 単語分割されたものからさらに分割するわけではなく、生文からやるために計算量オーダーの削減が行なわれている 従来の
![タスクに合わせたトークナイザ、単語分割に関連したポエム - yasuhisa's blog](https://cdn-ak-scissors.b.st-hatena.com/image/square/7a6796b0399e7ce5eea0a0444a5949c7128dc05e/height=288;version=1;width=512/https%3A%2F%2Fimages-fe.ssl-images-amazon.com%2Fimages%2FI%2F41GqNGxTbOL._SL160_.jpg)