TR:TL 最近、日本語のLLMが続々公開されているが、各LLMが何文字まで生成可能なのかを知りたい。 Rakudaのデータで各LLMのトークナイザーの「1トークンあたりの文字数」を調べた。 標準的な日本語特化のLLMでは2.0~2.6文字/トークン程度、一方で、GPT-4/3.50.96文字/トークン程度。 背景 最近、日本語でも使えるLLMが続々と公開されています。特に、GPT-3.5-turboやGPT-4は、8192トークンという大きい最大トークン長を誇っています。一方で、LINEのjapanese-large-lmなどの2023年時点で公開されている公開されている日本語LLMの多くは、2048トークンが最大トークン数になっている場合が多いです。額面上、LINEのLLMは、OpenAI GPT-3.5の1/4の長さのテキスしか生成できないように見えますが、それぞれのトークナイザーは
![日本語LLMの"1トークン"は何文字相当なのか?](https://cdn-ak-scissors.b.st-hatena.com/image/square/33889b938cf9f431f16f2921f70a194272fb32c4/height=288;version=1;width=512/https%3A%2F%2Fres.cloudinary.com%2Fzenn%2Fimage%2Fupload%2Fs--5ilWzViI--%2Fc_fit%252Cg_north_west%252Cl_text%3Anotosansjp-medium.otf_55%3A%2525E6%252597%2525A5%2525E6%25259C%2525AC%2525E8%2525AA%25259ELLM%2525E3%252581%2525AE%2525221%2525E3%252583%252588%2525E3%252583%2525BC%2525E3%252582%2525AF%2525E3%252583%2525B3%252522%2525E3%252581%2525AF%2525E4%2525BD%252595%2525E6%252596%252587%2525E5%2525AD%252597%2525E7%25259B%2525B8%2525E5%2525BD%252593%2525E3%252581%2525AA%2525E3%252581%2525AE%2525E3%252581%25258B%25253F%252Cw_1010%252Cx_90%252Cy_100%2Fg_south_west%252Cl_text%3Anotosansjp-medium.otf_37%3AakiFQC%252Cx_203%252Cy_121%2Fg_south_west%252Ch_90%252Cl_fetch%3AaHR0cHM6Ly9zdG9yYWdlLmdvb2dsZWFwaXMuY29tL3plbm4tdXNlci11cGxvYWQvYXZhdGFyLzNlYjA0NmIwYWUuanBlZw%3D%3D%252Cr_max%252Cw_90%252Cx_87%252Cy_95%2Fv1627283836%2Fdefault%2Fog-base-w1200-v2.png)