タグ

ブックマーク / zenn.dev/akifqc (1)

  • 日本語LLMの"1トークン"は何文字相当なのか?

    TR:TL 最近、日語のLLMが続々公開されているが、各LLMが何文字まで生成可能なのかを知りたい。 Rakudaのデータで各LLMのトークナイザーの「1トークンあたりの文字数」を調べた。 標準的な日語特化のLLMでは2.0~2.6文字/トークン程度、一方で、GPT-4/3.50.96文字/トークン程度。 背景 最近、日語でも使えるLLMが続々と公開されています。特に、GPT-3.5-turboやGPT-4は、8192トークンという大きい最大トークン長を誇っています。一方で、LINEjapanese-large-lmなどの2023年時点で公開されている公開されている日語LLMの多くは、2048トークンが最大トークン数になっている場合が多いです。額面上、LINEのLLMは、OpenAI GPT-3.5の1/4の長さのテキスしか生成できないように見えますが、それぞれのトークナイザーは

    日本語LLMの"1トークン"は何文字相当なのか?
    misshiki
    misshiki 2023/09/19
    面白い調査。日本語への特化具合が分かる。
  • 1