OpenAIが開発したChatGPTをはじめ、さまざまなAIが人間レベルの会話を行ってくれるようになりました。AIは文章を読み書きするとき「トークン」という単位で認識を行うのですが、普通の文章がトークン的にはどのように分解されるのかを一目で教えてくれるツール「Tokenizer」がOpenAIのページ上で公開されています。 OpenAI API https://platform.openai.com/tokenizer Tokenizerの画面はこんな感じ。テキストを入力する必要がありますが、いったん「Show example」をクリックして例を見てみます。 英語の場合、252文字の文章で64トークンとなる模様。下部にて文字がトークンのまとまりごとに色分けして表示されています。 「TOKEN IDS」をクリックするとそれぞれの数値も確認できます。人間が見てもなにがなんだか分かりませんが、G