はじめに 本家 OpenAI や Azure OpenAI Service で利用できる各言語モデルで使われているエンコーディングについて情報をまとめました。 エンコーディングとは OpenAI の言語モデルにおけるエンコーディングとは、テキストがトークンに変換される際の (トークナイズされる際の) ルールのようなものです。モデルによって使われるエンコーディングは異なります。 エンコーディングの種類 下記 3 種類のエンコーディングが存在しています。ただし、gpt-3.5-turbo 以降の全てのモデルで cl100k_base が使われていて、これが現在の主流になっています。一方で p50k_base と r50k_base (gpt2) は現在では非推奨の古いモデルでしか使われていません。 cl100k_base p50k_base r50k_base (gpt2) 確認方法 エンコー