エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
OpenAI 言語モデルで日本語を扱う際のトークン数推定指標
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
OpenAI 言語モデルで日本語を扱う際のトークン数推定指標
はじめに OpenAI の言語モデルで日本語を扱う際に、コスト概算などの目的で処理されるトークン数を推定... はじめに OpenAI の言語モデルで日本語を扱う際に、コスト概算などの目的で処理されるトークン数を推定したい場合がありますが、英語以外の言語に関しては OpenAI のドキュメントや記事に具体的な指標が記載されておらず、個人の経験則に基づいて推定するしかない状況でした。 そこで、実際どのくらいになるのか、ある程度大きなデータセットを使って指標を計算してみました。 What are tokens and how to count them? How words are split into tokens is also language-dependent. For example ‘Cómo estás’ (‘How are you’ in Spanish) contains 5 tokens (for 10 chars). The higher token-to-char ratio

