奥村晴彦 Haruhiko Okumura[B!]新着記事・評価 - はてなブックマーク

『奥村晴彦 Haruhiko Okumura』

LLMのトークン
3 users
okumuralab.org/~okumura

LLM（大規模言語モデル）は文字ではなくトークン（token）というものを単位として処理します。トークンは単語に近いものですが、必ずしも単語とは一致しません。文字列をトークンに分割するツールをトークナイザ（tokenizer）といいます。OpenAIのLLMでは tiktoken というトークナイザが使われます。tiktoken はいくつかのエンコーディング（トークン分割方式）に対応しており、古くは cl100k_base というエンコーディングが使われていましたが、GPT 4oからは o200k_base に変わりました。 pip install tiktoken して試してみましょう： import tiktoken enc = tiktoken.get_encoding("o200k_base") # または enc = tiktoken.encoding_for_model("g
- テクノロジー
- 2025/06/12 00:36
- AI

次のページ

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx