[B! GTP] hibiki0358のブックマーク

hibiki0358 id:hibiki0358

GTPに関するhibiki0358のブックマーク (1)

【風吹けば名無し】GPT-4o が獲得した日本語の語彙を調べる
昨日公開された GPT-4o は性能だけでなく処理速度の点からも注目を集めています。その速度に寄与しているのは、モデルの処理速度の改善だけでなく、日本語処理の改善も大きく関わっていると考えられます。実際、OpenAIのサイトによれば、日本語は平均して 1.4 倍の効率で（1.4倍少ないトークンで）表せるようになったとされています。これは、GPT-4o が GPT-4 に比べて日本語をより語彙 (vocabulary) に含むようになったからです。語彙とは LLM における自然言語の処理の最小単位で、1つの語彙が1つの数値トークンに変換され、それがモデルに突っ込まれるという仕組みです。ところで、GPT-4o では『風吹けば名無し』という文字列を 1 つの語彙として扱うのをご存知でしょうか。このツイートで紹介されているように、GPT-4o では、ネットで多数出現するこういったフレ
hibiki0358 2024/05/16
GTP

GTP4o
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx