misshikiのブックマーク - はてなブックマーク

【風吹けば名無し】GPT-4o が獲得した日本語の語彙を調べる

昨日公開された GPT-4o は性能だけでなく処理速度の点からも注目を集めています。その速度に寄与しているのは、モデルの処理速度の改善だけでなく、日本語処理の改善も大きく関わっていると考えられます。実際、OpenAIのサイトによれば、日本語は平均して 1.4 倍の効率で（1.4倍少ないトークンで）表せるようになったとされています。これは、GPT-4o が GPT-4 に比べて日本語をより語彙 (vocabulary) に含むようになったからです。語彙とは LLM における自然言語の処理の最小単位で、1つの語彙が1つの数値トークンに変換され、それがモデルに突っ込まれるという仕組みです。ところで、GPT-4o では『風吹けば名無し』という文字列を 1 つの語彙として扱うのをご存知でしょうか。このツイートで紹介されているように、GPT-4o では、ネットで多数出現するこういったフレ

misshiki 2024/05/16

“GPT-4o では『風吹けば名無し』という文字列を 1 つの語彙として扱うのをご存知でしょうか。”へぇ、知らなかった。だけど何その文章。

リンク

新しく日本語BERTのトークナイザを学習するときは limit_alphabet に気をつけよう

huggingface/tokenizers を使って日本語BERTのトークナイザを新しく作りたい場合、色々な実装方法が考えられるが、BERT 向けにカスタマイズされた実装を持つクラスである BertWordPieceTokenizer を使うのが一番楽な実装である。例えば、以下の記事はとても参考になる。コードにすると、以下のような感じになるだろう。 from tokenizers import BertWordPieceTokenizer from tokenizers.pre_tokenizers import BertPreTokenizer from tokenizers.processors import BertProcessing tokenizer = BertWordPieceTokenizer( handle_chinese_chars=False, strip_ac

misshiki 2022/05/30

“limit_alphabet とは何かというと、トークナイザが使える文字の種類の上限”

BERT

リンク

フリーで使える日本語の主な大規模言語モデル（LLM）まとめ

ありがとうございます！実は私本人がそのモデルの構築に関わっているのですが、詳細はまだ言えない状況です...。来年3月の言語処理学会年次大会(NLP 2023)での続報をお待ちください！このモデルに関する論文が公開される予定です（一応それを待ってからこの記事にも掲載します）。（私が書いたものではありませんが、現段階で公開できる情報をまとめた記事があります: https://note.com/utokyo_itc/n/nb18b2a753f23 ）

misshiki 2021/11/01

文書分類や固有表現抽出、選択肢解答問題など、入力文自体を処理するタスクに主に使うモデル8つと、翻訳や要約、質問応答など、テキスト生成タスクに主に使うモデル3つ

自然言語処理

リンク

はてなブックマーク

タグ

ブックマーク / zenn.dev/hellorusk (3)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス