KoichiYasuokaのブックマーク / 2024年7月2日 - はてなブックマーク

KoichiYasuoka id:KoichiYasuoka

2024年7月2日のブックマーク (1件)

sarashina2-7bは『雪国』の冒頭をどうトークナイズするのか - Qiita
SB Intuitionsから日本語生成AI「Sarashina1・2」がリリースされた。独自構築のトークナイザに力を入れたらしい。 Sarashina1・2にはそれぞれ独自に構築したトークナイザを用いました。具体的には，sentencepieceの提供するユニグラム言語モデルのアルゴリズムを用いてサブワードを構築しました。その際，Sarashina2の語彙サイズ（102,400）はSarashina1の語彙サイズ（51,200）の倍に設定しました。これにより，日本語・英語・プログラミングコードといった複数種類のデータを効率的に学習可能です。とりあえず、sarashina2-7bのトークナイザを試してみよう。 >>> from transf ormers import AutoTokenizer >>> tkz=AutoTokenizer.from_pretrained("sbint
KoichiYasuoka 2024/07/02
リンク
- 2024年7月4日
- 2024年7月2日
- 2024年6月25日

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx