SB Intuitionsから日本語生成AI「Sarashina1・2」がリリースされた。独自構築のトークナイザに力を入れたらしい。 Sarashina1・2にはそれぞれ独自に構築したトークナイザを用いました。 具体的には,sentencepieceの提供するユニグラム言語モデルのアルゴリズムを用いてサブワードを構築しました。 その際,Sarashina2の語彙サイズ(102,400)はSarashina1の語彙サイズ(51,200)の倍に設定しました。 これにより,日本語・英語・プログラミングコードといった複数種類のデータを効率的に学習可能です。 とりあえず、sarashina2-7bのトークナイザを試してみよう。 >>> from transformers import AutoTokenizer >>> tkz=AutoTokenizer.from_pretrained("sbint