エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
最新のニューラル会話モデルでおしゃべりしよう! - GPT-2でチャットボット作成 - チャットボットひろば
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
最新のニューラル会話モデルでおしゃべりしよう! - GPT-2でチャットボット作成 - チャットボットひろば
>>> import transformers >>> tokenizer = transformers.GPT2Tokenizer.from_pretrained("gpt2") >>> to... >>> import transformers >>> tokenizer = transformers.GPT2Tokenizer.from_pretrained("gpt2") >>> tokenizer.tokenize("お腹が空いた") ['ãģ', 'Ĭ', 'è', 'ħ', '¹', 'ãģĮ', 'ç', '©', 'º', 'ãģĦ', 'ãģŁ'] 日本語はスペースで単語が分けられていないため、トークナイザは文「お腹が空いた」を一単語として認識し、その後あらかじめ学習しておいたトークン単位に分割しています。 バイト単位での分割のため、入力した文字数よりも多くのトークンが出現していることもわかります。 このような観点から、GPT-2 を日本語で使おうとしたとき、 日本語用のトークナイザに変更する その上で、GPT-2 を事前学習する 必要があります。 以上を踏まえて、