エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
BERTでの語彙追加~add_tokenに気をつけろ!~ - Retrieva TECH BLOG
記事へのコメント0件
- 人気コメント
- 新着コメント
このエントリーにコメントしてみましょう。
人気コメント算出アルゴリズムの一部にヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
関連記事
BERTでの語彙追加~add_tokenに気をつけろ!~ - Retrieva TECH BLOG
こんにちは。レトリバの飯田(@meshidenn)です。TSUNADE事業部 研究チームのリーダーをしており、マネジ... こんにちは。レトリバの飯田(@meshidenn)です。TSUNADE事業部 研究チームのリーダーをしており、マネジメントや論文調査、受託のPOCを行なっています。 みなさんは、BERTなどの学習済み言語モデルに対して語彙を追加したくなることはありませんか? 諸々の論文(こちらやこちらやこちら)により、特定ドメインやrare-wordの語彙を追加することによって、性能が上がることが知られています。 そこで、語彙を追加しようと思い、TransformersのTokenizerの仕様を見ると、add_tokens という関数があります。これを使えば、tokenizerに語彙を追加できるので、あとはembedding側にも新しい語彙を受け取れるようにすれば万事解決です! とは、うまくいかないので、今回はこの辺りについて、ちょっとした解説をします。 add_tokensの問題点 なにがうまくいかな