タグ

ブックマーク / tech.retrieva.jp (1)

  • BERTでの語彙追加~add_tokenに気をつけろ!~ - Retrieva TECH BLOG

    こんにちは。レトリバの飯田(@meshidenn)です。TSUNADE事業部 研究チームのリーダーをしており、マネジメントや論文調査、受託のPOCを行なっています。 みなさんは、BERTなどの学習済み言語モデルに対して語彙を追加したくなることはありませんか? 諸々の論文(こちらやこちらやこちら)により、特定ドメインやrare-wordの語彙を追加することによって、性能が上がることが知られています。 そこで、語彙を追加しようと思い、TransformersのTokenizerの仕様を見ると、add_tokens という関数があります。これを使えば、tokenizerに語彙を追加できるので、あとはembedding側にも新しい語彙を受け取れるようにすれば万事解決です! とは、うまくいかないので、今回はこの辺りについて、ちょっとした解説をします。 add_tokensの問題点 なにがうまくいかな

    BERTでの語彙追加~add_tokenに気をつけろ!~ - Retrieva TECH BLOG
  • 1