背景 PyTorchでHugging Face Transformersを使って自然言語処理を行うとき,文章をモデルに入力するためにはまず単語単位に分かち書き (tokenize) しなければなりません. この前処理が思ったよりもやっかいなのです. 事前学習済みのモデルをTransformers公式から提供されているものから選んでしまえば,ここはあまり問題になりません.Transformers付属のtokenizerを使って一発で分かち書きできるからです. 実際,東北大からTransformersを通じて日本語BERT事前学習済みモデルが公開されて久しいので,日本語BERTモデルを使うのはだいぶ楽になりました. huggingface.co しかし,別の事前学習済みの日本語BERTモデルで,Transformersのプラットフォームに載っていないものはいくつか存在します. これらのモデルを