エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
SentencePieceでの日本語分かち書きをTransformersのパイプラインに組み込む - radiology-nlp’s blog
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
SentencePieceでの日本語分かち書きをTransformersのパイプラインに組み込む - radiology-nlp’s blog
背景 PyTorchでHugging Face Transformersを使って自然言語処理を行うとき,文章をモデルに入力するため... 背景 PyTorchでHugging Face Transformersを使って自然言語処理を行うとき,文章をモデルに入力するためにはまず単語単位に分かち書き (tokenize) しなければなりません. この前処理が思ったよりもやっかいなのです. 事前学習済みのモデルをTransformers公式から提供されているものから選んでしまえば,ここはあまり問題になりません.Transformers付属のtokenizerを使って一発で分かち書きできるからです. 実際,東北大からTransformersを通じて日本語BERT事前学習済みモデルが公開されて久しいので,日本語BERTモデルを使うのはだいぶ楽になりました. huggingface.co しかし,別の事前学習済みの日本語BERTモデルで,Transformersのプラットフォームに載っていないものはいくつか存在します. これらのモデルを