“limit_alphabet とは何かというと、トークナイザが使える文字の種類の上限”

misshikimisshiki のブックマーク 2022/05/30 15:48

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

新しく日本語BERTのトークナイザを学習するときは limit_alphabet に気をつけよう

    huggingface/tokenizers を使って日語BERTのトークナイザを新しく作りたい場合、色々な実装方法が考えられるが、BERT 向けにカスタマイズされた実装を持つクラスである BertWordPieceTokenizer を使うのが一番...

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう