タグ

mとtokenizerに関するincepのブックマーク (1)

  • Huggingface Transformers 入門 (8) - トークナイザー|npaka

    1. トークナイザー「トークナイザー」は、「テキスト」を「トークン」に分割し、それを「ID」に変換する機能を提供します。「テキスト」はそのままではニューラルネットワークで処理できないため、IDに変換する必要があります。 2. トークン化の方法テキストのトークン化は見た目以上に大変な作業で、トークン化の方法は複数あります。 ・単語 ・文字 ・サブワード2-1. 単語によるトークン化◎ スペースによるトークン化 一番簡単なトークン化の方法は、「スペースによるトークン化」です。 "Don’t you love 🤗 Transformers? We sure do." ↓ ["Don't", "you", "love", "🤗", "Transformers?", "We", "sure", "do."] これは良い第1歩ですが、"Transformers? " や "do. " というトーク

    Huggingface Transformers 入門 (8) - トークナイザー|npaka
  • 1