タグ

natural-language-processingとtransformerに関するnabinnoのブックマーク (1)

  • BERT (言語モデル) - Wikipedia

    BERT 以前の多くの言語モデルは事前学習に単方向性(英: unidirectional)のタスクを採用しており[4]、学習された表現も単方向の文脈しか考慮しないものであった。この制約は文脈レベルの表現が必要なタスクの性能へ大きなペナルティを与えうる。 後述するMLM により双方向に依存するモデルを採用可能になったことから、BERT ではネットワークとして双方向性の Transformerアーキテクチャ (Bidirectional Encoder[5] of Transformer) を採用した[6]。すなわち self-attention による前後文脈取り込みと位置限局全結合による変換を繰り返すネットワークを用いている。 BERTは、トークン化にWordPieceを使用して、各英単語を整数コードに変換する。その語彙数は30,000である。語彙に含まれないトークンは、「不明」(unkn

  • 1