全体図 画像中の「K」と「V」が逆になっております。申し訳ございません。 AttentionのMaskingの実装について Attentionのマスクの実装について悩んだので、Harvard NLPでのMaskの実装についてまとめておきます。 Transformerでは下の図のように3箇所のMulti-Head Attention(の中のScaled Dot-Product Attention)の中でMaskingが登場します。 EncoderでのSelf-Attention DecoderでのSelf-Attention DecoderでのSourceTarget-Attention Harvard NLPの実装では、1と3で使用するsrc_maskと2で使用するtgt_maskの2種類のマスクが用意されています。以下それぞれの説明です。 src_mask src_maskはEncode