少し複雑になりますが、図中の[At]と書いてあるところがAttention Modelとなります。 Encoder側では、毎回出力される中間ベクトルをAttention Modelの中に記憶させていきます。 Decoder側では、1つ前の中間ベクトルをAttention Modelに入力します。 入力されたベクトルを元にAttention ModelがEncoder側で入力された中間ベクトルの加重平均をとってリターンします。 Encoderの中間ベクトルの加重平均をDecoderに入力することで、前にある単語、後ろにある単語、どこでも注目できるようにするのがAttention Modelとなります。 Attention Modelには大きく分けて2種類存在し、Global AttentionとLocal Attentionと呼ばれます。 以降では、Global Attention、Loca

