本記事はThe Illustrated Transformerを和訳した内容になります。引用元はJay Alammarさん(@JayAlammar)が執筆されたブログ記事で,MITの授業でも実際に利用されています。 所々に管理人の注釈が入ります。その場合は,このような鉛筆印のボックス内に記述するようにしています。もし翻訳間違いなどがございましたら,ご指摘いいただけますと幸いです。なお,本記事の作成に関しては,Jay Alammarさんに許可をいただいております。 はじめに 前回の記事では,注意機構についてお伝えしました。注意機構とは,現代の深層学習において至る所で利用されている手法で,ニューラル機械翻訳の精度向上に大きく貢献した概念です。本記事では,注意機構を利用してモデルの学習速度を向上させるTransformerについて見ていきましょう。Transformerは特定のタスクにおいて,G
![【世界一分かりやすい解説】イラストでみるTransformerBeginaid](https://cdn-ak-scissors.b.st-hatena.com/image/square/3e02e0296c429af9055b8dd0047b00673c964a7e/height=288;version=1;width=512/https%3A%2F%2Ftips-memo.com%2Fwp-content%2Fuploads%2F2020%2F05%2Ftransformer_eye_small-1.png)