さまざまな数学的トピックをムービー形式で解説するサイト「3Blue1Brown」において、ChatGPTに代表されるAIを形作っている「Transformer」構造の心臓部「Attention(アテンション)」についての解説が行われています。 3Blue1Brown - Visualizing Attention, a Transformer's Heart | Chapter 6, Deep Learning https://www.3blue1brown.com/lessons/attention AIの中身と言える大規模言語モデルのベースとなる仕事は「文章を読んで次に続く単語を予測する」というものです。 文章は「トークン」という単位に分解され、大規模言語モデルではこのトークン単位で処理を行います。実際には単語ごとに1トークンという訳ではありませんが、3Blue1Brownは単純化して
![ChatGPTなど数々の高性能AIを生み出した仕組み「Attention」についての丁寧な解説ムービーが公開される](https://cdn-ak-scissors.b.st-hatena.com/image/square/766a857d20f549f857d2a8af73c77d3e2b13e09d/height=288;version=1;width=512/https%3A%2F%2Fi.gzn.jp%2Fimg%2F2024%2F04%2F16%2Fvisualizing-transformer-attention%2F00.png)