エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント2件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
TransformerのSelf AttentionのQKVを直感的に解説する - Qiita
こんにちは、DeNAでデータサイエンティストをやっているまつけんです。 今回は、Transformerの中で重要... こんにちは、DeNAでデータサイエンティストをやっているまつけんです。 今回は、Transformerの中で重要な役割を果たしているSelf Attention、特にQKVの仕組みについて直感的に理解できるように解説してみます。 Transformer、特にGPTなどの生成モデルでは のようなSelf Attentionの計算を行うことで、各単語のそれ以前の文脈に基づいた文脈化と、長文の理解を実現しています。このブログではこの数式が何を行っているかを直感的にわかりやすくすることを重要視して解説します。 概略: 本記事における簡単化のいくつかの前提 わかりやすさのためにtokenは単語単位となっている前提とします。実際の GPT 系モデルでは入力は単語そのものではなくtokenに分割されますが、本記事では直感的な理解を優先して、各tokenを「単語」のように扱って説明します Q, K, Vは




2026/05/11 リンク