第1回は、さまざまなタスクをこなす万能型ジェネレーティブAIツール「ChatGPT」の性能の鍵を握る「トークン長(GPTが文脈を意識できる過去の単語数)」やGPTの歴史的経緯について解説しました。第2回はGPTを支える自然言語処理 の分野で使用される深層学習モデル「Transformer」とその根幹となる「Attention機構(そのタスクにおいてどの単語の重要度が高く、注目すべきか決める仕組み)」についてです。TransformerとAttention機構の仕組みを定性的に把握し、それを踏まえてGPTの能力と可能性について考察したいと思います。テクノロジー領域に明るくない人でもわかる記事を目指します。
![【文系でもわかる】ChatGPTのキモ「Transformer」「Attention」のしくみ](https://cdn-ak-scissors.b.st-hatena.com/image/square/d80e439a1534fbfe38c6e6b0e6e1beb541cd65c5/height=288;version=1;width=512/https%3A%2F%2Fwww.sbbit.jp%2Farticle%2Fimage%2F114721%2FOGP_bit202305231535190538.jpg)