TransformerをRWKVに変換する技術めも そもそもRWKVって何? RWKV(Receptance Weighted Key Value)は、BlinkDL氏を中心とした約9,000人+のコミュニティメンバーで研究・開発されているオープンソースのLLMアーキテクチャです。現在の最新版は「RWKV-7 "Goose"」で、伝統的にアーキテクチャのメジャー更新ごとに鳥の名前が付けられています。 自分は、v4からメンバーに入りました。 従来のTransformerとの違い 一般的なTransformerの処理フローはこのようになっていまして Transformerのアテンション機構では、Query(Q)、Key(K)、Value(V)を使ってソフトマックスを計算します: \text{Attention}(Q,K,V) = \text{softmax}\left(\frac{QK^T}{

