zenn.dev[B!]新着記事・評価 - はてなブックマーク

『zenn.dev』

RWKVを論文と実装から読み解く
20 users
zenn.dev/jow

RWKVとは昨今GPTをはじめとしたtransformerベースの大規模言語モデルが流行しています．transformerの重要な要素であるSelf-Attentionは，長距離の依存関係を学習するできるというメリットがある一方で，シーケンス内のすべての要素と他のすべての要素との依存関係を計算するために，計算量とメモリ使用量がシーケンス長の二乗（つまり、トークンの数の二乗）に比例してしまうという問題があります．一方でRNNベースのモデルは，メモリと計算要件の面で線形にスケールしますが、並列化と拡張性の制限からtransformerと同等の性能を達成することが困難です．そこで，transformerの効率的な並列学習と，RNNの効率的な推論の両方を兼ね備えたモデルとしてRWKV（Receptance Weighted Key Value）という新たなモデルアーキテクチャーが提案されまし
- テクノロジー
- 2023/06/07 10:31

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx