toshikishのブックマーク - はてなブックマーク

toshikish id:toshikish

ブックマーク / zenn.dev/jow (1)

RWKVを論文と実装から読み解く
RWKVとは昨今GPTをはじめとしたtransf ormerベースの大規模言語モデルが流行しています．transf ormerの重要な要素であるSelf-Attentionは，長距離の依存関係を学習するできるというメリットがある一方で，シーケンス内のすべての要素と他のすべての要素との依存関係を計算するために，計算量とメモリ使用量がシーケンス長の二乗（つまり、トークンの数の二乗）に比例してしまうという問題があります．一方でRNNベースのモデルは，メモリと計算要件の面で線形にスケールしますが、並列化と拡張性の制限からtransf ormerと同等の性能を達成することが困難です．そこで，transf ormerの効率的な並列学習と，RNNの効率的な推論の両方を兼ね備えたモデルとしてRWKV（Receptance Weighted Key Value）という新たなモデルアーキテクチャーが提案されまし
toshikish 2023/06/08
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx