“Wという小さい行列だけで長距離の単語の依存関係を学習できる”/あえてWをバカデカくしたら、もっと長文を扱えたり、性能上がったりするのかね?

shunkeenshunkeen のブックマーク 2023/04/18 07:34

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

RNNでTransformer並みの性能を実現するRWKVがやばい

    (記事は数時間前からRWKVの手法について調べ始めた著者が、手法をまとめるためのメモ書きとして深夜テンション書いたレベルのものです。内容の正確さについて保証しないので各自最後にある参考文献の確認をお願...

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう