“Attentionですが、その計算コストは入力シーケンス長nに対して指数関数的に増加するという大きな課題を持ちます”/指数関数時間なの?多項式時間で、次数が高いとかではなく??

shunkeenshunkeen のブックマーク 2023/05/28 07:14

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

Sparse Attentionについて分かりやすく解説!

    Transformer[1]の核心となる仕組みであるAttentionは、入力シーケンス内の各トークン間の関連性に基づいて注意の計算を行います。それにより、Transformerは従来の系列処理において主流であったRNNの性能を凌駕す...

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう