sumijkのブックマーク - はてなブックマーク

sumijk id:sumijk

ブックマーク / zenn.dev/bilzard (1)

Attentionと類似度は異なるという話
はじめに「Transf ormerのattentionはトークン間の類似度をモデリングしている」という説明をよく聞くが、この表現は適切でないことを示す。なお、このような説明がよくされる背景としては、Transf ormerのdot-product attentionは内積で計算され、コサイン類似度も正規化されたベクトルの内積で計算される点によるものと思われる。しかしながら両者は正規化の有無に違いがあり、ベクトル空間に埋め込んだ時の数学的性質はかなり異なるということを本稿では指摘する。 TL; DR Attention(dot-product attention)は類似度とは異なる数学的性質を持つ類似度はトークン間の近接関係はモデリングできるが、それ以外の多様な関連をモデリングするには適さない。 dot-product attentionはトークン間の近接関係を含むさまざまな関連をモデリン
sumijk 2024/08/19
あとで読む
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx