“知識の大部分が低い層にあることを示唆する。学習手法やモデル設計の参考にも”

自然言語処理

misshiki のブックマーク 2024/03/28 14:36

<blockquote class="hatena-bookmark-comment"><a class="comment-info" href="https://b.hatena.ne.jp/entry/4751271261431542144/comment/misshiki" data-user-id="misshiki" data-entry-url="https://b.hatena.ne.jp/entry/s/twitter.com/hillbig/status/1773110076502368642" data-original-href="https://twitter.com/hillbig/status/1773110076502368642" data-entry-favicon="https://cdn-ak2.favicon.st-hatena.com/64?url=https%3A%2F%2Ftwitter.com%2Fhillbig%2Fstatus%2F1773110076502368642" data-user-icon="/users/misshiki/profile.png">Daisuke Okanohara / 岡野原 大輔 on X: "学習済みのLLMから、層毎に入力と出力間のcos類似度が大きい層（変化が少ない層）を間引いても精度は落ちない。特に最後の層だけ除いて深い側の層を2~4割間引いても質問応答などの精度は変わらず、知識の大部分が低い層にあることを示唆する。学習手法やモデル設計の参考にも https://t.co/J7c75QyFb4"</a><ul class="comment-tag" style="list-style: none; margin: 0px;"><li style="float: left">[<a href="https://b.hatena.ne.jp/q/%E8%87%AA%E7%84%B6%E8%A8%80%E8%AA%9E%E5%87%A6%E7%90%86">自然言語処理</a>]</li></ul><br><p style="clear: left">“知識の大部分が低い層にあることを示唆する。学習手法やモデル設計の参考にも”</p><a class="datetime" href="https://b.hatena.ne.jp/misshiki/20240328#bookmark-4751271261431542144"><span class="datetime-body">2024/03/28 14:36</span></a></blockquote><script src="https://b.st-hatena.com/js/comment-widget.js" charset="utf-8" async></script>

このブックマークにはスターがありません。
最初のスターをつけてみよう！

Daisuke Okanohara / 岡野原大輔 on X: "学習済みのLLMから、層毎に入力と出力間のcos類似度が大きい層（変化が少ない層）を間引いても精度は落ちない。特に最後の層だけ除いて深い側の層を2~4割間引いても質問応答などの精度は変わらず、知識の大部分が低い層にあることを示唆する。学習手法やモデル設計の参考にも https://t.co/J7c75QyFb4"

twitter.com2024/03/28

1 人がブックマーク・1 件のコメント

他のコメントを読む

＼コメントがサクサク読めるアプリです／

はてなブックマーク

はてなブックマーク

公式Twitter

はてなのサービス