sc-bakushu.hatenablog.com[B!]新着記事・評価 - はてなブックマーク

『sc-bakushu.hatenablog.com』

【LLM論文を読む】Chat Vector：LLMに新たな言語での指示追従とアラインメントを付与するシンプルなアプローチ - ローカルLLM自由帳
3 users
sc-bakushu.hatenablog.com

前回の記事につづき、「LightChatAssistant 2x7B」に高いチャット性能をもたらした要素について調べています。基本的には、1）ベースモデルとしての「ChatNTQ JA 7B」の日本語性能の高さ、2) MoEマージで総パラメータ数が増えることによる全般的な性能向上、3) 小説生成モデル「Antler-7B」とのマージによるモデル特長の相互補完、の3点でかなりの部分が説明できそうです。一方で、モデル作者のSdff-Ltbaさんはマージ前のモデルに対してChat Vectorという処理を施し、チャット能力を高めたと説明されています。よって、Chat Vectorがどの程度の性能向上に寄与しているのかもざっくり知りたい気がします。さしあたって、そもそもChat Vectorとは何かについて簡単に予習しておきたいと思います。元のarXiv論文は、2023年10月に台湾の研究グ
- テクノロジー
- 2024/04/20 08:44

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx