hatakazu93のブックマーク / 2024年5月21日

hatakazu93 id:hatakazu93

2024年5月21日のブックマーク (5件)

r/LocalLLaMA
Today I released an uncensored version of the WizardLM model.https://huggingface.co/ehartford/WizardLM-7B-Uncensored This was trained with 4x A100 80gb over 36 hours, and used the original training script from WizardLM team.https://github.com/nlpxucan/WizardLM#fine-tuning The dataset (and the cleaning script) is located here:https://huggingface.co/datasets/ehartford/WizardLM_alpaca_evol_instruct_7
hatakazu93 2024/05/21
リンク
Mergekit-Evolve登場！進化的アルゴリズムで手元のLLMを最強進化させよう！
前回の記事では、GPUが１枚だけの環境でなるべく高速にローカルでElyzaTasks100の評価を回す方法を示した。 GPUが1枚でもローカルで高速にLLM評価を回したい！だから次はこれ使って進化的アルゴリズムでモデルを進化させてみたいね！という話だったのだが、そんな時、まさに渡りに船のグッドタイミングでMergekit-Evolveが登場した！ mergekit-evolve登場！https://t.co/Gx4IJjajba の進化モデルのマージ手法論文を元にMergeKitで実装競走馬のインブリード配合みたいに父方と母方の4代前と3代前に同じ祖先を持つ4×3の「奇跡の血量」みたいな”黄金配合率”が見つかるかもしれない https://t.co/CD3H1WAeG0 — Ryousuke_Wayama (@wayama_ryousuke) April 24, 2024 Sakana
hatakazu93 2024/05/21
リンク
ChatVectorで新モデル作って評価して遊ぶヤツ、自分もやりたい
最近、一部のローカルLLM勢のあいだでChatVectorで遊ぶのが流行っている。 ChatVectorとは何か？というとこちらの論文で発表された技術だ。 [2310.04799] Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages (arxiv.org) こちらの解説記事が分かりやすい。 Chat Vectorを使って日本語LLMをチャットモデルに改造する – Qiita 要するに、ChatVectorとは指示チューニングでチャット能力を獲得したモデルのウエイトから、ベースになったモデルのウエイトを差し引いた差分の事である。そしてChatVectorを別のモデルのウエイトに加算すれば、そのモデルにチャット能力を付与する事が
hatakazu93 2024/05/21
“Chat Vectorを使って日本語LLMをチャットモデルに改造する – Qiita”
リンク
Chat Vectorを使って日本語LLMをチャットモデルに改造する - Qiita
はじめに Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages という論文では、LLMの学習済み重みパラメータの足し引きによって、事前学習済みモデルに対話能力を与えることができるという結果が示されています。具体的には、英語で事前学習されたモデル（以下ではベースモデルと呼びます）と、ベースモデルを指示チューニング (instruction tuning)してチャット形式の対話ができるようにしたモデル（英語チャットモデル）、ベースモデルを英語以外の言語で継続事前学習したモデルの３つのモデルを用います。英語チャットモデルの重みからベースモデルの重みを引いたものは、チャット形式で対話ができる能力を表したベクトルであり、そのベクトルを
hatakazu93 2024/05/21
リンク
最近ローカルLLMがアツいらしい
最近、ローカルLLMがアツくなっているという話をtwitterでチラホラ見かける。ローカルLLMって何じゃ？というと、オープンに公開されているモデルのウエイトをDLしてきて手元のPC上で推論させる事である。オープンなAIモデルとは逆の存在として、モデルがDLできないクローズなAIモデルもある。 OpenAIやAnthropicのような最先端AI企業のクローズなAIモデルに比べて、オープンに公開されているオープンなAIモデルの性能は今でもかなり後れを取っている。だから去年の間はあくまでAIの本命はChatGPTのようなクローズモデルであって、オープンなAIモデルなんて眼中にありませんみたいな風潮が無くはなかった。だが最近は風向きが少々変わってきている。 GPTのAPI高い問題＆ OpenAIがAIベンチャー皆殺しにしてしまう問題まず「結局GPTのAPIを叩いてサービス運営して成功し
hatakazu93 2024/05/21
RedditのLocalLlama
リンク
- 2024年5月24日
- 2024年5月21日
- 2024年5月20日