2024年5月21日のブックマーク (5件)

  • r/LocalLLaMA

    Today I released an uncensored version of the WizardLM model.https://huggingface.co/ehartford/WizardLM-7B-Uncensored This was trained with 4x A100 80gb over 36 hours, and used the original training script from WizardLM team.https://github.com/nlpxucan/WizardLM#fine-tuning The dataset (and the cleaning script) is located here:https://huggingface.co/datasets/ehartford/WizardLM_alpaca_evol_instruct_7

    r/LocalLLaMA
  • Mergekit-Evolve登場!進化的アルゴリズムで手元のLLMを最強進化させよう!

    前回の記事では、GPUが1枚だけの環境でなるべく高速にローカルでElyzaTasks100の評価を回す方法を示した。 GPUが1枚でもローカルで高速にLLM評価を回したい! だから次はこれ使って進化的アルゴリズムでモデルを進化させてみたいね!という話だったのだが、そんな時、まさに渡りに船のグッドタイミングでMergekit-Evolveが登場した! mergekit-evolve登場!https://t.co/Gx4IJjajba の進化モデルのマージ手法論文を元にMergeKitで実装 競走馬のインブリード配合みたいに父方と母方の4代前と3代前に同じ祖先を持つ4×3の「奇跡の血量」みたいな”黄金配合率”が見つかるかもしれない https://t.co/CD3H1WAeG0 — Ryousuke_Wayama (@wayama_ryousuke) April 24, 2024 Sakana

    Mergekit-Evolve登場!進化的アルゴリズムで手元のLLMを最強進化させよう!
  • ChatVectorで新モデル作って評価して遊ぶヤツ、自分もやりたい

    最近、一部のローカルLLM勢のあいだでChatVectorで遊ぶのが流行っている。 ChatVectorとは何か?というとこちらの論文で発表された技術だ。 [2310.04799] Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages (arxiv.org) こちらの解説記事が分かりやすい。 Chat Vectorを使って日語LLMをチャットモデルに改造する – Qiita 要するに、ChatVectorとは指示チューニングでチャット能力を獲得したモデルのウエイトから、ベースになったモデルのウエイトを差し引いた差分の事である。 そしてChatVectorを別のモデルのウエイトに加算すれば、そのモデルにチャット能力を付与する事が

    ChatVectorで新モデル作って評価して遊ぶヤツ、自分もやりたい
    hatakazu93
    hatakazu93 2024/05/21
    “Chat Vectorを使って日本語LLMをチャットモデルに改造する – Qiita”
  • Chat Vectorを使って日本語LLMをチャットモデルに改造する - Qiita

    はじめに Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages という論文では、LLMの学習済み重みパラメータの足し引きによって、事前学習済みモデルに対話能力を与えることができるという結果が示されています。 具体的には、英語で事前学習されたモデル(以下ではベースモデルと呼びます)と、ベースモデルを指示チューニング (instruction tuning)してチャット形式の対話ができるようにしたモデル(英語チャットモデル)、ベースモデルを英語以外の言語で継続事前学習したモデルの3つのモデルを用います。 英語チャットモデルの重みからベースモデルの重みを引いたものは、チャット形式で対話ができる能力を表したベクトルであり、そのベクトルを

    Chat Vectorを使って日本語LLMをチャットモデルに改造する - Qiita
  • 最近ローカルLLMがアツいらしい

    最近、ローカルLLMがアツくなっているという話をtwitterでチラホラ見かける。 ローカルLLMって何じゃ?というと、オープンに公開されているモデルのウエイトをDLしてきて手元のPC上で推論させる事である。 オープンなAIモデルとは逆の存在として、モデルがDLできないクローズなAIモデルもある。 OpenAIやAnthropicのような最先端AI企業のクローズなAIモデルに比べて、オープンに公開されているオープンなAIモデルの性能は今でもかなり後れを取っている。 だから去年の間はあくまでAI命はChatGPTのようなクローズモデルであって、オープンなAIモデルなんて眼中にありませんみたいな風潮が無くはなかった。だが最近は風向きが少々変わってきている。 GPTのAPI高い問題 & OpenAIAIベンチャー皆殺しにしてしまう問題 まず「結局GPTのAPIを叩いてサービス運営して成功し

    hatakazu93
    hatakazu93 2024/05/21
    RedditのLocalLlama