並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 7 件 / 7件

新着順 人気順

mixtureの検索結果1 - 7 件 / 7件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

mixtureに関するエントリは7件あります。 人工知能toolshader などが関連タグです。 人気エントリには 『オープンソースモデルでも力を合わせればGPT-4oに匹敵することを示す「Mixture-of-Agents(MoA)」アーキテクチャ | AIDB』などがあります。
  • オープンソースモデルでも力を合わせればGPT-4oに匹敵することを示す「Mixture-of-Agents(MoA)」アーキテクチャ | AIDB

    背景 LLMは、人の好みに合わせて調整することで、より便利で一貫性のある文章を作れるようになってきました。しかし、モデルのサイズや学習データには限界があり、単純に大きくすることで性能を上げるには莫大な費用がかかります。 一方で、LLMは種類によって得意なことが違います。例えば、複雑な指示に従うのが得意なモデルや、コードを書くのが得意なモデルなどがあります。 そこで、研究者たちは新しいアイデアを思いつきました。それは、異なる得意分野を持つLLMを組み合わせることです。 例えば、複雑な指示を理解するのが得意なモデルと、プログラミングコードを生成するのが上手なモデルを組み合わせれば、より高性能で柔軟になるのではないか、と考えたのです。 これまでにも、複数のLLMを組み合わせて使う方法はいくつか提案されてきました。例えば、出力された文章の順位を変えたり、どのモデルを使うかを選んだりする方法がありま

      オープンソースモデルでも力を合わせればGPT-4oに匹敵することを示す「Mixture-of-Agents(MoA)」アーキテクチャ | AIDB
    • 学習済みの LLM を束ねて Mixture of Experts を作るテク

      導入 Twitter でこんな投稿を見かけました。 「Phi-2 ベースのモデルをいくつか使って Mixture of Experts (MoE) を作ったら単体よりも良い性能が達成できました」という話です。学習済み LLM をマージするテクに関しては最近時々話題に上がっているのを見かけますが、MoE には Gating 部分で追加のパラメータが必要なはずで、そこはどうやっているんだろうと気になりました。中身を見てみたところ、Few-shot で Gating のパラメータを決める手法が使われていて面白かったので、それについて書いてみます。 Sparse Mixture of Experts (Sparse MoE) の推論時の処理 Phixtral は名前やワードアートからも分かる通り、Mixtral の Sparse MoE を踏襲しているので、まずその推論時の処理について書きます。

        学習済みの LLM を束ねて Mixture of Experts を作るテク
      • Mixture-of-Agents Enhances Large Language Model Capabilities

        Recent advances in large language models (LLMs) demonstrate substantial capabilities in natural language understanding and generation tasks. With the growing number of LLMs, how to harness the collective expertise of multiple LLMs is an exciting open direction. Toward this goal, we propose a new approach that leverages the collective strengths of multiple LLMs through a Mixture-of-Agents (MoA) met

        • Mixture of Experts Explained

          With the release of Mixtral 8x7B (announcement, model card), a class of transformer has become the hottest topic in the open AI community: Mixture of Experts, or MoEs for short. In this blog post, we take a look at the building blocks of MoEs, how they’re trained, and the tradeoffs to consider when serving them for inference. Let’s dive in! Table of Contents What is a Mixture of Experts? A Brief H

            Mixture of Experts Explained
          • OpenAIのGPT-4のアーキテクチャへの仮説:Mixture Of Experts(MoE)による拡張性の高いLLM|鈴木いっぺい (Ippei Suzuki)

            OpenAI社のGPT-4は、従来のGPT-3, GPT-2.5と比較して巨大な言語モデル持ち、パラメタ数でいうと1,750億〜2,800億個、とされています。これはデータ量で言うと45GBに及びます(従来のGPT-3はその1/3近くの17GB)。データ量が多くなった分、精度や正確性は高くなったと評価されてますが、ハルシネーションによる間違った回答の比率が少なくなったかと言うと そうでも無い、と言う意見も多いし、人間の思考の様な推論(reasoning)がまだ十分にできない、と言うことも根本的な課題です。 AIシステムのパラメタが巨大化する最大の課題は、それをトレーニングするためのコストが著しく高くなってしまう、という事。この辺のスタディはかなりされていると思いますが、この課題を解決する方法の一つとして、MoE (Mixture of Experts) アーキテクチャ、と呼ばれるニューラル

              OpenAIのGPT-4のアーキテクチャへの仮説:Mixture Of Experts(MoE)による拡張性の高いLLM|鈴木いっぺい (Ippei Suzuki)
            • WAIC and WBIC for mixture models - Behaviormetrika

              Akaike H (1974) A new look at the statistical model identification. IEEE Trans Autom Control 19(6):716–723 Article MathSciNet MATH Google Scholar Akaike H (1980) On the transition of the paradigm of statistical inference. Proc Inst Stat Math 27:5–12 MathSciNet MATH Google Scholar Aoyagi M (2005) Stochastic complexities of reduced rank regression in Bayesian estimation. Neural Netw 18:924–933 Artic

                WAIC and WBIC for mixture models - Behaviormetrika
              • GitHub - alelievr/Mixture: Mixture is a powerful node-based tool crafted in unity to generate all kinds of textures in realtime

                You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                  GitHub - alelievr/Mixture: Mixture is a powerful node-based tool crafted in unity to generate all kinds of textures in realtime
                1

                新着記事