タグ

ブックマーク / ai-data-base.com (49)

  • オープンソースモデルでも力を合わせればGPT-4oに匹敵することを示す「Mixture-of-Agents(MoA)」アーキテクチャ | AIDB

    背景 LLMは、人の好みに合わせて調整することで、より便利で一貫性のある文章を作れるようになってきました。しかし、モデルのサイズや学習データには限界があり、単純に大きくすることで性能を上げるには莫大な費用がかかります。 一方で、LLMは種類によって得意なことが違います。例えば、複雑な指示に従うのが得意なモデルや、コードを書くのが得意なモデルなどがあります。 そこで、研究者たちは新しいアイデアを思いつきました。それは、異なる得意分野を持つLLMを組み合わせることです。 例えば、複雑な指示を理解するのが得意なモデルと、プログラミングコードを生成するのが上手なモデルを組み合わせれば、より高性能で柔軟になるのではないか、と考えたのです。 これまでにも、複数のLLMを組み合わせて使う方法はいくつか提案されてきました。例えば、出力された文章の順位を変えたり、どのモデルを使うかを選んだりする方法がありま

    オープンソースモデルでも力を合わせればGPT-4oに匹敵することを示す「Mixture-of-Agents(MoA)」アーキテクチャ | AIDB
    misshiki
    misshiki 2024/06/24
    “「複数のLLMの長所を組み合わせることで、単一のモデルを超える性能を実現できるのではないか?」...新たなアプローチを開発した。それが「Mixture-of-Agents(MoA)」です。なお、モデルマージとは別の概念です。”
  • MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果 | AIDB

    参照論文情報 タイトル:MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark 著者:Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, Tianle Li, Max Ku, Kai Wang, Alex Zhuang, Rongqi Fan, Xiang Yue, Wenhu Chen 所属:University of Waterloo, University of Toronto, Carnegie Mellon University 背景 GPT-4、Claude、Ge

    MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果 | AIDB
    misshiki
    misshiki 2024/06/10
    “参照論文情報 タイトル:MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark”
  • Claude 3などのLLMはコンテキスト内学習によって線形回帰・非線形回帰問題タスクもこなす | AIDB

    GPT-4やClaude 3といった最先端の性能を持つLLMが、回帰問題をどれほど解けるのかが調査されました。 実験の結果、LLMは、回帰問題タスクに特化した機械学習モデルに匹敵する性能を発揮しました。 LLMに対しては回帰問題の解き方を細かく教えたのではなく、問題と答えの例をいくつか見せただけ(Few-Shotのコンテキスト内学習)でした。 なお回帰問題とは、一連の入力に対して傾向を予測する統計的手法です。直線で表せるものを線形回帰、曲線で表すものを非線形回帰と言います。 参照論文情報 タイトル:From Words to Numbers: Your Large Language Model Is Secretly A Capable Regressor When Given In-Context Examples 著者:Robert Vacareanu, Vlad-Andrei Neg

    Claude 3などのLLMはコンテキスト内学習によって線形回帰・非線形回帰問題タスクもこなす | AIDB
    misshiki
    misshiki 2024/05/09
    “GPT-4やClaude 3といった最先端の性能を持つLLMが、回帰問題をどれほど解けるのかが調査されました。 実験の結果、LLMは、回帰問題タスクに特化した機械学習モデルに匹敵する性能を発揮しました。”
  • RAGにおいてLLMが「役立たない情報を無視」できるようにする『RAFT』QAタスクで従来の手法を大幅に上回る結果を達成 | AIDB

    背景 LLMは、膨大な量の公開データで学習することにより、幅広い一般知識推論タスクで著しい進歩を遂げてきました。一方で、LLMが特定の分野のタスクに用いられる場合、一般的な知識推論よりも、与えられた文書に対して正確であることが強く求められています。例えば最新のニュースや企業の非公開文書などに適応させることは課題になっています。 LLMを特定分野に適応させる際、検索拡張生成(RAG)を用いたコンテキスト学習と、教師あり微調整(supervised fine-tuning)の2つの手法が主に考えられます。 RAGベースの手法は、LLMが質問に答える際に文書を参照するものです。この手法では、モデルが事前に学習しているわけではありません。外部のナレッジベースから関連情報を取得することで問題解決能力を向上する(比較的リーズナブルな)アプローチです。 教師あり微調整は、文書からより一般的なパターンを学

    RAGにおいてLLMが「役立たない情報を無視」できるようにする『RAFT』QAタスクで従来の手法を大幅に上回る結果を達成 | AIDB
    misshiki
    misshiki 2024/05/02
    “Retrieval Augmented Fine Tuning (RAFT)という学習手法です。質問と関連する文書群が与えられた際に、質問に答えるのに役立たない文書を無視するようモデルを学習させるフレームワークです。”
  • ファインチューニングとRAGを比較実験した結果 LLMに外部知識を取り入れる手法としての違い | AIDB

    ホーム LLM, RAG, ファインチューニング, 論文 ファインチューニングとRAGを比較実験した結果 LLMに外部知識を取り入れる手法としての違い

    ファインチューニングとRAGを比較実験した結果 LLMに外部知識を取り入れる手法としての違い | AIDB
    misshiki
    misshiki 2024/03/11
    “大まかな結論としては、ファインチューニングよりもRAGは一貫して効果的と考えられるとのことです。”
  • マルチモーダルLLMの技術や開発トレンド、26種類のモデル例を網羅的にまとめた報告 | AIDB

    記事はマルチモーダル大規模言語モデルについての調査報告を紹介します。 「マルチモーダル」とは、異なる種類のデータ(例えば、テキスト、画像、音声など)を組み合わせて扱うことを意味します。元々は言葉だけを扱っていたLLMが、複数の種類のデータの入力や出力に対応できるようになってきたのが現状です。 今回Tencentや京都大学などの研究者らは、マルチモーダルLLMに関する広範な調査を行った結果を報告しています。設計や訓練方法、26種類の既存モデルなどに言及しています。

    マルチモーダルLLMの技術や開発トレンド、26種類のモデル例を網羅的にまとめた報告 | AIDB
    misshiki
    misshiki 2024/02/20
    “下記の図はマルチモーダル大規模言語モデル(MM-LLMs)の発展を示しています。2022年初頭から2023年末まで、短期間に多くの新しいモデルが導入されていることがわかります。”右肩上がりに増えている感。
  • LLMに自分自身の内部動作を説明させる手法『Patchscopes(パッチスコープ)』Googleが開発 | AIDB

    LLMの内部表現とは何か LLMに限らず機械学習モデルを理解してコントロールする上で、モデルの内部表現にどんな情報が含まれているのか知るのはとても重要です。 内部表現とは、モデルが入力データ(例えばテキスト)を受け取ったときに、そのデータを解析し理解するために内部で生成されるデータの表現です。表現はモデルの各層で異なる形式を持ち、最終的な出力(例えば文章生成など)に至るまでのプロセスに密接に関わります。内部表現は隠れた表現という言い方もできます。 これまで、内部表現を理解するための研究はたくさん行われてきました。しかし、スケールの限界や精度の悪さ、表現力の不足などが問題となり、なかなか実用的なアプローチとは言えるものはなかったと言われています。 そこでGoogleの研究者らは、LLMならば自分自身の内部表現を人間のために「翻訳」することが可能であると考えました。LLMがテキストを生成する高

    LLMに自分自身の内部動作を説明させる手法『Patchscopes(パッチスコープ)』Googleが開発 | AIDB
  • Geminiの「常識を推論する能力」を網羅的に調査した結果 間違えやすいタイプの問題も明らかに | AIDB

    AIDB会員限定Discordを開設いたしました! 会員登録/ログインの上、マイページをご覧ください。 Geminiは、テキストと画像を組み合わせたマルチモーダル推論に特化したLLMです。開発元であるGoogleは、Geminiは人間のような柔軟性と理解力を持つことを目指す存在だとしています。 記事では、様々な常識推論タスクを通じてGeminiの性能を評価した研究を紹介します。 Geminiは登場からまだ間もなく、実験結果は貴重なデータかもしれません。 関連研究:Googleが「人間の専門家レベルを超える最初のモデル」とする『Gemini』発表、GPT-4を凌駕 参照論文情報 タイトル:Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models 著者:Yuqing Wang, Yun Zh

    Geminiの「常識を推論する能力」を網羅的に調査した結果 間違えやすいタイプの問題も明らかに | AIDB
    misshiki
    misshiki 2024/01/12
    論文“Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models”の紹介。
  • LLMのRAG(外部知識検索による強化)をまとめた調査報告 | AIDB

    LLMのRAG(外部知識検索による強化)についての調査結果が報告されています。 基フレームワークと各構成要素の詳細、評価、そして今後の発展について言及されており網羅的です。 記事では、その報告内容を抜粋してお届けします。 参照論文情報 タイトル:Retrieval-Augmented Generation for Large Language Models: A Survey 著者:Yunfan Gao, Yun Xiong, Xinyu Gao, Kangxiang Jia, Jinliu Pan, Yuxi Bi, Yi Dai, Jiawei Sun, Haofen Wang 所属:Tongji University, Fudan University URL:https://doi.org/10.48550/arXiv.2312.10997 記事の関連研究:LLMにナレッジグ

    LLMのRAG(外部知識検索による強化)をまとめた調査報告 | AIDB
    misshiki
    misshiki 2023/12/28
    日本語でまとめている記事があった。
  • Appleが、LLMのパラメータを「SSDなどの外部フラッシュメモリに保存し」PCで効率的にモデルを使用する手法を開発 | AIDB

    参照論文情報 タイトル:LLM in a flash: Efficient Large Language Model Inference with Limited Memory 著者:Keivan Alizadeh, Iman Mirzadeh, Dmitry Belenko, Karen Khatamifard, Minsik Cho, Carlo C Del Mundo, Mohammad Rastegari, Mehrdad Farajtabar 所属:Apple URL:https://arxiv.org/abs/2312.11514 記事の関連研究:LLMへの入力プロンプトを「意味を保持したまま」高度に圧縮する技術『LLMLingua』 研究背景 LLMは高性能ですが、多くの計算能力とメモリ(情報を一時的に保存する部分)を必要とします。 そのためメモリ容量が限られているデバイス

    Appleが、LLMのパラメータを「SSDなどの外部フラッシュメモリに保存し」PCで効率的にモデルを使用する手法を開発 | AIDB
    misshiki
    misshiki 2023/12/21
    “Appleの研究者らは、LLMのパラメータをSSDなどの外部フラッシュメモリに保存し、接続したPCなどで読み込み使用する手法を開発しました。”
  • DeepMindの研究者らが有効性を検証した、LLMに自ら高品質な訓練データを生成させる「自己学習」 | AIDB

    DeepMindの研究チームは、現在の大規模言語モデル(LLM)は人間によって生成されたデータに過度に依存しており、LLMの発展にとって望ましい状況ではないと考えました。 この問題に対処するために、彼らはLLMが自律的に高品質な訓練データを生成し、データセットを自ら拡充する「自己学習」アプローチの有効性を検証しました。 実施された実験では、自己生成データによって、数学やコード生成の分野におけるLLMの能力が顕著に向上したことが確認されました。 記事では、研究内容を詳しく見ていきます。 参照論文情報 タイトル:Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models 著者:Avi Singh et al.(多数) 所属:Google DeepMind URL:https://doi.o

    DeepMindの研究者らが有効性を検証した、LLMに自ら高品質な訓練データを生成させる「自己学習」 | AIDB
    misshiki
    misshiki 2023/12/18
    “LLMが自律的に高品質な訓練データを生成し、データセットを自ら拡充する「自己学習」アプローチの有効性を検証しました。”
  • Googleが「人間の専門家レベルを超える最初のモデル」とする『Gemini』発表、GPT-4を凌駕 | AIDB

    Googleは、人間の専門家のパフォーマンスを上回る最初の大規模言語モデル(LLM)として「Gemini」を発表しました。LLMの主要なベンチマークの一つであるMMLU(多領域の学術ベンチマーク)をはじめとするほとんどのベンチマークでGPT-4を凌駕しています。 Geminiは、画像、音声、動画の理解を含むマルチモーダルタスクでも最先端の性能を示しています。テストに使用された20のマルチモーダルベンチマーク全てで最高の水準を達成しています。 また、複数のソースからの情報を統合して、より正確で詳細に理解する能力に優れているとのことです。 なお、Ultra、Pro、Nanoの3つのサイズがあり、それぞれ異なる計算要件に特化して設計されています(例えばモバイル向けにはNanoなど)。Ultraは最も高度に複雑なタスクをこなし、研究報告では主にUltraの性能が他モデルと比較されています。 記事

    Googleが「人間の専門家レベルを超える最初のモデル」とする『Gemini』発表、GPT-4を凌駕 | AIDB
    misshiki
    misshiki 2023/12/08
    テクニカルレポート “Gemini: A Family of Highly Capable Multimodal Models” を基にした日本語の説明。
  • 基盤モデル(GPT-4)はプロンプトの工夫で専門特化モデルに匹敵するほど性能が向上することが「医学分野」で示唆される | AIDB

    OpenAIの開発したGPT-4などの基盤モデルは、多様なタスクにおいて高い能力を発揮しています。一方で深い専門知識が試される領域においては、専門知識でトレーニングされた特化型モデルと比較して、汎用モデルの性能は劣るだろうと考えられてきました。しかし、Microsoftの研究者たちが最近行った実験によると、その前提には一考の余地がありそうです。 研究では、医学分野において、特殊なトレーニングを施されていない(と考えられている)GPT-4が、プロンプトの工夫を通して、専門モデルと同等あるいはそれ以上の成績を収めることが示唆されました。研究結果は、単に基盤モデルの性能を評価するだけでなく、プロンプトの工夫がAIの能力をいかに引き出すかという視点を提供しています。 記事では実験結果を中心に報告内容を見ていきます。 参照論文情報 タイトル:Can Generalist Foundation Mo

    基盤モデル(GPT-4)はプロンプトの工夫で専門特化モデルに匹敵するほど性能が向上することが「医学分野」で示唆される | AIDB
    misshiki
    misshiki 2023/12/05
    “医学分野において、特殊なトレーニングを施されていない(と考えられている)GPT-4が、プロンプトの工夫を通して、専門モデルと同等あるいはそれ以上の成績を収めることが示唆されました。”
  • Microsoftの研究者ら、比較的小さなサイズでもタスクによってはOpenAIのGPT-4を凌駕する言語モデル『Orca2』を開発 | AIDB

    Microsoft Researchのチームによって発表された『Orca2』は、OpenAIのGPT-4などの大規模言語モデル(LLM)に匹敵し、時には凌駕する性能を発揮するとのことです。 『Orca2』のような小規模モデルの登場により、計算リソースが限られた環境や、リアルタイム処理が求められるアプリケーションにおいても、高性能な言語モデルが利用できるようになるかもしれません。 なお、研究者らにより、将来的には大規模モデルと相互補完的に利用されるようになるべきと述べられています。 記事では、『Orca2』の背景、特徴、技術、利用シーン、GPT-4との比較、展望、そして注意点について見ていきます。 参照論文情報 タイトル:Orca 2: Teaching Small Language Models How to Reason 著者:Arindam Mitra, Luciano Del Co

    Microsoftの研究者ら、比較的小さなサイズでもタスクによってはOpenAIのGPT-4を凌駕する言語モデル『Orca2』を開発 | AIDB
    misshiki
    misshiki 2023/11/27
    “Microsoft Researchのチームによって発表された『Orca2』は、OpenAIのGPT-4などの大規模言語モデル(LLM)に匹敵し、時には凌駕する性能を発揮するとのことです。”
  • GPT-4などLLMのコード生成能力にデバッグ機能を追加する『SELF-DEBUGGING(セルフデバッギング)』と実行プロンプト | AIDB

    GPT-4などの大規模言語モデル(LLM)はコード生成においても驚異的な成果を上げています。しかし、モデルが生成するコードは必ずしも完璧ではありません。そこで、DeepMindとUCバークレーの研究者らは新たなフレームワーク『SELF-DEBUGGING(セルフデバッギング)』を開発しました。 追加訓練なしでも、複数のベンチマークにおいて高いパフォーマンスを達成できる手法です。実行プロンプト(の例)は比較的シンプルで、多くのプログラミングタスクで容易に適用できます。 参照論文情報 ・タイトル:Teaching Large Language Models to Self-Debug ・著者:Xinyun Chen, Maxwell Lin, Nathanael Schärli, Denny Zhou ・所属:Google DeepMind, UC Berkeley ・URL:https://

    GPT-4などLLMのコード生成能力にデバッグ機能を追加する『SELF-DEBUGGING(セルフデバッギング)』と実行プロンプト | AIDB
    misshiki
    misshiki 2023/10/30
    “LLMが自ら生成したプログラムをデバッグできるようにする新しいフレームワーク、SELF-DEBUGGINGを考案しました。特別な追加訓練なしで、既存のLLMに適用可能です。”
  • LLMに非線形的な思考を与えてCoTを上回る性能を引き出す手法『IEP』と実行プロンプト CoTと組合せでさらに強力になる場合も | AIDB

    CoTの特徴と単一で使用する際の限界 Chain-of-Thought(CoT)は、LLMに推論能力を付与するための一般的な手法です。CoTは線形的な(直線的な)推論を実行させます。簡単に言うと「Aが真ならばBが真」といった形の推論を行わせることが多いです。 CoTは、問題解決の過程を一連のステップに分解し、それぞれのステップで特定の推論を行わせます。例えば、「雨が降っているなら、傘を持つべきだ」というような線形的な推論がCoTの一例です。質問応答(QA)タスクなどでよく使用されます。 しかし、このアプローチにはいくつかの問題点があります。 誤差の伝播 CoTは一つの思考のステップが次のステップに影響を与えるという連鎖的な構造を持っています。そのため、中間のステップで生じたわずかな誤差が、連鎖全体に伝播してしまう可能性があります。 CoTの中間ステップの評価は困難であり、最終的な答えだけが

    LLMに非線形的な思考を与えてCoTを上回る性能を引き出す手法『IEP』と実行プロンプト CoTと組合せでさらに強力になる場合も | AIDB
    misshiki
    misshiki 2023/10/27
    “IEPは計画(Planning)、推論(Inferring)、除去(Eliminating)の3つの主要なステップで構成されます。可能な解の文脈、常識、または事実との含意関係を推測することで、より広い視点を提供します。”
  • LLMにナレッジグラフ(知識グラフ)を連携させることで、タスク遂行能力を大幅に向上させるフレームワーク『Graph Neural Prompting(GNP)』 | AIDB

    大規模言語モデル(LLM)は、質問応答、翻訳、テキスト要約など、さまざまなNLPタスクで優れた性能を発揮しています。しかし、モデルはしばしば正確な事実知識を捉えるのが難しく、根拠のない回答を生成することあります。この問題を解決するために、Amazonなどの研究者らが『Graph Neural Prompting(GNP)』という新しいフレームワークを考案しました。このフレームワークは、LLMにナレッジグラフ(知識グラフ)を連携させ、タスク遂行能力を大幅に向上させるものです。 従来の方法では、モデルに学習データを追加するためには高いコストがかかりました。しかし、GNPを用いることで、より低いコストで高い成果を得ることができます。さらに、この方法はカスタマイズが非常に柔軟であり、特定のドメインや業界に合わせて調整することが可能です。 この記事では、この興味深い研究について詳しく解説していきます

    LLMにナレッジグラフ(知識グラフ)を連携させることで、タスク遂行能力を大幅に向上させるフレームワーク『Graph Neural Prompting(GNP)』 | AIDB
    misshiki
    misshiki 2023/10/20
    “根拠のない回答を生成する問題を解決するために、『Graph Neural Prompting(GNP)』という新フレームワークを考案。LLMにナレッジグラフを連携させ、タスク遂行能力を大幅に向上させるものです。”
  • LLMにまず前提から尋ることで出力精度を向上させる『ステップバック・プロンプティング』と実行プロンプト | AIDB

    ステップバック・プロンプティングは極めてシンプルで具体的なテクニックながら、CoT(Chain-of-Thought prompting)やTake a Deep Breatheといった既存の手法を凌駕する性能を発揮しています。 参照論文情報 ・タイトル:Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models ・著者:Huaixiu Steven Zheng, Swaroop Mishra, Xinyun Chen, Heng-Tze Cheng, Ed H. Chi, Quoc V Le, Denny Zhou ・所属:Google DeepMind ・URL:https://doi.org/10.48550/arXiv.2310.06117 従来の課題 LLMはSTEM(科学、技術、工学、

    LLMにまず前提から尋ることで出力精度を向上させる『ステップバック・プロンプティング』と実行プロンプト | AIDB
    misshiki
    misshiki 2023/10/19
    「ステップ1: 抽象化、ステップ2: 推論」という方法論が分かりづらく感じるのだが「本来の質問の前に、前提条件をユーザーとLLMですり合わせておけ」という理解でよいのかな。
  • GPT-4をセラピストとして実行し、「認知の歪み」を診断させるためのフレームワーク『Diagnosis of Thought (DoT)』と実行プロンプト | AIDB

    近年、精神療法の領域でAIの活用に注目が集まっています。そんな中、カーネギーメロン大学などの研究者らによって新たなフレームワーク『Diagnosis of Thought (DoT)』が考案されました。このフレームワークは、LLMによって人々の「認知の歪み」を診断する目的に特化しており、専門家によって高く評価されています。 認知の歪みとは、例えば「0か100か」のような極端な考え方や、他人の考えを勝手に推測するなど、不健康な思考パターンのことを指します。 DoTフレームワークを用いた診断結果は、人間の専門家が出す診断結果とも高い一致性を示しており、その有用性が確認されています。 (追記)なお、フレームワークに基づくMyGPTを作成しました。記事末尾にURLを記載するため、興味のある方はぜひお試しください。 参照論文情報 ・タイトル:Empowering Psychotherapy wit

    GPT-4をセラピストとして実行し、「認知の歪み」を診断させるためのフレームワーク『Diagnosis of Thought (DoT)』と実行プロンプト | AIDB
  • 画像分析機能を持つオープンソースLLM『LLaVA-1.5』登場。手持ちの画像を分析可能。GPT-4Vとの違い | AIDB

    関連研究(続きは記事末尾にあります) ■OpenAIChatGPTが画像を分析する『GPT-4V(ビジョン)』を発表。安全性、嗜好性、福祉機能を強化 ■Microsoftの画像セグメンテーション新技術「SEEM(Segment Everything Everywhere Model)」の凄さ、Meta AIのSAMとの違い 従来の課題 視覚情報の処理能力不足 従来のLLMは、言語タスクに対する能力は優れていましたが、多モーダル(視覚と言語)のアップデートはあまり行われていませんでした。要するに、視覚的な情報を処理する能力には限界がありました。 高性能な画像分析LLMの需要 多くの開発者や研究者が高性能な画像分析LLMを求めていましたが、これまでのところそのようなモデルは一般に提供されていませんでした。 これらの課題を解決するために、LLaVA-1.5が開発されました。このモデルは、視覚エ

    画像分析機能を持つオープンソースLLM『LLaVA-1.5』登場。手持ちの画像を分析可能。GPT-4Vとの違い | AIDB
    misshiki
    misshiki 2023/10/16
    “LLaVA-1.5は、GPT-4(V)の競合的なモデルで、視覚と言語の理解において優れたパフォーマンスを発揮します。LLaVA-1.5のデモは公開されており、手持ちの画像を分析させることができます。”