shodaiのブックマーク - はてなブックマーク

オープンソースモデルでも力を合わせればGPT-4oに匹敵することを示す「Mixture-of-Agents（MoA）」アーキテクチャ | AIDB

背景 LLMは、人の好みに合わせて調整することで、より便利で一貫性のある文章を作れるようになってきました。しかし、モデルのサイズや学習データには限界があり、単純に大きくすることで性能を上げるには莫大な費用がかかります。一方で、LLMは種類によって得意なことが違います。例えば、複雑な指示に従うのが得意なモデルや、コードを書くのが得意なモデルなどがあります。そこで、研究者たちは新しいアイデアを思いつきました。それは、異なる得意分野を持つLLMを組み合わせることです。例えば、複雑な指示を理解するのが得意なモデルと、プログラミングコードを生成するのが上手なモデルを組み合わせれば、より高性能で柔軟になるのではないか、と考えたのです。これまでにも、複数のLLMを組み合わせて使う方法はいくつか提案されてきました。例えば、出力された文章の順位を変えたり、どのモデルを使うかを選んだりする方法がありま

shodai 2024/06/22

"MoAは、機械学習の有名な手法であるMixture-of-Experts(MoE)からヒントを得ています。"　同じものかも思ってた。GP超えはにわかには信じがたい。それができるなら人が複数を組み合わせをしてもできるだろう

リンク

RAGにおいてLLMが「役立たない情報を無視」できるようにする『RAFT』QAタスクで従来の手法を大幅に上回る結果を達成 | AIDB

背景 LLMは、膨大な量の公開データで学習することにより、幅広い一般知識推論タスクで著しい進歩を遂げてきました。一方で、LLMが特定の分野のタスクに用いられる場合、一般的な知識推論よりも、与えられた文書に対して正確であることが強く求められています。例えば最新のニュースや企業の非公開文書などに適応させることは課題になっています。 LLMを特定分野に適応させる際、検索拡張生成（RAG）を用いたコンテキスト学習と、教師あり微調整（supervised fine-tuning）の2つの手法が主に考えられます。 RAGベースの手法は、LLMが質問に答える際に文書を参照するものです。この手法では、モデルが事前に学習しているわけではありません。外部のナレッジベースから関連情報を取得することで問題解決能力を向上する（比較的リーズナブルな）アプローチです。教師あり微調整は、文書からより一般的なパターンを学

shodai 2024/05/03

リンク

GPT-4などLLMのコード生成能力にデバッグ機能を追加する『SELF-DEBUGGING（セルフデバッギング）』と実行プロンプト | AIDB

GPT-4などの大規模言語モデル（LLM）はコード生成においても驚異的な成果を上げています。しかし、モデルが生成するコードは必ずしも完璧ではありません。そこで、DeepMindとUCバークレーの研究者らは新たなフレームワーク『SELF-DEBUGGING（セルフデバッギング）』を開発しました。追加訓練なしでも、複数のベンチマークにおいて高いパフォーマンスを達成できる手法です。実行プロンプト（の例）は比較的シンプルで、多くのプログラミングタスクで容易に適用できます。参照論文情報・タイトル：Teaching Large Language Models to Self-Debug ・著者：Xinyun Chen, Maxwell Lin, Nathanael Schärli, Denny Zhou ・所属：Google DeepMind, UC Berkeley ・URL：https://

shodai 2023/10/29

“具体的なプロンプト例以下は、この論文を基に具現化したプロンプトの例です。” 意外にシンプルだな。

リンク

GPT-4をセラピストとして実行し、「認知の歪み」を診断させるためのフレームワーク『Diagnosis of Thought (DoT)』と実行プロンプト | AIDB

近年、精神療法の領域でAIの活用に注目が集まっています。そんな中、カーネギーメロン大学などの研究者らによって新たなフレームワーク『Diagnosis of Thought (DoT)』が考案されました。このフレームワークは、LLMによって人々の「認知の歪み」を診断する目的に特化しており、専門家によって高く評価されています。認知の歪みとは、例えば「0か100か」のような極端な考え方や、他人の考えを勝手に推測するなど、不健康な思考パターンのことを指します。 DoTフレームワークを用いた診断結果は、人間の専門家が出す診断結果とも高い一致性を示しており、その有用性が確認されています。（追記）なお、本フレームワークに基づくMyGPTを作成しました。記事末尾にURLを記載するため、興味のある方はぜひお試しください。参照論文情報・タイトル：Empowering Psychotherapy wit

shodai 2023/10/17

リンク

GPT-4などのLLMが「AはB」から「BはA」を導かない『逆転の呪い』における誤解なき解釈と対策 | AIDB

「LLMのふるまい」関連研究 GPT-4に選択肢を与えるとき、順序を入れ替えるだけで性能に大きな変化があることが明らかに大規模言語モデルにおける課題と応用例を整理した結果 ChatGPTの”ふるまいの変化”を定量的に分析した結果従来の課題 LLMの登場と期待大規模言語モデル（LLM）が登場して以来、その能力に多くの期待が寄せられています。LLMが人間のように自然言語を理解しているように見えたり、複雑な構造のテキストを生成する能力には多くの驚きがありました。論理的一貫性への疑問しかし、その一方で、LLMが「どれだけ論理的なのか？」という問いに対する明確な答えがない状況が続いています。LLMが高度な自然言語処理能力を持つ一方で、その論理的一貫性や一般化能力についてはまだ十分に理解されていません。一般化の問題 LLMにおける一般化の能力に対する疑問とは、「LLMは大量のデータで訓練さ

shodai 2023/10/06

「AはBだからといって必ずしもBはAではないのだから当然だ」と思われるかもしれません。そのように論理が破綻してしまう誤った一般化ではなく、逆転によって事実に辿り着く正しい一般化における能力について

リンク

GPT-4などのLLMに「自らの論理的な整合性をチェック」させるフレームワーク『LogiCoT』と実行プロンプト | AIDB

関連研究 LLMの出力から誤り（ハルシネーション）を減らす新手法『CoVe（Chain-of-Verification）』と実行プロンプト推論能力をさらに強める戦略『AoT』で、LLMが「直感」に似た能力を示すようになったメタ認知をさせてLLMの能力を上げる手法「メタ認知プロンプティング」従来の課題と背景 LLMの推論能力の限界大規模言語モデル（LLM）は、短い質問や単純なタスクに対してはゼロショットで高い性能を発揮しますが、ステップバイステップの推論が必要な長い質問や複雑なタスクに対しては、通常はその性能に限界があります。複数の前提条件や仮定に基づいて論理的に推論する必要がある場合、LLMはしばしば不正確な結論に至ることがあります。 CoTフレームワークの限界と利点 Chain-of-Thought（CoT）フレームワークは、このような複雑な問題に対する一つの解決策として提案され

shodai 2023/09/30

リンク

GoogleがLLMで「非構造化文書」高精度テキスト抽出するOCR『LMDX』発表 | AIDB

★AI DB会員限定Discordを開設いたしました！会員登録／ログインの上、マイページをご覧ください。 Googleは、非構造化文書（例えばレシートなど）から高精度にテキストを抽出するOCR（Optical Character Recognition）技術『LMDX（Language Model-based Document Information Extraction and Localization）』を発表しました。この技術は、特にGoogleの大規模な言語モデル「Bard」と、Google DriveやGmailなどのサービスとの連携をさらに強化する可能性もあります。参照論文情報タイトル：LMDX: Language Model-based Document Information Extraction and Localization 著者：Vincent Perot, K

shodai 2023/09/29

リンク

OpenAI、ChatGPTが画像を分析する『GPT-4V（ビジョン）』を発表。安全性、嗜好性、福祉機能を強化 | AIDB

関連研究 ChatGPTの”ふるまいの変化”を定量的に分析した結果 OpenAI、大規模言語モデルの数学能力を大きく向上させることに成功 GPT-4を使用した知的労働者のパフォーマンスは軒並み向上し、もとの成績が良くないほど顕著。※注意点あり従来の課題 GPT-4Vは、従来のGPT-4が抱えていたいくつかの課題を解決する形で登場しました。テキスト中心の処理能力従来のGPT-4は、テキストデータの処理能力に特化しており、テキストベースの質問応答、文章生成、自然言語理解など、多くの用途で非常に有用でした。しかし、裏を返せば画像や音声など他のメディア形式に対する対応が不足していました。テキストと画像が組み合わさったマルチモーダルなデータに対する処理能力が限定的でした。画像入力とプライバシー GPT-4の画像データに対する安全な処理能力には限界がありました。例えばプライバシー保護の観点が

shodai 2023/09/26

リンク

数式や文章がぐにゃぐにゃに曲がった論文PDFでもくっきり認識する画期的なOCR『Nougat』 | AIDB

科学的知識は主に書籍や科学誌に保存されていますが、PDF形式が一般的です。しかし、この形式は特に数学的表現においてセマンティック情報の損失を引き起こします。この問題に対処するために、Meta AIの研究チームは『Nougat（Neural Optical Understanding for Academic Documents）』という新しいOCR（光学式文字認識）技術を開発しました。 Nougatは、数式や文章が複雑に配置された画像であっても、それをマークアップ言語に高品質で変換する能力を持っています。この技術は、新しい論文だけでなく、電子データが存在しない古い書類などの解析にも非常に有用です。参照論文情報タイトル：Nougat: Neural Optical Understanding for Academic Documents 著者：Lukas Blecher, Guillem

shodai 2023/09/06

リンク

Metaの研究者ら「GPT-4をきびしくサポートする」AIのShepherd（シェパード）開発 | AIDB

この記事では、Metaの研究である「Shepherd」について紹介します。Shepherdは、GPT-4などテキスト生成AIに対する批評家として機能するモデルです。この記事では、Shepherdの全体的な概要、技術的な側面、有効性の検証、議論、そしてその意義について紹介します。参照論文情報タイトル：Shepherd: A Critic for Language Model Generation 著者：Tianlu Wang et al. 所属：Meta URL：https://doi.org/10.48550/arXiv.2308.04592 GitHub：https://github.com/facebookresearch/Shepherd 関連研究大規模言語モデルが音声をダイレクトに理解する能力を与える　Metaとケンブリッジ大 AIが生成したテキストが事実なのか確認する手法「

shodai 2023/08/19

リンク

はてなブックマーク

タグ

ブックマーク / ai-data-base.com (10)

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス