AIDB[B!]新着記事・評価 - はてなブックマーク

わずか2行のプロンプトでも実効性のある新しいアライメント手法『URIAL』 | AIDB
3 users
ai-data-base.com

「LLMのアライメントは、実はプロンプトで少し指示を与えるだけでも実現できるのではないか？」と考えたワシントン大学とAI2の研究者らは、最低2行のプロンプトから実効性のある新しいアライメント手法『URIAL』を考案しました。なおアライメントとは、AIが持つべき道徳的価値観や行動指針を定めて、人間社会の倫理に合わせるプロセスです。本記事では、『URIAL』の手法や効果などを見ていきます。参照論文情報タイトル：The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context Learning 著者：Bill Yuchen Lin, Abhilasha Ravichander, Ximing Lu, Nouha Dziri, Melanie Sclar, Khyathi Chandu, Chandra Bhagav
- テクノロジー
- 2023/12/16 13:01

DeepMindの研究者らが有効性を検証した、LLMに自ら高品質な訓練データを生成させる「自己学習」 | AIDB
25 users
ai-data-base.com

DeepMindの研究チームは、現在の大規模言語モデル（LLM）は人間によって生成されたデータに過度に依存しており、LLMの発展にとって望ましい状況ではないと考えました。この問題に対処するために、彼らはLLMが自律的に高品質な訓練データを生成し、データセットを自ら拡充する「自己学習」アプローチの有効性を検証しました。実施された実験では、自己生成データによって、数学やコード生成の分野におけるLLMの能力が顕著に向上したことが確認されました。本記事では、研究内容を詳しく見ていきます。参照論文情報タイトル：Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models 著者：Avi Singh et al.（多数）所属：Google DeepMind URL：https://doi.o
- テクノロジー
- 2023/12/14 00:26
LLMへの入力プロンプトを「意味を保持したまま」高度に圧縮する技術『LLMLingua』 | AIDB
5 users
ai-data-base.com

Microsoftの研究チームは、従来の大規模言語モデル（LLM）への入力プロンプトを効率的に圧縮し、意味そのものは維持する技術『LLMLingua』を開発しました。本技術は、長いプロンプトによってLLMの応答速度が遅延したりコストが高くなったりしてしまう問題に対処するものです。実施された実験では、LLMLinguaが他の手法に比べて優れた性能を示し、さまざまなタスクにおいてもその効果が確認されました。本記事では詳細を見ていきます。参照論文情報タイトル：LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models 著者：Huiqiang Jiang, Qianhui Wu, Chin-Yew Lin, Yuqing Yang, Lili Qiu 所属：Microsoft URL：
- テクノロジー
- 2023/12/12 21:13
- AI
「視覚は本来、言語に依存しない」と考えた研究者らが、言語データなしで大規模ビジョンモデル（LVM）を構築するアプローチを開発 | AIDB
5 users
ai-data-base.com

UC BerkeleyとJohns Hopkins Universityの研究者らは、「視覚は本来、言語に依存しない」と考え、言語データを使用せずに大規模ビジョンモデル（LVM）を効果的に学習する新しいアプローチを開発しました。研究者らは、開発したアプローチが大規模なデータセットに対して優れたスケーラビリティを持ち、さまざまなビジョンタスクに適用可能であることを示しました。本記事では、そのアプローチ、機能、実験結果などの詳細を紹介します。参照論文情報タイトル：Sequential Modeling Enables Scalable Learning for Large Vision Models 著者：Yutong Bai, Xinyang Geng, Karttikeya Mangalam, Amir Bar, Alan Yuille, Trevor Darrell, Jiten
- テクノロジー
- 2023/12/11 16:09
Geminiの高い推論能力を活かして、過去最高水準のプログラミングAI『AlphaCode 2』も誕生したとの報告 | AIDB
3 users
ai-data-base.com

Googleは12月6日、新しいAIモデル「Gemini」を発表しました。そして同時に、「Gemini」の高い推論能力を活かして大幅にプログラミング能力を向上させたAI「AlphaCode 2」を開発したことも明らかにしました。 AlphaCode 2は、競技プログラミングの参加者の85%以上を上回る性能を実現しています。高度な推論と問題解決能力が要求される分野において、AIが人間の能力に近づいていることを示す技術です。本記事ではテクニカルレポートをもとにAlphaCode 2の紹介をします。なお、競技プログラミングではアルゴリズム、データ構造などの知識を極限まで駆使することが求められます。一方で、実務では、プロジェクト管理、チームワーク、保守性といった要素も重視されるため、競技プログラミング能力の水準が実務能力の水準と必ずしも同列ではないかもしれません。しかし同時に、競技プログラミ
- テクノロジー
- 2023/12/08 22:06
- 人工知能
- techfeed
Googleが「人間の専門家レベルを超える最初のモデル」とする『Gemini』発表、GPT-4を凌駕 | AIDB
112 users
ai-data-base.com

Googleは、人間の専門家のパフォーマンスを上回る最初の大規模言語モデル（LLM）として「Gemini」を発表しました。LLMの主要なベンチマークの一つであるMMLU（多領域の学術ベンチマーク）をはじめとするほとんどのベンチマークでGPT-4を凌駕しています。 Geminiは、画像、音声、動画の理解を含むマルチモーダルタスクでも最先端の性能を示しています。テストに使用された20のマルチモーダルベンチマーク全てで最高の水準を達成しています。また、複数のソースからの情報を統合して、より正確で詳細に理解する能力に優れているとのことです。なお、Ultra、Pro、Nanoの3つのサイズがあり、それぞれ異なる計算要件に特化して設計されています（例えばモバイル向けにはNanoなど）。Ultraは最も高度に複雑なタスクをこなし、研究報告では主にUltraの性能が他モデルと比較されています。本記事
- テクノロジー
- 2023/12/07 22:35
- AI
- google
- あとで読む
- 人工知能
- 人間
DeepMindの『GNoME』が「人間の直感を超えた220万の材料を発見し」うち736は既に人間が実験室で再現したとの報告、Nature誌 | AIDB
10 users
ai-data-base.com

参照論文情報タイトル：Scaling deep learning for materials discovery 著者：Amil Merchant, Simon Batzner, Samuel S. Schoenholz, Muratahan Aykol, Gowoon Cheon, Ekin Dogus Cubuk 所属：DeepMind URL：https://doi.org/10.1038/s41586-023-06735-9 GitHub：https://github.com/google-deepmind/materials_discovery プロジェクトページ：https://materialsproject.org/gnome 本記事の関連研究：新しい科学的方程式を導くための機械学習ツール　プリンストン大の研究者が発表材料科学における従来の課題材料科学には長年にわたる
- テクノロジー
- 2023/12/07 02:49
- AI
- technology
- 研究
- 医療
- あとで読む
基盤モデル（GPT-4）はプロンプトの工夫で専門特化モデルに匹敵するほど性能が向上することが「医学分野」で示唆される | AIDB
17 users
ai-data-base.com

OpenAIの開発したGPT-4などの基盤モデルは、多様なタスクにおいて高い能力を発揮しています。一方で深い専門知識が試される領域においては、専門知識でトレーニングされた特化型モデルと比較して、汎用モデルの性能は劣るだろうと考えられてきました。しかし、Microsoftの研究者たちが最近行った実験によると、その前提には一考の余地がありそうです。研究では、医学分野において、特殊なトレーニングを施されていない（と考えられている）GPT-4が、プロンプトの工夫を通して、専門モデルと同等あるいはそれ以上の成績を収めることが示唆されました。研究結果は、単に基盤モデルの性能を評価するだけでなく、プロンプトの工夫がAIの能力をいかに引き出すかという視点を提供しています。本記事では実験結果を中心に報告内容を見ていきます。参照論文情報タイトル：Can Generalist Foundation Mo
- テクノロジー
- 2023/12/05 15:56
- AI
- あとで読む
- medical
- Microsoft
- 研究
- science
- 技術
- 社会
「ChatGPTの1周年を記念して」、オープンソースLLMがChatGPTにどこまで追いついているか体系的調査報告 | AIDB
6 users
ai-data-base.com

ChatGPTのリリースは、AI研究や商業分野における大きな転換点となりました。指示チューニング、ファインチューニング、そして人間のフィードバックからの強化学習などもあわせて、さまざまなタスクで能力を示してきました。この成功に触発され、オープンソースLLMは急速に進化しています。そこで研究者らは、ChatGPTのリリースから1年を振り返り、オープンソースLLMがどのように進化し、例えばどのようなタスクでChatGPTと競合するレベルに達しているかを調査しました。本記事では調査報告内容を読んでいきます。参照論文情報タイトル：ChatGPT’s One-year Anniversary: Are Open-Source Large Language Models Catching up? 著者：Hailin Chen, Fangkai Jiao, Xingxuan Li, Cheng
- テクノロジー
- 2023/12/02 09:09
- LLM
- あとで読む
プロンプトを調整しないLLMのプロンプトエンジニアリング新手法『ControlPE』 | AIDB
4 users
ai-data-base.com

これまでのLLMの使用法は、モデルの動きを観察し、その反応に基づいてプロンプトを調整するという方法に重点が置かれてきました。しかし、プロンプトの効果を微細に制御するには不十分といえます。この問題に対処するため、センスタイム社を含む研究者たちが開発したのが『ControlPE』（Continuously Controllable Prompt Engineering）です。ControlPEは、プロンプトによるLLMの動きを直接調整する手法です。モデルの挙動を細かく直接的に制御することを目指しています。 ControlPEはモデルを直接編集することなく実現します。そのため、開発者や研究者はLLMをカスタマイズする際に大きなリスクやリソースを必要としません。本記事では背景、ポイント、実装について、性能評価の結果について見ていきます。参照論文情報タイトル：To be or not to b
- テクノロジー
- 2023/11/29 15:38
- あとで読む
Microsoftの研究者ら、比較的小さなサイズでもタスクによってはOpenAIのGPT-4を凌駕する言語モデル『Orca2』を開発 | AIDB
34 users
ai-data-base.com

Microsoft Researchのチームによって発表された『Orca2』は、OpenAIのGPT-4などの大規模言語モデル（LLM）に匹敵し、時には凌駕する性能を発揮するとのことです。『Orca2』のような小規模モデルの登場により、計算リソースが限られた環境や、リアルタイム処理が求められるアプリケーションにおいても、高性能な言語モデルが利用できるようになるかもしれません。なお、研究者らにより、将来的には大規模モデルと相互補完的に利用されるようになるべきと述べられています。本記事では、『Orca2』の背景、特徴、技術、利用シーン、GPT-4との比較、展望、そして注意点について見ていきます。参照論文情報タイトル：Orca 2: Teaching Small Language Models How to Reason 著者：Arindam Mitra, Luciano Del Co
- テクノロジー
- 2023/11/24 17:42
- Microsoft
- AI
- 人工知能
- 研究
- あとで読む
従来の小さなニューラルネットワークでも「メタ学習」でChatGPTを凌駕するほど高度な生成AIができるとの報告、Nature誌 | AIDB
6 users
ai-data-base.com

ニューヨーク大学をはじめとする研究チームが、Nature誌にて革新的な研究を公表しました。報告によれば、従来型のニューラルネットワークでも、ChatGPTなどの先端的な生成AIを上回る性能を発揮する可能性が示されています。この新技術は、限られたデータ量であっても高い効果を発揮するとされ、生成AIにおける多くの課題—コスト、資源、データの制約—を解決する新たな進路を開く可能性があります。研究で提案されたAIモデルは、「人間に匹敵する言語の汎用性」を有すると評価されています。もしそれが真実であれば、現行の大規模言語モデルがまだ達成していない、新次元の能力に到達しています。参照論文情報・タイトル：Human-like systematic generalization through a meta-learning neural network ・著者：Brenden M. Lake,
- テクノロジー
- 2023/10/31 01:44
- 人工知能
- techfeed
- AI
GPT-4などLLMのコード生成能力にデバッグ機能を追加する『SELF-DEBUGGING（セルフデバッギング）』と実行プロンプト | AIDB
24 users
ai-data-base.com

GPT-4などの大規模言語モデル（LLM）はコード生成においても驚異的な成果を上げています。しかし、モデルが生成するコードは必ずしも完璧ではありません。そこで、DeepMindとUCバークレーの研究者らは新たなフレームワーク『SELF-DEBUGGING（セルフデバッギング）』を開発しました。追加訓練なしでも、複数のベンチマークにおいて高いパフォーマンスを達成できる手法です。実行プロンプト（の例）は比較的シンプルで、多くのプログラミングタスクで容易に適用できます。参照論文情報・タイトル：Teaching Large Language Models to Self-Debug ・著者：Xinyun Chen, Maxwell Lin, Nathanael Schärli, Denny Zhou ・所属：Google DeepMind, UC Berkeley ・URL：https://
- テクノロジー
- 2023/10/28 09:53
LLMに非線形的な思考を与えてCoTを上回る性能を引き出す手法『IEP』と実行プロンプト CoTと組合せでさらに強力になる場合も | AIDB
40 users
ai-data-base.com

CoTの特徴と単一で使用する際の限界 Chain-of-Thought（CoT）は、LLMに推論能力を付与するための一般的な手法です。CoTは線形的な（直線的な）推論を実行させます。簡単に言うと「Aが真ならばBが真」といった形の推論を行わせることが多いです。 CoTは、問題解決の過程を一連のステップに分解し、それぞれのステップで特定の推論を行わせます。例えば、「雨が降っているなら、傘を持つべきだ」というような線形的な推論がCoTの一例です。質問応答（QA）タスクなどでよく使用されます。しかし、このアプローチにはいくつかの問題点があります。誤差の伝播 CoTは一つの思考のステップが次のステップに影響を与えるという連鎖的な構造を持っています。そのため、中間のステップで生じたわずかな誤差が、連鎖全体に伝播してしまう可能性があります。 CoTの中間ステップの評価は困難であり、最終的な答えだけが
- テクノロジー
- 2023/10/26 16:57
LLMにベートーヴェンなど特定の人物の行動や感情を模倣させる、イタコのような技術『Character-LLM（キャラクターLLM）』 | AIDB
11 users
ai-data-base.com

LLMをエージェントとして人間の行動をシミュレートする研究が進んでいます。今回新たに登場したのは、特定の人物、例えばベートーヴェンやクレオパトラなどの行動や感情を模倣させるよう訓練する新しいフレームワーク『Character-LLM（キャラクターLLM）』です。簡単に言えば「イタコ（霊媒師）」のような技術です。特定の人物のプロフィール、経験、感情状態を学習させ、その人物として行動するエージェントを訓練します。単なる指示に基づく対話よりも、高度な形で人物をシミュレートすることが可能になります。参照論文情報・タイトル：Character-LLM: A Trainable Agent for Role-Playing ・著者：Yunfan Shao, Linyang Li, Junqi Dai, Xipeng Qiu ・所属：School of Computer Science, Fuda
- テクノロジー
- 2023/10/23 20:28
- AI
- あとで読む
LLMがソフトウェアエンジニアリングでどのように適用可能か、網羅的な調査＆分析結果 | AIDB
4 users
ai-data-base.com

LLMは自然言語処理（NLP）の分野で多くの成功を収めており、その応用範囲は広がりつつあります。ソフトウェアエンジニアリングにおける多くのタスクでも実用が試されています。しかし、LLMには「ハルシネーション（hallucinations）」と呼ばれる現象、つまり不正確または誤った情報を生成する可能性があり、信頼性に影響を与える可能性があります。さらに、LLMの非決定的な性質は、科学的評価にも課題をもたらしています。同じプロセスを実行してもその度に結果が異なる可能性があり、この特徴はタスクによっては導入の障壁になっています。他にも、ソフトウェアエンジニアリングにおけるLLMの具体的な能力やリスクについては、まだ十分に理解されていないというのが現状です。 LLMの論文と、SEにLLMで取り組む論文のトレンド以上のような背景から、研究者らはLLMのソフトウェアエンジニアリングへの応用に関
- テクノロジー
- 2023/10/20 16:25
- あとで読む
LLMにナレッジグラフ（知識グラフ）を連携させることで、タスク遂行能力を大幅に向上させるフレームワーク『Graph Neural Prompting（GNP）』 | AIDB
92 users
ai-data-base.com

大規模言語モデル（LLM）は、質問応答、翻訳、テキスト要約など、さまざまなNLPタスクで優れた性能を発揮しています。しかし、モデルはしばしば正確な事実知識を捉えるのが難しく、根拠のない回答を生成することあります。この問題を解決するために、Amazonなどの研究者らが『Graph Neural Prompting（GNP）』という新しいフレームワークを考案しました。このフレームワークは、LLMにナレッジグラフ（知識グラフ）を連携させ、タスク遂行能力を大幅に向上させるものです。従来の方法では、モデルに学習データを追加するためには高いコストがかかりました。しかし、GNPを用いることで、より低いコストで高い成果を得ることができます。さらに、この方法はカスタマイズが非常に柔軟であり、特定のドメインや業界に合わせて調整することが可能です。この記事では、この興味深い研究について詳しく解説していきます
- テクノロジー
- 2023/10/19 23:26
- LLM
- あとで読む
- AI
- 論文
- 言語
LLMにまず前提から尋ることで出力精度を向上させる『ステップバック・プロンプティング』と実行プロンプト | AIDB
148 users
ai-data-base.com

ステップバック・プロンプティングは極めてシンプルで具体的なテクニックながら、CoT（Chain-of-Thought prompting）やTake a Deep Breatheといった既存の手法を凌駕する性能を発揮しています。参照論文情報・タイトル：Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models ・著者：Huaixiu Steven Zheng, Swaroop Mishra, Xinyun Chen, Heng-Tze Cheng, Ed H. Chi, Quoc V Le, Denny Zhou ・所属：Google DeepMind ・URL：https://doi.org/10.48550/arXiv.2310.06117 従来の課題 LLMはSTEM（科学、技術、工学、
- テクノロジー
- 2023/10/18 22:48
- AI
- プロンプト
- あとで読む
- LLM
- 機械学習
- 未分類
- 文章
- tech
人物の「不自然さ」を極限まで取り除いて超リアルな画像を生成する『HyperHuman（ハイパーヒューマン）』 | AIDB
5 users
ai-data-base.com

AIが生成する人物イラストがどれだけリアルになるのかを体感することができます。参照論文情報・タイトル：HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion ・著者：Xian Liu, Jian Ren, Aliaksandr Siarohin, Ivan Skorokhodov, Yanyu Li, Dahua Lin, Xihui Liu, Ziwei Liu, Sergey Tulyakov ・所属：The Chinese University of Hong Kong, The University of Hong Kong, Nanyang Technological University, Snap Inc. ・URL：https://doi.org/10.48550/arX
- テクノロジー
- 2023/10/18 17:24
GPT-4をセラピストとして実行し、「認知の歪み」を診断させるためのフレームワーク『Diagnosis of Thought (DoT)』と実行プロンプト | AIDB
852 users
ai-data-base.com

近年、精神療法の領域でAIの活用に注目が集まっています。そんな中、カーネギーメロン大学などの研究者らによって新たなフレームワーク『Diagnosis of Thought (DoT)』が考案されました。このフレームワークは、LLMによって人々の「認知の歪み」を診断する目的に特化しており、専門家によって高く評価されています。認知の歪みとは、例えば「0か100か」のような極端な考え方や、他人の考えを勝手に推測するなど、不健康な思考パターンのことを指します。 DoTフレームワークを用いた診断結果は、人間の専門家が出す診断結果とも高い一致性を示しており、その有用性が確認されています。（追記）なお、本フレームワークに基づくMyGPTを作成しました。記事末尾にURLを記載するため、興味のある方はぜひお試しください。参照論文情報・タイトル：Empowering Psychotherapy wit
- テクノロジー
- 2023/10/16 20:51
- AI
- あとで読む
- ChatGPT
- 心理
- メンタルヘルス
- 医療
- 人工知能
- 論文
- LLM
- GPT
LLMは時折「一時停止」させると、より計算し深く推論するためアウトプットの品質が向上するとの検証結果。新トークン導入フレームワーク | AIDB
41 users
ai-data-base.com

本研究は、一時停止トークンという新しい手法を導入することでLLMに追加で計算を行わせ、推論を深めさせることに成功しています。本記事ではその詳細をご紹介します。また、プロンプトを工夫することで、一時停止トークンのような効果を模倣する可能性も考察しました。一般のユーザーも高度なプログラミングスキルや専門的な知識なしに、LLMの性能を向上させることができるかもしれません。さらに記事の最後では、人間の挙動との類似性にも触れました。参照論文情報タイトル：Think before you speak: Training Language Models With Pause Tokens 著者：Sachin Goyal, Ziwei Ji, Ankit Singh Rawat, Aditya Krishna Menon, Sanjiv Kumar, Vaishnavh Nagarajan 所属：
- テクノロジー
- 2023/10/12 17:52
- LLM
- 人工知能
- あとで読む
- 研究
- software
- science
- 技術
- IT
画像分析機能を持つオープンソースLLM『LLaVA-1.5』登場。手持ちの画像を分析可能。GPT-4Vとの違い | AIDB
26 users
ai-data-base.com

関連研究（続きは記事末尾にあります） ■OpenAI、ChatGPTが画像を分析する『GPT-4V（ビジョン）』を発表。安全性、嗜好性、福祉機能を強化 ■Microsoftの画像セグメンテーション新技術「SEEM（Segment Everything Everywhere Model）」の凄さ、Meta AIのSAMとの違い従来の課題視覚情報の処理能力不足従来のLLMは、言語タスクに対する能力は優れていましたが、多モーダル（視覚と言語）のアップデートはあまり行われていませんでした。要するに、視覚的な情報を処理する能力には限界がありました。高性能な画像分析LLMの需要多くの開発者や研究者が高性能な画像分析LLMを求めていましたが、これまでのところそのようなモデルは一般に提供されていませんでした。これらの課題を解決するために、LLaVA-1.5が開発されました。このモデルは、視覚エ
- テクノロジー
- 2023/10/11 18:38
- LLM
- GPT
- 分析
- AI
- 画像
- あとで読む
- モデル
LLMは世界モデルを持ち「物事がどのように位置づけられ、時間がどのように進行するか」を理解する可能性 | AIDB
7 users
ai-data-base.com

関連研究（続きは記事の末尾にあります） ■ GPT-4などのLLMが「AはB」から「BはA」を導かない『逆転の呪い』における誤解なき解釈と対策 ■ 推論能力をさらに強める戦略『AoT』で、LLMが「直感」に似た能力を示すようになった ■ GPT-4に選択肢を与えるとき、順序を入れ替えるだけで性能に大きな変化があることが明らかに従来の課題 LLMの目的と”理解” 大規模言語モデル（LLM）は、基本的に「テキストの次のトークンを予測する」という目的で訓練されています。しかし、これらのモデルは単なるテキスト生成以上の能力を示しており、”理解”に似た挙動が見られます。 LLMが何をどう理解しているのかは、非常に不明確です。とは言え、LLMは単に大量の相関関係を学習した結果を出力しているだけではなく、独自のデータ生成プロセスを持っている可能性が指摘されています。研究の背景と疑問点 LLMの高い能
- テクノロジー
- 2023/10/11 17:00
- 人工知能
- 科学
プロンプトを遺伝的アルゴリズムで自動最適化するプロンプトエンジニアリング手法『Promptbreeder（プロンプトブリーダー）』 | AIDB
109 users
ai-data-base.com

関連研究 ■GPT-4などのLLMに「自らの論理的な整合性をチェック」させるフレームワーク『LogiCoT』と実行プロンプト ■LLMの出力から誤り（ハルシネーション）を減らす新手法『CoVe（Chain-of-Verification）』と実行プロンプト ■LLMに自身のハルシネーション（幻覚）を「自覚」させ、減らす方法従来の課題手作りのプロンプト戦略現在、プロンプトエンジニアリングの分野で広く用いられているChain-of-Thought（CoT）やその派生テクニックは、基本的には手作りです。特定のタスクや問題に対して最適なプロンプトを設計する際に、人の専門家が手動でプロンプトを生成しています。自動化の必要性手作りのアプローチは効果的である場合も多いですが、スケーラビリティに欠けるという問題があります。大規模言語モデル（LLM）が多様なタスクで使用される現代においては、プロン
- テクノロジー
- 2023/10/09 18:32
- 人工知能
- あとで読む
- アルゴリズム
- LLM
- プロンプト
- techfeed
- AI
- GPT
- algorithm
ポーカーなど不完全情報ゲームを「心の理論」で上手にプレイするGPT-4ベースの『Suspicion（疑心）-Agent』松尾研など開発 | AIDB
3 users
ai-data-base.com

今回研究者らは不完全情報ゲームであるポーカーに似たゲームに対応できるAIモデル『Suspicion-Agent』を開発しました。アーキテクチャは、以下の3つの主要な要素で構成されています。 1. 観察インタープリタ（Observation Interpreter）ゲームの状態を解析し、エージェントに何が起きているのかを理解させる役割を果たします。ゲームの進行状況や他のプレイヤーの行動を観察し、それをエージェントが解釈できる形に変換します。 2. 計画モジュール（Planning Module）観察インタープリタから得られた情報を基に、具体的な行動計画を立てる役割を持ちます。エージェントがどのように行動すべきかを決定する際の戦略を形成します。 3. 心の理論（Theory of Mind）他のプレイヤーの行動や意図を理解し、それをエージェントの戦略に取り込む役割を果たします。他のプレ
- テクノロジー
- 2023/10/06 10:38
GPT-4などのLLMが「AはB」から「BはA」を導かない『逆転の呪い』における誤解なき解釈と対策 | AIDB
21 users
ai-data-base.com

「LLMのふるまい」関連研究 GPT-4に選択肢を与えるとき、順序を入れ替えるだけで性能に大きな変化があることが明らかに大規模言語モデルにおける課題と応用例を整理した結果 ChatGPTの”ふるまいの変化”を定量的に分析した結果従来の課題 LLMの登場と期待大規模言語モデル（LLM）が登場して以来、その能力に多くの期待が寄せられています。LLMが人間のように自然言語を理解しているように見えたり、複雑な構造のテキストを生成する能力には多くの驚きがありました。論理的一貫性への疑問しかし、その一方で、LLMが「どれだけ論理的なのか？」という問いに対する明確な答えがない状況が続いています。LLMが高度な自然言語処理能力を持つ一方で、その論理的一貫性や一般化能力についてはまだ十分に理解されていません。一般化の問題 LLMにおける一般化の能力に対する疑問とは、「LLMは大量のデータで訓練さ
- テクノロジー
- 2023/10/05 19:54
- LLM
- 研究
- あとで読む
- データ
- ai
「1枚絵の3D化」が非常に手軽な操作で実行できる軽快なツール『DreamGaussian』とWebでの使い方 | AIDB
3 users
ai-data-base.com

「画像・イラスト生成」関連研究 AIのテキスト・イラスト生成によるCO2排出量は人間より約100〜1000倍以上「少ない」との報告 “脳波”から映像を生成する技術「DreamDiffusion」登場テキストから科学的な図を生成する新手法「FigGen」登場 OpenAI、ChatGPTが画像を分析する『GPT-4V（ビジョン）』を発表。安全性、嗜好性、福祉機能を強化従来の課題 3Dコンテンツ生成の重要性 3Dコンテンツ生成は、デジタルゲーム、広告、映画、メタバースなど、多くの分野で非常に重要です。手作業による3Dアセット作成の手間を減らし、非専門家でも3Dコンテンツを作成できるようにする技術が求められています。時間と計算負荷従来の3Dコンテンツ生成手法は、一般的に「時間がかかる」かつ「計算負荷が高い」という課題がありました。最適化ベースの2Dリフティング（lifting）手法は、長
- テクノロジー
- 2023/10/03 23:13
GPT-4、Bard、Claude2などの異なるLLMが円卓を囲み議論した結果の回答は品質が高いとの検証報告。円卓ツールも公開 | AIDB
60 users
ai-data-base.com

異種LLM同士の議論米ノースカロライナ大学の研究者らは、異なる種類の大規模言語モデル（LLM）同士に議論させるというアプローチを採りました。このアイデアの背後には、異なるモデルがそれぞれの強みと弱みを持っているという認識があります。例えば、GPT-4は一般的なテキスト生成に優れている一方で、Bardは物語生成に特化しています。これらのモデルを組み合わせることで、より高度な推論が可能になると考えられています。研究者らは、複数の異なるLLM（GPT-4、Bard、Claude2など）を円卓会議のような形で議論させるアイデアを形にしました。各モデルは独自の視点と推論能力を持ち寄り、最終的な回答や結論を出す過程が検証されました。異種LLMs円卓会議ツール研究者らはただ実験を行って報告するだけでなく、LLM同士に議論させて答えを提出させるプロセスを自動化するツールも提供しています。このツー
- テクノロジー
- 2023/10/02 15:01
- 人工知能
- 文章生成AI
- AI
- gpt
- あとで読む
- techfeed
- 研究
- ツール
GPT-4などのLLMに「自らの論理的な整合性をチェック」させるフレームワーク『LogiCoT』と実行プロンプト | AIDB
38 users
ai-data-base.com

関連研究 LLMの出力から誤り（ハルシネーション）を減らす新手法『CoVe（Chain-of-Verification）』と実行プロンプト推論能力をさらに強める戦略『AoT』で、LLMが「直感」に似た能力を示すようになったメタ認知をさせてLLMの能力を上げる手法「メタ認知プロンプティング」従来の課題と背景 LLMの推論能力の限界大規模言語モデル（LLM）は、短い質問や単純なタスクに対してはゼロショットで高い性能を発揮しますが、ステップバイステップの推論が必要な長い質問や複雑なタスクに対しては、通常はその性能に限界があります。複数の前提条件や仮定に基づいて論理的に推論する必要がある場合、LLMはしばしば不正確な結論に至ることがあります。 CoTフレームワークの限界と利点 Chain-of-Thought（CoT）フレームワークは、このような複雑な問題に対する一つの解決策として提案され
- テクノロジー
- 2023/09/29 16:47
- 機械学習
- LLM
- AI
- GPT
- あとで読む

はてなブックマーク

はてなブックマーク

『AIDB』

わずか2行のプロンプトでも実効性のある新しいアライメント手法『URIAL』 | AIDB

DeepMindの研究者らが有効性を検証した、LLMに自ら高品質な訓練データを生成させる「自己学習」 | AIDB

LLMへの入力プロンプトを「意味を保持したまま」高度に圧縮する技術『LLMLingua』 | AIDB

「視覚は本来、言語に依存しない」と考えた研究者らが、言語データなしで大規模ビジョンモデル（LVM）を構築するアプローチを開発 | AIDB

Geminiの高い推論能力を活かして、過去最高水準のプログラミングAI『AlphaCode 2』も誕生したとの報告 | AIDB

Googleが「人間の専門家レベルを超える最初のモデル」とする『Gemini』発表、GPT-4を凌駕 | AIDB

DeepMindの『GNoME』が「人間の直感を超えた220万の材料を発見し」うち736は既に人間が実験室で再現したとの報告、Nature誌 | AIDB

基盤モデル（GPT-4）はプロンプトの工夫で専門特化モデルに匹敵するほど性能が向上することが「医学分野」で示唆される | AIDB

「ChatGPTの1周年を記念して」、オープンソースLLMがChatGPTにどこまで追いついているか体系的調査報告 | AIDB

プロンプトを調整しないLLMのプロンプトエンジニアリング新手法『ControlPE』 | AIDB

Microsoftの研究者ら、比較的小さなサイズでもタスクによってはOpenAIのGPT-4を凌駕する言語モデル『Orca2』を開発 | AIDB

従来の小さなニューラルネットワークでも「メタ学習」でChatGPTを凌駕するほど高度な生成AIができるとの報告、Nature誌 | AIDB

GPT-4などLLMのコード生成能力にデバッグ機能を追加する『SELF-DEBUGGING（セルフデバッギング）』と実行プロンプト | AIDB

LLMに非線形的な思考を与えてCoTを上回る性能を引き出す手法『IEP』と実行プロンプト CoTと組合せでさらに強力になる場合も | AIDB

LLMにベートーヴェンなど特定の人物の行動や感情を模倣させる、イタコのような技術『Character-LLM（キャラクターLLM）』 | AIDB

LLMがソフトウェアエンジニアリングでどのように適用可能か、網羅的な調査＆分析結果 | AIDB

LLMにナレッジグラフ（知識グラフ）を連携させることで、タスク遂行能力を大幅に向上させるフレームワーク『Graph Neural Prompting（GNP）』 | AIDB

LLMにまず前提から尋ることで出力精度を向上させる『ステップバック・プロンプティング』と実行プロンプト | AIDB

人物の「不自然さ」を極限まで取り除いて超リアルな画像を生成する『HyperHuman（ハイパーヒューマン）』 | AIDB

GPT-4をセラピストとして実行し、「認知の歪み」を診断させるためのフレームワーク『Diagnosis of Thought (DoT)』と実行プロンプト | AIDB

LLMは時折「一時停止」させると、より計算し深く推論するためアウトプットの品質が向上するとの検証結果。新トークン導入フレームワーク | AIDB

画像分析機能を持つオープンソースLLM『LLaVA-1.5』登場。手持ちの画像を分析可能。GPT-4Vとの違い | AIDB

LLMは世界モデルを持ち「物事がどのように位置づけられ、時間がどのように進行するか」を理解する可能性 | AIDB

プロンプトを遺伝的アルゴリズムで自動最適化するプロンプトエンジニアリング手法『Promptbreeder（プロンプトブリーダー）』 | AIDB

ポーカーなど不完全情報ゲームを「心の理論」で上手にプレイするGPT-4ベースの『Suspicion（疑心）-Agent』松尾研など開発 | AIDB

GPT-4などのLLMが「AはB」から「BはA」を導かない『逆転の呪い』における誤解なき解釈と対策 | AIDB

「1枚絵の3D化」が非常に手軽な操作で実行できる軽快なツール『DreamGaussian』とWebでの使い方 | AIDB

GPT-4、Bard、Claude2などの異なるLLMが円卓を囲み議論した結果の回答は品質が高いとの検証報告。円卓ツールも公開 | AIDB

GPT-4などのLLMに「自らの論理的な整合性をチェック」させるフレームワーク『LogiCoT』と実行プロンプト | AIDB

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

『AIDB』

このページはまだブックマークされていません

キーボードショートカット一覧

公式Twitter

はてなのサービス

このページはまだ
ブックマークされていません