生成AIの推論精度向上を目的としてRAGの実装が進んでいますが、その性能を適切に評価することも重要です。複雑な評価プロセスに対応するために提案された「Auepora」と呼ばれる評価方法分析フレームワークを紹介します。
![自社用LLM構築にむけて RAG評価ってどうやればいいの? 最新フレームワーク「Auepora」をチェック](https://cdn-ak-scissors.b.st-hatena.com/image/square/1c0971b5ffbaa0b366390d3123081d9a8f49a8b1/height=288;version=1;width=512/https%3A%2F%2Fimage.itmedia.co.jp%2Fenterprise%2Farticles%2F2407%2F24%2Fcover_news064.jpg)
生成AIの推論精度向上を目的としてRAGの実装が進んでいますが、その性能を適切に評価することも重要です。複雑な評価プロセスに対応するために提案された「Auepora」と呼ばれる評価方法分析フレームワークを紹介します。
Googleは2024年6月20日(現地時間)、脆弱(ぜいじゃく)性の検出に大規模言語モデル(LLM)を活用する新しい研究開発プロジェクト「Naptime(お昼寝タイム)」を発表した。 C/C++の脆弱性検出はLLMに任せて“お昼寝しよう” NaptimeはAIエージェントとターゲットコードベース間のインタラクションを中心に構築されたアーキテクチャだ。特にC/C++の高度なメモリ破壊およびバッファーオーバーフローの脆弱性を発見することに焦点を当てている。この2つの対象は従来の方法論では発見することが難しく、GoogleはLLMを利用することで検出効率を最大20倍まで改善できると説明している。 なお、プロジェクト名の由来は開発した成果物がセキュリティ担当者やIT担当者を支援し、定期的に昼寝ができるくらいにはなりたいという願掛けになっているという。 Naptimeのアーキテクチャはセキュリティ
最近、ローカルLLMがアツくなっているという話をtwitterでチラホラ見かける。 ローカルLLMって何じゃ?というと、オープンに公開されているモデルのウエイトをDLしてきて手元のPC上で推論させる事である。 オープンなAIモデルとは逆の存在として、モデルがDLできないクローズなAIモデルもある。 OpenAIやAnthropicのような最先端AI企業のクローズなAIモデルに比べて、オープンに公開されているオープンなAIモデルの性能は今でもかなり後れを取っている。 だから去年の間はあくまでAIの本命はChatGPTのようなクローズモデルであって、オープンなAIモデルなんて眼中にありませんみたいな風潮が無くはなかった。だが最近は風向きが少々変わってきている。 GPTのAPI高い問題 & OpenAIがAIベンチャー皆殺しにしてしまう問題 まず「結局GPTのAPIを叩いてサービス運営して成功し
OpenAIが開発する大規模言語モデル(LLM)のGPT-4は、一般公開されている脆弱(ぜいじゃく)性を悪用してサイバー攻撃を成功させることが可能であることが最新の研究により明らかになりました。 [2404.08144] LLM Agents can Autonomously Exploit One-day Vulnerabilities https://arxiv.org/abs/2404.08144 GPT-4 can exploit real vulnerabilities by reading advisories • The Register https://www.theregister.com/2024/04/17/gpt4_can_exploit_real_vulnerabilities/ LLM Agents can Autonomously Exploit One-da
CTO 室の恩田です。 今回は GitHub Copilot Enterprise を評価してみて、現時点ではまだ採用しないことを決めた、というお話をご紹介したいと思います。 きっかけ とあるエンジニアが Slack で自身の times チャネルに時雨堂さんの GitHub Copilot Enterprise のススメという記事を投稿したことが発端でした。特に感想はなく URL に 👀 だけが添えられていたので、後で見るぐらいのメモだったんだと思います。 それを見かけた別のエンジニアが技術雑談チャネルにその投稿を共有して、これは凄そうと話題を向けたところ、CTO の「評価してみる?」の一言で、有志が集って評価プロジェクトが始まりました。 雑談チャネルできっかけとなる投稿が共有されてから、30分足らずの出来事でした(笑)。 この話題が出たのは金曜日でしたが、週明け早々に稟議を終え、火曜
ChatGPTが登場した当初、対話や要約、翻訳、コード生成などの典型的な言語タスクができても、SREやAIOpsの研究開発にはあまり関係ないのではないかと正直思っていた。AIOpsでは典型的にはいわゆるObservabilityデータ(メトリクス、ログ、トレースなど)が入力となるため、自然言語ではなく数値のデータを解析することが求められる。自然言語のタスクを研究対象としていなかったため、AIOpsとChatGPTに強い関係性は見いだせなかった*1。 しかし、自分で大規模言語モデル(Large Language Model: LLM)を日常的に使用したり、表題にあるようにSREのためのLLM(LLM for SRE, LLM4SRE)に関する論文を読むうちに、LLMのテキスト生成器としての性質よりもその優れた推論機械としての性質に注目するようになった。特にSREの障害診断は、人間の専門家が推
概要 Sakana AIは進化や集合知などの自然界の原理を応用して基盤モデルを開発することを目指しています。私達の目標は、モデルを自ら訓練し開発することだけではありません。基盤モデルの開発を効率化、高度化、自動化するための新たな手法を生み出すことに挑戦しています。この目標に向けた第一歩として、私たちはプレプリント「Evolutionary Optimization of Model Merging Recipes (モデルマージの進化的最適化)」を公開しました。 このリリースの要点は以下の通りです。 進化的モデルマージという手法を提案します。これは、多様な能力を持つ幅広いオープンソースモデルを融合(マージ)して新たな基盤モデルを構築するための方法を、進化的アルゴリズムを用いて発見する手法です。私たちの手法は、ユーザーが指定した能力に長けた新しい基盤モデルを自動的に作成することができます。既
はじめに この記事では、巷で「この技術によりGPUが不要になるかもしれない、NVIDIAなどの半導体関係の株価が...」と話題になっている、BitNet b1.58についての論文を丁寧に解説します。このMicrosoftが先日発表したBitNet b1.58はそのエネルギー効率の凄まじさから2024年初めの大きな技術改革となるかもしれません!! 筆者の見解 関する論文解説に入る前に、この技術に関する私の個人的な意見を述べたいと思います。 1bitの技術を用いることで達成されたその驚異的なエネルギー効率の高さは、既存の大規模言語モデル(LLM)とは一線を画しています。この技術が今後のAI技術の発展にどのように影響を与えるかについては以降の発表がとても楽しみです。 一方で、「GPUが不要になるかもしれない」という意見に関しては、ある程度の限定的な視点からの意見と言えます。BitNet b1.5
松尾研究室が2023年9~10月に東京大学サマースクールで開催した LLM 大規模言語モデル講座のコンテンツを無償公開しています。 本講座は約2,000名の受講者が参加し、全7回の講義を実施しました。 最終課題としてGPUを使ったコンペティションでは約800名が参加し熱戦を繰り広げました。 現在、講義のスライドのみ公開しております。 ダウンロードは利用規約を確認の上、下記からダウンロードをお願いいたします。 最終更新: 2024年2月10日 問題・フィードバック報告フォームはこちら 第1回:Overview of Language Models LLMの概要、今後の各回の講義の概要、および日本のLLM開発状況について 第2回:Prompting and Augmented Language Model 事前学習済みLLMを追加学習せずに活用する技術(プロンプティング、⽂脈内学習、Augme
オープンLLMの開発をリードする現場の視点から、開発の実情や直面する課題について発表したのは、Stability AI Japan株式会社の秋葉拓哉氏。Weights & Biasesのユーザーカンファレンス「W&Bカンファレンス」で、LLM開発のポイントを紹介しました。全2記事。前半は、より優れたLLMを作るために必要なこと。前回はこちら。 より優れたLLMを作るために必要なこと 秋葉拓哉氏:めでたくFine-Tuningもできた。これけっこう、びっくりするかもしれません。コードはさすがにゼロとはいかないと思いますが、ほとんど書かずに実はLLMは作れます。 「さすがにこんなんじゃゴミみたいなモデルしかできないだろう」と思われるかもしれませんが、おそらく余計なことをしなければこれだけでも、まあまあそれっぽいLLMにはなるかなと思います。 なので、ちょっと、先ほどの鈴木先生(鈴木潤氏)の話と
オープンLLMの開発をリードする現場の視点から、開発の実情や直面する課題について発表したのは、Stability AI Japan株式会社の秋葉拓哉氏。Weights & Biasesのユーザーカンファレンス「W&Bカンファレンス」で、LLM開発のポイントを紹介しました。全2記事。前半は、LLM構築タイムアタック。 「GPT-4を作ってください」と言われたらどう答える? 秋葉拓哉氏:みなさん、こんにちは。秋葉と申します。それでは、発表させていただきたいと思います。 みなさん、さっそくですが、「GPT-4」ってすごいですよね。ここにいらっしゃっている方々はこれについては、もう疑いの余地なく、同意してくださるかなと思います。 では、質問なんですが、もし「GPT-4を作ってください。予算はあるんだよ」と上司に言われたら、どう答えますか? ということをちょっと聞いてみたいですね。 これはけっこう意
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 米カーネギーメロン大学などに所属する研究者らが発表した論文「Universal and Transferable Adversarial Attacks on Aligned Language Models」は、大規模言語モデル(LLM)が有害なコンテンツを生成しない仕組みを無効にする手法を提案した研究報告である。入力プロンプトの語彙に敵対的フレーズを入力するだけで解除可能だという。 ChatGPT、Bard、ClaudeなどのLLMは、ユーザーの質問に対する回答で有害なコンテンツ(例:爆弾の作り方やIDの盗み方、人種差別的なジョーク、詐欺
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く