並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 72件

新着順 人気順

自然言語処理の検索結果1 - 40 件 / 72件

  • 大規模言語モデル (LLM) の技術と最新動向

    マルチメディア,分散,協調とモバイル(DICOMO2024)シンポジウムでの招待講演の資料です。 https://dicomo.org/

      大規模言語モデル (LLM) の技術と最新動向
    • 加熱するLLM開発競争に冷や水、オープンモデルの組み合わせだけでGPT-4o越えの事実

      加熱するLLM開発競争に冷や水、オープンモデルの組み合わせだけでGPT-4o越えの事実 2024.06.21 Updated by Ryo Shimizu on June 21, 2024, 18:19 pm JST 世界中の企業や政府が狂ったようにNVIDIAのGPUを買い漁る流れはそろそろ潮時かもしれない。 いくつかの興味深い事象が起きているからだ。 昨日発表されたKarakuri社のLLM、「KARAKURI LM 8x7B Instruct v0.1」は、非常に高性能な日本語LLMだ。Karakuri社は今年の一月にも非常に高性能な70Bモデルを引っ提げて業界に旋風を巻き起こした。この最新のLLNは、日本語向けオープンLLMとしては初の「命令実行」チューニングを施されている。それだけでなく、RAGと呼ばれる、複数の知識を組み合わせてより正解に近い答えを導く技術や、Function

        加熱するLLM開発競争に冷や水、オープンモデルの組み合わせだけでGPT-4o越えの事実
      • [翻訳]LLMで1年間開発して学んだこと〜LLMプロダクト開発を成功に導くための実践的ガイド〜

        この記事は "What We’ve Learned From A Year of Building with LLMs" という記事を著者の一人である Eugene Yan さんから許可を得て翻訳したものです。 https://applied-llms.org/ Thank you for giving me a permission to translate this wonderful article! 著者の方々 Eugene Yan Bryan Bischof Charles Frye Hamel Husain Jason Liu Shreya Shankar 原文の公開日 2024/6/8 今は大規模言語モデル(LLM)を使った開発がとってもエキサイティングな時期です。この1年間で、LLMは実世界のアプリケーションに対して「十分に良い」ものになりました。そして、年々良くなり、安く

          [翻訳]LLMで1年間開発して学んだこと〜LLMプロダクト開発を成功に導くための実践的ガイド〜
        • 自分専用AIを作る グーグル「NotebookLM」を家電取説・辞書・時刻表で使う

            自分専用AIを作る グーグル「NotebookLM」を家電取説・辞書・時刻表で使う
          • RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳

            大規模言語モデル (LLM) の学習データに含まれない知識(各社の特有の書類など)を踏まえてLLMに回答させる際に最早必須となってきたRAG (Retrieval-Augumented Generation)。 今回はそんなRAGのSurvey論文を元に、RAGの変遷や構成要素、新たに出てきた技術を俯瞰していきます。 Survey論文へのリンクはこちら arxiv.org RAGとは LLMはそれ単体で回答させると、質問によってはハルシネーションや学習時のデータにはなかった情報を生成時に加味できないといった問題から正しくない回答を生成することが多々あります。例えば世間一般に公開されていない自社の就業規則や業務標準についてをChatGPTに質問しても、正しい回答は得られません。 そのような問題への対応としてRAGが使われます。 「LLM単体で適切な回答を生成できないなら、ユーザーの質問を元に

              RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳
            • 中島聡さん、NVIDIAのGPUが用済みになるって本当ですか?AI開発の行列乗算をなくす「MatMul-free LM」で気がかりなこと - まぐまぐニュース!

              エヌビディアの強みであるGPUの優位性を揺るがすかもしれないAI関連の注目論文とは?人気急上昇中のメルマガ『週刊 Life is beautiful』より読者Q&Aをご紹介。著者の中島さんは「Windows95の父」として知られる日本人エンジニア。メルマガでは毎号、読者からの質問に丁寧に回答しています。 ※本記事のタイトル・見出しはMAG2NEWS編集部によるものです プロフィール:中島聡(なかじま・さとし) ブロガー/起業家/ソフトウェア・エンジニア、工学修士(早稲田大学)/MBA(ワシントン大学)。NTT通信研究所/マイクロソフト日本法人/マイクロソフト本社勤務後、ソフトウェアベンチャーUIEvolution Inc.を米国シアトルで起業。現在は neu.Pen LLCでiPhone/iPadアプリの開発。 1ビットの高速推論AIチップ 米国より先に中国が開発する可能性も 読者からの質

                中島聡さん、NVIDIAのGPUが用済みになるって本当ですか?AI開発の行列乗算をなくす「MatMul-free LM」で気がかりなこと - まぐまぐニュース!
              • PostgreSQLを生成AIの情報源として使える高速ベクトルデータベース化拡張「Pgvectorscale」がオープンソースで公開。Pgvectorをさらに高性能化

                PostgreSQLのマネージドサービスなどを提供しているTimescaleは、PostgreSQLで高速なベクトルデータベース機能を実現する拡張機能「Pgvectorcale」をオープンソースとして公開したことを発表しました。 大規模言語モデルを用いた生成AIの注目度が高まる中で、文章や画像、音声といったデータの特徴を数値で表現するベクトル化(もしくはエンベディング)により、大規模言語モデルで扱えるようにすることへの注目も高まってきています。 ベクトルデータベースは、このベクトル化された膨大なデータの保存や類似度の検索などが可能です。 例えば、RAG(Retrieval Augmented Generation)と呼ばれる手法により大規模言語モデルの回答に外部のデータベースから取得したデータを組み込むことができます。こうした場面でベクトルデータベースが活用されます。 高速ベクトルデータベ

                  PostgreSQLを生成AIの情報源として使える高速ベクトルデータベース化拡張「Pgvectorscale」がオープンソースで公開。Pgvectorをさらに高性能化
                • 国産LLM初、AIエージェントとして使える「KARAKURI LM 8x7B Instruct v0.1」を一般公開 | KARAKURI

                  トップ セミナー・お知らせ お知らせの記事一覧 国産LLM初、AIエージェントとして使える「KARAKURI LM 8x7B Instruct v0.1」を一般公開 ~6月20日・21日開催の AWS Summit 2024 で初披露~ カスタマーサポートDXを推進するカラクリ株式会社(東京都中央区:代表取締役CEO 小田志門、以下カラクリ)は、6月20日に国産LLMの中で初めて※1Function callingとRAGに対応した「KARAKURI LM 8x7B Instruct v0.1」を公開いたします。本対応により、「KARAKURI LM 8x7B Instruct v0.1」は様々なアプリケーションを人間に代わって操作するAIエージェント※2としての活用が可能です。そのため生成AIをビジネス実装をする際に、従来の国産モデルであれば必要だった「業界・企業特有のタスクのプログラミ

                    国産LLM初、AIエージェントとして使える「KARAKURI LM 8x7B Instruct v0.1」を一般公開 | KARAKURI
                  • 「よーしパパ、Ollama で Llama-3-ELYZA-JP-8B 動かしちゃうぞー」 - Qiita

                    はじめに こんにちは、KDDIアジャイル開発センターのはしもと(仮名)です。 エンドレス水出しコーヒーの時期になりましたね。 今回は、Ollama を使って日本語に特化した大規模言語モデル Llama-3-ELYZA-JP-8B を動かす方法をご紹介します。 このモデルは、日本語の処理能力が高く、比較的軽量なので、ローカル環境での実行に適しています。さあその性能は如何ほどに!!!!????はやくAIは俺から仕事を奪え。 Llama-3-ELYZA-JP-8Bとは Llama-3-ELYZA-JP-8Bは、ELYZA社が開発した日本語に特化した大規模言語モデルです。Meta社の「Llama 3」シリーズをベースに、日本語での追加学習を行っています。80億パラメータという比較的小さなモデルサイズながら、「GPT-3.5 Turbo」や「Claude 3 Haiku」、「Gemini 1.0 P

                      「よーしパパ、Ollama で Llama-3-ELYZA-JP-8B 動かしちゃうぞー」 - Qiita
                    • Microsoft、RAGの機能を拡張、強化させたGraphRAGを一般利用可能に | gihyo.jp

                      Microsoft⁠⁠、RAGの機能を拡張⁠⁠、強化させたGraphRAGを一般利用可能に Microsoftは2024年7月2日、LLMが生成する出力の精度を向上させるために利用するRAG(検索拡張生成)の機能を拡張/強化した「GraphRAG」をGitHub上で公開した。 GraphRAG: New tool for complex data discovery now on GitHub -Microsoft Research Blog Welcome to GraphRAG RAG(Retrieval-Augmented Generation:検索拡張生成)は、ユーザーのクエリに基づいて特定の分野や組織の内部ナレッジベースの情報を検索し、その結果を参照してAIの回答に組み合わせる技術。モデルを再トレーニングすることなく、これらの情報を生成結果に即座に反映できる。 一方、通常のRAG

                        Microsoft、RAGの機能を拡張、強化させたGraphRAGを一般利用可能に | gihyo.jp
                      • デコンパイルに特化した大規模言語モデル「LLM4Decompile」の登場

                        3つの要点 ✔️ デコンパイルに特化した初のオープンソースモデル「LLM4Decompile」を開発 ✔️ モデルに新しい学習目的を導入し、デコンパイルの精度向上を実現 ✔️ 再コンパイルと再実行可能性に焦点を当てたデコンパイルのための初の標準化されたベンチマークを構築 LLM4Decompile: Decompiling Binary Code with Large Language Models written by Hanzhuo Tan, Qi Luo, Jing Li, Yuqun Zhang (Submitted on 8 Mar 2024) Comments: Published on arxiv. Subjects: Programming Languages (cs.PL); Computation and Language (cs.CL) code: 本記事で使用してい

                          デコンパイルに特化した大規模言語モデル「LLM4Decompile」の登場
                        • 「GPT-4」を上回る日本語性能のLLM「Llama-3-ELYZA-JP」を開発しました|ELYZA, Inc.

                          本記事のサマリーELYZA は、「Llama-3-ELYZA-JP」シリーズの研究開発成果を公開しました。700億パラメータのモデルは、日本語の生成能力に関するベンチマーク評価 (ELYZA Tasks 100、Japanese MT-Bench) で「GPT-4」を上回る性能を達成しました。各モデルは Meta 社の「Llama 3」シリーズをベースに日本語で追加学習を行なったものです。 ■「Llama-3-ELYZA-JP-70B」 700億パラメータモデル。「GPT-4」を上回る日本語性能を達成。無料で利用可能なデモを用意しています。 ■「Llama-3-ELYZA-JP-8B」 80億パラメータと軽量ながらも「GPT-3.5 Turbo」に匹敵する日本語性能を達成。モデルを商用利用可能な形で一般公開しました。 使用したAPIのバージョンなど、より詳細な評価結果については本記事の後段

                            「GPT-4」を上回る日本語性能のLLM「Llama-3-ELYZA-JP」を開発しました|ELYZA, Inc.
                          • 解説:生成AIのハルシネーションはなぜ起きるのか

                            大規模言語モデルが「ハルシネーション(幻覚)」を生成することはよく知られている。ただ、その仕組みから明らかのように、LLMの出力は本質的にはすべてハルシネーションであり、間違いが発覚したものがそう呼ばれているだけだ。 by Will Douglas Heaven2024.06.24 58 25 この記事の3つのポイント チャットボットは間違った情報を提供することがある 大規模言語モデルは統計的確率に基づいてテキストを生成する ハルシネーションを完全に防ぐことは不可能である summarized by Claude 3 2024年4月2日、世界保健機関(WHO)の新しいチャットボットが「善意の意図」の下にリリースされた。 リリースされたのは、「GPT-3.5」が搭載された新顔のバーチャル・アバター「サラ(SARAH:Smart AI Resource Assistant for Health

                              解説:生成AIのハルシネーションはなぜ起きるのか
                            • GPT4All

                              Your chats are private and never leave your deviceGPT4All is built with privacy and security first. Use LLMs with your sensitive local data without it ever leaving your device. Run language models on consumer hardwareGPT4All allows you to run LLMs on CPUs and GPUs. It fully supports Mac M Series chips, AMD, and NVIDIA GPUs. Chat with your local filesGrant your local LLM access to your private, sen

                                GPT4All
                              • オープンソースモデルでも力を合わせればGPT-4oに匹敵することを示す「Mixture-of-Agents(MoA)」アーキテクチャ | AIDB

                                背景 LLMは、人の好みに合わせて調整することで、より便利で一貫性のある文章を作れるようになってきました。しかし、モデルのサイズや学習データには限界があり、単純に大きくすることで性能を上げるには莫大な費用がかかります。 一方で、LLMは種類によって得意なことが違います。例えば、複雑な指示に従うのが得意なモデルや、コードを書くのが得意なモデルなどがあります。 そこで、研究者たちは新しいアイデアを思いつきました。それは、異なる得意分野を持つLLMを組み合わせることです。 例えば、複雑な指示を理解するのが得意なモデルと、プログラミングコードを生成するのが上手なモデルを組み合わせれば、より高性能で柔軟になるのではないか、と考えたのです。 これまでにも、複数のLLMを組み合わせて使う方法はいくつか提案されてきました。例えば、出力された文章の順位を変えたり、どのモデルを使うかを選んだりする方法がありま

                                  オープンソースモデルでも力を合わせればGPT-4oに匹敵することを示す「Mixture-of-Agents(MoA)」アーキテクチャ | AIDB
                                • GPT-4oはどのように画像をエンコードしてトークンに分解しているのか?

                                  AIチャットサービス「ChatGPT」のモデルの1つ、GPT-4oは、人間から受け取ったテキストをまず「トークン」に処理した後、AIが扱いやすい数値ベクトルに変換して計算を行います。画像でも同様の処理を行いますが、その際にどのような処理をしているのか、プログラマーのオラン・ルーニー氏が推測しました。 A Picture is Worth 170 Tokens: How Does GPT-4o Encode Images? - OranLooney.com https://www.oranlooney.com/post/gpt-cnn/ GPT-4oが高解像度の画像を処理する際は、画像を512x512ピクセルのタイルに切り分けて処理し、1タイル当たり170トークンを消費します。この「170トークン」という数字に着目したルーニー氏は、「OpenAIが使う数字にしては中途半端すぎる」と指摘し、な

                                    GPT-4oはどのように画像をエンコードしてトークンに分解しているのか?
                                  • Meta、LLMコンパイラを公開——AIがプログラミングの常識を変えるかも - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報

                                    Image credit: Hugging Face Meta は、「Meta Large Language Model (LLM) Compiler」を発表した。Meta Large Language Model (LLM) Compiler は、コードを最適化し、コンパイラ設計に革命を起こすために設計された、堅牢でオープンソースのモデル群だ。この技術革新は、開発者がコード最適化に取り組む方法を変革し、より速く、より効率的で、費用対効果の高いものにする可能性を秘めている。 LLM Compiler を開発した研究者たちは、大規模言語モデル(LLM)をコードやコンパイラの最適化に適用する際に、これまで十分に検討されてこなかった重要なギャップに対処した。LLVM-IR とアセンブリコードの5,460億トークンからなる膨大なコーパスでモデルをトレーニングすることで、コンパイラの中間表現、アセン

                                      Meta、LLMコンパイラを公開——AIがプログラミングの常識を変えるかも - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報
                                    • LLMを自社特化にする「RAG」を使いこなすには 具体的な実装パターン2選

                                      この連載について AIやデータ分析の分野では、毎日のように新しい技術やサービスが登場している。その中にはビジネスに役立つものも、根底をひっくり返すほどのものも存在する。本連載では、ITサービス企業・日本TCSの「AIラボ」で所長を務める三澤瑠花氏が、データ分析や生成AIの分野で注目されている最新論文や企業発表をビジネス視点から紹介する。 生成AIの導入が進む中、多くの企業が直面している課題が「RAG」の最適化です。RAGとは、大規模言語モデル(LLM)に外部データベースからの情報を組み合わせることで、より正確で最新の情報を含む回答を生成する技術です。 LLMが学習している内容は汎用的な情報であるため、例えば自社の社則の内容に即した回答を得られません。「ChatGPT」などにはファイル添付機能をアップロードして明示的に社則を提示し、回答を得る方法もありますが、もしLLMに指示や質問した内容に

                                        LLMを自社特化にする「RAG」を使いこなすには 具体的な実装パターン2選
                                      • AWSで生成AI入門!LLMの基本からRAG、Agentまで | ドクセル

                                        スライド概要 2024年5月31日に開催した「AWSで生成AI入門! LLMの概要からRAG、エージェントまで」セッションの資料です。 生成AIに使われるLLMの基本を説明し、AWSが提供している生成AIサービスであるAmazon Bedrockの使い方を説明します。 APIの使い方に始まり、チャット、ベクトル検索、RAGと段階的に説明し、最終的に「はにわロボット」工場のエージェントを作成する内容になっています。

                                          AWSで生成AI入門!LLMの基本からRAG、Agentまで | ドクセル
                                        • 【サーベイ論文まとめ】RAG(Retrieval-Augmented Generation) - Qiita

                                          『Retrieval-Augmented Generation for Large Language Models: A Survey(以下、RAG Survey論文と表記)』の内容について以下、取りまとめました。 https://arxiv.org/abs/2312.10997v5 概要 RAG研究のまとめ RAG Survey論文 Fig.1 上記では、RAGの研究が「Fine-tuning」・「Pre-training」・「Inference」の3種類に分類されます。 RAG Survey論文の構成 Survey論文の構成は『Ⅰ. Introduction』に概要が記載されているので、以下に簡単にまとめました。 Abstract Ⅰ. Introduction -> Surveyの概要について取りまとめ Ⅱ. Overview of RAG -> RAGのメインのコンセプトと現在の枠

                                            【サーベイ論文まとめ】RAG(Retrieval-Augmented Generation) - Qiita
                                          • 独自の日本語LLM(大規模言語モデル)のバージョン3を一般公開 ―225億パラメータの商用利用可能なモデルを提供―

                                            株式会社サイバーエージェント(本社:東京都渋谷区、代表取締役:藤田晋、東証プライム市場:証券コード4751)は、225億パラメータの日本語LLM(Large Language Model、大規模言語モデル)「CyberAgentLM3」を公開したことをお知らせいたします。 当社はかねてより日本語LLMの開発に取り組んでおり、2023年5月に独自の日本語LLMである「CyberAgentLM」を一般公開しました。その後も、2023年11月にバージョン2となる「CyberAgentLM2」を、2024年6月には視覚を付与したVLM(大規模視覚言語モデル)を公開しています。これらの技術は当社が提供する「極予測AI」をはじめとするサービスにおいて広く活用されています。

                                              独自の日本語LLM(大規模言語モデル)のバージョン3を一般公開 ―225億パラメータの商用利用可能なモデルを提供―
                                            • Excelなどの“表計算ソフト専用”の大規模言語モデル 米Microsoftが「SpreadsheetLLM」発表

                                              このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。 X: @shiropen2 MicrosoftのExcelやGoogleのスプレッドシートなど表計算ソフトは広く使用されているが、その二次元の格子構造や複雑なレイアウト、多様なフォーマットオプションなどが、LLMにとって大きな課題となっている。今回提案するフレームワーク「SpreadsheetLLM」は、これらの課題を解決する。 このフレームワークの中核を成すのが「シートコンプレッサー」という手法である。シートコンプレッサーは3つの主要機能を持つモジュールで構成しており、まずは表計算シート内で重要な構造を持つ部分を特定する機能だ。これにより、重要な構造情報を保持しつつ、

                                                Excelなどの“表計算ソフト専用”の大規模言語モデル 米Microsoftが「SpreadsheetLLM」発表
                                              • OpenAIが「大規模言語モデルが人間の知能にどれだけ近づいたか」を評価する基準を作成

                                                GPT-4oなどの大規模言語モデルを開発するOpenAIが、大規模言語モデルの知能が人間レベルにどれだけ追いつけているのかを示すための評価スケールを作成したことを明らかにしました。 OpenAI Sets Levels to Track Progress Toward Superintelligent AI - Bloomberg https://www.bloomberg.com/news/articles/2024-07-11/openai-sets-levels-to-track-progress-toward-superintelligent-ai Here’s how OpenAI will determine how powerful its AI systems are - The Verge https://www.theverge.com/2024/7/11/241967

                                                  OpenAIが「大規模言語モデルが人間の知能にどれだけ近づいたか」を評価する基準を作成
                                                • “GPT-4超え性能”の日本語特化型LLM AIスタートアップ・ELYZAが開発 国外プレイヤーとの競争も「諦めない」

                                                  東大発のAIスタートアップ企業であるELYZA(東京都文京区)は6月26日、GPT-4を超える性能を持つ日本語特化型の大規模言語モデル(LLM)「Llama-3-ELYZA-JP-70B」を開発したと発表した。AIモデル自体は公開しておらず、今後企業向けに提供していく予定。チャット形式で性能を試せるデモサイトは公開している。 Llama-3-ELYZA-JP-70Bは、米MetaのLLM「Llama-3-70B」をベースに日本語の追加事前学習や指示学習を行って開発したモデル。元のLLMから、日本語性能が大きく向上しているのが特徴。2つのベンチマークで日本語性能を評価したところ、米OpenAIのLLM「GPT-4」の性能を上回り、米AnthropicのLLM「Claude 3 Sonet」や米GoogleのLLM「Gemini 1.5 Flash」とも同等かそれ以上の性能を達成したという。

                                                    “GPT-4超え性能”の日本語特化型LLM AIスタートアップ・ELYZAが開発 国外プレイヤーとの競争も「諦めない」
                                                  • ELYZA-tasks-100を人間が解くと何点取れるのか?

                                                    と言ってもこの点数が低いのか高いのか分かりませんので、Claude 3.5 Sonnetの点数も見ていきましょう。 Claude 3.5 Sonnetの点数 現時点で最強と名高いClaude 3.5 SonnetにもELYZA-tasks-100を解いてもらいます。 単純に問題文だけを投げる形で、temperatureは0.8にしました。 import json import anthropic from datasets import load_dataset client = anthropic.Anthropic( api_key="APIキー", ) dataset = load_dataset("elyza/ELYZA-tasks-100") test_set = dataset["test"] results = {} for i, example in enumerate(t

                                                      ELYZA-tasks-100を人間が解くと何点取れるのか?
                                                    • AI生成の動画を“5倍以上長く”する拡張モデル「ExVideo」、無音動画に“それっぽい音”を挿入できる「FoleyCrafter」など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge

                                                      Googleがオープンな言語モデル「Gemma 2」を開発者向けに公開しました。90億パラメータと270億パラメータの2サイズを提供しています。 さて、この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第53回)では、生成する動画時間の延長や無音ビデオに適した音を生成するなど動画AIに関する内容が盛りだくさんです。 生成AI論文ピックアップ 既存のAIが生成する動画の時間を長くするモデル「ExVideo」、Stable Video Diffusion生成動画を5倍以上の長さに拡張 言語より視覚に重きを置く、オープンなマルチモーダル大規模言語モデル「Cambrian-1」はGPT-4VやGemini Proと同等レベル イベントカメラを使用するAIビデオ超解像技術「EvTexture」、特にテクスチャ領域で画質向上 長い動画を理解できるオープンソースなAIモ

                                                        AI生成の動画を“5倍以上長く”する拡張モデル「ExVideo」、無音動画に“それっぽい音”を挿入できる「FoleyCrafter」など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge
                                                      • 漫画の1コマから続く20コマ以上を作り出す物語生成AI「SEED-Story」、イラストの制作過程動画を生成するAI「PaintsUndo」など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge

                                                        2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第55回)では、1枚の完成したイラスト絵を入力に、そのイラストの制作過程のタイムラプス動画を生成する「PaintsUndo」や、画像とテキストをペアにした1コマを入力に、続きの物語を生成する「SEED-Story」などを取り上げます。 生成AI論文ピックアップ 1枚の画像から3Dキャラクターを1分で生成するモデル「CharacterGen」 音声と静止画の顔を入力に、話している動画を生成するAI「EchoMimic」 漫画の1コマを入力に、続きのコマを作り出す物語生成AI「SEED-Story」 3次元データを活用した新しい画像マッチング技術「MASt3R」 イラス

                                                          漫画の1コマから続く20コマ以上を作り出す物語生成AI「SEED-Story」、イラストの制作過程動画を生成するAI「PaintsUndo」など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge
                                                        • MetaがLlamaベースのマルチモーダルAIをEUには提供しない方針を明らかに

                                                          EUはデジタル市場法やデジタルサービス法で大手デジタルプラットフォームやその運営企業を厳しく規制しており、AppleやGoogle、Meta、Microsoftなどのビッグテックはその対応に追われています。大規模言語モデルのLlamaを開発するMetaが、2024年中にリリースする予定のマルチモーダルAIをEUでは提供しないことを発表しました。 Meta won't bring future multimodal AI models to EU https://www.axios.com/2024/07/17/meta-future-multimodal-ai-models-eu 海外ニュースメディアのAxiosによると、Metaは自社で開発する大規模言語モデル・Llamaをベースとして、映像・音声・画像・テキストを推論できるマルチモーダルAIのリリースを2024年中に予定しているとのこと

                                                            MetaがLlamaベースのマルチモーダルAIをEUには提供しない方針を明らかに
                                                          • GraphRAGシステムの使い方:初心者向け完全ガイド - Sun wood AI labs.2

                                                            GraphRAGのインストール まずは、GraphRAGをインストールしましょう。Pythonの環境(バージョン3.10から3.12)が必要です。 !pip install graphrag ├── create_final_community_reports ├── create_final_text_units ├── create_base_documents └── create_final_documents �[?25h �[32mAll workflows completed successfully.�[0m MS公式のGraphRAGに挑戦中。。。 indexに時間がかかってます。。。 https://t.co/CG3M6tMiO4 pic.twitter.com/cDgxxTnbtl — Maki@Sunwood AI Labs. (@hAru_mAki_ch) Jul

                                                              GraphRAGシステムの使い方:初心者向け完全ガイド - Sun wood AI labs.2
                                                            • Anthropic Consoleで プロンプトの生成・テスト・評価 を試す|npaka

                                                              2. プロンプトの生成・テスト・評価プロンプトの生成・テスト・評価の手順は、次のとおりです。 2-1. プロンプトの生成(1) 「Anthropic Console」を開き、「Generate a prompt」をクリック。 (2) 作成したいプロンプトのタスクを入力。 今回は、「文書を最大10個の箇条書きにまとめる」と入力し、「Generate Prompt」ボタンをクリック。 プロンプトが自動生成されます。 (3) 「Continue」ボタンをクリック。 テスト画面に遷移します。 あなたは与えられた文書を簡潔に要約するタスクを行います。以下の文書を読み、最大10個の箇条書きにまとめてください。 <document> {{DOCUMENT}} </document> 以下の指示に従って要約を作成してください: 1. 文書の主要なポイントや重要な情報を特定してください。 2. 各箇条書きは

                                                                Anthropic Consoleで プロンプトの生成・テスト・評価 を試す|npaka
                                                              • BM42: New Baseline for Hybrid Search - Qdrant

                                                                Please note that the benchmark section of this article was updated after the publication due to a mistake in the evaluation script. BM42 does not outperform BM25 implementation of other vendors. Please consider BM42 as an experimental approach, which requires further research and development before it can be used in production.For the last 40 years, BM25 has served as the standard for search engin

                                                                  BM42: New Baseline for Hybrid Search - Qdrant
                                                                • Microsoft Research が開発した GraphRAG: 企業の非公開データ分析を革新する LLM 技術 - Sun wood AI labs.2

                                                                  LLM が抱える課題と RAG 技術の登場 LLM は大量のデータを使って学習しますが、学習データに含まれない情報を含む質問にはうまく回答できません。例えば、「最新の科学論文に基づいて、この病気の新しい治療法を提案してください」といった質問に対して、LLM は学習データに含まれていない最新の科学論文の内容を理解することができません。 この問題を解決するために、Retrieval-Augmented Generation (RAG) 技術が登場しました。RAG は、ユーザーの質問に基づいて関連情報を検索し、その結果を LLM への入力として使用することで、より正確な回答を生成します。 従来の RAG では、検索にベクトル類似度が用いられてきました。しかし、Microsoft Research の最新の研究では、非公開データの分析において、プロンプト拡張が有効であることが示唆されました。 Gr

                                                                    Microsoft Research が開発した GraphRAG: 企業の非公開データ分析を革新する LLM 技術 - Sun wood AI labs.2
                                                                  • 【Gemini本発売記念】npaka による マルチモーダルとローカルLLMの現在と未来

                                                                    凝集性から考えるLaravelのmiddleware、routingに書くか? Policyに書くか?

                                                                      【Gemini本発売記念】npaka による マルチモーダルとローカルLLMの現在と未来
                                                                    • Meta、コード最適化のためのAIモデル「LLM Compiler」を商用ライセンスで公開

                                                                      米Metaは6月27日(現地時間)、コード最適化のためのLLMモデル「Meta Large Language Model Compiler」(以下「LLM Compiler」)を発表した。特別な商用ライセンスの下でリリースしており、Hugging Faceでダウンロードできる。70億パラメータと130億パラメータの2サイズ構成だ。 LLM Compilerは、研究者や開発者がコードの最適化とコンパイラの最適化をさらに研究開発するための、スケーラブルで費用対効果の高い基盤を確立することを目指しているという。このモデルを利用することで、コードサイズを大幅に削減したり、プログラムの実行速度を向上させることができるとしている。 従来のコード最適化手法は、手作業で設計された特徴やグラフニューラルネットワークに依存しており、プログラムの表現が不完全だが、LLM Compilerは「ソースプログラムを完

                                                                        Meta、コード最適化のためのAIモデル「LLM Compiler」を商用ライセンスで公開
                                                                      • Gemini API の Function Calling 機能で LLM Agent を実装する

                                                                        LLM Agent 入門 データ処理パイプラインと LLM Agent の違い Google Cloud の Gemini API には Function Calling 機能が実装されており、基盤モデルの Gemini に「外部 API を利用して回答に必要な情報を収集する」という動作が追加できます。ここでポイントになるのは、「どの API をどのように使用すれば回答に必要な情報が得られるか?」という部分を Gemini 自身に考えさせるという点です。これを利用すると、いわゆる LLM Agent が実装できます。 集めるべき情報の種類や処理の手順があらかじめ決まっている場合は、LLM によるテキスト生成を組み込んだデータ処理パイプラインを実装する方が安定的に動作する(期待する結果が確実に得られる)はずですが、特定の手順を前提としない柔軟な処理を実現する際は LLM Agent が向いて

                                                                          Gemini API の Function Calling 機能で LLM Agent を実装する
                                                                        • Introducing Claude 3.5 Sonnet

                                                                          Today, we’re launching Claude 3.5 Sonnet—our first release in the forthcoming Claude 3.5 model family. Claude 3.5 Sonnet raises the industry bar for intelligence, outperforming competitor models and Claude 3 Opus on a wide range of evaluations, with the speed and cost of our mid-tier model, Claude 3 Sonnet. Claude 3.5 Sonnet is now available for free on Claude.ai and the Claude iOS app, while Clau

                                                                            Introducing Claude 3.5 Sonnet
                                                                          • ELYZA、GPT-4を上回る性能の日本語LLMを開発

                                                                              ELYZA、GPT-4を上回る性能の日本語LLMを開発
                                                                            • コード生成を伴う LLM エージェント - 2024.07.18 Tokyo AI

                                                                              加藤拓真, 宮脇峻平, 第二回AI王最終報告会 - DPR ベースラインによる オープンドメイン質問応答の取り組み (2022)

                                                                                コード生成を伴う LLM エージェント - 2024.07.18 Tokyo AI
                                                                              • Finding GPT-4’s mistakes with GPT-4

                                                                                CriticGPT, a model based on GPT-4, writes critiques of ChatGPT responses to help human trainers spot mistakes during RLHF We've trained a model, based on GPT-4, called CriticGPT to catch errors in ChatGPT's code output. We found that when people get help from CriticGPT to review ChatGPT code they outperform those without help 60% of the time. We are beginning the work to integrate CriticGPT-like m

                                                                                  Finding GPT-4’s mistakes with GPT-4
                                                                                • 【MiniCPM-Llama3-V 2.5】たった8BでGPT-4o超えのVLM | WEEL

                                                                                  WEELメディア事業部LLMライターのゆうやです。 MiniCPM-Llama3-V 2.5は、中国のOpenBMB(Open Lab for Big Model Base)が開発した最新のオープンソースマルチモーダル言語モデルで、8BというサイズながらGPT-4Vと同等の性能を有しています。 🚀 Excited to introduce MiniCPM-Llama3-V 2.5! With 8B parameters, it’s our latest breakthrough, outperforming top models like GPT-4V. 📈 💪 Superior OCR capabilities 🔑 Supports 30+ languages HuggingFace:https://t.co/Skivve1BgN GitHub:https://t.co/x868