並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 31 件 / 31件

新着順 人気順

LLMの検索結果1 - 31 件 / 31件

  • 「計算機アプリ作って」→AI「あいよ」 20万個以上のアプリが開発される

    メタが提供しているAIモデル「Llama 3.1」を活用したアプリ開発ツール「LlamaCoder」が人気を集めている。 LlamaCoderは、AI企業のTogether AIが開発したオープンソースのウェブアプリケーション。「計算機アプリを作って」といった指示を与えるだけで、フルスタックのアプリケーションを生成する。メタのLlama 3.1 405Bモデルを基盤に、Together AIのLLM推論技術を活用している。 メタによれば、LlamaCoderはリリースからわずか1ヵ月余りで、GitHubで2000以上のスターを獲得し、数百人の開発者がリポジトリをクローンした。さらに、20万以上のアプリがLlamaCoderを使用して生成されたという。 Together AIの開発者関係責任者であるHassan El Mghari氏は、「開発者たちはこれを気に入っています。クイズアプリ、ポモ

      「計算機アプリ作って」→AI「あいよ」 20万個以上のアプリが開発される
    • ChatGPT (o1-preview) にテストを渡してコードを実装させるとどうなるか試した

      はじめに 前にも別のモデルでやってる ただ o1-preview は、やり取りを重ねるよりも一発で終わらせるほうがいいらしいので、最終的なテスト全体を渡すようにした。 情報の提示方法が異なると当然結果も変わるので、 gpt-4o でも同様なことを試した。 材料 プロンプトは以下。 基本的に最初にやったときと同じ。ペアプロではないのでその部分の調整をしている - 私がテストコードを提示するのでそのテストケースをパスする最小限の実装をしてください - Vue.js のバージョン 3 と Typescript で実装を行ってください - コードのみを示してくださいコードの解説などは必要ありません - スタイリングは必要ありません - テストケースに失敗したらその内容をチャットで送信するので最小限のコードの修正をしてください - テストのコードには vitest を利用しています jest と互換

        ChatGPT (o1-preview) にテストを渡してコードを実装させるとどうなるか試した
      • 生成AIのハルシネーションは原理的に排除不能。不完全性定理など数学・計算機理論で説明 モデル改良や回避システムでも不可避とする論文(生成AIクローズアップ) | テクノエッジ TechnoEdge

        2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間の気になる生成AI技術・研究をピックアップして解説する連載「生成AIウィークリー」から、特に興味深い技術や研究にスポットライトを当てる生成AIクローズアップ。 今回は、大規模言語モデル(LLM)は自身が出力する「幻覚」(ハルシネーション)からは避けられない現象を指摘した論文「LLMs Will Always Hallucinate, and We Need to Live With This」に注目します。幻覚とは、事実と異なる出力をLLMが実行してしまう現象を指します。 この研究では、LLMの幻覚が単なる偶発的なエラーではなく、これらのシステムに内在する避けられない特性であると主張しています。研究者らは、幻覚がLLMの根本的な数学的・論理的

          生成AIのハルシネーションは原理的に排除不能。不完全性定理など数学・計算機理論で説明 モデル改良や回避システムでも不可避とする論文(生成AIクローズアップ) | テクノエッジ TechnoEdge
        • AIの方が人間より陰謀論者の説得が得意、ChatGPTとの会話で陰謀論への信念が永続的に揺らぐとの研究結果

          6割以上の人が「人間の上司よりAIを信頼する」と答えたとの調査結果があるように、人はしばしば人の言葉よりAIの言葉に耳を貸す傾向を見せます。人間が説得しようとするとかえって意固地になってしまうことが多い陰謀論者の誤った信念を、AIとの会話で長期的に改善することができたとの論文が発表されました。 Durably reducing conspiracy beliefs through dialogues with AI | Science https://www.science.org/doi/10.1126/science.adq1814 AI chatbots might be better at swaying conspiracy theorists than humans | Ars Technica https://arstechnica.com/science/2024/09/s

            AIの方が人間より陰謀論者の説得が得意、ChatGPTとの会話で陰謀論への信念が永続的に揺らぐとの研究結果
          • GitHub Copilotの効果は本物?論文から読み解く開発生産性の真実 - Findy Tech Blog

            はじめに こんにちは。プロセス改善・アジャイルコーチで、Tech Blog編集長の高橋(@Taka_bow)です。 皆さんは、2021年6月に生まれたGitHub Copilotを利用していますか? この生成AIベースのコーディング支援ツールは、コードの自動補完や生成、関数の自動生成、エラー修正支援など、開発者の作業を多面的にサポートします。 ファインディでは2023年3月から導入し、開発チーム全員が日常的に活用しています。Findy Team+で効果を測定した結果、コーディングの効率化やコミュニケーションコストの削減、さらには開発者の満足度向上など、多くの利点が確認されました。 今回は、このようなソフトウェア開発における生成AIの影響を分析した最新の論文を紹介します。GitHub Copilotが開発プロセスにもたらす変化や、開発者の生産性への影響についての研究が書かれた、興味深い論文で

              GitHub Copilotの効果は本物?論文から読み解く開発生産性の真実 - Findy Tech Blog
            • RAG の精度を向上させる Advanced RAG on AWS の道標 | Amazon Web Services

              Amazon Web Services ブログ RAG の精度を向上させる Advanced RAG on AWS の道標 生成 AI の進化と共に、大規模言語モデル (LLM) を活用したアプリケーション開発が急速に広がっています。その中で、検索拡張生成 (Retrieval-Augmented Generation; RAG) は、LLM に対して最新の情報や特定のドメイン知識を組み込むための重要な技術として注目を集めています。 RAG は、その名の通り、外部知識ベースから関連情報を検索し、それを LLM の入力に組み込むことで、より正確で最新の情報に基づいた回答を生成する手法です。この手法には以下のような重要な利点があります。 最新情報の反映: LLM の学習データの制限を超えて、最新の情報を回答に反映させることができる。 ドメイン特化: 特定の分野や組織固有の情報を容易に組み込むこ

                RAG の精度を向上させる Advanced RAG on AWS の道標 | Amazon Web Services
              • RAGの処理で、リランクとベクトル検索でできることの違いを検証/解説してみる - Taste of Tech Topics

                こんにちは。テニスしすぎて日焼けがすごいSsk1029Takashiです。 私は普段、生成AIを活用したRAGソリューションの開発をしているのですが、RAGでは特に検索部分の調整が重要になります。 今回はその検索の中で出てくるリランクに焦点を当てて、ベクトル検索と比較してどのような特徴があるのかというところを、検証を交えて解説していきます。 概要 RAGの検索部分では、よくベクトル検索が利用されます。 理由としては、入力が基本的に質問形式になりキーワードで入力されることが多い通常の検索よりも適している、などいくつか考えられます。 ただし、実際にRAGを試してみるとわかりますが、RAGシステムではベクトル検索だけでは検索精度の面で苦労することも多いです。 そこで解決方法の一つとして考えられているのが、ベクトル検索とリランクとの併用になります。 今回は、なぜRAGはベクトル検索だけだと苦労が多

                  RAGの処理で、リランクとベクトル検索でできることの違いを検証/解説してみる - Taste of Tech Topics
                • Cursor の無料版を使い続ける場合の設定 - Qiita

                  Cursor の Pro 版でサポートされる AI 機能は非常に強力であり、無料版と比較して多くのメリットがあります。しかし、個人開発者や学生など予算に限りがある人にとっては、Pro 版の利用は難しい場合があります。 本記事では、Cursor の無料版で Gemini や GitHub Copilot を設定することで、Pro の使用感に近付ける方法を紹介します。 Gemini は無料枠があります。 GitHub Copilot は基本的に有料ですが、学生・教職員や OSS 開発者への免除があるため、無料で利用できる場合があります。 概要 単純に VS Code を Cursor の無料版に置き換えた場合、差分としてよく使う機能は以下の通りです。 AI Chat でのメンション:Codebase (RAG)、Git、ファイル指定 RAG を別途構築する手間がないのは便利です。 Git 機能

                    Cursor の無料版を使い続ける場合の設定 - Qiita
                  • グーグルやIBMらの「秀逸すぎる」無料AI学習プログラム一覧、進む「AI学習の民主化」

                    AIの普及に伴いAIスキルは特別なものではなく、「マスト」であるという認識が広がってきた。これに伴い、グーグルやIBM、アクセンチュアらテック大手が無料のAI学習プログラムを続々と発表している。いずれも主要言語は英語だが、自動翻訳機能が提供され、言語の壁も解消されつつある。国内でも東大松尾研が無料講座を開講するなど、多様なコンテンツがあふれかえっている状況だ。ここでは、AI学習プログラムについて、現在どのようなプログラムが登場しているのか、またどのような内容を学ぶことができるのか、その詳細をまとめたい。 AIスキルを学習しないリスク かつて大学の特定の学部や大学院、専門学校などでしか学ぶことができなかった「人工知能(AI)」だが、生成AIトレンドを契機として、さまざまな学習リソースが登場し、高度なAIスキルを学ぶことが可能となっている。 AI人材不足を背景とする人材育成需要の高まり、またA

                      グーグルやIBMらの「秀逸すぎる」無料AI学習プログラム一覧、進む「AI学習の民主化」
                    • Difyで作成した生成AIチャットをWebアプリに組み込む - Taste of Tech Topics

                      はじめに 9月に入って、少し涼しくなったと思ったら、また、35℃などになる暑い日が続きますね。 データ分析エンジニアとして毎日充実した時間を過ごしている木介です。 今回はGUIで簡単に生成AIアプリを作成できるDifyで作成したAIアプリを簡単にWebアプリに組込む方法について紹介します docs.dify.ai はじめに Difyとは? 概要 今回作成するアプリ Difyを埋め込んだWebアプリの構築方法 利用するツール 構築方法 1. DifyによるAIアプリの構築 2. StreamlitによるDifyを埋め込んだWebアプリの作成 作成したアプリの実行 まとめ Difyとは? 概要 Difyは、生成AIを活用したアプリケーションをGUIで簡単に開発することができるアプリです。 以下のような形で簡単に生成AIを使ったワークフローを作成できます。 詳細な解説については以下の記事を是非参

                        Difyで作成した生成AIチャットをWebアプリに組み込む - Taste of Tech Topics
                      • 生成AIで、分岐があるゲームストーリーの生成とその可視化を実現! Microsoft Researchの「GENEVA」を試す【イニシャルB】

                          生成AIで、分岐があるゲームストーリーの生成とその可視化を実現! Microsoft Researchの「GENEVA」を試す【イニシャルB】
                        • GitHub Models を使って 20 種類以上の LLM の日本語性能を測定してみた - NTT Communications Engineers' Blog

                          本記事では、今年8月にパブリックベータ版として GitHub に搭載された新機能 GitHub Models について、概要や利用法を簡単にご説明します。さらに、実際に GitHub Models を活用して、多数の LLM の日本語性能を横断的に測定していく例を紹介していきます。 目次 目次 はじめに 三行で GitHub Models を説明すると... GitHub Models の使い方 Waitlist への登録 モデル一覧 ブラウザ上で試す API経由で試す GitHub Models を利用する上での注意点 API レート制限の制約が強い Azure AI Content Safety が全ての LLM に適用されている GitHub Models を使って LLM の日本語性能を横断的に測定する 実験 1. GPT-4o による自動評価 2. 出力が日本語になっているかどう

                            GitHub Models を使って 20 種類以上の LLM の日本語性能を測定してみた - NTT Communications Engineers' Blog
                          • ついにBedrockとSlackがノーコードで連携できるようになったよ! - Qiita

                            今日はこちらのビッグニュースが飛び込んできました! AWS ChatbotがBedrock agentsに対応したので、SlackやTeamsとBedrockが連携できるようになりました🎉🎉🎉 早速やってみました。なんと ノーコード です!! 最速を狙いましたがすでに検証された方がいました!早い! 手順 Bedrock agentsを作成する マネジメントコンソールでBedrockの管理画面を開きます 左メニューの「エージェント」をクリックします 「エージェントを作成」をクリックします 「Name」を入力して「作成」をクリックします エージェントビルダーの画面に遷移します モデルを選択で好きなモデルを選択します。(私はClaude 3 Haikuを選択しました) 「エージェント向けの指示」にプロンプトを入力します。(私はこちらのClaude 3 Haikuのシステムプロンプトを入力し

                              ついにBedrockとSlackがノーコードで連携できるようになったよ! - Qiita
                            • Google、AIの“幻覚”に対処する「DataGemma」をオープンモデルでリリース

                              米Googleは9月13日(現地時間)、LLMが不正確な回答を出してしまういわゆる幻覚(ハルシネーション)を軽減するためのAIモデル「DataGemma」を発表した。オープンモデルとしてHugging Faceで公開した。 Gemmaは、Googleが今年2月にオープンモデルとして発表した「Gemini」の軽量版LLM。DataGemmaは、このGemmaのオープンモデルファミリーをベースに、Googleが構築した「Data Commons」の信頼できるデータを使って回答する。 Data Commonsは、数十万の統計変数にわたる2400億を超えるデータポイントを含む、公開されているナレッジグラフだ。データは、国連(UN)、世界保健機関(WHO)、疾病予防管理センター(CDC)、国勢調査局などの“信頼できる”組織から取得されたもの。 DataGemmaは、Data Commonsの信頼でき

                                Google、AIの“幻覚”に対処する「DataGemma」をオープンモデルでリリース
                              • RIG is 何?RAG の妹?DataGemma の論文を翻訳しながら RIG を読み解く〜①まずは翻訳〜 - Qiita

                                RIG is 何?RAG の妹?DataGemma の論文を翻訳しながら RIG を読み解く〜①まずは翻訳〜RigragDataGemma DataGemma がリリースされました。外部情報を使ってハルシネーションを抑止する手法として RAG が有名ですが、Datagemma では RAG だけではなく RIG という手法も提案・利用していました。 RIG というのがよくわからなかったので論文を読みました。そしてそのときの翻訳を残します。 RIG が一体なんなのかはそのうち… 論文の原本はこちら 注) RIG の Retrieval Interleaved Generation は勝手に検索交互生成としました。 以下原文を LLM の助けを借りながら翻訳したもの 要旨 大規模言語モデル(LLM)は、数値や統計データ、あるいは時事的な事実に関連するクエリに応答する際、事実に反する情報を生成し

                                  RIG is 何?RAG の妹?DataGemma の論文を翻訳しながら RIG を読み解く〜①まずは翻訳〜 - Qiita
                                • なぜAIに“日本語”を学習させるのか? 35種類のLLMで実験し分析 東工大などが研究報告

                                  このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。 X: @shiropen2 9月3日に開催の第261回自然言語処理研究発表会において、東京工業大学と産業技術総合研究所に所属する研究者らが発表した「LLMに日本語テキストを学習させる意義」は、大規模言語モデル(LLM)に日本語を学習する効果について実験結果を基に評価した研究報告である。 この研究では、35種類のLLMに対して日本語と英語の19種類のタスクを用いて評価を実施し、その結果を詳細に分析。評価に用いたLLMは、学習データや構築手法によって大きく4つのカテゴリーに分類される。 「英語フルスクラッチ」は英語中心のデータで学習されたモデル(Llama 3など) 「日本

                                    なぜAIに“日本語”を学習させるのか? 35種類のLLMで実験し分析 東工大などが研究報告
                                  • GitHub - dleemiller/WordLlama: Things you can do with the token embeddings of an LLM

                                    from wordllama import WordLlama # Load the default WordLlama model wl = WordLlama.load() # Calculate similarity between two sentences similarity_score = wl.similarity("i went to the car", "i went to the pawn shop") print(similarity_score) # Output: 0.06641249096796882 # Rank documents based on their similarity to a query query = "i went to the car" candidates = ["i went to the park", "i went to th

                                      GitHub - dleemiller/WordLlama: Things you can do with the token embeddings of an LLM
                                    • 【GraphRAG プロジェクトを立ち上げます】ナレッジグラフとLLMで「発想力を持つAI」の実現へ|Stockmark

                                      こんにちは。ストックマークのリサーチャーの広田です。今日は私が新しく立ち上げた GraphRAG プロジェクトの仲間を募集するために、GraphRAG プロジェクトについて紹介したいと思います。 広田航 Researcher 大阪大学大学院情報科学研究科を卒業後、米国に渡り Megagon Labs で Conversational AI や entity matching の研究を行う。その後帰国しストックマークに参画。現在はナレッジグラフ構築や LLM を活用した情報抽出の研究を行う。 まず GraphRAG プロジェクトの背景を紹介したいと思います。 ストックマークは「価値創造の仕組みを再発明し人類を前進させる」というミッションを掲げ、「AIと人による新しい価値創造プロセスを発明する」を目指して Research Unit を組成しています。情報の量が急激に増えている現代において、情

                                        【GraphRAG プロジェクトを立ち上げます】ナレッジグラフとLLMで「発想力を持つAI」の実現へ|Stockmark
                                      • “学習データも全てオープン”なLLM、NIIが公開 GPT-3級モデルのプレビュー版

                                        国立情報学研究所(NII)は9月17日、パラメータ数約1720億の大規模言語モデル(LLM)のプレビュー版「LLM-jp-3 172B beta1」を公開した。NIIが開発するLLMは、データをフルスクラッチで学習しており、AIモデルの他に学習データもオープンになっているのが特徴。プレビュー版モデルは、学習データの約3分の1までを学習した段階のものになる。 今回公開したLLMのパラメータ数は約1720億で、米OpenAIのLLM「GPT-3」と同程度の規模。ベースモデルは米MetaのLLM「LlaMA-2」を使った。 学習用データには、約2.1兆トークン(おおよそ単語数の意)のデータを用意。そのうち日本語は約5920億トークンで「WebアーカイブCommon Crawl(CC)全量から抽出・フィルタリングした日本語テキスト」「国立国会図書館インターネット資料収集保存事業(WARP)で収集さ

                                          “学習データも全てオープン”なLLM、NIIが公開 GPT-3級モデルのプレビュー版
                                        • ユーザー全員の記憶を忘れないAI Chat Bot「メモリアドラゴン」を作った話【Gemini 1.5 Flash】|かりみや

                                          遊べるDiscordコミュニティへの参加はこちらから!! メモリアドラゴンについて みんなの事を覚えるためにDiscordにやってきた赤ちゃんドラゴン ユーザーが教えたことはすべて鵜呑みにしてしまう 本人は何でも覚えていると思っているが、実際にはよく忘れている 中身の話 Gemini1.5 Flashを用いて、チャット履歴をタグ付けした上で外部のjsonファイルに保存→読み込みし、擬似的な記憶を作り出すコミュニティ向けLLM botを作ってみました セッションは常に全て新規に始まっています。 上記の会話でシステムプロンプトの部分は一人称が「ぼく」である事ぐらいです。 その他の、惣菜発表ドラゴン構文の部分や、ナルトが好きで、ユーザーが飛段が好きな事などは、チャットを続けたうえで新たに記憶した部分です。 ユーザーがそれぞれ教えたことを大きな記憶として蓄積しつづけ、一個の人格となることを目的とし

                                            ユーザー全員の記憶を忘れないAI Chat Bot「メモリアドラゴン」を作った話【Gemini 1.5 Flash】|かりみや
                                          • 【Zenn最速】Microsoft 365 Copilot Wave 2 アップデートの要点解説✍【急に進化しすぎやろ】

                                            はじめに 本日2024年9月17日、日本時間深夜にMicrosoft 365 Copilot Wave2 という形で、Copilotに関する最新アップデートが発表されました。(個人的には、結構謎なタイミングでの発表でしたが、先日のOpenAIのo1モデル発表に合わせてきた感じでしょうか) 詳しくは以下のブログまたは発表動画をご覧ください。 この記事では、「Microsoft 365 Copilot Wave 2」についての内容の要点をつらつらとメモしつつ解説してみました。 1. Microsoft 365アプリでのCopilotの強化 a. ExcelにおけるCopilotのアップデート Pythonとの統合 Copilot in Excel with Pythonを導入。これにより、データ分析の経験がないユーザーでも自然言語で高度なデータ分析が可能になります。これにより、以下のような高度

                                              【Zenn最速】Microsoft 365 Copilot Wave 2 アップデートの要点解説✍【急に進化しすぎやろ】
                                            • オープンワールドゲームを生成するAI「GameGen-O」、テキスト化を省き瞬時に応えるオープン音声AIモデル「LLaMA-Omni」など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge

                                              2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 OpenAIが新たに強力な推論モデル「OpenAI o1」と、高速で安価な推論モデル「 OpenAI o1-mini」を発表しました。o1は従来モデルより時間をかけて考えることで、複雑なタスクの正答率が大幅に向上します。 国際数学オリンピック予備試験での正答率はGPT-4oの13%から83%に上昇し、安全性テストでも3倍以上の高いスコアを記録しました。o1は ChatGPT PlusとTeamユーザーに提供され、APIでもプレビュー版の利用が可能となります。 Adobeが動画生成AI「Adobe Firefly Video」を発表しました。テキストや画像から動画を生成するだけでなく、角度、モーション、ズームなどの豊富なカメラコントロールを活用して、

                                                オープンワールドゲームを生成するAI「GameGen-O」、テキスト化を省き瞬時に応えるオープン音声AIモデル「LLaMA-Omni」など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge
                                              • GitHub - comet-ml/opik: Open-source end-to-end LLM Development Platform

                                                You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                  GitHub - comet-ml/opik: Open-source end-to-end LLM Development Platform
                                                • LLMアキネータ対戦環境を作ってみた

                                                  実装 コーディング ルールを明確化できたので、上記の仕様でコーディングを行いました。具体的には、下記の手順で実施しました。 人狼ゲーム用に作った汎用LLM応答関数をモジュール化(OpenAI API, Gemini API, Ollama APIに対応) 上記関数の入出力情報と、それ以外の部分の仕様をCalude 3.5 Sonnetに与えてコーディングを依頼 得られたPythonコードを手作業で試行錯誤しながら修正 LLM人狼よりもかなり単純なコードであり、Claudeに依頼してから動かすまでは30分もかからなかったと思います。その後の検証や微調整、キーワードリストの作成の方が何倍も時間かかりました。参考までに、この記事の執筆時点でのmain.pyのソースコードは下記のとおりです(単体では動かないので、プロンプト等の参考程度に見てください)。 main.pyのソースコード import

                                                    LLMアキネータ対戦環境を作ってみた
                                                  • ChatGPTを仕事の相棒にするプロンプトエンジニアリングの26の極意-リープリーパー

                                                    ChatGPT、使っていますか? 今回は今年1月に出た論文アーカイブを基に、ChatGPT等の使用に役立つプロンプトエンジニアリング26のコツを解説します。そもそもプロンプトエンジニアリングとは何か、ChatGPTの応答の質を上げ生産性を上げるにはどうすればいいか、などを解説していきます。 研究職の仕事にも役立っているChatGPT 筆者は普段、コンピューターサイエンスやライフサイエンス等に関わる研究活動をしていて、研究のアイデア出しやコーディング、論文を読む時などにChatGPTを活用しています。 今回の論文の内容は、仕事や学業における生産性を上げるのに貢献してくれそうです!類似のテーマについては、別の記事でも解説していますのでそちらもチェックしてみてください! [nlink url=/2023/06/21/3programming-revolutions-with-chatgpt-by

                                                    • OpenAI o1 の概要|npaka

                                                      以下の記事が面白かったので、簡単にまとめました。 ・Introducing OpenAI o1-preview 1. OpenAI o1「OpenAI o1」は、応答する前により多くの時間をかけて思考するように設計された新しいAIモデルシリーズです。以前のモデルよりも複雑なタスクを推論し、科学、コーディング、数学の分野でより難しい問題を解決することができます。 ・o1-preview : o1モデルの早期プレビューモデル。世界に関する幅広い一般知識を使用して難しい問題を推論できるように設計されている。 ・o1-mini : より高速で安価なo1モデル。広範な一般知識を必要としないコーディング、数学、科学のタスクに長けている。 本日 (2024年9月12日)、このシリーズの最初のモデルをChatGPTおよびAPIでリリースします。これはプレビュー版であり、今後も定期的な更新と改善を予定してい

                                                        OpenAI o1 の概要|npaka
                                                      • o1-previewの性能はどのくらい向上したのか?ーGPT-4oとの性能比較|IT navi

                                                        9月12日、OpenAIが新しい推論モデルのo1-previewとo1-miniを発表し、ChatGPT Plusなどの課金ユーザーは、即日、両モデルを利用できるようになりました。 これらのモデルは、応答前に時間をかけて考えるように設計されており、複雑なタスクを論理的に処理し、従来のモデルよりも科学、コーディング、数学における難しい問題を解決することができるとされています。 そこで、今回、新モデルのo1-previewとGPT-4oモデルの回答の性能を比較してみました。 👆僕の書いたGPTs解説書です。電子書籍版はAmazonポイント50%還元キャンペーン中です。(2024/9/13現在) 1.OpenAI o1モデルの概要(1) o1モデルの推論の仕組みo1モデルには、推論トークンの仕組みが導入されており、この推論トークンを使用して思考し、プロンプトの理解をブレークダウンして、応答を生

                                                          o1-previewの性能はどのくらい向上したのか?ーGPT-4oとの性能比較|IT navi
                                                        • LLMアプリケーションにおけるObservabilityとLangfuse - ROUTE06 Tech Blog

                                                          LLMを利用したアプリケーションの開発において、オブザーバビリティ(Observability)確保のためにLangfuseを導入しました。 本格的な運用はこれからとなりますが、Langfuseが解決する課題についてツールの検討を通して得た知識を纏めます。 LLMOpsとObservability LLMOpsの重要性と、LLMアプリケーションのObservabilityとの関係について概説します。 LLMを使ったアプリケーション開発と運用における課題 LLMを用いたアプリケーション開発には、以下のような課題があります。 幻覚や誤情報の生成: LLMは文脈を理解しているわけではなく、逐次前後の流れから次の単語を予測して生成するため、文脈に沿わない文書を生成する可能性があります。 データプライバシーとセキュリティ: LLMは大量のデータから学習します。個人情報や機密情報を入力することによりそ

                                                            LLMアプリケーションにおけるObservabilityとLangfuse - ROUTE06 Tech Blog
                                                          • ChatGPT「4o」vs「o1 preview」なにが違ってどっちが優秀なのか試してみた | ライフハッカー・ジャパン

                                                            Open AI社は新型AIの「o1-preview」をリリース。早速使ってみた感想をご紹介します。

                                                              ChatGPT「4o」vs「o1 preview」なにが違ってどっちが優秀なのか試してみた | ライフハッカー・ジャパン
                                                            • GitHub Models を使って 20 種類以上の LLM の日本語性能を測定してみた - NTT Communications Engineers' Blog

                                                              本記事では、今年8月にパブリックベータ版として GitHub に搭載された新機能 GitHub Models について、概要や利用法を簡単にご説明します。さらに、実際に GitHub Models を活用して、多数の LLM の日本語性能を横断的に測定していく例を紹介していきます。 目次 目次 はじめに 三行で GitHub Models を説明すると... GitHub Models の使い方 Waitlist への登録 モデル一覧 ブラウザ上で試す API経由で試す GitHub Models を利用する上での注意点 API レート制限の制約が強い Azure AI Content Safety が全ての LLM に適用されている GitHub Models を使って LLM の日本語性能を横断的に測定する 実験 1. GPT-4o による自動評価 2. 出力が日本語になっているかどう

                                                                GitHub Models を使って 20 種類以上の LLM の日本語性能を測定してみた - NTT Communications Engineers' Blog
                                                              • G7、AI悪用リスク監視 健全活用へ国際基準 グーグルなど参加へ - 日本経済新聞

                                                                人工知能(AI)の健全な利用を後押しする国際的な取り組みが動き出す。主要7カ国(G7)が年内にも生成AIの悪用リスクなどに関する情報開示の基準を定め、開発事業者に回答を求める。グーグルやオープンAIなど各国大手が参加する想定で、国際標準の仕組みとして普及をめざす。AIが提供する文書や画像作成といったサービスは国境を越えて広がる。利便性の半面、知的財産の侵害や情報漏洩、犯罪への悪用、偽情報の拡散

                                                                  G7、AI悪用リスク監視 健全活用へ国際基準 グーグルなど参加へ - 日本経済新聞
                                                                1