タグ

AIとLLMに関するjassmazのブックマーク (26)

  • Cline(Roo Code)を暴走列車にしたら4日間で数ヶ月分のコードが生成できた

    アイコンが変わったerukitiです。最近はやりのgpt-4o image generationを使って、顔だけだったアイコンに全身が追加されました。2023年4月10日に初めてのLLMプロダクトの開発キックオフからもうすぐで二年です。rat yearなこの業界なんで、変化がめまぐるしすぎますね。 今回は、真に高速なAIコーディングのメソッドを確立するために、中規模くらいのコードをコーディングエージェントのみに書かせる実験をしています。コーディングエージェントはCline派生であるRoo Code(以後Rooと呼ぶ)を使っています。 ※完全に個人研究としてやっているため、会社のリソースは使っていません。 作っているものはコーディングエージェントのコアライブラリ + おまけのCLI 規模としては136ファイル・26410行(一時期30000行弱までいった) なぜコーディングエージェントを使っ

    Cline(Roo Code)を暴走列車にしたら4日間で数ヶ月分のコードが生成できた
  • GPT-4oとGemini-2.0の画像生成能力はいかにして作られているのか

    はじめに Googleが2025年3月14日に発表したGemini-2.0と、続けてOpenAIが2025年3月26日に発表したGPT-4oの画像生成能力は、これまでの画像生成AIでは到達しえないレベルの制御性・品質での画像生成を実現しました。 ここ1年半ほど画像生成AIいじりを仕事にしてきた者としては、これまで積み上げてきた成果や進捗がすべて無に帰すレベルでの進化が突然起き、巨人にすべてを蹴散らされたという感じです。別のスキルを身につけたほうがいいかな… しかし一方で、この進化は決して1日にして為されたものではなく、これまでの研究成果が地道に蓄積された結果です。記事では、その驚異的な画像生成能力、ひいてはAny-to-Anyの生成能力の裏にある技術的な背景を、分かる範囲でサクッと解説していきます。 これまでの画像生成AI TL;DR: これまで広く利用されてきた画像生成AIは、拡散モデ

    GPT-4oとGemini-2.0の画像生成能力はいかにして作られているのか
  • 言語モデルの物理学 - ジョイジョイジョイ

    言語モデルの物理学 (Physics of Language Models) とは、FAIR (Meta) の Zeyuan Allen-Zhu が提唱した、言語モデルの研究を進めるためのコンセプトです。ざっくり言うと、「あのモデルはこう」とか「そのモデルはこのモデルよりもこう」というような博物学的な知識を深めるのではなく、17世紀にケプラーやニュートンが物理学において行ったような原理に基づいた研究を進め、「言語モデルはなぜこのような振る舞いをするのか」という問いに答えられるようになるべきという考え方です。 言語モデルの物理学の特徴は大きく2つあります。 第一は、ウェブから収集したコーパスを使わず、きっちりコントロールされたデータセットを使って言語モデルを訓練するということ。ウェブは誰も全体像を理解できないほど複雑で、ノイズにまみれています。物の物理学でも空気抵抗や摩擦があると、「鉄球は

    言語モデルの物理学 - ジョイジョイジョイ
  • J-Moshi

    語Full-duplex音声対話システムの試作 Paper (To appear) | Model | Code 大橋 厚元,飯塚 慎也,姜 菁菁,東中 竜一郎 名古屋大学 大学院情報学研究科 概要: 人間同士の対話における発話のオーバーラップや相槌など,同時双方向的な特徴をモデル化できるfull-duplex音声対話システムは,近年注目を集めている.しかし日語においては,full-duplex音声対話システムはほとんど見られず,full-duplex音声対話システムの開発に関する知見は不足している.研究では,英語における主要なfull-duplex音声対話システムであるMoshi[1] をベースとすることで,日語で利用可能な最初のfull-duplex音声対話システム J-Moshi[2] を試作し,公開する.

  • DeepSeek

    DeepSeek-V2 and DeepSeek-Coder-V2: 236 billion MoE model. Leading performance. Ultra-affordable. Unparalleled experience.

    DeepSeek
  • RAG技術の現状考察と2025年のトレンド予想

    記事では、現在流行している「RAG」技術について、2024年トレンドの振り返りと、2025年の予想をします。株式会社ナレッジセンスは、エンタープライズ企業向けにRAGを提供しているスタートアップです。 この記事は何 2024年は、RAGが大流行した年でした。この記事では、2024年の技術トレンドを振り返りつつ、2025年のRAGの進展を予想したいと思います。技術的トレンドはもちろん、普段、企業向けにRAGを提供している会社としての、僕の肌感覚も合わせて、お伝えできればと思います。 題 ざっくりサマリー 結論として、RAGは、来年も変わらず流行し続けると予想します。 まず来年は、これまで以上に回答精度が向上するのは間違いないです。その理由は、LLMの価格低下トレンドと入力できるコンテキスト増大トレンドが、まだ続くためです。加えて、LLMが「視覚・音声」の入力手段を獲得したこと、ベクトルD

    RAG技術の現状考察と2025年のトレンド予想
  • Hebbia – Hebbia

    We are excited to announce our Series B funding round led by a16z.

    Hebbia – Hebbia
  • LLMと数理最適化を組み合わせる

    エントリは Ubie 生成AI Advent Calendar 2024 の9日目の記事です。LLMの進化が目覚ましいですが、現状ではLLM単体では対応が難しい課題も多く存在します。そこで重要になるのが、LLMと他のツールとの連携です。 記事では、LLMで不得意な分野を埋めるツールの一つとして数理最適化との連携方法について、自分の試している内容を簡単に紹介します。 LLMと数理最適化を組み合わせる 数理最適化とは、問題に対して明確に定義された条件(制約条件)や目標(目的関数)をもとに、最適な解を見つけ出す技術です。交通計画や物流の効率化、シフト作成、エネルギー管理など、さまざまな応用があります。 出典: 日オペレーションズ・リサーチ学会ポスター 数理最適化を用いると、LLMの苦手とする厳密な制約の取り扱いが可能となります。たとえば配送計画では複数の条件(時間枠、移動時間、積載量など)

    LLMと数理最適化を組み合わせる
    jassmaz
    jassmaz 2024/12/10
  • AIの女の子がわいわい競馬予想するシステムを個人展示したら倍率2000倍の馬券が当たってしまった (1)設計思想編 - Qiita

    何が起きたのか 生成AIが好きな個人がなんでも出展できる、 「なんでも生成AI展示会」 というイベントがありまして、 11/16(土) 12:30 ~ 18:00にて「#生成AIなんでも展示会」を開催します🎉 個人の方が生成AIで作っているものを見ることができる・体験することができるイベントになっています! 申し込みURLは以下⬇️https://t.co/aNIQ6myJ4q 以下の方との共同主催です@sald_ra @GianMattya @miketako3 @Yanagi_1112 — ようさん (@ayousanz) September 28, 2024 人づてに出展しないか誘われたので、ストレス解消がてら9月頃から「マルチエージェントLLM(大規模言語モデル)オーケストレーション」というコンセプトで競馬予想をするシステムをシコシコと土日に作っておりました。 (ふだんは仕事でウ

    AIの女の子がわいわい競馬予想するシステムを個人展示したら倍率2000倍の馬券が当たってしまった (1)設計思想編 - Qiita
  • LLMの概念空間の構造解明:脳のような機能別「領域」仮説 MITの研究チームが発表 | Ledge.ai

    サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

    LLMの概念空間の構造解明:脳のような機能別「領域」仮説 MITの研究チームが発表 | Ledge.ai
    jassmaz
    jassmaz 2024/11/17
  • 教科書・本を自動生成するツールをChatGPTで作ってみた - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 教科書をLaTeXおよびPDFファイルで自動生成するツールを作りました! プログラムはGithubで公開しており、Google Colabで実行できます。 ツールの名前は、AutoGenBookとしました。 このツールにより、あなたのバックグラウンドを考慮した上で、あなたの知りたい分野の教科書を数十円くらいで作ることができます!! 以下は「機械学習のための線形代数」についての教科書を出力した結果です。PDFはこちらに置いています。 Markdownでの出力にも対応しました(2024/10/19)。 数式だけでなく、プログラムも表示できま

    教科書・本を自動生成するツールをChatGPTで作ってみた - Qiita
  • 顧客の要望から要件定義、システム生成まで自動化する「Babel」 OSSの「Zoltraak」がコア

    AIと量子コンピューティングの研究開発を行なうKandaQuantumは、2024年8月31日、顧客の要望内容を元に自動的に要件定義を生成し、さらに自律的にシステムを構築する要件定義システム生成AI「Babel(バベル)」をリリースした。 Babelは一行の要望から要望一覧、要件定義まで一気通貫で記載する。「要件定義プログラミング」により、自然言語からコードへの直接変換を実現。顧客の要望やビジョンを入力するだけで、Babelが詳細な要件定義のYAMLファイルを自動生成する。その上で生成された要件定義に基づき、Babelが独自にシステムを設計、開発。技術的な詳細を指定することなく、望む機能やふるまいを記述するだけでシステムが構築される。

    顧客の要望から要件定義、システム生成まで自動化する「Babel」 OSSの「Zoltraak」がコア
    jassmaz
    jassmaz 2024/09/01
  • ソースコードをリポジトリ丸ごとLLMに読んでもらう方法

    はじめに ソースコードをLLMに読んでもらうとき、単一ファイルだと楽なのですが、GitHubのリポジトリのように複数ファイルから構成されるプロジェクトだと困ってしまいますね。 リポジトリごとLLMに読んでもらえるようにいい感じにテキスト化できると良いですね。そんなソフトがありました。しかも2つ。 両方ともほとんどコンセプトは同じです。特に後者のgenerate-project-summaryは使い方も含めて、自分のやりたいことが、すでに開発者の清水れみおさんが以下の記事にまとめていました。 なので、あんまり書く必要ないのですが、せっかくなのでgpt-repository-loaderの使い方と、出力したファイルの別の活用方法について書いてみたいと思います。 gpt-repository-loaderでリポジトリをテキストに変換 使い方はREADMEに書いてあります。シンプルなソフトなので、

    ソースコードをリポジトリ丸ごとLLMに読んでもらう方法
    jassmaz
    jassmaz 2024/08/31
  • ゼロからRAGを作るならこんなふうに

    どんな人向けの記事? これからRAGを作ってみたい DifyやLangChainにこだわらず、自分で開発をハンドリングしたい ベクトルDBや埋め込みモデルの選定の勘所をサッと知りたい ここではRAGとは何かのような話題は扱いません。 RAGが、ほぼAI活用の現実的な最適解になりつつある LLMは高度な知的タスクを実行可能である。 そんな理解が世界に広まっていく中で、企業は自らが蓄えたデータをLLMに組み合わせてどう活用するか躍起になっています。これからはビッグデータだ!という時代を経ているため、情報インフラに投資した企業も多く、AIでデータを活用する流れはもはや確定路線と言えます。 この問題を解決する手法として一番最初に思いつくのは、モデル自体を改変するファインチューニングです。しかし、ファインチューニングにはいくつかの実用上の問題があります。ファインチューニング自体に専門知識が必要である

    ゼロからRAGを作るならこんなふうに
  • LLMを使ったワークフローをノーコードで作れるDifyを使ってみました - toyoshiの日記

    Difyを使ってみました。クラウドベースのLLM特化のワークフロー作成ツールです。ZapierやMakeとの違いはLLMに特化してるかどうか。 私の期待としてはGPTsではできない再起的なLLMの呼び出し、バッチ処理、他のソースの取り込み、コードが書けない人でもRAGが扱えるようにしたいということでした。 結論から書くと期待してたことは大体できそうでした。 入力としてCSVの処理が始めからついている 作ったワークフローについて他のワークフローから呼び出したりWeb APIとしてすぐに使える Notionを知識のソースとして使える(Notionへのデータ挿入もDifyから自動化できるため自動で成長するチャットボットも作れそう) GPTsではできないことがコードなしでできる なおDifyはオープンソースとなっており自前でホスティングすることも可能です。今回はまずはクラウドサービスを利用してみま

    LLMを使ったワークフローをノーコードで作れるDifyを使ってみました - toyoshiの日記
  • OpenAIがJSON出力の際に100%の精度で特定のスキーマに従わせる機能をリリース

    AIにデータを構造化させる際に、指定したスキーマに確実に従わせることが可能なモードをOpenAIがリリースしました。 Introducing Structured Outputs in the API | OpenAI https://openai.com/index/introducing-structured-outputs-in-the-api/ 構造化されていないデータを読み取り、構造化されたデータを出力するのはAIの主要なユースケースの一つです。これまでもOpenAIAPIでは「JSONモード」という設定が存在しており、指定した構造を持つJSONをAIに出力させることが可能でしたが、必ずしも指定した構造通りのデータが出力されるとは限りませんでした。 今回リリースされた「gpt-4o-2024-08-06」モデルでは、strictを「true」に設定することで100%の精度で指定

    OpenAIがJSON出力の際に100%の精度で特定のスキーマに従わせる機能をリリース
  • LLMアプリケーションの評価入門〜基礎から運用まで徹底解説〜

    こんにちは。PharmaXの上野です。 今回はLLMアプリケーションを評価する上で知っておくべき評価の基をきちんと整理したいと思います。 これまで何度かLLMアプリケーションの評価について語ってきました。 運用についても記事や発表の形でシェアを行ってきました。 ですが、まだまだ「評価とはなにか?」という基的なところで躓いてしまっている方も多い印象なので、今回は前提から丁寧に評価の全体像をまとめていきたいと思います。 LLMアプリケーションを運用している方の参考になれば嬉しいです! なぜLLMアプリケーションを評価する必要があるのか LLMをアプリケーションに組み込んでいると、LLMの出力を評価する必要が出てきます。 LLMの「出力は確率的である(毎回異なる)」ためです。 また、LLMの出力はハルシネーションを含む可能性がありますし、間違いではないにしてもサービス提供者の意図とは違った出

    LLMアプリケーションの評価入門〜基礎から運用まで徹底解説〜
  • Google DeepMindの研究者が解説する「正しいAIの使い方」とは?

    GoogleAI研究部門であるGoogle DeepMindで働くニコラス・カルリーニ氏が、「正しいAIの使い方」を解説しています。 How I Use "AI" https://nicholas.carlini.com/writing/2024/how-i-use-ai.html カルリーニ氏は大規模言語モデル(LLM)が世間から「過大評価されている」と感じているそうです。しかし、「過去1年間、毎週少なくとも数時間をLLMの利用に費やしてきた身として、私が与える困難なタスクをLLMが解決する能力には感銘を受けています」とも記しており、LLMヘビーユーザーの意見として、その能力に太鼓判を押しています。カルリーニ氏は「LLMのおかげで研究プロジェクトとサイドプロジェクトの両方でコードを書くのが少なくとも50%速くなりました」と記し、LLMがユーザーの作業効率を大きく高めることにつながると指

    Google DeepMindの研究者が解説する「正しいAIの使い方」とは?
  • Ilya Sutskever | Neural networks are the creators of AI | AGI originated from neural networks

  • [翻訳]LLMで1年間開発して学んだこと〜LLMプロダクト開発を成功に導くための実践的ガイド〜

    この記事は "What We’ve Learned From A Year of Building with LLMs" という記事を著者の一人である Eugene Yan さんから許可を得て翻訳したものです。 https://applied-llms.org/ Thank you for giving me a permission to translate this wonderful article! 著者の方々 Eugene Yan Bryan Bischof Charles Frye Hamel Husain Jason Liu Shreya Shankar 原文の公開日 2024/6/8 今は大規模言語モデル(LLM)を使った開発がとってもエキサイティングな時期です。この1年間で、LLMは実世界のアプリケーションに対して「十分に良い」ものになりました。そして、年々良くなり、安く

    [翻訳]LLMで1年間開発して学んだこと〜LLMプロダクト開発を成功に導くための実践的ガイド〜