[B! AI][LLM] jassmazのブックマーク

Cline(Roo Code)を暴走列車にしたら4日間で数ヶ月分のコードが生成できた

アイコンが変わったerukitiです。最近はやりのgpt-4o image generationを使って、顔だけだったアイコンに全身が追加されました。2023年4月10日に初めてのLLMプロダクトの開発キックオフからもうすぐで二年です。rat yearなこの業界なんで、変化がめまぐるしすぎますね。今回は、真に高速なAIコーディングのメソッドを確立するために、中規模くらいのコードをコーディングエージェントのみに書かせる実験をしています。コーディングエージェントはCline派生であるRoo Code（以後Rooと呼ぶ）を使っています。 ※完全に個人研究としてやっているため、会社のリソースは使っていません。作っているものはコーディングエージェントのコアライブラリ + おまけのCLI 規模としては136ファイル・26410行（一時期30000行弱までいった）なぜコーディングエージェントを使っ

jassmaz 2025/03/31

リンク

GPT-4oとGemini-2.0の画像生成能力はいかにして作られているのか

はじめに Googleが2025年3月14日に発表したGemini-2.0と、続けてOpenAIが2025年3月26日に発表したGPT-4oの画像生成能力は、これまでの画像生成AIでは到達しえないレベルの制御性・品質での画像生成を実現しました。ここ1年半ほど画像生成AIいじりを仕事にしてきた者としては、これまで積み上げてきた成果や進捗がすべて無に帰すレベルでの進化が突然起き、巨人にすべてを蹴散らされたという感じです。別のスキルを身につけたほうがいいかな… しかし一方で、この進化は決して1日にして為されたものではなく、これまでの研究成果が地道に蓄積された結果です。本記事では、その驚異的な画像生成能力、ひいてはAny-to-Anyの生成能力の裏にある技術的な背景を、分かる範囲でサクッと解説していきます。これまでの画像生成AI TL;DR: これまで広く利用されてきた画像生成AIは、拡散モデ

jassmaz 2025/03/28

リンク

言語モデルの物理学 - ｼﾞｮｲｼﾞｮｲｼﾞｮｲ

言語モデルの物理学 (Physics of Language Models) とは、FAIR (Meta) の Zeyuan Allen-Zhu が提唱した、言語モデルの研究を進めるためのコンセプトです。ざっくり言うと、「あのモデルはこう」とか「そのモデルはこのモデルよりもこう」というような博物学的な知識を深めるのではなく、17世紀にケプラーやニュートンが物理学において行ったような原理に基づいた研究を進め、「言語モデルはなぜこのような振る舞いをするのか」という問いに答えられるようになるべきという考え方です。言語モデルの物理学の特徴は大きく2つあります。第一は、ウェブから収集したコーパスを使わず、きっちりコントロールされたデータセットを使って言語モデルを訓練するということ。ウェブは誰も全体像を理解できないほど複雑で、ノイズにまみれています。本物の物理学でも空気抵抗や摩擦があると、「鉄球は

jassmaz 2025/03/25

リンク

J-Moshi

日本語Full-duplex音声対話システムの試作 Paper (To appear) | Model | Code 大橋厚元，飯塚慎也，姜菁菁，東中竜一郎名古屋大学大学院情報学研究科概要: 人間同士の対話における発話のオーバーラップや相槌など，同時双方向的な特徴をモデル化できるfull-duplex音声対話システムは，近年注目を集めている．しかし日本語においては，full-duplex音声対話システムはほとんど見られず，full-duplex音声対話システムの開発に関する知見は不足している．本研究では，英語における主要なfull-duplex音声対話システムであるMoshi[1] をベースとすることで，日本語で利用可能な最初のfull-duplex音声対話システム J-Moshi[2] を試作し，公開する．

jassmaz 2025/01/26

リンク

DeepSeek

DeepSeek-V2 and DeepSeek-Coder-V2: 236 billion MoE model. Leading performance. Ultra-affordable. Unparalleled experience.

jassmaz 2025/01/08

リンク

RAG技術の現状考察と2025年のトレンド予想

本記事では、現在流行している「RAG」技術について、2024年トレンドの振り返りと、2025年の予想をします。株式会社ナレッジセンスは、エンタープライズ企業向けにRAGを提供しているスタートアップです。この記事は何 2024年は、RAGが大流行した年でした。この記事では、2024年の技術トレンドを振り返りつつ、2025年のRAGの進展を予想したいと思います。技術的トレンドはもちろん、普段、企業向けにRAGを提供している会社としての、僕の肌感覚も合わせて、お伝えできればと思います。本題ざっくりサマリー結論として、RAGは、来年も変わらず流行し続けると予想します。まず来年は、これまで以上に回答精度が向上するのは間違いないです。その理由は、LLMの価格低下トレンドと入力できるコンテキスト増大トレンドが、まだ続くためです。加えて、LLMが「視覚・音声」の入力手段を獲得したこと、ベクトルD

jassmaz 2024/12/24

リンク

Hebbia – Hebbia

We are excited to announce our Series B funding round led by a16z.

jassmaz 2024/12/10

リンク

LLMと数理最適化を組み合わせる

本エントリは Ubie 生成AI Advent Calendar 2024 の9日目の記事です。LLMの進化が目覚ましいですが、現状ではLLM単体では対応が難しい課題も多く存在します。そこで重要になるのが、LLMと他のツールとの連携です。本記事では、LLMで不得意な分野を埋めるツールの一つとして数理最適化との連携方法について、自分の試している内容を簡単に紹介します。 LLMと数理最適化を組み合わせる数理最適化とは、問題に対して明確に定義された条件（制約条件）や目標（目的関数）をもとに、最適な解を見つけ出す技術です。交通計画や物流の効率化、シフト作成、エネルギー管理など、さまざまな応用があります。出典: 日本オペレーションズ・リサーチ学会ポスター数理最適化を用いると、LLMの苦手とする厳密な制約の取り扱いが可能となります。たとえば配送計画では複数の条件（時間枠、移動時間、積載量など）

jassmaz 2024/12/10

AI
LLM

リンク

AIの女の子がわいわい競馬予想するシステムを個人展示したら倍率2000倍の馬券が当たってしまった (1)設計思想編 - Qiita

何が起きたのか生成AIが好きな個人がなんでも出展できる、「なんでも生成AI展示会」というイベントがありまして、 11/16(土) 12:30 ~ 18:00にて「#生成AIなんでも展示会」を開催します🎉 個人の方が生成AIで作っているものを見ることができる・体験することができるイベントになっています！申し込みURLは以下⬇️https://t.co/aNIQ6myJ4q 以下の方との共同主催です@sald_ra @GianMattya @miketako3 @Yanagi_1112 — ようさん (@ayousanz) September 28, 2024 人づてに出展しないか誘われたので、ストレス解消がてら９月頃から「マルチエージェントLLM(大規模言語モデル)オーケストレーション」というコンセプトで競馬予想をするシステムをシコシコと土日に作っておりました。（ふだんは仕事でウ

jassmaz 2024/11/18

リンク

LLMの概念空間の構造解明：脳のような機能別「領域」仮説　MITの研究チームが発表 | Ledge.ai

サインインした状態で「いいね」を押すと、マイページの「いいね履歴」に一覧として保存されていくので、再度読みたくなった時や、あとでじっくり読みたいときに便利です。

jassmaz 2024/11/17

LLM
AI

リンク

教科書・本を自動生成するツールをChatGPTで作ってみた - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 教科書をLaTeXおよびPDFファイルで自動生成するツールを作りました！プログラムはGithubで公開しており、Google Colabで実行できます。ツールの名前は、AutoGenBookとしました。このツールにより、あなたのバックグラウンドを考慮した上で、あなたの知りたい分野の教科書を数十円くらいで作ることができます！！以下は「機械学習のための線形代数」についての教科書を出力した結果です。PDFはこちらに置いています。 Markdownでの出力にも対応しました（2024/10/19）。数式だけでなく、プログラムも表示できま

jassmaz 2024/10/14

リンク

顧客の要望から要件定義、システム生成まで自動化する「Babel」　OSSの「Zoltraak」がコア

AIと量子コンピューティングの研究開発を行なうKandaQuantumは、2024年8月31日、顧客の要望内容を元に自動的に要件定義を生成し、さらに自律的にシステムを構築する要件定義システム生成AI「Babel（バベル）」をリリースした。 Babelは一行の要望から要望一覧、要件定義まで一気通貫で記載する。「要件定義プログラミング」により、自然言語からコードへの直接変換を実現。顧客の要望やビジョンを入力するだけで、Babelが詳細な要件定義のYAMLファイルを自動生成する。その上で生成された要件定義に基づき、Babelが独自にシステムを設計、開発。技術的な詳細を指定することなく、望む機能やふるまいを記述するだけでシステムが構築される。

jassmaz 2024/09/01

LLM
AI

リンク

ソースコードをリポジトリ丸ごとLLMに読んでもらう方法

はじめにソースコードをLLMに読んでもらうとき、単一ファイルだと楽なのですが、GitHubのリポジトリのように複数ファイルから構成されるプロジェクトだと困ってしまいますね。リポジトリごとLLMに読んでもらえるようにいい感じにテキスト化できると良いですね。そんなソフトがありました。しかも2つ。両方ともほとんどコンセプトは同じです。特に後者のgenerate-project-summaryは使い方も含めて、自分のやりたいことが、すでに開発者の清水れみおさんが以下の記事にまとめていました。なので、あんまり書く必要ないのですが、せっかくなのでgpt-repository-loaderの使い方と、出力したファイルの別の活用方法について書いてみたいと思います。 gpt-repository-loaderでリポジトリをテキストに変換使い方はREADMEに書いてあります。シンプルなソフトなので、

jassmaz 2024/08/31

AI
LLM

リンク

ゼロからRAGを作るならこんなふうに

どんな人向けの記事？これからRAGを作ってみたい DifyやLangChainにこだわらず、自分で開発をハンドリングしたいベクトルDBや埋め込みモデルの選定の勘所をサッと知りたいここではRAGとは何かのような話題は扱いません。 RAGが、ほぼAI活用の現実的な最適解になりつつある LLMは高度な知的タスクを実行可能である。そんな理解が世界に広まっていく中で、企業は自らが蓄えたデータをLLMに組み合わせてどう活用するか躍起になっています。これからはビッグデータだ！という時代を経ているため、情報インフラに投資した企業も多く、AIでデータを活用する流れはもはや確定路線と言えます。この問題を解決する手法として一番最初に思いつくのは、モデル自体を改変するファインチューニングです。しかし、ファインチューニングにはいくつかの実用上の問題があります。ファインチューニング自体に専門知識が必要である

jassmaz 2024/08/16

リンク

LLMを使ったワークフローをノーコードで作れるDifyを使ってみました - toyoshiの日記

Difyを使ってみました。クラウドベースのLLM特化のワークフロー作成ツールです。ZapierやMakeとの違いはLLMに特化してるかどうか。私の期待としてはGPTsではできない再起的なLLMの呼び出し、バッチ処理、他のソースの取り込み、コードが書けない人でもRAGが扱えるようにしたいということでした。結論から書くと期待してたことは大体できそうでした。入力としてCSVの処理が始めからついている作ったワークフローについて他のワークフローから呼び出したりWeb APIとしてすぐに使える Notionを知識のソースとして使える（Notionへのデータ挿入もDifyから自動化できるため自動で成長するチャットボットも作れそう） GPTsではできないことがコードなしでできるなおDifyはオープンソースとなっており自前でホスティングすることも可能です。今回はまずはクラウドサービスを利用してみま

jassmaz 2024/08/08

リンク

OpenAIがJSON出力の際に100％の精度で特定のスキーマに従わせる機能をリリース

AIにデータを構造化させる際に、指定したスキーマに確実に従わせることが可能なモードをOpenAIがリリースしました。 Introducing Structured Outputs in the API | OpenAI https://openai.com/index/introducing-structured-outputs-in-the-api/ 構造化されていないデータを読み取り、構造化されたデータを出力するのはAIの主要なユースケースの一つです。これまでもOpenAIのAPIでは「JSONモード」という設定が存在しており、指定した構造を持つJSONをAIに出力させることが可能でしたが、必ずしも指定した構造通りのデータが出力されるとは限りませんでした。今回リリースされた「gpt-4o-2024-08-06」モデルでは、strictを「true」に設定することで100％の精度で指定

jassmaz 2024/08/08

リンク

LLMアプリケーションの評価入門〜基礎から運用まで徹底解説〜

こんにちは。PharmaXの上野です。今回はLLMアプリケーションを評価する上で知っておくべき評価の基本をきちんと整理したいと思います。これまで何度かLLMアプリケーションの評価について語ってきました。運用についても記事や発表の形でシェアを行ってきました。ですが、まだまだ「評価とはなにか？」という基本的なところで躓いてしまっている方も多い印象なので、今回は前提から丁寧に評価の全体像をまとめていきたいと思います。 LLMアプリケーションを運用している方の参考になれば嬉しいです！なぜLLMアプリケーションを評価する必要があるのか LLMをアプリケーションに組み込んでいると、LLMの出力を評価する必要が出てきます。 LLMの「出力は確率的である（毎回異なる）」ためです。また、LLMの出力はハルシネーションを含む可能性がありますし、間違いではないにしてもサービス提供者の意図とは違った出

jassmaz 2024/08/06

リンク

Google DeepMindの研究者が解説する「正しいAIの使い方」とは？

GoogleのAI研究部門であるGoogle DeepMindで働くニコラス・カルリーニ氏が、「正しいAIの使い方」を解説しています。 How I Use "AI" https://nicholas.carlini.com/writing/2024/how-i-use-ai.html カルリーニ氏は大規模言語モデル(LLM)が世間から「過大評価されている」と感じているそうです。しかし、「過去1年間、毎週少なくとも数時間をLLMの利用に費やしてきた身として、私が与える困難なタスクをLLMが解決する能力には感銘を受けています」とも記しており、LLMヘビーユーザーの意見として、その能力に太鼓判を押しています。カルリーニ氏は「LLMのおかげで研究プロジェクトとサイドプロジェクトの両方でコードを書くのが少なくとも50％速くなりました」と記し、LLMがユーザーの作業効率を大きく高めることにつながると指

jassmaz 2024/08/06

リンク

Ilya Sutskever | Neural networks are the creators of AI | AGI originated from neural networks

jassmaz 2024/07/22

リンク

[翻訳]LLMで1年間開発して学んだこと〜LLMプロダクト開発を成功に導くための実践的ガイド〜

この記事は "What We’ve Learned From A Year of Building with LLMs" という記事を著者の一人である Eugene Yan さんから許可を得て翻訳したものです。 https://applied-llms.org/ Thank you for giving me a permission to translate this wonderful article! 著者の方々 Eugene Yan Bryan Bischof Charles Frye Hamel Husain Jason Liu Shreya Shankar 原文の公開日 2024/６/8 今は大規模言語モデル（LLM）を使った開発がとってもエキサイティングな時期です。この1年間で、LLMは実世界のアプリケーションに対して「十分に良い」ものになりました。そして、年々良くなり、安く

jassmaz 2024/06/25

リンク

はてなブックマーク

タグ

関連タグで絞り込む (27)

AIとLLMに関するjassmazのブックマーク (26)

お知らせ

月間はてなブックマーク数ランキング（2025年3月）

今週のはてなブックマーク数ランキング（2025年3月第5週）

今週のはてなブックマーク数ランキング（2025年3月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス