タグ

llmに関するstealthinuのブックマーク (376)

  • LLMはなぜ『批判』が得意なのか?設計・実装品質を高めるAIレビューファースト開発術

    なぜ大規模言語モデルは 「批判」 を得意とし、どう活用すれば設計・実装品質を高められるのか 「モデルに“自分の出力をレビューして”と頼むと、突然シニアエンジニアみたいになる」 なぜこの記事を書くのか? 「LLMの初回生成より、その出力への批判的レビューの方が有用」 という現象を分析 その仕組みを理解し、AI を“シニアレビュアー”として組み込む開発フローを提案する 1. はじめに ChatGPT / Gemini / Claude に コードやアーキテクチャを生成 させる → 品質にばらつきがある その出力を 批判(レビュー)させる → より一貫して有用な指摘が得られる なぜ LLM は 創造 よりも 批判 が得意なのでしょうか? そして、この“偏り”を 開発ワークフローにどう組み込めば最大の価値を生む のでしょうか? 2. 「批判」が「創造」より簡単になる理由 観点 生成(設計・実装)

    LLMはなぜ『批判』が得意なのか?設計・実装品質を高めるAIレビューファースト開発術
    stealthinu
    stealthinu 2025/06/11
    rizumitaさんのコードレビューをLLMにさせる手法。LLMのコードレビューはコード生成よりも一段精度がよくなることの理由の説明。
  • The Gentle Singularity

    We are past the event horizon; the takeoff has started. Humanity is close to building digital superintelligence, and at least so far it’s much less weird than it seems like it should be. Robots are not yet walking the streets, nor are most of us talking to AI all day. People still die of disease, we still can’t easily go to space, and there is a lot about the universe we don’t understand. And yet,

    stealthinu
    stealthinu 2025/06/11
    まさにこれ。『再帰的自己改善の幼体版』が今まさに起きているというのも実感してる。真の再帰的自己改善はあとたかだかイリヤサッケバーの地点にまで到達できればいいだけなのだ。
  • GitHub - Akira-Papa/Claude-Code-Communication

    stealthinu
    stealthinu 2025/06/11
    Claude Codeで階層組織をつくり開発させるClaude Codeだけで作るマルチエージェントシステム。こういうのを気軽にできるのはMAXプランで料金気にしないで良いからだとも言える。
  • n8n.io - a powerful workflow automation tool

    Flexible AI workflow automation for technical teamsBuild with the precision of code or the speed of drag-n-drop. Host with on-prem control or in-the-cloud convenience. n8n gives you more freedom to implement multi-step AI agents and integrate apps than any other tool.

    n8n.io - a powerful workflow automation tool
    stealthinu
    stealthinu 2025/06/10
    difyのようなノードをつなげてワークフローを作るツール。最近出たものかと思ったらLLM以前からあるっぽい。difyよりもこっちのほうが外部ツールが使いやすいのかな?
  • GitHub - kinopeee/cursorrules

    Cursor のエージェント機能がリリースされてから、様々なパターンの処理を通して感じたのが「分析力の不足」でした。そのため、モデル(Claude 3.5 Sonnet)が来持っている分析能力を引き出せるように工夫し始めたのが、私のカスタムインストラクション作成の始まりです。 次に、Cursor Agentが人の介入を受けずに自律処理できる範囲を広げていくことに焦点を当て、かなりの効果を得られました。 さらに、「手戻り防止」をテーマに、LLMによるコーディングでよく発生する以下の問題への対処を加えました: モデルやAPIのバージョンの先祖返り モジュールやリソースの重複生成 意図せぬ、AIによるデザインの変更 エラー処理の無限ループ Cursor 0.45 でカスタムインストラクションの管理方法が .cursorrules から Project Rules に変更になりました。バージョ

    GitHub - kinopeee/cursorrules
    stealthinu
    stealthinu 2025/06/10
    kinopeeeさんのcursorrules設定内容。
  • ソフトウェアエンジニアとしての将来が見えなくなってきた|choo

    昨今の AI の進化を見ていると、自分が会社員のソフトウェアエンジニアとして仕事をできるのは、あと何年間だろうかと思う。 まだ 5 年はだいじょぶかもしれないけど、10年はもうもたないかもしれない。正直 15 年はかなり厳しい気がする。 いや、5年後ももはやわからない。 ここ 1,2 年の間に就職すれば、その会社で 5 年以上はまだ働けるかもしれない。 しかし 5 年後にソフトウェアエンジニアとして自分が就職できる働き口はほとんどない可能性は十分にある。 正直今までのぼくの考えとしては、ソフトウェアエンジニアという職種は、AI が進化していっていろんな職業がなくなっていっても、その AI を作るのはソフトウェアエンジニアなのだから、他職種よりかは相対的に安泰だと思っていた。 でもここ半年くらいは、自分のキャリアの最後までソフトウェアエンジニアとして生きることはないだろうと思い始めている。

    ソフトウェアエンジニアとしての将来が見えなくなってきた|choo
    stealthinu
    stealthinu 2025/06/09
    まだゆるい考えだなと思ったけどブコメみたら結局残った上の仕事を人がやるみたいな意見に星ついてて、あーこれが一般の認識なんだなと。そんな甘いことは起きない。刺身にタンポポ乗せるような仕事だけしか残らん。
  • Introducing OpenMemory MCP

    OpenMemory MCP is a local app to store, organise, and manage memories with topics, emotions, and timestamps. Share them across AI tools like Claude, Cursor and Windsurf on your terms.

    Introducing OpenMemory MCP
    stealthinu
    stealthinu 2025/06/04
    LLM間で「記憶」を共有するためのMCP。例えばclaude desktopで聞いたことをcursorでも話していたことかのように使える。単に記憶するのではなくて検索とかの機能を持つためOpenAI APIのキーが必要。これは良さそう。
  • AIに「分からない」と言わせるための「RAG」の手法

    株式会社ナレッジセンスは、生成AIやRAGを使ったプロダクトを、エンタープライズ向けに開発提供しているスタートアップです。記事では、RAGシステムがより正直に、知らないことには「分からない」と言えるようにするための手法「DTA(Divide-Then-Align)」について、ざっくり理解します。 この記事は何 この記事は、RAGの新手法である「DTA」の論文[1]について、日語で簡単にまとめたものです。 今回も「そもそもRAGとは?」については、知っている前提で進みます。確認する場合は、こちらの記事もご参考下さい。 題 ざっくりサマリー DTAは、RAGの精度を上げるための新しい手法です。USTCやCASIAなどの研究者らによって2025年5月に提案されました。 通常のRAGでは、外部ソースから検索して得た情報を直接利用して、最終的な回答を生成します。ただ、これだけだとLLMの元から

    AIに「分からない」と言わせるための「RAG」の手法
    stealthinu
    stealthinu 2025/06/04
    RAG使ってるときのハルシネーションを減らす手法。LLM内部知識だけの回答とRAG使った外部知識つかった回答を比較することでハルシネーションの判断を強化。
  • まさかの「人力」AIだったAIスタートアップ、破産申請へ

    まさかの「人力」AIだったAIスタートアップ、破産申請へ2025.06.03 21:30418,176 ヤマダユウス型 Microsoftお墨付きだったのに…。 「ピザを注文するのと同じくらい簡単にソフトウェアを開発する」と謳っていた、ロンドン拠点のAIスタートアップ企業Builder.ai。 かつて15億ドルもの評価額を受け、さらにはMicrosoftカタール政府系ファンドの支援まで受けていたこの企業が、破産を申請しました。 理由のひとつは、AIに任せていると思われていた作業が、実は約700人ものインド人エンジニアによる人力作業だったことが発覚したから。まるでATMの裏に人間がいたかのような話だ…。 人力AIがバレたScreenshot: builder.aiたとえば2019年に、The Wall Street JournalはBuilder.aiが提供したソースコードの大部分がエンジ

    まさかの「人力」AIだったAIスタートアップ、破産申請へ
    stealthinu
    stealthinu 2025/06/04
    トリリオンゲームで使われたのはすでに実例があったのを元ネタにしててあれもう4年前の2021年だった。まだMidjourneyやChatGPT前夜の頃。まだ認識系でしかdeeplearningが実用的ではなかった頃。この4年でだいぶ遠くまできた。
  • AIエージェントで並列実装なら必須技術! Git Worktree を理解する

    はじめに Claude Code、GitHub Copilot、Cursor など、様々な AI ツールが同時に複数のタスクを並行して処理することを可能にしました。しかし、従来の Git ワークフローでは、ブランチ間の切り替えによる作業の中断や、複数のタスクを同時進行する際のコンフリクトが課題となっています。 そこで注目されているのがGit Worktreeです。この記事では、Git Worktree の基概念と使い方を紹介します。 従来の Git ワークフローの課題 ブランチ切り替えの問題点 従来の Git ワークフローでは、異なる機能やバグ修正を行う際にgit checkoutやgit switchでブランチを切り替える必要がありました: # 機能Aの開発中... git add . git commit -m "WIP: 機能Aの途中" # 緊急のバグ修正が必要 git switc

    AIエージェントで並列実装なら必須技術! Git Worktree を理解する
    stealthinu
    stealthinu 2025/05/29
    複数のブランチを「同時に」開いて作業できると。確かにこれは普通なら不要だけどコーディングエージェントの時代だと必須だわ。
  • Claude Code が一般提供されたので概要をまとめて、Amazon Bedrock 経由で使ってみた | DevelopersIO

    Claude Code が一般提供されたので概要をまとめて、Amazon Bedrock 経由で使ってみた こんにちは!クラウド事業コンサルティング部のたかくに(@takakuni_)です。 X を見ていると、Claude 4 が登場したタイミングで、一般提供されたからなのか、Claude Code のユーザーがますます増加している印象を受けます。 私は普段、Roo Code (+ OpenAI) の組み合わせで、開発をしているのですが Claude Code がすごいと噂なので、まずはセットアップから始めてみたいと思います。 すでに Amazon Bedrock から接続した、Claude Code のセットアップ記事はあるものの、いくつか状況が変化している部分もあるため、書いてみたいと思います。 Claude Code Claude Code とは Anthropic が作成したコ

    Claude Code が一般提供されたので概要をまとめて、Amazon Bedrock 経由で使ってみた | DevelopersIO
    stealthinu
    stealthinu 2025/05/29
    claude codeをbedrockのsonnet4で使う方法。だがこれmaxの契約じゃないと怖くて使えないよね… claude codeはmaxでトークン気にせずにバキバキ使えるってことも大きいのだと気付かされる。
  • 社内勉強会の内容共有はNotebookLMでやるのがいいかもと思った話 | DevelopersIO

    お疲れさまです。とーちです。 皆さんの会社では社内勉強会をやったりしていますか? 業務都合等もあって勉強会に参加できない人もいると思いますが、そういった方にも勉強会の内容は共有したいですよね。また、勉強会後に個人的に復習したいなというケースもあるかなと思います。 こういった勉強会の内容の共有をするためにNotebookLMを使うのがいいかもと思ったので、今日はその内容を共有しようと思います。 前提条件 前提としてGoogle Workspaceを使っている環境を想定しています。 Google Workspaceのプランごとの比較表を見る限りでは今回ご紹介する内容なら Business Standard プラン以上であれば試せると思いますが、筆者が試した環境はEnterpriseプラン環境である点をご承知おきください。 勉強会の内容はMeetで録画・文字起こし オンラインでもオフラインでも勉

    社内勉強会の内容共有はNotebookLMでやるのがいいかもと思った話 | DevelopersIO
    stealthinu
    stealthinu 2025/05/28
    勉強会の書き起こし用プロンプト参考に
  • コーディングエージェントを作ってるけどうまくいかなかった話 ~あるいは二ヶ月本気でコーディングエージェントと向き合った話~ / Two Month Agent Struggle

    https://connpass.com/event/353478/ 登壇資料です。 - エディタ間借り型コーディングエージェントの仕組みと限界 - 負けパターン集と、その回避対策 - コーディングエージェントのこれから

    コーディングエージェントを作ってるけどうまくいかなかった話 ~あるいは二ヶ月本気でコーディングエージェントと向き合った話~ / Two Month Agent Struggle
    stealthinu
    stealthinu 2025/05/28
    コーディングエージェント自体を作った知見。コンテキストにどうやって必要なものだけを残すかが鍵っぽい。LLMが注意を向ける先、スコープを絞ることが重要。
  • 【2025年5月完全版】RAG の教科書

    はじめに 昨今、AI の進化により、様々な分野での応用が進んでいます。特に、自然言語処理(NLP)の分野では、RAG( Retrieval-Augmented Generation)が注目されています。RAG は、情報検索と生成を組み合わせた手法であり、特に大規模言語モデル(LLM)と組み合わせることで、その性能を大幅に向上させることができます。 また、NativeRAG や GraphRAG, AgentRAG などさまざまな RAG のバリエーションが登場しており、これらは特定のユースケースやデータセットに対して最適化されています。 今回は、RAG の基的な概念から、RAG のプロジェクトの進め方、精度向上の方法に至るまで詳しく解説します。 みなさんの GenAI Application の開発に役立てていただければ幸いです。 記事は 5 万文字を超える大作となっております。 お時

    【2025年5月完全版】RAG の教科書
    stealthinu
    stealthinu 2025/05/26
    これはだいぶ細かくまとまってる。まあ最近はdeep research系があるからまとめるの楽になったよね。でも質のいいまとめはありがたい。
  • 新しいブラウザ操作系エージェントのworkflow-useがかなり良さそうな予感

    Browser Useから新しいブラウザ操作系エージェントが登場しました めちゃくちゃ魅力的だったので紹介します。 従来のブラウザ操作系エージェント browser-useに限らず、従来のブラウザ操作系エージェントはユーザーからの自然言語な指令をもとにブラウザを操作します。 AIエージェントは画面キャプチャ + DOMの取得 → キャプチャを解析 → クリックすべき要素を推論 → playwrightで操作をループしてタスクを行います。 現在僕もよく使っているのですが、何点か課題があります。 どうしてもアクションに揺らぎがある 自然言語での指示である以上仕方ないのですが、「〇〇をクリックして〇〇をしてほしい」と言った細かい指示はプロンプトのチューニングが不可欠であり使用モデルの賢さにも依存します。 処理に時間がかかる 画面キャプチャ + DOMの取得 → キャプチャを解析 → クリックすべ

    新しいブラウザ操作系エージェントのworkflow-useがかなり良さそうな予感
    stealthinu
    stealthinu 2025/05/26
    browser-useを一続きの処理を名前をつけて登録することができる機能、みたいな感じ。確かに正しい方向に思うのだが、書いてあるように変更には対応できない。そこを自動修正できるようにしたいところ。
  • TS特化Clineプログラミング(テキスト版)

    tskaigi で発表した https://tskaigi.mizchi.workers.dev/ のコピペしやすい用にしたバージョンです。 ほぼ marp のソースコードそのままですが、プロンプトのコピペ用にそのまま公開します。 資料の内容 うまくいくプロンプト うまくいかないプロンプト、その理由 現状認識 注意: 前日リリースのClaude 4 の評価は間に合ってません!!!! Claude 4 Opus の高すぎる怖い 数時間触った感じ: 改善傾向だが、抱えてる問題も同じ傾向 主張: 言語特化プロンプトが必要(今は) Coding Agent は言語ごとのユースケースに最適化されていない ベストプラクティスをユーザーが取捨選定する必要 TS 周辺は技術選定で発散しがち プログラミング言語間の転移学習は不安定 GitHub を丸暗記しても、コンテキストに応じて翻訳&参照できるかは別の

    TS特化Clineプログラミング(テキスト版)
    stealthinu
    stealthinu 2025/05/25
    今まさに色々手法試しているところなのですごく参考になる。このあたりはrizumitaさんもだいぶ研究されてるはずで話聞いてみたい。
  • The End of Programming as We Know It

    Join the O'Reilly online learning platform. Get a free trial today and find answers on the fly, or master something new and useful. Learn more Betty Jean Jennings and Frances Bilas (right) program the ENIAC in 1946. Via the Computer History Museum Eventually, interpreted languages, which are much easier to debug, became the norm. BASIC, one of the first of these to hit the big time, was at first s

    The End of Programming as We Know It
    stealthinu
    stealthinu 2025/05/21
    “私たちが知っているプログラミングの終焉”が起こるだけと言うが自分は甘いと思う。この予測は今のLLMが今のレベル+程度のままならそうだろうが、LLMは指数関数的な知能の拡大が起こると思っているので。
  • Google DeepMindから“拡散言語モデル”「Gemini Diffusion」登場 文字通り爆速で文章・コード生成

    Google DeepMindは5月20日(現地時間)、開発者向け年次イベント「Google I/O 2025」の中で、超高速に文章やコードを生成できるAIモデル「Gemini Diffusion」を発表した。ウェイティングリストへの登録フォームを公開している。

    Google DeepMindから“拡散言語モデル”「Gemini Diffusion」登場 文字通り爆速で文章・コード生成
    stealthinu
    stealthinu 2025/05/21
    LLMというかtransformerがdiffusionモデルで置き換えられたもの。flash-2.0位の能力はでてて生成速度がめちゃくちゃ速い。最初に概略のイメージ作ってそっから詳細を詰めてくみたいな思考方法に近くなるのかな?
  • Google I/O 2025: 研究が現実に

    編集者注:以下は、Google I/O 2025 のスンダー ピチャイの発言を編集し、イベントで発表された内容を加えて再構成したものです。すべての発表についてはこちらをご覧ください。 例年であれば、Google I/O 開催前の数週間は、一番の見どころとなる最新モデルを基調講演で発表できるよう準備しており、発表を行うことはほとんどありませんでした。しかし Gemini の時代においては、今までで最も高性能なモデルを 3 月に発表したり、AlphaEvolve のような画期的なブレークスルーを 1 週間前に発表することも珍しくなくなりました。 Google は、最高のモデルと製品をいち早く皆様に提供すべく、これまでにないスピードで開発を進めています。 進化し続けるモデル私が特に期待を寄せているのは、モデルの急速な進化です。進歩の指標である Elo スコアにおいて、初代 Gemini Pro

    Google I/O 2025: 研究が現実に
    stealthinu
    stealthinu 2025/05/21
    音声翻訳機能とかちょっとだけやろうとしてた。今これやってるところには終了のお知らせ。YouTube翻訳とかもだろう。
  • 日本語対話コーパス一覧

    語対話コーパス一覧 これは日語を対象とした、対話システムの構築に利用できる言語資源のリストです。 リストは、理化学研究所 吉野 幸一郎さん発案のもと、C4A研究所 中野 幹生さん、東北大学 赤間 怜奈さん、大阪大学 駒谷 和範さん、JAIST 吉川 禎洋さん、リクルート 林部 祐太さん、京都大学 児玉 貴志さん、愛知工業大学 徳久 良子さん、名古屋大学 山下 紗苗さんにご協力をいただき、水上 雅博が作成いたしました(所属はリスト作成または更新時のものです)。 もしこのリストに載っていないものや、リストのまちがいに気づかれた場合、新たにコーパスをリリースした際には是非、issueやメールで教えてください。 対話コーパス 主に人同士または人とシステム間(2名以上の場合を含む)で、対話(模擬対話等を含む)を行ったコーパスです。 名前 データ量 形式 研究利用 商用利用 概要

    stealthinu
    stealthinu 2025/05/21
    日本語対話コーパスの一覧。さらっと検索した感じでもれているのはなかった。