並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 304件

新着順 人気順

open source ai agents githubの検索結果1 - 40 件 / 304件

  • 加熱するLLM開発競争に冷や水、オープンモデルの組み合わせだけでGPT-4o越えの事実

    加熱するLLM開発競争に冷や水、オープンモデルの組み合わせだけでGPT-4o越えの事実 2024.06.21 Updated by Ryo Shimizu on June 21, 2024, 18:19 pm JST 世界中の企業や政府が狂ったようにNVIDIAのGPUを買い漁る流れはそろそろ潮時かもしれない。 いくつかの興味深い事象が起きているからだ。 昨日発表されたKarakuri社のLLM、「KARAKURI LM 8x7B Instruct v0.1」は、非常に高性能な日本語LLMだ。Karakuri社は今年の一月にも非常に高性能な70Bモデルを引っ提げて業界に旋風を巻き起こした。この最新のLLNは、日本語向けオープンLLMとしては初の「命令実行」チューニングを施されている。それだけでなく、RAGと呼ばれる、複数の知識を組み合わせてより正解に近い答えを導く技術や、Function

      加熱するLLM開発競争に冷や水、オープンモデルの組み合わせだけでGPT-4o越えの事実
    • AGENTS.mdを自動で育てる仕組みを作った

      こんにちは!逆瀬川 (@gyakuse) です! 今日は「AGENTS.mdを自動で育てたい」という話をしていきたいと思います。作ったものはagents-md-generatorとして公開しています。 CLAUDE.mdを毎回考えるのがつらい Coding Agentを日常的に使っていると、新しいリポジトリを作るたびに頭を悩ませるものがあります。CLAUDE.md(あるいはAGENTS.md)です。 何を書くか毎回考えるのがまずつらい。プロジェクトのビルドコマンドは?テストの走らせ方は?コード規約は?まだ何もコードがない段階でこれを考えるのは不毛です。かといって空のまま放置すると、Coding Agentが手探りで動くことになって効率が悪い。 もっと根本的な問題もあります。CLAUDE.mdは書いた瞬間から劣化し始めます。プロジェクトが進めばコマンドは変わるし、アーキテクチャも変わる。でも

        AGENTS.mdを自動で育てる仕組みを作った
      • 日本語の手書きメモを書き起こせるOCRを探すために23モデルを片っ端から試した話

        こんにちは!逆瀬川ちゃん (@gyakuse) です! 今日は日本語の手書きメモをいい感じに書き起こしてくれるOCRを探して、23モデルを片っ端から比較してみた話をまとめていきたいと思います。 手書きメモは楽しいが電子化がつらい わたしはいまだに手書きメモをよく書きます。打ち合わせの最中にさっと書いたり、アイデアを整理するときにペンで図を描いたり。手を動かしながら考えるのはとても楽しいし、タイピングとは違う思考の広がり方があります。 ただ問題は電子化です。ノートに書いたメモをあとからSlackやNotionに転記するのがとにかくつらい。自分の字を自分で読み返す作業がすでにつらいのに、それを打ち直すのは二重苦です。 OCRで自動化したいのですが、日本語の手書き文字って既存のOCRモデルにとってはかなり難しいタスクです。活字ならどのモデルでも高精度ですが、手書きとなると精度がガクッと落ちます。

          日本語の手書きメモを書き起こせるOCRを探すために23モデルを片っ端から試した話
        • ハーネスエンジニアリングを楽にする Microsoft 製の新ツール「APM」ハンズオン

          はじめに 最近、AI エージェント(GitHub Copilot / Claude Code / Cursor / OpenCode / Codex …)に渡す「指示書」の種類が一気に増えました。 GitHub Copilot → .github/instructions/*.md, .github/prompts/*.md Claude Code → .claude/commands/*.md, .claude/agents/*.md Cursor → .cursor/rules/*.mdc これに加えて MCP サーバー / hooks / skills … チーム内でこれらを 「どこから集めて、どこに配っていますか?」 絵にすると、複数の取得元 × 複数のハーネス という多対多の配線を、各チーム/各リポが自前で組んでいるイメージです。 個々のツールが便利になっても、チーム全体としてこ

            ハーネスエンジニアリングを楽にする Microsoft 製の新ツール「APM」ハンズオン
          • Code Mode: the better way to use MCP

            It turns out we've all been using MCP wrong. Most agents today use MCP by directly exposing the "tools" to the LLM. We tried something different: Convert the MCP tools into a TypeScript API, and then ask an LLM to write code that calls that API. The results are striking: We found agents are able to handle many more tools, and more complex tools, when those tools are presented as a TypeScript API r

              Code Mode: the better way to use MCP
            • Claude 3.7 Sonnet and Claude Code

              Today, we’re announcing Claude 3.7 Sonnet1, our most intelligent model to date and the first hybrid reasoning model on the market. Claude 3.7 Sonnet can produce near-instant responses or extended, step-by-step thinking that is made visible to the user. API users also have fine-grained control over how long the model can think for. Claude 3.7 Sonnet shows particularly strong improvements in coding

                Claude 3.7 Sonnet and Claude Code
              • Writing better release notes

                Sponsored by: Honeycomb — AI agents behave unpredictably. Get the context you need to debug what actually happened. Read the blog 31st January 2022 Release notes are an important part of the open source process. I’ve been thinking about these a lot recently, and I’ve assembled some thoughts on how to do a better job with them. Write release notes. Seriously—if you want people to take advantage of

                  Writing better release notes
                • GitHub - microsoft/apm: Agent Package Manager

                  An open-source, community-driven dependency manager for AI agents. Think package.json, requirements.txt, or Cargo.toml — but for AI agent configuration. GitHub Copilot · Claude Code · Cursor · OpenCode · Codex Documentation · Quick Start · CLI Reference Portable by manifest. Secure by default. Governed by policy. One file describes every agent's context; one command reproduces it everywhere; one p

                    GitHub - microsoft/apm: Agent Package Manager
                  • オススメのRust製無料プロキシツール「Caido」の紹介 - blog of morioka12

                    1. 始めに こんにちは、morioka12 です。 本稿では、最近注目を浴びているオススメの Rust 製の無料プロキシツール「Caido」について紹介します。 本稿で触れるプロキシツールは、Web アプリやスマホアプリの通信を傍受して、リクエストの内容を確認したり書き換えたりするツールを指します。 1. 始めに 想定読者 2. Caido の概要 アドバイザー 主な特徴 ディスクトップアプリと CLI HTTPQL DNS の書き換え ブラウザでレスポンスの表示 SDK・Plugin Caido と Burp Suite の違い Caido の使い始め方 3. Caido の主な機能 Sitemap Intercept HTTP History Match & Replace Replay Automate Workflows Search Findings その他 Built-in

                      オススメのRust製無料プロキシツール「Caido」の紹介 - blog of morioka12
                    • Introducing Claude 4

                      Today, we’re introducing the next generation of Claude models: Claude Opus 4 and Claude Sonnet 4, setting new standards for coding, advanced reasoning, and AI agents. Claude Opus 4 is the world’s best coding model, with sustained performance on complex, long-running tasks and agent workflows. Claude Sonnet 4 is a significant upgrade to Claude Sonnet 3.7, delivering superior coding and reasoning wh

                        Introducing Claude 4
                      • The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery

                        At Sakana AI, we have pioneered the use of nature-inspired methods to advance cutting-edge foundation models. Earlier this year, we developed methods to automatically merge the knowledge of multiple LLMs. In more recent work, we harnessed LLMs to discover new objective functions for tuning other LLMs. Throughout these projects, we have been continuously surprised by the creative capabilities of cu

                          The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery
                        • 全Notion利用者のための、Coding Agentに対応したCLIを作った話

                          こんにちは!逆瀬川ちゃん (@gyakuse) です! 今日はNotion Remote MCPをCLIでラップした @sakasegawa/ncli(GitHub)を作った話と、その過程で考えた「Agent時代のCLI設計」についてまとめていきたいと思います。 公式のNotion CLIがついにリリース Notion公式CLI ntn がリリースされました。Jonathan Clem氏のツイートで発表されたもので、Agent向けのSkill(makenotion/skills)も同時公開されています。CLIのリポジトリは現在(2026/03/19)時点ではまだ公開されていません。 New in the Notion CLI, ntn: The whole Notion API! And a skill so that your agents know how to use it. 待望の

                            全Notion利用者のための、Coding Agentに対応したCLIを作った話
                          • Code Interpreter API

                            Editor's Note: This is another installation of our guest blog posts highlighting interesting and novel use cases. This blog is written by Shroominic who built an open source implementation of the ChatGPT Code Interpreter. Important Links: GitHub RepoIn the world of open-source software, there are always exciting developments. Today, I am thrilled to announce a new project that I have been working

                              Code Interpreter API
                            • AWS deleted my 10-year account and all data without warning

                              After 10 years as an AWS customer and open-source contributor, they deleted my account and all data with zero warning. Here's how AWS's 'verification' process became a digital execution, and why you should never trust cloud providers with your only copy of anything. On July 23, 2025, AWS deleted my 10-year-old account and every byte of data I had stored with them. No warning. No grace period. No r

                                AWS deleted my 10-year account and all data without warning
                              • 手触り感のあるContext Engineering - LayerX エンジニアブログ

                                こちらはLayerX AI エージェントブログリレー2日目の記事です(1日目のponさんの怒涛のTKG記事(not Tamago kake gohan)もぜひご覧ください)。 こんにちは、CEO室でAI Agent開発のPdMをやっているKenta Watanabeです。 近年のLLM関連技術の急速な発達により、自社プロダクトの開発にLLMを活用する方も増えてきているのではないかと思います。一方で、LLMの確率的な振る舞いからプロダクションで安定稼働する機能やAI Agentの開発に苦戦している方も同時に多いのではないかと思います。 そういった中で、6月頃からContext Engineeringと呼ばれるLLMをうまく稼働させるための技術が話題になってきました。Context Engineeringというキーワードがバズり出した起源やContext Engineering自体の解説は各所

                                  手触り感のあるContext Engineering - LayerX エンジニアブログ
                                • Spec-Driven Development: The Waterfall Strikes Back

                                  Spec-Driven Development (SDD) revives the old idea of heavy documentation before coding — an echo of the Waterfall era. While it promises structure for AI-driven programming, it risks burying agility under layers of Markdown. This post explores why a more iterative, natural-language approach may better fit modern development. The Rise of Specification Coding assistants are intimidating: instead of

                                  • You Need to Rewrite Your CLI for AI Agents

                                    npx skills install jpoehnelt/skills/agent-dx-cli-scale Human DX optimizes for discoverability and forgiveness. Agent DX optimizes for predictability and defense-in-depth. These are different enough that retrofitting a human-first CLI for agents is a losing bet. I built a CLI for Google Workspace — agents first. Not “built a CLI, then noticed agents were using it.” From Day One, the design assumpti

                                      You Need to Rewrite Your CLI for AI Agents
                                    • Introducing EmDash — the spiritual successor to WordPress that solves plugin security

                                      Introducing EmDash — the spiritual successor to WordPress that solves plugin security2026-04-01 The cost of building software has drastically decreased. We recently rebuilt Next.js in one week using AI coding agents. But for the past two months our agents have been working on an even more ambitious project: rebuilding the WordPress open source project from the ground up. WordPress powers over 40%

                                        Introducing EmDash — the spiritual successor to WordPress that solves plugin security
                                      • Why We're All-In on MCP - Mastra Blog

                                        Tool integration for AI agents is a mess. Even for developers building agents every day, it's frustrating to navigate the fragmented ecosystem. Finding high-quality tools is difficult - search for "MCP Calendar integration" and you'll find ten different implementations with no way to know which one is best. If you've ever tried to integrate tools with an LLM, you know this pain. Tool discovery, in

                                          Why We're All-In on MCP - Mastra Blog
                                        • Amazon Bedrockを活用した生成AIアプリケーションにおけるセキュリティリスクと対策 - GMO Flatt Security Blog

                                          始めに こんにちは、GMO Flatt Security株式会社 セキュリティエンジニアの森岡(@scgajge12)です。 最近、AWS Community Builders (Security) の更新審査を通過して2年目に突入したため、早速 AWS に関するブログを執筆しました。 本稿では、Amazon Bedrock を活用して生成 AI アプリケーションを開発する際に気をつけるべきセキュリティリスクや対策について紹介します。 また、GMO Flatt Security は LLM を活用したアプリケーションに対する脆弱性診断・ペネトレーションテストや日本初のセキュリティ診断 AI エージェント「Takumi」を提供しています。ご興味のある方はリンクよりサービス詳細をご覧ください。 目次 始めに 免責事項 Amazon Bedrock とは 生成 AI アプリケーションにおけるセキ

                                            Amazon Bedrockを活用した生成AIアプリケーションにおけるセキュリティリスクと対策 - GMO Flatt Security Blog
                                          • GitHub - modelcontextprotocol/servers: Model Context Protocol Servers

                                            Official integrations are maintained by companies building production ready MCP servers for their platforms. 21st.dev Magic - Create crafted UI components inspired by the best 21st.dev design engineers. 2slides - An MCP server that provides tools to convert content into slides/PPT/presentation or generate slides/PPT/presentation with user intention. ActionKit by Paragon - Connect to 130+ SaaS inte

                                              GitHub - modelcontextprotocol/servers: Model Context Protocol Servers
                                            • Artifacts: versioned storage that speaks Git

                                              Agents have changed how we think about source control, file systems, and persisting state. Developers and agents are generating more code than ever — more code will be written over the next 5 years than in all of programming history — and it’s driven an order-of-magnitude change in the scale of the systems needed to meet this demand. Source control platforms are especially struggling here: they we

                                                Artifacts: versioned storage that speaks Git
                                              • OpenAIが「人間がAIのボトルネック」としてCodexエージェント自動管理ツール「Symphony」を開発、社内ではプルリク件数5倍の事例も

                                                OpenAIがコーディングエージェントのオーケストレーションツール「Symphony」を開発しました。Symphonyは大量のCodexエージェントを自動管理できるツールで、導入によってプルリクエストの件数が5倍に増加したチームもあるとのこと。SymphonyのソースコードやAI向けの仕様書はGitHubで公開されています。 An open-source spec for Codex orchestration: Symphony. | OpenAI https://openai.com/index/open-source-codex-orchestration-symphony/ OpenAIの社内生産性向上チームは2025年8月末から「人間の手ではコードを一切書かず、すべてCodexに生成させる」という実験的アプローチに取り組んでいます。チームはCodexを前提としてリポジトリを設計し

                                                  OpenAIが「人間がAIのボトルネック」としてCodexエージェント自動管理ツール「Symphony」を開発、社内ではプルリク件数5倍の事例も
                                                • GitHub - refactoringhq/tolaria: Desktop app to manage markdown knowledge bases

                                                  📑 Files-first — Your notes are plain markdown files. They're portable, work with any editor, and require no export step. Your data belongs to you, not to any app. 🔌 Git-first — Every vault is a git repository. You get full version history, the ability to use any git remote, and zero dependency on Tolaria servers. 🛜 Offline-first, zero lock-in — No accounts, no subscriptions, no cloud dependenci

                                                    GitHub - refactoringhq/tolaria: Desktop app to manage markdown knowledge bases
                                                  • Manage agent skills with GitHub CLI - GitHub Changelog

                                                    Agent skills are reshaping how developers work with AI coding agents. Today we’re launching gh skill, a new command in the GitHub CLI that makes it easy to discover, install, manage, and publish agent skills from GitHub repositories. What are agent skills? Agent skills are portable sets of instructions, scripts, and resources that teach AI agents how to perform specific tasks. They follow the open

                                                      Manage agent skills with GitHub CLI - GitHub Changelog
                                                    • Code is cheap. Show me the talk.

                                                      TLDR; Software development, as it has been done for decades, is over. LLM coding tools have changed it fundamentally for the better or worse. “Talk is cheap. Show me the code.” — Linus Torvalds, August 2000 When Linus Torvalds, the creator of Linux, made this quip in response to a claim about a complex piece of programming in the Linux kernel, [1] I was an oblivious, gangly, fledgling teenage n00b

                                                        Code is cheap. Show me the talk.
                                                      • hackerbot-claw: An AI-Powered Bot Actively Exploiting GitHub Actions - Microsoft, DataDog, and CNCF Projects Hit So Far - StepSecurity

                                                        A week-long automated attack campaign targeted CI/CD pipelines across major open source repositories, achieving remote code execution in at least 4 out of 7 targets. The attacker, an autonomous bot called hackerbot-claw, used 5 different exploitation techniques and successfully exfiltrated a GitHub token with write permissions from one of the most popular repositories on GitHub. We're entering an

                                                          hackerbot-claw: An AI-Powered Bot Actively Exploiting GitHub Actions - Microsoft, DataDog, and CNCF Projects Hit So Far - StepSecurity
                                                        • LLM×強化学習の新しいパラダイム: Agentic RLの研究紹介

                                                          はじめに 本記事では、LLM研究で注目を集めるエージェント型強化学習(Agentic Reinforcement Learning、Agentic RL)のサーベイ論文 「The Landscape of Agentic Reinforcement Learning for LLMs: A Survey」[1]を読み、私なりの理解と要点を整理して紹介します。500件以上の文献を引用するボリュームのある論文ですが、ここでは重要だと感じたトピックに絞って取り上げます。Agentic RLに興味がある方や、LLMに対する強化学習の最新動向を知りたい方の参考になれば幸いです。 本記事の前提 PPOやGRPOといったRLアルゴリズムの解説は他の多くの記事で既に説明されているため、本記事では割愛します。 DeepSeek-R1[2]の研究を前提とする箇所がいくつかあります。未読の方は原著論文や解説記事

                                                            LLM×強化学習の新しいパラダイム: Agentic RLの研究紹介
                                                          • Extending Claude's capabilities with skills and MCP | Claude

                                                            Update: We've published Agent Skills as an open standard for cross-platform portability. (December 18, 2025) Since launching Skills, two of the biggest questions we’ve heard from customers are: "How do skills and MCP work together? When should I use one versus the other?" Model Context Protocol (MCP) connects Claude to third-party tools, and skills teach Claude how to use them well. When you combi

                                                              Extending Claude's capabilities with skills and MCP | Claude
                                                            • The Human Only Public License

                                                              16 Oct 2025 Whether artificial intelligence systems will end up being a positive or a negative force for humanity is still an open question. But we might find ourselves one day with AI embedded at every layer of our existence, living lives of toned down and diluted humanity with only our dreams for escape. Although I am not yet convinced of this worst case scenario, I believe it is important that

                                                                The Human Only Public License
                                                              • GitHub - onecli/onecli: Open-source credential vault, give your AI agents access to services without exposing keys.

                                                                OneCLI is an open-source gateway that sits between your AI agents and the services they call. Instead of baking API keys into every agent, you store credentials once in OneCLI and the gateway injects them transparently. Agents never see the secrets. Why we built it: AI agents need to call dozens of APIs, but giving each agent raw credentials is a security risk. OneCLI solves this with a single gat

                                                                  GitHub - onecli/onecli: Open-source credential vault, give your AI agents access to services without exposing keys.
                                                                • OSS の Open Deep Research で Deep Research を実現してみた - Taste of Tech Topics

                                                                  はじめに こんにちはデータ分析エンジニアの木介です。 今回は、Hugging Faceより公開されたオープンソースのAIエージェントOpen Deep Researchを実際に動かしていきたいと思います。 huggingface.co はじめに 1. 概要 Open Deep Researchの仕組み 2. Open Deep Researchを動かす 準備 構築方法 検索実行 OpenAI Deep Researchとの比較 まとめ 1. 概要 Deep Researchとは、ウェブ検索をしながら自律的に情報を収集し、詳細なレポートを出力してくれるサービスのことを指します。 現在、「Deep Research」という名称が付けられている代表的なサービスとして、以下のものがあります。 サービス名 OpenAI Deep Research Google Gemini Deep Researc

                                                                    OSS の Open Deep Research で Deep Research を実現してみた - Taste of Tech Topics
                                                                  • Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models - Cerebras

                                                                    GLM-4.7 from Z.ai is live on Cerebras at 1,000 TPS! Frontier intelligence for coding, tool-driven agents, and multi-turn reasoning. >> Mar 28 2023 Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models - Cerebras @ � ��AbstractState-of-the-art language models are extremely challenging to train; they require huge compute budgets, complex distributed compute techniques and deep ML

                                                                      Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models - Cerebras
                                                                    • Microsoft、エージェント型AIアプリ開発基盤「Microsoft Agent Framework」を発表 | gihyo.jp

                                                                      Microsoft⁠⁠、エージェント型AIアプリ開発基盤「Microsoft Agent Framework」を発表 Microsoftは2025年10月1日、エージェント型AIアプリを開発するためのSDKとランタイムである「Microsoft Agent Framework」を発表、パブリックプレビューとしてリリースした。 Introducing Microsoft Agent Framework | Microsoft Azure Blog Introducing Microsoft Agent Framework: The Open-Source Engine for Agentic AI Apps | Azure AI Foundry Blog Announcing Microsoft Agent Framework in Azure AI Foundry. As agentic

                                                                        Microsoft、エージェント型AIアプリ開発基盤「Microsoft Agent Framework」を発表 | gihyo.jp
                                                                      • Introducing the Model Context Protocol

                                                                        Today, we're open-sourcing the Model Context Protocol (MCP), a new standard for connecting AI assistants to the systems where data lives, including content repositories, business tools, and development environments. Its aim is to help frontier models produce better, more relevant responses. As AI assistants gain mainstream adoption, the industry has invested heavily in model capabilities, achievin

                                                                          Introducing the Model Context Protocol
                                                                        • Beyond agentic coding

                                                                          I'm generally pretty pro-AI with one major exception: agentic coding. My consistent impression is that agentic coding does not actually improve productivity and deteriorates the user's comfort and familiarity with the codebase. I formed that impression from: my own personal experiences Every time I use agentic coding tools I'm consistently unimpressed with the quality of the results. my experience

                                                                            Beyond agentic coding
                                                                          • GitHub Actions Supply Chain Attack: A Targeted Attack on Coinbase Expanded to the Widespread tj-actions/changed-files Incident: Threat Assessment (Updated 4/2)

                                                                            GitHub Actions Supply Chain Attack: A Targeted Attack on Coinbase Expanded to the Widespread tj-actions/changed-files Incident: Threat Assessment (Updated 4/2) Executive Summary Update April 2: Recent investigations have revealed preliminary steps in the tj-actions and reviewdog compromise that were not known until now. We have pieced together the stages that led to the original compromise, provid

                                                                              GitHub Actions Supply Chain Attack: A Targeted Attack on Coinbase Expanded to the Widespread tj-actions/changed-files Incident: Threat Assessment (Updated 4/2)
                                                                            • Claude Code Framework Wars

                                                                              We’re just now starting to learn how to work with AI as software developers. The big idea: Claude can automate the coding, while you step into higher-value roles as project manager, designer, and software architect. The trick is to stop treating Claude as a chatbox and start treating it as a framework—a set of rules, roles, and workflows that make its output predictable and valuable. Even more fas

                                                                                Claude Code Framework Wars
                                                                              • Bomberland | Coder One

                                                                                Welcome to BomberlandAn open-source multi-agent AI competition inspired by Bomberman. Program intelligent agents using strategies from tree search to deep reinforcement learning and compete to reach the top of the global leaderboard. View on GitHub Try any strategyA fun way to learn and experiment with the latest algorithms, from tree search to deep reinforcement learning.

                                                                                  Bomberland | Coder One
                                                                                • What We Learned from a Year of Building with LLMs (Part I)

                                                                                  It’s an exciting time to build with large language models (LLMs). Over the past year, LLMs have become “good enough” for real-world applications. The pace of improvements in LLMs, coupled with a parade of demos on social media, will fuel an estimated $200B investment in AI by 2025. LLMs are also broadly accessible, allowing everyone, not just ML engineers and scientists, to build intelligence into

                                                                                    What We Learned from a Year of Building with LLMs (Part I)