並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 49件

新着順 人気順

gemini 2.0 flash api pythonの検索結果1 - 40 件 / 49件

  • 日本語の手書きメモを書き起こせるOCRを探すために23モデルを片っ端から試した話

    こんにちは!逆瀬川ちゃん (@gyakuse) です! 今日は日本語の手書きメモをいい感じに書き起こしてくれるOCRを探して、23モデルを片っ端から比較してみた話をまとめていきたいと思います。 手書きメモは楽しいが電子化がつらい わたしはいまだに手書きメモをよく書きます。打ち合わせの最中にさっと書いたり、アイデアを整理するときにペンで図を描いたり。手を動かしながら考えるのはとても楽しいし、タイピングとは違う思考の広がり方があります。 ただ問題は電子化です。ノートに書いたメモをあとからSlackやNotionに転記するのがとにかくつらい。自分の字を自分で読み返す作業がすでにつらいのに、それを打ち直すのは二重苦です。 OCRで自動化したいのですが、日本語の手書き文字って既存のOCRモデルにとってはかなり難しいタスクです。活字ならどのモデルでも高精度ですが、手書きとなると精度がガクッと落ちます。

      日本語の手書きメモを書き起こせるOCRを探すために23モデルを片っ端から試した話
    • LLMガードレールの活用法と役割を正しく理解する - GMO Flatt Security Blog

      TL;DR LLMガードレールはLLMの入出力を監視・制御する技術であり、LLMアプリケーションにおける様々な脅威への対抗策になります。しかし、あくまで役割は脅威の緩和・低減であるため、それぞれの脅威に対する根本的な対策をした上で、万が一の事故に備え文字通りガードレールとして導入する必要があります。 本文中では、RAGアプリケーションの利用する外部データベースにプロンプトインジェクションを引き起こすデータが存在し、LLMに対する入力として利用された場合、LLMガードレールで検知する例を紹介しています。しかし、根本的には外部データベースに悪意あるデータが登録されないよう対策すべきです。 このブログではLLMガードレールで対応できる脅威を実際に検証しながら整理し、適切なユースケースを議論します。 はじめに こんにちは、GMO Flatt Security株式会社所属のセキュリティエンジニア滝上

        LLMガードレールの活用法と役割を正しく理解する - GMO Flatt Security Blog
      • Agent Development Kit 入門|npaka

        「Agent Development Kit」のクイックスタートを試してみたので、まとめました。 ・Quickstart - Agent Development Kit 1. クイックスタート今回は、次のような天気と時間のToolを持つAgentを作成します。 (1) Pythonの仮想環境の準備。 今回は、「Python 10」を使いました。 (2) パッケージのインストール。 pip install google-adk(3) プロジェクトの作成。 以下のファイル構成で作成しました。 ・multi_tool_agent/ ・__init__.py ・agent.py ・.env ・__init__.py agentをインポートしました。 from . import agent・agent.py 1つのAgentと2つのToolを定義しました。 import datetime from

          Agent Development Kit 入門|npaka
        • 文系の非エンジニアだけどコーディングエージェントで自分用アプリ作った 超便利だけど超怖い「素人AI爆速開発」

          文系の非エンジニアだけどコーディングエージェントで自分用アプリ作った 超便利だけど超怖い「素人AI爆速開発」:「AIで試行錯誤」の現場から 昨今「AIエージェント」というワードが話題だ。記者が所属するITmedia NEWS/AI+でも頻繁に取り上げており、読者関心も高い。ITエンジニアの生産性や開発スピード、ひいてはビジネスの機動性に直結するからか、SNSなどでは特にコーディングを支援してくれるエージェントへの注目度が高いように感じる。 ……のだが、恥ずかしながら記者はエンジニアではなく、正直あまりついていけていない。ChatGPTとの対話形式でアプリ開発を試みたことも何度かあるものの、ごく簡単な機能以外は、恐らく自分の知識不足が原因で実現できておらず「まぁ非エンジニアならこんなもんか」とか思っていた。 しかし、2月末に登場したClaudeの最新モデル「Claude 3.7 Sonnet

            文系の非エンジニアだけどコーディングエージェントで自分用アプリ作った 超便利だけど超怖い「素人AI爆速開発」
          • Rust製MCP対応AIエージェント『Goose』の技術概要 - laiso

            Gooseとは何か block.github.io BlockのAIチームが開発していたAIエージェント「Goose」が先日公開された。 これは、Rustで書かれたコマンドラインとウェブサーバーのコアモジュール、それを呼び出すElectron製のデスクトップアプリという構成になっている。 ユーザーは対話型シェルやデスクトップアプリのチャットUIを通じて、Cline*1やOnlook*2のようにローカルファイルを編集しながらコーディングをアシストしてもらう。 12月時点ではコアがPythonで書かれていたが、ベータリリース時にRustで書き直された。どうやらユーザー環境にPythonをインストールしてもらう必要があるのを避けたかったようだ*3。 github.com Gooseのコントリビューターなんか大人数で作っている・・ Gooseの目新しい点は、VS Codeなどのエディタから独立した

              Rust製MCP対応AIエージェント『Goose』の技術概要 - laiso
            • GoogleのLLM「Gemini」でコードレビューをするGitHub Actionsを自力で構築してみた - NTT docomo Business Engineers' Blog

              ビジネスdアプリ開発チームの立木です。現在、私たちのチームでは生成AIによる開発効率の向上を検討しています。その一環として、コードレビューの自動化を検討しています。 そこで、本記事では検証の一環として勉強も兼ねて、GoogleのLLM「Gemini」でコードレビューをするGitHub Actionsを自力で構築してみたのでその方法を紹介します。 Geminiとは Google AI Studio Vertex AI Google Gen AI SDK 着想の背景 コードレビューの観点 完成したもの ファイルの構成 処理の流れ gemini-code-review.yml gemini_review_code.py プロンプト 終わりに Geminiとは Geminiとは、Googleが提供しているLLMです。つい先日も、Gemini 2.5 proがリリースされ、コーディング能力を含め、そ

                GoogleのLLM「Gemini」でコードレビューをするGitHub Actionsを自力で構築してみた - NTT docomo Business Engineers' Blog
              • GitHub - modelcontextprotocol/servers: Model Context Protocol Servers

                Official integrations are maintained by companies building production ready MCP servers for their platforms. 21st.dev Magic - Create crafted UI components inspired by the best 21st.dev design engineers. 2slides - An MCP server that provides tools to convert content into slides/PPT/presentation or generate slides/PPT/presentation with user intention. ActionKit by Paragon - Connect to 130+ SaaS inte

                  GitHub - modelcontextprotocol/servers: Model Context Protocol Servers
                • ローカルLLMの検索ツールとして Gemini 2.5 Flash-Lite を試す|npaka

                  ローカルLLMの検索ツールとして「Gemini 2.5 Flash-Lite」を試してみたのでまとめました。 1. ローカルLLMに検索能力を与えてみる「日本語ローカルLLM」の性能は、ここ最近で一気に上がりました。しかし、パラメータサイズが10B以下だと、持ってる知識が限られるため、検索能力がほしくなります。 ローカルLLMに検索能力を与えるMCPは、次のとおりです。 ・Brave Search MCP 公式MCPが提供されている。 月間約1,000リクエストまで無料 ・Google Custom Search MCP 公式APIで信頼性高い。 1日100リクエストまで無料 ・Tavily MCP LLM向けに設計された検索API エージェント用途に相性が良い ・DuckDuckGo MCP 導入は簡単 ただし非公式実装が多く、長期安定性はやや不安 ・SearXNG MCP 自己ホスト可

                    ローカルLLMの検索ツールとして Gemini 2.5 Flash-Lite を試す|npaka
                  • GeminiのURL context toolを解説。スクレイピングなしでWebコンテンツを取得 - G-gen Tech Blog

                    G-genの杉村です。Vertex AI の API 経由で Gemini を呼び出す際に、URL context tool を使って、明示的にスクレイピングをしなくても Web サイトの内容を取得してコンテキストとして利用する方法について解説します。 概要 URL context tool とは ユースケース サポートされているモデル 使用方法 URL context tool の検証 tools 不使用時との比較 Google Search tool との比較 Google Search tool との併用 概要 URL context tool とは URL context tool とは、Vertex AI の API 経由で Gemini を呼び出す際に、Web サイトの内容を取得してコンテキストとして利用できるようになるツールです。 本来、外部 Web サイトの内容を生成 AI

                      GeminiのURL context toolを解説。スクレイピングなしでWebコンテンツを取得 - G-gen Tech Blog
                    • Gemini2.0とStreamlitでお手軽なグラウンディング搭載の生成アプリ作成|masa_kazama

                      この記事では、プロタイプ作成が簡単にできるPythonのStreamlitを用いて、Google検索を組み込んだ生成AIアプリの作り方を紹介します。Gemini2.0のAPIが最近すごく便利になってきていて、Google検索を組み込むようなシステムも簡単に作ることができます。Gemini APIを使って、生成AIのアプリを作ってみたいと思っている方に、参考になれば幸いです。(※今回使ったコードはGithubで公開しています。) 本記事は、「Ubie生成AIアドベントカレンダー」の記事です。 Gemini APIGeminiのAPIを使う方法は、2種類あります。 Google AI StudioのAPI経由 Vertex AIのAPI経由 Google AI StudioのAPIは無料枠もあり、個人のアプリ開発やプロトタイプ作成に適しています。一方で、Vertex AIのAPIは、企業がシス

                        Gemini2.0とStreamlitでお手軽なグラウンディング搭載の生成アプリ作成|masa_kazama
                      • LangGraphのTool Callingを利用して、RAG Agentsを構築する(前編)

                        はじめに Google CloudのVertex AIを活用して、RAGを構築しないといけなくなったので、その方法をまとめていきます。 まずは準備として、ローカルのみで実装をしていきます。 今回の記事では、ローカルに保存したテキストドキュメントをベースに、ローカルのDBにベクトルデータを保存し、LangGraphでRAGを実装していくことを考えます。 その上で、次回以降の記事で、Google CloudのGCSにドキュメントを置いたり、BigQueryをベクトルストアにしたり、Cloud SQLをベクトルストアにしたりする方法を解説していきたいと思います。 参考文献 (書籍のリンクはamazonアフィリエイトリンクです) 記事 LangChainからLangGraphによるAgent構築への移行方法 Chroma DBによる類似度検索のメソッド カスタムRetrieverクラスの作成方法

                          LangGraphのTool Callingを利用して、RAG Agentsを構築する(前編)
                        • 2025: The year in LLMs

                          31st December 2025 This is the third in my annual series reviewing everything that happened in the LLM space over the past 12 months. For previous years see Stuff we figured out about AI in 2023 and Things we learned about LLMs in 2024. It’s been a year filled with a lot of different trends. The year of “reasoning” The year of agents The year of coding agents and Claude Code The year of LLMs on th

                            2025: The year in LLMs
                          • Things we learned about LLMs in 2024

                            31st December 2024 A lot has happened in the world of Large Language Models over the course of 2024. Here’s a review of things we figured out about the field in the past twelve months, plus my attempt at identifying key themes and pivotal moments. This is a sequel to my review of 2023. In this article: The GPT-4 barrier was comprehensively broken Some of those GPT-4 models run on my laptop LLM pri

                              Things we learned about LLMs in 2024
                            • 【インターンレポート】OpenAI Agents SDK (Python版) でコールセンター風音声対話型マルチエージェントデモを作ってみた(おまけ付き) - Insight Edge Tech Blog

                              目次 【インターンレポート】OpenAI Agents SDK (Python版) でコールセンター風音声対話型マルチエージェントデモを作ってみた(おまけ付き) はじめに 1.AIエージェント✖️音声 = 音声エージェント 1.1 普及してきたAIエージェントについて 1.2 音声エージェントの恩恵について考える 1.3 リアルタイム音声対話API・音声エージェント開発ツールの紹介 2. OpenAI Agents SDK (Python版)で作る音声対話型マルチエージェントツール 2.1 OpenAI Agents SDKとは 2.2 2種類の音声エージェントの構造 2.3 デモの紹介 2.4 今後の展望 おわりに 参考資料 はじめに こんにちは!!! Insight Edgeでアルバイトをしております、東京科学大学大学院 修士2年の田中です。大学院では、経営工学系の研究室で、サッカーの

                                【インターンレポート】OpenAI Agents SDK (Python版) でコールセンター風音声対話型マルチエージェントデモを作ってみた(おまけ付き) - Insight Edge Tech Blog
                              • ObsidianのノートをVS CodeのAI(Cline)を通して活用する 〜ローカルにMarkdown形式で保存しているメリットを活かす使い方 | gihyo.jp

                                ノートアプリ「Obsidian」を使いこなす ObsidianのノートをVS CodeのAI(Cline)を通して活用する 〜ローカルにMarkdown形式で保存しているメリットを活かす使い方 前回の記事では、Obsidianが注目されている理由として「⁠AIとの連携」があることを解説しました。そして、生成AIやMCP⁠、AIエージェントで実現できることについて紹介しました。 今回は、なぜObsidian単体ではなく外部のAIと連携するのか、どうすればObsidianで管理するノートをAIと連携して活用できるのか、について解説します。 AIでノートを作成⁠、整理する意味 この連載の第1回でも紹介したように、Obsidianは「ノートアプリ」や「PKM(個人知識管理)ツール」に分類されています。このようなアプリで管理するノートを「AIと連携する」という言葉を聞いて、違和感を感じる人がいるでし

                                  ObsidianのノートをVS CodeのAI(Cline)を通して活用する 〜ローカルにMarkdown形式で保存しているメリットを活かす使い方 | gihyo.jp
                                • Top AI Stories of 2024! Agents Rise, Prices Fall, Models Shrink, Video Takes Off, Acquisitions Morph

                                  Dear friends, Is AI progressing rapidly? Yes! But while the progress of underlying AI technology has indeed sped up over the past 2 years, the fastest acceleration is in applications. Consider this: GPT-4 was released March 2023. Since then, models have become much faster, cheaper, sometimes smaller, more multimodal, and better at reasoning, and many more open weight versions are available — so pr

                                  • Claude Code本体の難読化されたコードをCursorを使って解析する

                                    Claude Code本体の難読化されたコードをCursorを使って解析する Claude Codeのソースコードを入手するには?Claude Codeのソースコードは現在GitHubに公開されていません(計画にはあるようです)。しかし、Node.js環境で実行されるスクリプトであるため、ユーザーはNPMレジストリ経由でパッケージを自由に取得できます。ただし、NPMから入手できるソースコードは難読化(ミニファイ)された状態で提供されています。 ❯ npm pack @anthropic-ai/claude-code ❯ tar zxfv anthropic-ai-claude-code-1.0.5.tgz ❯ ls package/ cli.js LICENSE.md package.json README.md scripts vendor yoga.wasm Use Claude, A

                                      Claude Code本体の難読化されたコードをCursorを使って解析する
                                    • Agent Development Kit: Making it easy to build multi-agent applications- Google Developers Blog

                                      Agent Development Kit: Making it easy to build multi-agent applications The world of AI is rapidly moving beyond single-purpose models towards intelligent, autonomous multi-agent systems. Building these multi-agent systems, however, presents new challenges. That is why today, we have introduced Agent Development Kit (ADK) at Google Cloud NEXT 2025, a new open-source framework from Google designed

                                        Agent Development Kit: Making it easy to build multi-agent applications- Google Developers Blog
                                      • Qwen3.5 Smallシリーズ完全ガイド — 0.8Bから9Bまで、ローカルLLMの新時代が来た|zephel01

                                        はじめに:なぜ今「小さいモデル」が熱いのか2026年2月、Alibaba CloudのQwenチームがQwen3.5を発表しました。注目を集めたのは397Bパラメータの巨大なフラッグシップモデルだけではありません。同時にリリースされた「Smallシリーズ」——0.8B、2B、4B、9Bの4つの小型モデルが、ローカルLLMの世界に静かな衝撃を与えています。 さらに、量子化の最適化で知られるUnslothがDay Zeroアクセスを得て、これらのモデルのGGUF量子化版を即座に公開。3〜4bit量子化によって、手元のノートPCやコンシューマGPUで実用的に動かせる世界が現実のものになりました。 この記事では、Qwen3.5 Smallシリーズの技術的な革新から、各サイズの具体的なユースケース、そしてUnslothの量子化による実用的なVRAM要件まで、ローカルLLMに関心のあるすべての人に向け

                                          Qwen3.5 Smallシリーズ完全ガイド — 0.8Bから9Bまで、ローカルLLMの新時代が来た|zephel01
                                        • 無料で学ぶ!生成AIとバズった技術まとめ(LLM、LangChain、Dify、SAM2、Stable Diffusion、RVCなど) - Qiita

                                          Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? まえがき 「ここ数年でバズったAI技術や、最近勢いのある生成系AI技術をキャッチアップしたい」 最近のLLMブームにより、一般の人も簡単にAI技術を使いこなせるようになりました。 特に、もともとAIに明るくなくても、エンジニアなら実装までできるので、インパクトのあるプロダクトを作ることが可能になりました。 「これまでモデル開発をしてきたデータサイエンティスト・AIエンジニアの立場が危ぶまれている気がする」 そんな危機感から、一通り、まずは知る・使えるようになることを目指してこの記事を書くことにしました。 前半パート: 使ってみる編(全員

                                          • January 2025 (version 1.97)

                                            Update 1.97.1: The update addresses these security issues. Update 1.97.2: The update addresses these issues. Downloads: Windows: x64 Arm64 | Mac: Universal Intel silicon | Linux: deb rpm tarball Arm snap Welcome to the January 2025 release of Visual Studio Code. There are many updates in this version that we hope you'll like, some of the key highlights include: Next Edit Suggestions (preview) - Co

                                              January 2025 (version 1.97)
                                            • Real-world gen AI use cases from the world's leading organizations | Google Cloud Blog

                                              AI is here, AI is everywhere: Top companies, governments, researchers, and startups are already enhancing their work with Google's AI solutions. Published April 12, 2024; last updated October 9, 2025. Automotive & Logistics Business & Professional Services Financial Services Healthcare & Life Sciences Hospitality & Travel Manufacturing, Industrial & Electronics Media, Marketing & Gaming Public Sec

                                                Real-world gen AI use cases from the world's leading organizations | Google Cloud Blog
                                              • Obsidian MCPを使って今まで貯めた情報で遊んでみる

                                                この記事はAIの支援を受けつつ、筆者の試行錯誤を記録したものです。一部にAIが生成した表現も含まれますが、実験の過程や考察は筆者の経験に基づいています。 AI特有の文章に対して抵抗がある場合はブラウザバック。 本記事では、ObsidianとAIエージェント(Cline/Gemini)を連携させ、具体的なタスクをどこまでできるかを探った実験の記録を共有する。ファイル整理から情報検索、さらにはGit操作まで、AIとの対話を通じて見えてきた可能性をぜひ参考にしてほしい。 AIエージェントはObsidianをどう変える? Cline連携による実験記録 はじめに:AIエージェント時代の幕開け 最近、AIは単なる文章作成ツールから、自律的にタスクをこなす「エージェント」へと進化を遂げている。この変化は、私たちが日々使うテキストエディタやメモアプリにも、大きな変革の波をもたらすのかもしれない。 実際、A

                                                  Obsidian MCPを使って今まで貯めた情報で遊んでみる
                                                • Gemini 2.0 Flash から MCP を利用して BigQuery を操作する

                                                  Google Cloud Champion Innovators Advent Calendar 2024 の 12 日目の記事です。 はじめに LLM が広く普及し、活用範囲が急速に拡大してきたことで、ツール連携機能を活用した AI エージェントを構築する機会も増えてきています。このような LLM とツールの連携により、チャットインターフェースから様々なシステムやサービスを制御・自動化できるようになりました。 しかし、AI エージェントの開発には2つの困りごとがあると感じています。1つ目は、複雑な指示を処理するために必要な高性能モデルの応答速度が遅い点、2つ目は複数のプロジェクトでツールを再利用する際の実装効率の問題です。 本記事では、これらに対する解決策の一例を紹介します。LLM から BigQuery を操作するユースケースにおいて、応答速度が遅い点については Gemini 2.0

                                                    Gemini 2.0 Flash から MCP を利用して BigQuery を操作する
                                                  • ウェブサイト、アプリ、サーバーで OAuth 2.0 トークンを使用する

                                                    .app 1 .dev 1 #11WeeksOfAndroid 13 #11WeeksOfAndroid Android TV 1 #Android11 3 #DevFest16 1 #DevFest17 1 #DevFest18 1 #DevFest19 1 #DevFest20 1 #DevFest21 1 #DevFest22 1 #DevFest23 1 #hack4jp 3 11 weeks of Android 2 A MESSAGE FROM OUR CEO 1 A/B Testing 1 A4A 4 Accelerator 6 Accessibility 1 accuracy 1 Actions on Google 16 Activation Atlas 1 address validation API 1 Addy Osmani 1 ADK 2 AdMob 32 Ads

                                                      ウェブサイト、アプリ、サーバーで OAuth 2.0 トークンを使用する
                                                    • 【47個】ローカル用コーディングエージェントツールの一覧を作ってみた

                                                      この記事の文章は 60% くらい AI が書いてますが、細かい言葉尻や内容の正誤は人間がチェックし修正した上で公開しています。 本記事は airCloset Advent Calendar 2025 の2日目の記事のはずでしたが、諸事情により遅刻しました。2日目にして遅刻する大失態……。 このアドベントカレンダーにはエンジニアを始めとして、弊社社員による様々な記事が投稿されるので、もしよければ他の記事もご覧ください。 1日目は弊社CTO辻による「2025年AIエージェント元年の振り返りと、2026年エンジニアが歩むべき道 」でした。 はじめに コーディングエージェントツールっていっぱいあるのはわかっているけど実際何があるの?とよく思っていたので、アドカレを良い機会とし調べて一覧を作ってみました。使ってないツールについても記載しているので、人によるファクトチェック済みの Deepresear

                                                        【47個】ローカル用コーディングエージェントツールの一覧を作ってみた
                                                      • Deep Research再現実装をDeep Research以上に詳しく検証してみた - AKARI Tech Blog

                                                        はじめに こんばんは! 今週のAKARI Tech Blogは、DX Solution 事業本部 Dev の許が担当いたします。 先日OpenAIが「Deep Research」を公開し、その驚異的な文献調査能力が話題となりましたね! 皆様使っていますでしょうか。 これまでひいこら言いながらインターネット検索していた時代と比べると、「Deep Research お願いします!」で、それなりの分析レポートが出てくることに隔世の感を感じますね。 これだけ性能の良いものが出てきた以上、仕組みが気になるところ。できることなら、自分たちでも再現実装してみたい! しかし例によってOpenAIは実装をオープンにはしてくれない……。 そこで登場するのが、Deep ResearchのOSS再現プロジェクトたち! まずは Deep ResearchにOpenな再現実装について聞いてみましょうか。 ChatGP

                                                          Deep Research再現実装をDeep Research以上に詳しく検証してみた - AKARI Tech Blog
                                                        • MicrosoftのGPT-4o超え小型言語AI「Phi-4」、カメラ越しの現実をリアルタイムに理解するオープンソースAI「IXC2.5-OL」など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge

                                                          Googleはテキストや画像、動画など、複数の形式の情報を理解・処理できるマルチモーダル言語モデル「Gemini 2.0」を発表しました。開発者と一部のテスターに向けて公開され、すべてのGeminiユーザーには試験運用版の「Gemini 2.0 Flash」を利用できるようになります。Gemini 2.0 FlashはリアルタイムのAPIも公開されています。 またGoogleは、コードを生成するAIエージェント「Jules」も発表しました。これはPythonとJavaScriptのコーディングタスクを自動で処理し、GitHubと連携してバグ修正やプルリクエストまで行えます。

                                                            MicrosoftのGPT-4o超え小型言語AI「Phi-4」、カメラ越しの現実をリアルタイムに理解するオープンソースAI「IXC2.5-OL」など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge
                                                          • AIニュースノート:nano-bananaが話題に、AGENTS.mdの採用広がる、Microsoft Copilotに3Dモデリング機能が追加、ChatGPTでプロジェクト専用メモリー搭載、Claude for Chromeの安全設計など | gihyo.jp

                                                            AIニュースノート⁠⁠:nano-bananaが話題に⁠⁠、AGENTS.mdの採用広がる⁠⁠、Microsoft Copilotに3Dモデリング機能が追加⁠⁠、ChatGPTでプロジェクト専用メモリー搭載⁠⁠、Claude for Chromeの安全設計など gihyo.jpのニュース記事として取り上げていなかったもののなかから、直近の興味深いAIに関連するニュース概要を簡単にまとめてみました。 ※この記事は、不正確な内容を含んでいる可能性のある実験的コンテンツです。正確な情報はリンク先を確認してください。 nano-bananaの週でした nano-bananaこと、Gemini 2.5 Flash Imageがリリースされて、このモデルによる画像生成・編集が話題になった週でした。興味深い使い方やベストプラクティスも紹介されています。 “nano-banana”の舞台裏⁠:対話×段階編

                                                              AIニュースノート:nano-bananaが話題に、AGENTS.mdの採用広がる、Microsoft Copilotに3Dモデリング機能が追加、ChatGPTでプロジェクト専用メモリー搭載、Claude for Chromeの安全設計など | gihyo.jp
                                                            • Gemini 2.0 FlashとRubyでDeepResearchを作ってみた!

                                                              はじめに LLMの躍進はすさまじく、年初からGemini 2.0、DeepSeek R1、Mistral Small 3、OpenAI o3-miniなど、新しくて強力なモデルが次々と登場しています。今年も非常にエキサイティングな年になりそうです。 そんな2025年ですが、単なるLLMだけでなく「AIエージェントの年になる!」とも言われています。先日も、GoogleによるGemini 1.5をベースにしたDeepResearchと同名の、OpenAIによるo3ベースのDeepResearchが発表され、大きな注目を集めました。 現在、個人的にAriaというAIエージェントフロントエンドを作っているので、今回はDeepResearch風のアプリケーションを自作して、その感触を掴んでみたいと思います。 ちなみに、今回作成した機能のデモはこちらです。 AIエージェントとは? エージェントに関して

                                                                Gemini 2.0 FlashとRubyでDeepResearchを作ってみた!
                                                              • 検索ワードからLLMで専門家を見つけるSlack bot「Navigator」の開発

                                                                はじめに 株式会社松尾研究所でインターンをしているyukiです。 Slack上でユーザーのメッセージを分析し、特定の分野に詳しい人を提示するbotを開発したのでその紹介をします。 これは松尾研究所で行われたAIハッカソンで発表された「Navigator」をアップグレードして社内でリリースしたものになります。 大規模な組織のSlackには多くのユーザー、チャンネルが存在し、日々膨大な量のメッセージが交わされています。そのような環境では誰が何に詳しいのかを完全に把握することは難しく、分からないことを誰に聞けばよいか分からないことも多いです。 今回開発したbot、Navigatorはそのような問題を解決するためのツールとなっています。 従来の課題と解決手法 Slackなどのチャットツールは、チーム間でのコミュニケーションをスムーズにする一方で、以下のような問題が存在します。 ・メッセージの増加に

                                                                  検索ワードからLLMで専門家を見つけるSlack bot「Navigator」の開発
                                                                • ほぼ週間Go言語 2026年4月6日

                                                                  今週もプログラミング雑記からGo言語の話題を中心に気になった話題を取り上げていきます。 Go言語 Go 1.26で改善された型チェッカーの型構築とサイクル検出について説明しています。Goの型チェッカーは、AST(抽象構文木)をトレースして各型の内部表現を構築します。単純な型では深さ優先で完成しますが、再帰型では不完全な型を扱わねばなりません。サイクル検出は、不完全な値が配列サイズなど型構築時に分解が必要な場所に渡された場合、エラーを報告します。新しいアルゴリズムは「上流」の値式で完全性チェックを挿入し、不完全な値が下流に逃げるのを防ぎ、より安定したコンパイラを実現しました。 GoLand 2026.1 がリリースされました。主な新機能は以下の通りです。 Go構文の現代化支援:Go 1.26への対応として、古い構文パターンを検出し新しい書き方を提案します。「new()」による型安全なポインタ

                                                                    ほぼ週間Go言語 2026年4月6日
                                                                  • DSPyで始めるプロンプト最適化|うるし

                                                                    note株式会社の推薦チームで機械学習エンジニアをしている漆山です。弊チームでは、Amazon Bedrockを活用して業務に生成AIを活用したり、MLタスクの一部をLLMに置き換えたりしています。 Amazon Bedrockはさまざまなモデルを利用することができ、用途によってモデルを切り替える柔軟性があります。 しかし、モデルのAPIのパラメータなどは統一されておらず、またClaude v2からClaude v3へのアップデートする際にAPIが大きく変わったりしました。利用するモデルによって、コードのパラメータを変更するのは少し面倒だなと感じることもあります。 利用するモデルに関わらず、プロンプトエンジニアリングは大切です。その際にはプロンプトを管理したりする必要があり、もっと楽にプロンプトの最適化ができないかなと感じることもありました。 この記事では、エンジニアが楽にプロンプトエンジ

                                                                      DSPyで始めるプロンプト最適化|うるし
                                                                    • 【最速解説】Nano Banana 2 リリース!APIも! 何がすごいか解説するよ!|AICU

                                                                      2026年2月27日、Googleは高速かつ高品質な画像生成AI「Nano Banana 2」の最新アップデートを発表しました。このアップデートは、Flashモデルならではの圧倒的な生成スピードと安価なAPI費用を特徴としつつ、精度の高いテキスト生成、画像内翻訳、Google画像検索を活用したリアルなグラウンディング、そして直感的なテンプレート機能を特徴としています。記事の最後に日本語で全部試せるGoogle Colabを公開したよ! NanoBanana初代の「10億枚以上の画像生成」の経験を経て、自由な縦横比、4K解像度、ストーリー、コンセプトの高い一貫性と複数画像の生成。そしてGeminiの現実世界知識、さらにGoogle Mapsやウェブ検索画像を使って深く思考した生成。特定のランドマーク、場所、物体などをより正確に描写することで地域的コンテンツをグローバル市場向けにクリエイティブ

                                                                        【最速解説】Nano Banana 2 リリース!APIも! 何がすごいか解説するよ!|AICU
                                                                      • February 2025 (version 1.98)

                                                                        The feature is still in development and not yet ready for general use. View the experimental features (@tag:experimental). Copilot Edits Agent mode improvements (Experimental) Last month, we introduced agent mode for Copilot Edits in VS Code Insiders. In agent mode, Copilot can automatically search your workspace for relevant context, edit files, check them for errors, and run terminal commands (w

                                                                          February 2025 (version 1.98)
                                                                        • [2025年2月28日] GPT-4.5は「人格基盤モデル」なのでは (週刊AI)

                                                                          こんにちは、Kaiです。 年が明けてからのAI加速、ヤバくないですか? 前にも書いた通り、私は既に人類がシンギュラリティの渦中にいると思っていますが、まさにそれを実感するような速度で進化が起きています。 恐らくですが、OpenAI、Google、Anthropicといった企業の中の人は、GPT-5とかGemini2.5とかClaude4.0とともに仕事をしているはずで、既に人間の能力は相当にブーストされていると思います。 直近の動きとしては、Claude3.7 Sonnet、そしてGPT-4.5の発表がありました。どちらも使っていますが、今のところ劇的な向上という印象はありません。恐らく、非Reasoning(Claude3.7はReasoningも出来ますが)モデルとしての、単純な頭の良さという面では限界に達しつつあるのかもしれません。 私見ですが、縦方向の進化(思考力や、頭の良さ、問題

                                                                            [2025年2月28日] GPT-4.5は「人格基盤モデル」なのでは (週刊AI)
                                                                          • 全Geminiプロダクトを徹底解説! - G-gen Tech Blog

                                                                            G-gen の米川です。Google が開発した大規模言語モデル Gemini は、その高い性能と多岐にわたるプロダクト展開で注目を集めています。当記事では、Gemini プロダクトの全貌を網羅的に解説します。 はじめに 生成 AI 基盤モデル としての Gemini モデルとは Gemini のモデルファミリー Gemini モデルのバージョン Gemini プロダクト 1. Gemini アプリ Gemini アプリとは データ保護 Gems 2. Gemini Enterprise Gemini Enterprise とは 参考記事 3. Gemini for Google Workspace Gemini for Google Workspace とは サイドパネル Gemini for Google Workspace が Google Worksapce のコアライセンスに統合

                                                                              全Geminiプロダクトを徹底解説! - G-gen Tech Blog
                                                                            • 【実践】Claude×YAMLが優秀!:1回の指示でリサーチ、記事執筆、サムネ生成、グラレコ化が完了する夢のワークフロー結果|テツメモ|tetumemo|Newsletter

                                                                              📝いや、これ楽しすぎる 「Claude 3.7 Sonnet」×「Projects機能」×「YAML指示書」が超優秀! ✅実行例 ①、リサーチ指示書作成 ②、①でWebリサーチ ③、②の結果で1万文字のnote記事執筆 ④、③の結果でサムネ用プロンプト生成 ⑤、③の結果を元にグラレコ生成 Claudeで一撃出力 記事で解説済み↓ https://t.co/KkMQJphHhQ pic.twitter.com/28uNmnsYco — テツメモ|AI図解×検証|Newsletter (@tetumemo) April 7, 2025 「Claude 3.7 Sonnet」×「Projects機能」×「YAML指示書」の流れ上記のステップに「グラレコ化」を追加 発行済の記事を読むことで、自由自在に指示を組み込むことができるようになります。 Webリサーチ用の調査プロンプトを生成 調査プロンプ

                                                                                【実践】Claude×YAMLが優秀!:1回の指示でリサーチ、記事執筆、サムネ生成、グラレコ化が完了する夢のワークフロー結果|テツメモ|tetumemo|Newsletter
                                                                              • Gemini 2.0 Flash API の使用方法を、実装しながら解説

                                                                                「Gemini 2.0 flash」のAPIでの使い方について、Google Colaboratory で実装しながら解説します。 以前の「Gemini 1.5」とは利用ライブラリなどが異なるため、その点も踏まえて解説します。 記事の最後では、実際にアプリケーション(AI-Agentもどき)に導入するアーキテクチャについても簡単に紹介いたします。 (執筆:小川 雄太郎)。 本記事では最初に「Gemini 2.0 Flash」で動作させるための「設定系」について解説します。 その後、会話を1回実行する場合、会話を往復させる場合、そして会話履歴の続きから会話させる場合について、それぞれ実装しながら解説します。 本記事で紹介する実装コード(Google ColaboratoryのNotebook)は以下のリポジトリに置いています。 link: Gemini_2_Yutaro_Ogawa_2025

                                                                                  Gemini 2.0 Flash API の使用方法を、実装しながら解説
                                                                                • Gemini 2.0 Flash Live API (試験運用版)を使ってAIと日本語で会話してみた | DevelopersIO

                                                                                  AWS事業本部コンサルティング部の石川です。12/11にGoogle Gemini 2.0 という新しいモデルがリリースされました。現在、Gemini 2.0 Flashの試験運用版が、Google AI StudioおよびVertex AIのGemini APIを通じて開発者向けに提供されています。 単に精度が上がっただけではなく、かなり色々なことができるモデルのようだな、と思っていたところ Philipp Schmid さんがサンプルコードを上げてるじゃないですかぁー ということで、検証の旅に行ってきました。 Gemini 2.0 とは Gemini 2.0は、Googleが2024年12月11日に発表した次世代AIモデルです。現在、Gemini 2.0 Flashの試験運用版のみですが、2025年1月には一般提供を開始し、モデルサイズも拡大する予定です。 高速性能 Gemini 2.

                                                                                    Gemini 2.0 Flash Live API (試験運用版)を使ってAIと日本語で会話してみた | DevelopersIO