並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 55件

新着順 人気順

list models gemini api pythonの検索結果1 - 40 件 / 55件

  • 日本語の手書きメモを書き起こせるOCRを探すために23モデルを片っ端から試した話

    こんにちは!逆瀬川ちゃん (@gyakuse) です! 今日は日本語の手書きメモをいい感じに書き起こしてくれるOCRを探して、23モデルを片っ端から比較してみた話をまとめていきたいと思います。 手書きメモは楽しいが電子化がつらい わたしはいまだに手書きメモをよく書きます。打ち合わせの最中にさっと書いたり、アイデアを整理するときにペンで図を描いたり。手を動かしながら考えるのはとても楽しいし、タイピングとは違う思考の広がり方があります。 ただ問題は電子化です。ノートに書いたメモをあとからSlackやNotionに転記するのがとにかくつらい。自分の字を自分で読み返す作業がすでにつらいのに、それを打ち直すのは二重苦です。 OCRで自動化したいのですが、日本語の手書き文字って既存のOCRモデルにとってはかなり難しいタスクです。活字ならどのモデルでも高精度ですが、手書きとなると精度がガクッと落ちます。

      日本語の手書きメモを書き起こせるOCRを探すために23モデルを片っ端から試した話
    • Coding Agentについてのまとめ (2026年1月)

      LLMによるコード補完の登場 (2021年) GitHub Copilotの登場 我々がよく知るLLMによる支援はまず GitHub Copilot から始まりました。これはGPT-3 (OpenAI Codex, 現在のCodexと名前が同じで本当にややこしい) をベースとしたコード補完システムで、タイピングをしていると自動的にその行の続きを予測してくれるものです autocompleteとの違い それ以前にもIntelliSenseのようなautocompleteがありましたし、より進歩したn-gramなどを用いたものはありましたが、LLMをベースとしたものはTabnine (Tabnineは初期はn-gramモデル) やCopilotからとなります チャットベースのコードアシストの時代 (2022-2023年) ChatGPTの登場 ChatGPT以降、チャットによる対話形式でコード

        Coding Agentについてのまとめ (2026年1月)
      • GitHub - modelcontextprotocol/servers: Model Context Protocol Servers

        Official integrations are maintained by companies building production ready MCP servers for their platforms. 21st.dev Magic - Create crafted UI components inspired by the best 21st.dev design engineers. 2slides - An MCP server that provides tools to convert content into slides/PPT/presentation or generate slides/PPT/presentation with user intention. ActionKit by Paragon - Connect to 130+ SaaS inte

          GitHub - modelcontextprotocol/servers: Model Context Protocol Servers
        • ローカルLLMの検索ツールとして Gemini 2.5 Flash-Lite を試す|npaka

          ローカルLLMの検索ツールとして「Gemini 2.5 Flash-Lite」を試してみたのでまとめました。 1. ローカルLLMに検索能力を与えてみる「日本語ローカルLLM」の性能は、ここ最近で一気に上がりました。しかし、パラメータサイズが10B以下だと、持ってる知識が限られるため、検索能力がほしくなります。 ローカルLLMに検索能力を与えるMCPは、次のとおりです。 ・Brave Search MCP 公式MCPが提供されている。 月間約1,000リクエストまで無料 ・Google Custom Search MCP 公式APIで信頼性高い。 1日100リクエストまで無料 ・Tavily MCP LLM向けに設計された検索API エージェント用途に相性が良い ・DuckDuckGo MCP 導入は簡単 ただし非公式実装が多く、長期安定性はやや不安 ・SearXNG MCP 自己ホスト可

            ローカルLLMの検索ツールとして Gemini 2.5 Flash-Lite を試す|npaka
          • 生成AIを活用したシステム開発の現状と展望

            Copyright (c) The Japan Research Institute, Limited 生成AIを活用したシステム開発 の現状と展望 - 生成AI時代を見据えたシステム開発に向けて - 株式会社日本総合研究所 先端技術ラボ 2024年09月30日 <本資料に関するお問い合わせ> 伊藤蓮(ito.ren@jri.co.jp) 近藤浩史(kondo.hirofumi@jri.co.jp) 本資料は、作成日時点で弊社が一般に信頼できると思われる資料に基づいて作成されたものですが、情報の正確性・完全性を弊社で保証するもので はありません。また、本資料の情報の内容は、経済情勢等の変化により変更されることがありますので、ご了承ください。本資料の情報に起因して閲覧者 及び第三者に損害が発生した場合でも、執筆者、執筆取材先及び弊社は一切責任を負わないものとします。本資料の著作権は株式会社日

            • Go + クリーンアーキテクチャで AI エージェント基盤を再設計した話【前編】

              AIエージェントの開発を一気に行っていたのでそのまとめとなる記事を書いてみようと思います。 エージェント開発のSDKやノーコードツールは充実してきていますが、MVPとしてバックエンドとして使ってる Go でライブラリなどをあまり使わず開発を進めた結果、ほぼ自前で実装することになったので一からのAIエージェント開発ということで参考になるかと思います。 1. はじめに:なぜ Go で AI エージェント基盤を作るのか AI エージェントの実装といえば、一般には Python が選ばれます。 LangChain / LangGraph や LlamaIndex など、強力なエージェントフレームワークのサポートが充実しているからです。 ではなぜ筆者は、Go で、しかも(ほぼ)自前の AI エージェント基盤を一から構築したのか? その理由は以下の 3 点に集約されます。 既存のバックエンドが Go

                Go + クリーンアーキテクチャで AI エージェント基盤を再設計した話【前編】
              • PacketProxyで探るGemini CLIのコンテキストエンジニアリング 〜AIエージェントを信頼できる相棒に〜 | BLOG - DeNA Engineering

                2025.07.18 技術記事 PacketProxyで探るGemini CLIのコンテキストエンジニアリング 〜AIエージェントを信頼できる相棒に〜 by akira.kuroiwa #gemini-cli #ai #security #ai-agent #context-engineering #packetproxy 「なんかよく分からないけど、すごい」で終わらせないために こんにちは、DeNA セキュリティ技術グループの 黒岩 亮 ( @kakira9618 ) です。 AIエージェント、とくに Gemini CLI のようなコーディングを支援してくれるツールは非常に強力で、私たちの開発体験を大きく変えようとしています。しかし、その一方で、こんな風に感じたことはありませんか? 「このファイルの情報、勝手にAIに送られたりしない? 大丈夫かな?」 と、情報管理・セキュリティ面で漠然と

                  PacketProxyで探るGemini CLIのコンテキストエンジニアリング 〜AIエージェントを信頼できる相棒に〜 | BLOG - DeNA Engineering
                • 型安全かつシンプルなAgentフレームワーク「PydanticAI」の実装を解剖する - ABEJA Tech Blog

                  はじめに こちらはABEJAアドベントカレンダー2024 12日目の記事です。 こんにちは、ABEJAでデータサイエンティストをしている坂元です。最近はLLMでアプローチしようとしていたことがよくよく検証してみるとLLMでは難しいことが分かり急遽CVのあらゆるモデルとレガシーな画像処理をこれでもかというくらい詰め込んだパイプラインを実装することになった案件を経験して、LLMでは難しそうなことをLLM以外のアプローチでこなせるだけの引き出しとスキルはDSとしてやはり身に付けておくべきだなと思うなどしています(LLMにやらせようとしていることは大抵難しいことなので切り替えはそこそこ大変)。 とはいうものの、Agentの普及によってより複雑かつ高度な推論も出来るようになってきています。弊社の社内外のプロジェクト状況を見ていても最近では単純なRAG案件は減りつつあり、計画からアクションの実行、結果

                    型安全かつシンプルなAgentフレームワーク「PydanticAI」の実装を解剖する - ABEJA Tech Blog
                  • A Guide to Claude Code 2.0 and getting better at using coding agents

                    Table of Contents Intro Why I wrote this post The Map is not the territory This post will help you keep up in general Lore time - My Love and Hate relationship with Anthropic Timeline My Codex era Anthropic Redemption Arc + Regaining mandate of heaven Why Opus 4.5 feels goooood This post is not sponsored Pointers for the technically-lite The Evolution of Claude Code Quality of life improvements in

                      A Guide to Claude Code 2.0 and getting better at using coding agents
                    • What We Learned from a Year of Building with LLMs (Part I)

                      It’s an exciting time to build with large language models (LLMs). Over the past year, LLMs have become “good enough” for real-world applications. The pace of improvements in LLMs, coupled with a parade of demos on social media, will fuel an estimated $200B investment in AI by 2025. LLMs are also broadly accessible, allowing everyone, not just ML engineers and scientists, to build intelligence into

                        What We Learned from a Year of Building with LLMs (Part I)
                      • 2025: The year in LLMs

                        31st December 2025 This is the third in my annual series reviewing everything that happened in the LLM space over the past 12 months. For previous years see Stuff we figured out about AI in 2023 and Things we learned about LLMs in 2024. It’s been a year filled with a lot of different trends. The year of “reasoning” The year of agents The year of coding agents and Claude Code The year of LLMs on th

                          2025: The year in LLMs
                        • Things we learned about LLMs in 2024

                          31st December 2024 A lot has happened in the world of Large Language Models over the course of 2024. Here’s a review of things we figured out about the field in the past twelve months, plus my attempt at identifying key themes and pivotal moments. This is a sequel to my review of 2023. In this article: The GPT-4 barrier was comprehensively broken Some of those GPT-4 models run on my laptop LLM pri

                            Things we learned about LLMs in 2024
                          • GitHub - punkpeye/awesome-mcp-servers: A collection of MCP servers.

                            Servers for accessing many apps and tools through a single MCP server. 1mcp/agent 📇 ☁️ 🏠 🍎 🪟 🐧 - A unified Model Context Protocol server implementation that aggregates multiple MCP servers into one. tadas-github/a2asearch-mcp 📇 ☁️ - MCP server to search 4,800+ MCP servers, AI agents, CLI tools and agent skills. Install: npx -y a2asearch-mcp. Ask Claude: "Find MCP servers for database access"

                              GitHub - punkpeye/awesome-mcp-servers: A collection of MCP servers.
                            • March 2025 (version 1.99)

                              Update 1.99.1: The update addresses these security issues. Update 1.99.2: The update addresses these issues. Update 1.99.3: The update addresses these issues. Downloads: Windows: x64 Arm64 | Mac: Universal Intel silicon | Linux: deb rpm tarball Arm snap Welcome to the March 2025 release of Visual Studio Code. There are many updates in this version that we hope you'll like, some of the key highligh

                                March 2025 (version 1.99)
                              • Vertex AI Agent Engine Memory Bankを使ってみた - ぐるなびをちょっと良くするエンジニアブログ

                                はじめに こんにちは。データサイエンティストの閔(みん)です。普段はAIレストラン検索アプリ「UMAME!」の開発に携わるほか、社内のデータ管理、AIを用いた業務改善などに関わっています。 本記事では、近年話題となっている LLM Agent (最近は単にAgentとも呼ばれます。以降Agentとします) の、会話内容をまとめて保持する「長期メモリ」の仕組みの一つであるMemory Bankについてご紹介したいと思います。その前に、Agentとは何かについても少しだけおさらいしたいと思います。 Agentって何? Agentとは、一般的に 自ら環境を認識し、自律的に行動を行うAI と定義されるようです。(Agentについては、Google Cloud AI Agent Summitの登壇記事 に解説してありますのでご参考ください) 最近はGeminiやChatGPTにもAgent機能が追加

                                  Vertex AI Agent Engine Memory Bankを使ってみた - ぐるなびをちょっと良くするエンジニアブログ
                                • Firebase Studio lets you build full-stack AI apps with Gemini | Google Cloud Blog

                                  Millions of developers use Firebase to engage their users, powering over 70 billion instances of apps every day, everywhere — from mobile devices and web browsers, to embedded platforms and agentic experiences. But full-stack development is evolving quickly, and the rise of generative AI has transformed not only how apps are built, but also what types of apps are possible. This drives greater comp

                                    Firebase Studio lets you build full-stack AI apps with Gemini | Google Cloud Blog
                                  • LangGraph for complex workflows — surma.dev

                                    Toggle dark mode I may be late to the party, but LangGraph lets you build complex workflow architectures and codify them as powerful automations. Also LLMs, if you want. But you don’t have to! LLM Architecture I always liked the idea of “flow-based” programming. PureData, DaVinci Resolve, Node Red... they all appeal to me. I also always liked the idea of running LLMs locally, rather than spending

                                      LangGraph for complex workflows — surma.dev
                                    • 評価駆動開発で趣味のLLMアプリを育てきってみた【やり抜く!】 - Insight Edge Tech Blog

                                      この記事はInsight Edge Advent Calendar 2025の2日目の記事です!🦌🦌🦌🦌🛷🎅1日目のニャットさんの記事で紹介された、テックブログレビューエージェントのサポートのもと、なんとか間に合いました。会社でのアドベントカレンダーは初の試みですが、お祭り感があって楽しいですね。 はじめに はじめまして。Insight Edgeデータサイエンティストのnakanoです。 LLMアプリケーションの開発において、「とりあえず動くもの」を作ることは比較的容易です。しかし、実用的なレベルにまで仕上げることは難しい課題です。その理由は、LLMアプリの良し悪しを測る評価軸が曖昧なままだと、改善の方向性が定まらず開発が迷走してしまうからです。そこで今回は、この課題を解決するアプローチとして、評価駆動開発による進め方をご紹介します。 本記事では、「書き込みや線引きがある紙面画

                                        評価駆動開発で趣味のLLMアプリを育てきってみた【やり抜く!】 - Insight Edge Tech Blog
                                      • OpenAIのAPIを使う

                                        はじめに このページではOpenAIのChat Completions APIについて解説します。OpenAIは新しいResponses APIに移行するつもりのようです(OpenAIのresponses APIを使う 参照)。しかし、Chat Completionsは他社のAPIもお手本にする基本的な方法なので、使ってみて損はしません。 まずこちらで登録してAPIキーを発行してもらいます。サブスクのChatGPTと異なり、料金は従量制で、百万トークンあたり何ドルという具合に課金されます。値段の比較はLLM API比較がわかりやすいと思います。 APIの概要はOpenAIの OpenAI Platform からドキュメンテーション、APIレファレンスなどをご覧ください。APIで送られたデータは学習用に使われることはありません。不正使用の監視のために30日間保持され、特に問題なければ消去され

                                        • January 2025 (version 1.97)

                                          Update 1.97.1: The update addresses these security issues. Update 1.97.2: The update addresses these issues. Downloads: Windows: x64 Arm64 | Mac: Universal Intel silicon | Linux: deb rpm tarball Arm snap Welcome to the January 2025 release of Visual Studio Code. There are many updates in this version that we hope you'll like, some of the key highlights include: Next Edit Suggestions (preview) - Co

                                            January 2025 (version 1.97)
                                          • Real-world gen AI use cases from the world's leading organizations | Google Cloud Blog

                                            AI is here, AI is everywhere: Top companies, governments, researchers, and startups are already enhancing their work with Google's AI solutions. Published April 12, 2024; last updated October 9, 2025. Automotive & Logistics Business & Professional Services Financial Services Healthcare & Life Sciences Hospitality & Travel Manufacturing, Industrial & Electronics Media, Marketing & Gaming Public Sec

                                              Real-world gen AI use cases from the world's leading organizations | Google Cloud Blog
                                            • Gemini 2.0 Flash から MCP を利用して BigQuery を操作する

                                              Google Cloud Champion Innovators Advent Calendar 2024 の 12 日目の記事です。 はじめに LLM が広く普及し、活用範囲が急速に拡大してきたことで、ツール連携機能を活用した AI エージェントを構築する機会も増えてきています。このような LLM とツールの連携により、チャットインターフェースから様々なシステムやサービスを制御・自動化できるようになりました。 しかし、AI エージェントの開発には2つの困りごとがあると感じています。1つ目は、複雑な指示を処理するために必要な高性能モデルの応答速度が遅い点、2つ目は複数のプロジェクトでツールを再利用する際の実装効率の問題です。 本記事では、これらに対する解決策の一例を紹介します。LLM から BigQuery を操作するユースケースにおいて、応答速度が遅い点については Gemini 2.0

                                                Gemini 2.0 Flash から MCP を利用して BigQuery を操作する
                                              • Weave と Elyza-tasks-100 で ローカルLLMを評価する|npaka

                                                「Weave」と「Elyza-tasks-100」で ローカルLLMの評価を試したので、まとめました。 1. Weave と Elyza-tasks-100「Weave」は、LLMアプリケーションの記録、実験、評価のためのツールです。「Weights & Biases」が提供する機能の1つになります。「評価関数」と「評価データセット」を用意するだけで、LLMの評価に必要な面倒な処理 (記録・集計など) をすべて肩代わりしてくれます。 「Elyza-tasks-100」はElyzaが提供する指示チューニングモデル用の評価用データセットです。問題固有の採点基準の情報も含まれています。 2. 評価データセットの準備評価データセットの準備手順は、次のとおりです。 (1) 「Elyza-tasks-100」から「test.csv」をダウンロード。 (2) 以下のプロンプトテンプレートを作成。 ・pr

                                                  Weave と Elyza-tasks-100 で ローカルLLMを評価する|npaka
                                                • Deep Research再現実装をDeep Research以上に詳しく検証してみた - AKARI Tech Blog

                                                  はじめに こんばんは! 今週のAKARI Tech Blogは、DX Solution 事業本部 Dev の許が担当いたします。 先日OpenAIが「Deep Research」を公開し、その驚異的な文献調査能力が話題となりましたね! 皆様使っていますでしょうか。 これまでひいこら言いながらインターネット検索していた時代と比べると、「Deep Research お願いします!」で、それなりの分析レポートが出てくることに隔世の感を感じますね。 これだけ性能の良いものが出てきた以上、仕組みが気になるところ。できることなら、自分たちでも再現実装してみたい! しかし例によってOpenAIは実装をオープンにはしてくれない……。 そこで登場するのが、Deep ResearchのOSS再現プロジェクトたち! まずは Deep ResearchにOpenな再現実装について聞いてみましょうか。 ChatGP

                                                    Deep Research再現実装をDeep Research以上に詳しく検証してみた - AKARI Tech Blog
                                                  • Here’s how I use LLMs to help me write code

                                                    11th March 2025 Online discussions about using Large Language Models to help write code inevitably produce comments from developers who’s experiences have been disappointing. They often ask what they’re doing wrong—how come some people are reporting such great results when their own experiments have proved lacking? Using LLMs to write code is difficult and unintuitive. It takes significant effort

                                                      Here’s how I use LLMs to help me write code
                                                    • GenAI Handbook

                                                      William Brown @willccbb | willcb.com v0.1 (June 5, 2024) Introduction This document aims to serve as a handbook for learning the key concepts underlying modern artificial intelligence systems. Given the speed of recent development in AI, there really isn’t a good textbook-style source for getting up-to-speed on the latest-and-greatest innovations in LLMs or other generative models, yet there is an

                                                      • October 2024 (version 1.95)

                                                        GitHub Pull Requests Version 0.100.0 of the GitHub Pull Requests extension adds Copilot integration: Use the @githubpr chat participant in the Chat view to search for issues, summarize issues/prs, and suggest fixes for issues. @githubpr uses a number of Language Model tools to accomplish this. There's also a new Notifications view that shows GitHub notifications, with an action to prioritize them

                                                          October 2024 (version 1.95)
                                                        • Digital, digital and digital

                                                          戦略ファーム時代に読んだ700冊程度の本をまとめています*随時更新 戦略ファーム時代に読んだ700冊程度の本をまとめています I. 戦略 企業参謀 https://amzn.to/44iKVxM 当初、いまいち戦略というものが掴めきれず迷子になっていた時に「大前研一はこれだけ読め」と教わった本。大量に出ている他の大前本を読まなくて済むのが見過ごせない大きな価値 戦略サファリ 第2版 https://amzn.to/3csZg0t 経営戦略の本を読み漁るも、実プロジェクトの方が全くもって学びになるという普通の感想をもち、俯瞰での戦略論を求めるようになる。いやあ懐かしい 企業戦略論【上】基本編 競争優位の構築と持続 Jay Barney https://amzn.to/3dJjVxB 任天堂の戦略の妙に気が付きはじめ、ベースか似通ったものはないだろうかと思うようになった時にJay Barney

                                                            Digital, digital and digital
                                                          • July 2025 (version 1.103)

                                                            Version 1.108 is now available! Read about the new features and fixes from December. Release date: August 7, 2025 Update 1.103.1: The update adds GPT-5 prompt improvements, support for GPT-5 mini, and addresses these issues. Update 1.103.2: The update addresses these issues. Downloads: Windows: x64 Arm64 | Mac: Universal Intel silicon | Linux: deb rpm tarball Arm snap Welcome to the July 2025 rele

                                                              July 2025 (version 1.103)
                                                            • October 2025 (version 1.106)

                                                              Release date: November 12, 2025 Update 1.106.1: The update addresses these issues Update 1.106.2: The update addresses these issues Update 1.106.3: The update addresses these issues Downloads: Windows: x64 Arm64 | Mac: Universal Intel silicon | Linux: deb rpm tarball Arm snap Welcome to the October 2025 release of Visual Studio Code. This release brings significant updates across three key areas:

                                                                October 2025 (version 1.106)
                                                              • Tool Calling with LangChain

                                                                TLDR: We are introducing a new tool_calls attribute on AIMessage. More and more LLM providers are exposing API’s for reliable tool calling. The goal with the new attribute is to provide a standard interface for interacting with tool invocations. This is fully backwards compatible and is supported on all models that have native tool-calling support. In order to access these latest features you will

                                                                  Tool Calling with LangChain
                                                                • We hacked Google’s A.I Gemini and leaked its source code (at least some part)

                                                                  We hacked Google’s A.I Gemini and leaked its source code (at least some part) Mar 27, 2025 RONI CARTA | LUPIN gemini, llm, google, source code, leak, bug bounty, hack Back to Vegas, and This Time, We Brought Home the MVH Award ! In 2024 we released the blog post We Hacked Google A.I. for $50,000, where we traveled in 2023 to Las Vegas with Joseph "rez0" Thacker, Justin "Rhynorater" Gardner, and my

                                                                  • GitHub - punkpeye/awesome-mcp-servers: A collection of MCP servers.

                                                                    Servers for accessing many apps and tools through a single MCP server. 1mcp/agent 📇 ☁️ 🏠 🍎 🪟 🐧 - A unified Model Context Protocol server implementation that aggregates multiple MCP servers into one. tadas-github/a2asearch-mcp 📇 ☁️ - MCP server to search 4,800+ MCP servers, AI agents, CLI tools and agent skills. Install: npx -y a2asearch-mcp. Ask Claude: "Find MCP servers for database access"

                                                                      GitHub - punkpeye/awesome-mcp-servers: A collection of MCP servers.
                                                                    • Geminiでマルチモーダル対応の生成AIチャットアプリを爆速で作ってみた - G-gen Tech Blog

                                                                      G-gen 又吉です。Google の提供する最新の生成 AI モデルである Gemini を用いて、マルチモーダルな生成 AI チャットアプリを簡単に開発できましたので、ご紹介します。 概要 当記事の内容 デモ動画 前提知識 Gemini とは 使用するモデル Gradio Cloud Runサービスへのアクセス制御 準備 ディレクトリ構成 app.py requirements.txt Dockerfile デプロイ 動作検証 認証 テキストのみ 画像① 画像② 動画 利用状況の可視化 概要 当記事の内容 Google の提供する最新の生成 AI モデルである Gemini を用いて、テキスト、画像、動画の入力に対応したマルチモーダルな生成 AI チャットアプリを作ってみたので、当記事ではその開発の経緯をご紹介します。 実行環境として Google Cloud(旧称 GCP)の Clo

                                                                        Geminiでマルチモーダル対応の生成AIチャットアプリを爆速で作ってみた - G-gen Tech Blog
                                                                      • February 2025 (version 1.98)

                                                                        The feature is still in development and not yet ready for general use. View the experimental features (@tag:experimental). Copilot Edits Agent mode improvements (Experimental) Last month, we introduced agent mode for Copilot Edits in VS Code Insiders. In agent mode, Copilot can automatically search your workspace for relevant context, edit files, check them for errors, and run terminal commands (w

                                                                          February 2025 (version 1.98)
                                                                        • The AI-Native Software Engineer

                                                                          An AI-native software engineer is one who deeply integrates AI into their daily workflow, treating it as a partner to amplify their abilities. This requires a fundamental mindset shift. Instead of thinking “AI might replace me” an AI-native engineer asks for every task: “Could AI help me do this faster, better, or differently?”. The mindset is optimistic and proactive - you see AI as a multiplier

                                                                            The AI-Native Software Engineer
                                                                          • Gemini 1.5 の JSONモードを試す|npaka

                                                                            Gemini 1.5 のJSONモードを試したので、まとめました。 1. JSONモード「JSONモード」は、LLMの出力をJSON形式に強制するためのモードです。「gemini-1.5-pro」「gemini-1.5-flash」で利用可能です。 さらに、「gemini-1.5-pro」は「制約付きデコード」をサポートします。これにより、推論時にスキーマオブジェクト (または同等のPython型) を渡すことができ、出力はそのスキーマに厳密に従います。 2. JSONモードの使い方JSONモードの使い方は、次のとおりです。 (1) パッケージのインストール。 # パッケージのインストール !pip install -q -U google-generativeai(2) 「Google AI Studio」でAPIキーを取得し、シークレットの「GOOGLE_API_KEY」に登録後、以下

                                                                              Gemini 1.5 の JSONモードを試す|npaka
                                                                            • Building A Generative AI Platform

                                                                              After studying how companies deploy generative AI applications, I noticed many similarities in their platforms. This post outlines the common components of a generative AI platform, what they do, and how they are implemented. I try my best to keep the architecture general, but certain applications might deviate. This is what the overall architecture looks like. This is a pretty complex system. Thi

                                                                                Building A Generative AI Platform
                                                                              • Vibe Coding での挑戦、APIゲートウェイの制作 | IIJ Engineers Blog

                                                                                地方拠点の一つ、九州支社に所属しています。現在は技術探索・深堀業務を経て、ローカルLLM/SLM基盤やDifyを中心としたAIソリューションの技術バックヤードにヒッソリ潜みつつ活動しています。 2018年に神経難病を発症し、少しだけ体が不自由ですが、出来る力をフルに発揮しながら取り組む日々です。2023年から人間(男)をやめ、闇に隠れた「妖怪:AIばばぁ」として属性チェンジしながらも、悲喜交々ながら活動中です。ヒッヒッヒ みんな大好き(?)Vibe Coding 最近よく聞くようになりました、Vibe Codingという言葉。雰囲気コーディングともいうそうです。 「人間が音声やテキストで指示を出し、AIが主体となってコードを書くコーディングスタイル」とのことで、世の中本当に便利になったもんだと感心します。 このブログ記事では、Vibe Coding を使用した開発体験について紹介したいと思

                                                                                  Vibe Coding での挑戦、APIゲートウェイの制作 | IIJ Engineers Blog
                                                                                • A History of the Future, 2025-2027

                                                                                  Below is part 1 of an extended scenario describing how the future might go if current trends in AI continue. The scenario is deliberately extremely specific: it’s definite rather than indefinite, and makes concrete guesses instead of settling for banal generalities or abstract descriptions of trends. Open Sky. (Zdzisław Beksiński)The return of reinforcement learningFrom 2019 to 2023, the main driv

                                                                                    A History of the Future, 2025-2027