並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 49件

新着順 人気順

gemini 1.5 flash api pythonの検索結果1 - 40 件 / 49件

  • 最近ローカルLLMがアツいらしい

    最近、ローカルLLMがアツくなっているという話をtwitterでチラホラ見かける。 ローカルLLMって何じゃ?というと、オープンに公開されているモデルのウエイトをDLしてきて手元のPC上で推論させる事である。 オープンなAIモデルとは逆の存在として、モデルがDLできないクローズなAIモデルもある。 OpenAIやAnthropicのような最先端AI企業のクローズなAIモデルに比べて、オープンに公開されているオープンなAIモデルの性能は今でもかなり後れを取っている。 だから去年の間はあくまでAIの本命はChatGPTのようなクローズモデルであって、オープンなAIモデルなんて眼中にありませんみたいな風潮が無くはなかった。だが最近は風向きが少々変わってきている。 GPTのAPI高い問題 & OpenAIがAIベンチャー皆殺しにしてしまう問題 まず「結局GPTのAPIを叩いてサービス運営して成功し

    • AntigravityとGemini 3でアプリ開発したら、めちゃくちゃ効率的だった話

      こんにちは。SCSKの松渕です。 先日、発表されたばかりのGoogle Antigravityをインストール&簡易WEBサイト構築してみましたが、 今回はもう少しアプリ開発をしてみた実体験をブログに書きます! はじめに Antigravityとは AWSのKiroと同様に、AIエージェント型統合開発環境(Agentic IDE)と呼ばれるものです。 Antigravityのポイントとしては、特に以下の点になるかと思っております。 ・ AIによるブラウザ操作も可能 ・ AIによる自律的な実装 ・ アウトプット品質の高さ(これはGemini 3のポイントではありますが) ・ Google Cloud環境とのシームレスな連携 類似サービスとの比較は以下の通りです IDE/プラットフォーム 開発元 主な設計思想と特徴 類似サービスとの差別化ポイント Antigravity Google エージェン

        AntigravityとGemini 3でアプリ開発したら、めちゃくちゃ効率的だった話
      • 日本語の手書きメモを書き起こせるOCRを探すために23モデルを片っ端から試した話

        こんにちは!逆瀬川ちゃん (@gyakuse) です! 今日は日本語の手書きメモをいい感じに書き起こしてくれるOCRを探して、23モデルを片っ端から比較してみた話をまとめていきたいと思います。 手書きメモは楽しいが電子化がつらい わたしはいまだに手書きメモをよく書きます。打ち合わせの最中にさっと書いたり、アイデアを整理するときにペンで図を描いたり。手を動かしながら考えるのはとても楽しいし、タイピングとは違う思考の広がり方があります。 ただ問題は電子化です。ノートに書いたメモをあとからSlackやNotionに転記するのがとにかくつらい。自分の字を自分で読み返す作業がすでにつらいのに、それを打ち直すのは二重苦です。 OCRで自動化したいのですが、日本語の手書き文字って既存のOCRモデルにとってはかなり難しいタスクです。活字ならどのモデルでも高精度ですが、手書きとなると精度がガクッと落ちます。

          日本語の手書きメモを書き起こせるOCRを探すために23モデルを片っ端から試した話
        • LLMガードレールの活用法と役割を正しく理解する - GMO Flatt Security Blog

          TL;DR LLMガードレールはLLMの入出力を監視・制御する技術であり、LLMアプリケーションにおける様々な脅威への対抗策になります。しかし、あくまで役割は脅威の緩和・低減であるため、それぞれの脅威に対する根本的な対策をした上で、万が一の事故に備え文字通りガードレールとして導入する必要があります。 本文中では、RAGアプリケーションの利用する外部データベースにプロンプトインジェクションを引き起こすデータが存在し、LLMに対する入力として利用された場合、LLMガードレールで検知する例を紹介しています。しかし、根本的には外部データベースに悪意あるデータが登録されないよう対策すべきです。 このブログではLLMガードレールで対応できる脅威を実際に検証しながら整理し、適切なユースケースを議論します。 はじめに こんにちは、GMO Flatt Security株式会社所属のセキュリティエンジニア滝上

            LLMガードレールの活用法と役割を正しく理解する - GMO Flatt Security Blog
          • OpenAI o3, Claude 3.7 Sonnet , Gemini 2.5 Proの評価と解釈[2025年4月版] - Algomatic Tech Blog

            こんにちは。Algomatic AI Transformation(AX) のsergicalsix(@sergicalsix)です。 最近OpenAI の o3, o4-mini、Anthropic の Claude 3.7 Sonnet、Google の Gemini 2.5 Pro や Gemini 2.5 Flash など、次々と新しい大規模言語モデル(LLM)が登場しました。あまりのスピードに、最新動向を追い切れず困っている方も多いのではないでしょうか。 モデルを選ぶ際は、実際に触ってみた使用感や解きたい課題・利用環境を重視するのが理想です。しかし、すべてのモデルをあらゆるシナリオで試すのは現実的に難しいです。 そこで役立つのが公開ベンチマークのスコアです。自分で全モデルを試せなくても、共通データセットで測った成績をベースラインとして押さえておけば、おおまかな実力を比較できます。

              OpenAI o3, Claude 3.7 Sonnet , Gemini 2.5 Proの評価と解釈[2025年4月版] - Algomatic Tech Blog
            • Antigravityで大人のLP開発

              AI開発プラットフォーム「Antigravity」を使ってランディングページ(LP)を作成しようと思った際に、この辺に気をつけてやったよということを共有します。 LP開発に必要な前提知識 LPとはすなわちサービス(またはプロダクト)について知ってもらい、特定のアクション(お問合せ、資料請求、購読など)につなげるものです。つまりトップページと、何らかのアクション対象(たとえばお問合せフォーム)が必要になります。また、信頼性のあるサービスに見えるように、トップページ以外にページもあります。 (広義の)LP (狭義の)ランディングページ CTA(Call To Action)ボタン お問合せフォーム ページ3点セット(企業概要、プライバシーポリシー、特定商取引法に基づく表記) CTAボタンはヒーローセクション(ページ上部の一番目立つ部分)やヘッダーなどに置かれ、その気になったらすぐ問合せフォーム

                Antigravityで大人のLP開発
              • Google I/O の発表まとめ

                tl;dr Google I/O 2025 でたくさんのサービスや機能が発表されたよ イベントに合わせて公開されたものはすべてひと通りまとめたよ 発表だけでまだ使うことのできないサービスも多いよ(アメリカ限定も多い) しばらく追記していくよ これはなに? Google I/O 2025 の発表をまとめたもの。開発者向けに限らず、よくばって発表内容をおおよそ網羅した(書きかけのため予定)ので、気になるところだけ読んでください。発表内容が豪勢で、悲しいかな、徹夜をしてしまったので、せっかくなのでみなさんの時短になれば&自分の覚え書きとしてまとめています。少しでも参考になれば幸いです。 こちらに今回の発表に関わる全 27 記事が一覧になっており、それらの中から押さえておくべき記事をかいつまんで簡潔にまとめます。 発表動画(Keynote)について 計約三時間の実況中継。場所はマウンテンビューの

                  Google I/O の発表まとめ
                • ローカルLLMでzoltraakを動かせるか検証してみた

                  はじめに どんな人向けの記事? ローカルLLMに興味のある人 zoltraakに興味のある方 LLMを用いて要件定義書を作りたい方 内容 今回は元木さんのZoltraakを使って、自然言語から要件定義書を作ってみようと思います。 ただし、リリースされてから2ヶ月以上経ったzoltraakを普通に動かすだけでは面白くないので、この記事ではローカルLLMを使った場合にどの程度の品質のアウトプットが得られるか、そもそもまともに使えるのかを検証してみたいと思います。 結論 結論から述べると、下記の通りになりました。 現状のローカルLLMだけでzoltraakを完全に動作させるのは難しそう。 要件定義書は問題なく作成できる。 その後の工程の、ディレクトリ・ファイル構成を作成するための実行可能なpythonコードを作ることができなかった。 grimoiresの記載を工夫することで、ある程度は改善できる

                    ローカルLLMでzoltraakを動かせるか検証してみた
                  • Gemini Advancedを1ヶ月間使ってみた感想 - laiso

                    これまでメインで使うAIチャットをChatGPT Plus、Claude Proと順番に乗り換えてきました。なので今月はGoogleのGemini Advancedを1ヶ月間使ってみたので、その感想を書いてみます。 gemini.google Gemini Advancedの特徴 Gemini Advancedにすると現最上位モデルのGemini 1.5 Proが使えます。Gemini 1.5 Proは、Googleによると既存のモデルよりコーディング、論理的推論、ニュアンスの異なる指示に従うことなどの複雑なタスクを処理する能力が大幅に向上しているとされています。また100万トークンのコンテキスト・ウィンドウ(Large Context Window)で長文が読解できます*1。 無償版は画像のみアップロード可能ですが、Gemini AdvancedではテキストやPDFも対応しています。コン

                      Gemini Advancedを1ヶ月間使ってみた感想 - laiso
                    • 最近作ってる地味LLMコマンドラインツールたち: site2pdf, askrepo - laiso

                      地味LLMコマンドラインツールとは ここでいうLLMツールとは、モデルのインプットとアウトプットを繋ぐ「グルーコード」として機能するプログラムのことです。 筆者が現在開発しているツールもLLMをベースにして、従来の作業をより簡便にすることを目的としています。 このツールは単独で完結する価値を持つというよりも、他のツールと組み合わせることでその真価を発揮します。 そのため、外見的には派手さがなく、地味な存在といえるでしょう(コマンドラインツールがそもそも地味の代名詞でありますが)。 例えば、アプリのソースコードを自動生成するような華やかなツールがある一方で、バックエンドで静かにデータを整形するだけの地味なライブラリも存在しているのです。 Gemini系モデルの良いところ ツールの共通点としては意外とGemini系モデルを活用しています。 Geminiの特徴の一つは、その「トークン長」、つまり

                        最近作ってる地味LLMコマンドラインツールたち: site2pdf, askrepo - laiso
                      • Gemini 1.5 のロングコンテキストを活かして AI を育てるアプローチ 〜 RAG の限界を軽やかに突破するために

                        Gemini 1.5 のロングコンテキストを活かして AI を育てるアプローチ 〜 RAG の限界を軽やかに突破するために はじめに この記事では、Gemini 1.5 のロングコンテキストを活かして LLM を用いた AI システムを段階的に育てるアプローチを説明します。後半では、RAG システムの導入ハードルを下げるためにこのアプローチを適用するイメージをサンプルコードとあわせて紹介します。 ここではまず、前提知識となるグラウンディングや RAG の仕組みを説明します。 グラウンディングと RAG の違いについて LLM の業務活用に向けて勉強していると、かならず耳にするのが「グラウンディング」や「RAG」というキーワードです。グラウンディングは、LLM の基盤モデル自身が保有していない(学習していない)追加の参考情報をプロンプトに埋め込む事で、参考情報に基づいた回答を生成させるテクニ

                          Gemini 1.5 のロングコンテキストを活かして AI を育てるアプローチ 〜 RAG の限界を軽やかに突破するために
                        • 型安全かつシンプルなAgentフレームワーク「PydanticAI」の実装を解剖する - ABEJA Tech Blog

                          はじめに こちらはABEJAアドベントカレンダー2024 12日目の記事です。 こんにちは、ABEJAでデータサイエンティストをしている坂元です。最近はLLMでアプローチしようとしていたことがよくよく検証してみるとLLMでは難しいことが分かり急遽CVのあらゆるモデルとレガシーな画像処理をこれでもかというくらい詰め込んだパイプラインを実装することになった案件を経験して、LLMでは難しそうなことをLLM以外のアプローチでこなせるだけの引き出しとスキルはDSとしてやはり身に付けておくべきだなと思うなどしています(LLMにやらせようとしていることは大抵難しいことなので切り替えはそこそこ大変)。 とはいうものの、Agentの普及によってより複雑かつ高度な推論も出来るようになってきています。弊社の社内外のプロジェクト状況を見ていても最近では単純なRAG案件は減りつつあり、計画からアクションの実行、結果

                            型安全かつシンプルなAgentフレームワーク「PydanticAI」の実装を解剖する - ABEJA Tech Blog
                          • LiteLLM を使って色々な LLM API サービスをいい感じに使いこなす

                            この記事は Magic Moment Advent Calendar 2024 5 日目の記事です。 Magic Moment でプロダクトデータを活用した機能の開発・検討をしている @nagomiso です。 気づけば前回の記事から 1 年が経過していました。時間の流れが早すぎて驚きを隠せません。 ここ 1 年での変化としては体重が大幅に増えました。原因は間違いなくラーメンの食べ過ぎです。節制せねば… 🍜 はじめに Google が Gemini 1.5 Pro / Flush を公開したり OpenAI が GPT-4o / 4o mini, OpenAI o1 / o1 mini を公開したりと 2024 年も LLM の進化には目を見張るものがありました。 こうした進化によって開発で使える高性能な LLM API サービスが増えるのは喜ばしいことですがサービス毎に API が異な

                              LiteLLM を使って色々な LLM API サービスをいい感じに使いこなす
                            • 速度・出力量・コスト効率最強の、Gemini 1.5 Flash!

                              はじめに おれの名前は樋口恭介。とにかく速いものが好きだ。そして今日は最近一番"速さ"を感じたものを紹介したい。そう、"Flash"のことです。 5月15日にGoogleの新しいモデル「Gemini 1.5 Flash」が発表され、ちょうどその日に名古屋イノベーターズガレージというところで生成AIのセミナーをすることになっていたので、その場で触ってみました。 そしたら……なんかプロンプト一発で1万字くらいが数分で出てきてしまい、あまりの衝撃で絶句してしまいました。LLMが出てきてから1年半くらい? ほぼ毎日触っていますが、こいつらはまだおれを驚かせてくれる……。 以下は急に446行・約1万字が出てきて放心状態のぼくの様子。 まあこういうのは動きを見てもらうのが一番でしょうから、ぜひ見てみてください。以下、あらためて触ってみた様子を動画におさめたものです。 Flashのデモ動画 いやこれマジ

                                速度・出力量・コスト効率最強の、Gemini 1.5 Flash!
                              • 2025: The year in LLMs

                                31st December 2025 This is the third in my annual series reviewing everything that happened in the LLM space over the past 12 months. For previous years see Stuff we figured out about AI in 2023 and Things we learned about LLMs in 2024. It’s been a year filled with a lot of different trends. The year of “reasoning” The year of agents The year of coding agents and Claude Code The year of LLMs on th

                                  2025: The year in LLMs
                                • 【VertexAI Gemini】社内用AI議事録生成アプリを作ってみたので、開発経緯および学んだことを紹介 - Insight Edge Tech Blog

                                  はじめに 開発経緯 作成したアプリの構成および議事録作成手順 構成 議事録作成手順 半年間運用して得られた学び 議事録自動生成の精度がどうだったか? 使用したモデルおよびコストについて モデル コスト 安全フィルターについて プロンプトおよび生成過程について VertexAI Geminiの凄さについて 議事録を投稿できるまでの手順の制限について まとめと今後の期待 はじめに こんにちは、Insight Edgeで開発エンジニアをしているニャットです。 入社から1年以上が経ちましたが、まだまだ学ぶことが多く、日々、社内の勉強会やリソースをフル活用して新しい技術の習得に挑戦し続けています。 今回は、勉強会の時間を活用しつつ「社内用の議事録自動作成アプリ」を少しずつ開発し、半年間社内で運用しながら改善を重ねたので、その開発経緯と得られた学びを紹介します。 開発経緯 2024年5月頃、Googl

                                    【VertexAI Gemini】社内用AI議事録生成アプリを作ってみたので、開発経緯および学んだことを紹介 - Insight Edge Tech Blog
                                  • Things we learned about LLMs in 2024

                                    31st December 2024 A lot has happened in the world of Large Language Models over the course of 2024. Here’s a review of things we figured out about the field in the past twelve months, plus my attempt at identifying key themes and pivotal moments. This is a sequel to my review of 2023. In this article: The GPT-4 barrier was comprehensively broken Some of those GPT-4 models run on my laptop LLM pri

                                      Things we learned about LLMs in 2024
                                    • 【インターンレポート】OpenAI Agents SDK (Python版) でコールセンター風音声対話型マルチエージェントデモを作ってみた(おまけ付き) - Insight Edge Tech Blog

                                      目次 【インターンレポート】OpenAI Agents SDK (Python版) でコールセンター風音声対話型マルチエージェントデモを作ってみた(おまけ付き) はじめに 1.AIエージェント✖️音声 = 音声エージェント 1.1 普及してきたAIエージェントについて 1.2 音声エージェントの恩恵について考える 1.3 リアルタイム音声対話API・音声エージェント開発ツールの紹介 2. OpenAI Agents SDK (Python版)で作る音声対話型マルチエージェントツール 2.1 OpenAI Agents SDKとは 2.2 2種類の音声エージェントの構造 2.3 デモの紹介 2.4 今後の展望 おわりに 参考資料 はじめに こんにちは!!! Insight Edgeでアルバイトをしております、東京科学大学大学院 修士2年の田中です。大学院では、経営工学系の研究室で、サッカーの

                                        【インターンレポート】OpenAI Agents SDK (Python版) でコールセンター風音声対話型マルチエージェントデモを作ってみた(おまけ付き) - Insight Edge Tech Blog
                                      • Top AI Stories of 2024! Agents Rise, Prices Fall, Models Shrink, Video Takes Off, Acquisitions Morph

                                        Dear friends, Is AI progressing rapidly? Yes! But while the progress of underlying AI technology has indeed sped up over the past 2 years, the fastest acceleration is in applications. Consider this: GPT-4 was released March 2023. Since then, models have become much faster, cheaper, sometimes smaller, more multimodal, and better at reasoning, and many more open weight versions are available — so pr

                                        • Gemini API + Cloudflare + Astro で作るアイスブレイクジェネレーター - Qiita

                                          HRBrain Advent Calendar 2024 24日目の記事です。 はじめに こんにちは。@yug1224(Yuji Yamaguchi)です。 MTGをスムーズに進めるためのアイスブレイク。しかし、毎回ありきたりな質問になりがちで、新しいアイデアを考えるのに苦労することもあります。そこで今回は、Googleの大規模言語モデルGeminiを活用し、アイスブレイクの話題を生成するWebアプリケーションを作ってみました。 Google AI Studio を使った準備 まず、Google AI StudioでGemini APIのAPI Keyとサンプルコードを取得します。Google AI Studioは、Geminiを利用するための環境が整っており、API Keyの管理やプロンプトの実行が簡単に行えます。 Google AI Studioのプロジェクトを開きます API Key

                                          • Amazon Bedrock の新モデル Amazon Nova の精度を確認してみた - Taste of Tech Topics

                                            はじめに 急に冬らしい寒さを感じるようになってきました。 データ分析エンジニアの木介です。 Amazon Bedrock Advent Calendar 2024 シリーズ2の16日目のブログ記事になります。 qiita.com 今回は12月のAWS re:Invent 2024にて発表のあったAWSの最新LLMモデルAmazon Novaを触っていきたいと思います。 www.aboutamazon.com はじめに 概要 Novaとは Novaで出来ること 使い方 他モデルとの比較 Amazon Nova の精度を確認してみる 1.特殊な日本語の理解 2.画像認識 3.画像生成 4.動画生成 まとめ 概要 Novaとは Amazon Novaは12月に発表されたAmazonが新たに提供する新たな生成AIモデルファミリーです。 テキスト、画像、動画といったマルチモーダルなコンテンツの入力が

                                              Amazon Bedrock の新モデル Amazon Nova の精度を確認してみた - Taste of Tech Topics
                                            • 無料で学ぶ!生成AIとバズった技術まとめ(LLM、LangChain、Dify、SAM2、Stable Diffusion、RVCなど) - Qiita

                                              Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? まえがき 「ここ数年でバズったAI技術や、最近勢いのある生成系AI技術をキャッチアップしたい」 最近のLLMブームにより、一般の人も簡単にAI技術を使いこなせるようになりました。 特に、もともとAIに明るくなくても、エンジニアなら実装までできるので、インパクトのあるプロダクトを作ることが可能になりました。 「これまでモデル開発をしてきたデータサイエンティスト・AIエンジニアの立場が危ぶまれている気がする」 そんな危機感から、一通り、まずは知る・使えるようになることを目指してこの記事を書くことにしました。 前半パート: 使ってみる編(全員

                                              • Real-world gen AI use cases from the world's leading organizations | Google Cloud Blog

                                                AI is here, AI is everywhere: Top companies, governments, researchers, and startups are already enhancing their work with Google's AI solutions. Published April 12, 2024; last updated October 9, 2025. Automotive & Logistics Business & Professional Services Financial Services Healthcare & Life Sciences Hospitality & Travel Manufacturing, Industrial & Electronics Media, Marketing & Gaming Public Sec

                                                  Real-world gen AI use cases from the world's leading organizations | Google Cloud Blog
                                                • Gemini 2.0 Flash から MCP を利用して BigQuery を操作する

                                                  Google Cloud Champion Innovators Advent Calendar 2024 の 12 日目の記事です。 はじめに LLM が広く普及し、活用範囲が急速に拡大してきたことで、ツール連携機能を活用した AI エージェントを構築する機会も増えてきています。このような LLM とツールの連携により、チャットインターフェースから様々なシステムやサービスを制御・自動化できるようになりました。 しかし、AI エージェントの開発には2つの困りごとがあると感じています。1つ目は、複雑な指示を処理するために必要な高性能モデルの応答速度が遅い点、2つ目は複数のプロジェクトでツールを再利用する際の実装効率の問題です。 本記事では、これらに対する解決策の一例を紹介します。LLM から BigQuery を操作するユースケースにおいて、応答速度が遅い点については Gemini 2.0

                                                    Gemini 2.0 Flash から MCP を利用して BigQuery を操作する
                                                  • マルチエージェントで新規事業立案を検証 - Google ADK + Geminiによる議論設計の実践 - Insight Edge Tech Blog

                                                    はじめに こんにちは、Insight Edge アジャイル開発チームの山崎です。 マルチエージェントシステムを設計する際、多くの設計判断に直面します。議論はシングルステップで十分か、複数ステップに分割すべきか?各ステップに誰を参加させるべきか?プロンプトはどこまで詳細に書くべきか? 今回の記事では、Google ADK + Geminiを用いて、スタートアップの新規事業立案という具体的な意思決定の事例でマルチエージェントシステムを実際に構築し、議論の論点、議論の進め方、議論するメンバーなどを変化させながら、3つの異なるアプローチを比較検証しました。その結果、以下の知見を得ました(詳細は考察セクションを参照)。 議論メンバーの非対称性設計: 楽観派と批判派のバランスが議論品質を左右する 細かいステップ分割: 論点を細分化することで議論が効率化し、成果物精度が向上する プロンプトチューニングの

                                                      マルチエージェントで新規事業立案を検証 - Google ADK + Geminiによる議論設計の実践 - Insight Edge Tech Blog
                                                    • Deep Research再現実装をDeep Research以上に詳しく検証してみた - AKARI Tech Blog

                                                      はじめに こんばんは! 今週のAKARI Tech Blogは、DX Solution 事業本部 Dev の許が担当いたします。 先日OpenAIが「Deep Research」を公開し、その驚異的な文献調査能力が話題となりましたね! 皆様使っていますでしょうか。 これまでひいこら言いながらインターネット検索していた時代と比べると、「Deep Research お願いします!」で、それなりの分析レポートが出てくることに隔世の感を感じますね。 これだけ性能の良いものが出てきた以上、仕組みが気になるところ。できることなら、自分たちでも再現実装してみたい! しかし例によってOpenAIは実装をオープンにはしてくれない……。 そこで登場するのが、Deep ResearchのOSS再現プロジェクトたち! まずは Deep ResearchにOpenな再現実装について聞いてみましょうか。 ChatGP

                                                        Deep Research再現実装をDeep Research以上に詳しく検証してみた - AKARI Tech Blog
                                                      • AIニュースノート:nano-bananaが話題に、AGENTS.mdの採用広がる、Microsoft Copilotに3Dモデリング機能が追加、ChatGPTでプロジェクト専用メモリー搭載、Claude for Chromeの安全設計など | gihyo.jp

                                                        AIニュースノート⁠⁠:nano-bananaが話題に⁠⁠、AGENTS.mdの採用広がる⁠⁠、Microsoft Copilotに3Dモデリング機能が追加⁠⁠、ChatGPTでプロジェクト専用メモリー搭載⁠⁠、Claude for Chromeの安全設計など gihyo.jpのニュース記事として取り上げていなかったもののなかから、直近の興味深いAIに関連するニュース概要を簡単にまとめてみました。 ※この記事は、不正確な内容を含んでいる可能性のある実験的コンテンツです。正確な情報はリンク先を確認してください。 nano-bananaの週でした nano-bananaこと、Gemini 2.5 Flash Imageがリリースされて、このモデルによる画像生成・編集が話題になった週でした。興味深い使い方やベストプラクティスも紹介されています。 “nano-banana”の舞台裏⁠:対話×段階編

                                                          AIニュースノート:nano-bananaが話題に、AGENTS.mdの採用広がる、Microsoft Copilotに3Dモデリング機能が追加、ChatGPTでプロジェクト専用メモリー搭載、Claude for Chromeの安全設計など | gihyo.jp
                                                        • OpenRouter経由でGPTを使うほうが、OpenAIから直接使うよりも安い現実【2025年1月現在】|伊志嶺(LLMで業務改善する人)

                                                          OpenRouter経由でGPTを使うほうが、OpenAIから直接使うよりも安い現実【2025年1月現在】 Open Routerは複数のAIモデルにアクセスできる統一インターフェースを提供する革新的なプラットフォームです。 GPT, Claude, Geminiはもちろん、最近話題のDeepSeek V3などにも同じPythonコードで利用できます。 以下のような感じです。 # どのモデルを使う場合でも、クライアントの宣言方法は同じ client = openai.OpenAI(api_key="OPEN_ROUTER_API_KEY", base_url="https://openrouter.ai/api/v1") # GPTのテスト response = client.chat.completions.create( model="google/gemini-flash-1.5",

                                                            OpenRouter経由でGPTを使うほうが、OpenAIから直接使うよりも安い現実【2025年1月現在】|伊志嶺(LLMで業務改善する人)
                                                          • Gemini 2.0 FlashとRubyでDeepResearchを作ってみた!

                                                            はじめに LLMの躍進はすさまじく、年初からGemini 2.0、DeepSeek R1、Mistral Small 3、OpenAI o3-miniなど、新しくて強力なモデルが次々と登場しています。今年も非常にエキサイティングな年になりそうです。 そんな2025年ですが、単なるLLMだけでなく「AIエージェントの年になる!」とも言われています。先日も、GoogleによるGemini 1.5をベースにしたDeepResearchと同名の、OpenAIによるo3ベースのDeepResearchが発表され、大きな注目を集めました。 現在、個人的にAriaというAIエージェントフロントエンドを作っているので、今回はDeepResearch風のアプリケーションを自作して、その感触を掴んでみたいと思います。 ちなみに、今回作成した機能のデモはこちらです。 AIエージェントとは? エージェントに関して

                                                              Gemini 2.0 FlashとRubyでDeepResearchを作ってみた!
                                                            • Updated production-ready Gemini models, reduced 1.5 Pro pricing, increased rate limits, and more- Google Developers Blog

                                                              Updated production-ready Gemini models, reduced 1.5 Pro pricing, increased rate limits, and more Today, we’re releasing two updated production-ready Gemini models: Gemini-1.5-Pro-002 and Gemini-1.5-Flash-002 along with: >50% reduced price on 1.5 Pro (both input and output for prompts <128K)2x higher rate limits on 1.5 Flash and ~3x higher on 1.5 Pro2x faster output and 3x lower latencyUpdated defa

                                                                Updated production-ready Gemini models, reduced 1.5 Pro pricing, increased rate limits, and more- Google Developers Blog
                                                              • Vertex AI: Gemini API の Context caching の紹介

                                                                何の話かと言うと Google Cloud で利用可能なマルチモーダル対応の基盤モデルである Gemini 1.5 Pro / Flash に対して、Context caching の機能が利用可能になりました。これがどのような機能で何の役に立つのかを実際の使用例とあわせて、わかりやすく説明します。 Context caching のない時 Gemini はマルチモーダル対応モデルなので、プロンプトに動画などのメディアコンテンツを埋め込むことができます。具体的には、次のように Python のリスト形式でプロンプトを構成します。

                                                                  Vertex AI: Gemini API の Context caching の紹介
                                                                • Gemini is now accessible from the OpenAI Library- Google Developers Blog

                                                                  Starting today, developers can access the latest Gemini models via the OpenAI Library and REST API, making it easier to get started with Gemini. We will initially support the Chat Completions API and Embeddings API, with plans for additional compatibility in the weeks and months to come. You can read more in the Gemini API docs, and if you aren't already using the OpenAI libraries, we recommend th

                                                                    Gemini is now accessible from the OpenAI Library- Google Developers Blog
                                                                  • Gemini 1.5 の JSONモードを試す|npaka

                                                                    Gemini 1.5 のJSONモードを試したので、まとめました。 1. JSONモード「JSONモード」は、LLMの出力をJSON形式に強制するためのモードです。「gemini-1.5-pro」「gemini-1.5-flash」で利用可能です。 さらに、「gemini-1.5-pro」は「制約付きデコード」をサポートします。これにより、推論時にスキーマオブジェクト (または同等のPython型) を渡すことができ、出力はそのスキーマに厳密に従います。 2. JSONモードの使い方JSONモードの使い方は、次のとおりです。 (1) パッケージのインストール。 # パッケージのインストール !pip install -q -U google-generativeai(2) 「Google AI Studio」でAPIキーを取得し、シークレットの「GOOGLE_API_KEY」に登録後、以下

                                                                      Gemini 1.5 の JSONモードを試す|npaka
                                                                    • 【実践】Claude×YAMLが優秀!:1回の指示でリサーチ、記事執筆、サムネ生成、グラレコ化が完了する夢のワークフロー結果|テツメモ|tetumemo|Newsletter

                                                                      📝いや、これ楽しすぎる 「Claude 3.7 Sonnet」×「Projects機能」×「YAML指示書」が超優秀! ✅実行例 ①、リサーチ指示書作成 ②、①でWebリサーチ ③、②の結果で1万文字のnote記事執筆 ④、③の結果でサムネ用プロンプト生成 ⑤、③の結果を元にグラレコ生成 Claudeで一撃出力 記事で解説済み↓ https://t.co/KkMQJphHhQ pic.twitter.com/28uNmnsYco — テツメモ|AI図解×検証|Newsletter (@tetumemo) April 7, 2025 「Claude 3.7 Sonnet」×「Projects機能」×「YAML指示書」の流れ上記のステップに「グラレコ化」を追加 発行済の記事を読むことで、自由自在に指示を組み込むことができるようになります。 Webリサーチ用の調査プロンプトを生成 調査プロンプ

                                                                        【実践】Claude×YAMLが優秀!:1回の指示でリサーチ、記事執筆、サムネ生成、グラレコ化が完了する夢のワークフロー結果|テツメモ|tetumemo|Newsletter
                                                                      • クラスメソッド データアナリティクス通信(機械学習編) – 2024年6月号 | DevelopersIO

                                                                        データアナリティクス事業本部 インテグレーション部 機械学習チームの鈴木です。 クラスメソッド データアナリティクス通信(機械学習編) の2024年6月号です。2024年5月分のアップデート情報をお届けできればと思います。 はじめに AWSでは、Amazon Personalizeで新たなレシピUser-Personalization-v2とPersonalized-Ranking-v2が使えるようになった点が個人的に大きなアップデートでした。モデルのアーキテクチャが新しくなり、精度の向上や推論速度のアップがされました。 以下のブログでも詳細に取り上げています。 Google Cloudでは、Vertex AI SearchでチェックグラウンディングAPIが一般提供開始されました。これにより、生成された回答に対して、事実のチェックが必要な項目を特定することができるようになり、より正しい回答

                                                                          クラスメソッド データアナリティクス通信(機械学習編) – 2024年6月号 | DevelopersIO
                                                                        • Gemini 2.0 Flash API の使用方法を、実装しながら解説

                                                                          「Gemini 2.0 flash」のAPIでの使い方について、Google Colaboratory で実装しながら解説します。 以前の「Gemini 1.5」とは利用ライブラリなどが異なるため、その点も踏まえて解説します。 記事の最後では、実際にアプリケーション(AI-Agentもどき)に導入するアーキテクチャについても簡単に紹介いたします。 (執筆:小川 雄太郎)。 本記事では最初に「Gemini 2.0 Flash」で動作させるための「設定系」について解説します。 その後、会話を1回実行する場合、会話を往復させる場合、そして会話履歴の続きから会話させる場合について、それぞれ実装しながら解説します。 本記事で紹介する実装コード(Google ColaboratoryのNotebook)は以下のリポジトリに置いています。 link: Gemini_2_Yutaro_Ogawa_2025

                                                                            Gemini 2.0 Flash API の使用方法を、実装しながら解説
                                                                          • Gemini 2.0 Flash Live API (試験運用版)を使ってAIと日本語で会話してみた | DevelopersIO

                                                                            AWS事業本部コンサルティング部の石川です。12/11にGoogle Gemini 2.0 という新しいモデルがリリースされました。現在、Gemini 2.0 Flashの試験運用版が、Google AI StudioおよびVertex AIのGemini APIを通じて開発者向けに提供されています。 単に精度が上がっただけではなく、かなり色々なことができるモデルのようだな、と思っていたところ Philipp Schmid さんがサンプルコードを上げてるじゃないですかぁー ということで、検証の旅に行ってきました。 Gemini 2.0 とは Gemini 2.0は、Googleが2024年12月11日に発表した次世代AIモデルです。現在、Gemini 2.0 Flashの試験運用版のみですが、2025年1月には一般提供を開始し、モデルサイズも拡大する予定です。 高速性能 Gemini 2.

                                                                              Gemini 2.0 Flash Live API (試験運用版)を使ってAIと日本語で会話してみた | DevelopersIO
                                                                            • Google Search でハルシネーションに立ち向かえ!〜 Gemini のグラウンディング機能徹底活用

                                                                              何の話かと言うと Google Cloud で提供される基盤モデルの Gemini 1.5 Pro / Flash には、Google 検索や Vertex AI Search と連携するグラウンディング機能があります。この機能の使い方を説明します。 基礎知識の確認 大規模言語モデルは、モデルの学習時に得た情報をもとに回答を生成するため、学習時に存在しない情報を必要とする質問には正しく回答できません。この課題を解決する方法として、大きく、ファインチューニングとプロンプトエンジニアリングの 2 つの手法があります。 大規模言語モデルの回答品質を向上する方法 ファインチューニングは、追加学習用のデータや学習処理を実行するインフラが必要となるので、まずは、プロンプトエンジニアリングを試す場合が多いでしょう。プロンプトエンジニアリングによる改善例としてよくあるのが、学習時に存在しない情報をプロンプ

                                                                                Google Search でハルシネーションに立ち向かえ!〜 Gemini のグラウンディング機能徹底活用
                                                                              • Geminiへの構造化データの入出力制御

                                                                                概要 Gemini を用いた少サイズデータを用いたコンテンツ生成に焦点を当て、構造化データ(CSV、JSON など)を効果的に活用する方法をPythonを用いて解説します。Gemini が持つ大規模トークン処理能力のメリットを活かした、より効率的なコンテンツ生成手法を提案します。 序論 AI が急速に進化する時代において、大量のデータを分析・活用する能力は極めて重要です。RAG 環境はこうしたタスクに理想的ですが、より少量のデータでコンテンツ生成を行う必要があるシナリオもあります。Gemini は、大量のトークンを処理できるため、有望な解決策を提供します。プロンプトとアップロードされたファイルを組み合わせることで、限られたデータでも効果的に活用できます。ただし、CSV や JSON などの構造化データ形式を扱う際には、AI が情報を正確に解釈・理解できることを保証する必要があります。ここで

                                                                                  Geminiへの構造化データの入出力制御
                                                                                • 【誰でもできる】Gemini CLIのためのGCPアカウントなしから始める!有料版Gemini APIキー取得&Windows設定ガイド|平岡憲人(ノーリー)

                                                                                  【誰でもできる】Gemini CLIのためのGCPアカウントなしから始める!有料版Gemini APIキー取得&Windows設定ガイド この記事では、Google Cloud Platform(GCP)のアカウントを持っていない方が、有料で利用できるGemini APIキーを取得し、ご自身のWindows PCで使えるように環境変数を設定し、今話題のGemini CLIを安全に利用できるまでの全ステップを、適宜スクリーンショット付きで、一つ一つ丁寧に解説します。 Gemini CLIは、Googleのアカウントとの紐づけや、Google AI Studio で発行される無料のGemini API Keyでは、Googleに情報がだだ漏れになってしまします。あなたのアイディアも、プロンプトも、コードもすべてGoogleが学習に使うことになります。しかし、この記事で述べる有料版のGemini

                                                                                    【誰でもできる】Gemini CLIのためのGCPアカウントなしから始める!有料版Gemini APIキー取得&Windows設定ガイド|平岡憲人(ノーリー)