本文「gemini 1.5 flash api python」を検索

1 - 40 件 / 49件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

gemini 1.5 flash api pythonの検索結果1 - 40 件 / 49件

最近ローカルLLMがアツいらしい
- 1061 users
- soysoftware.sakura.ne.jp
- テクノロジー
- 2024/05/20
最近、ローカルLLMがアツくなっているという話をtwitterでチラホラ見かける。ローカルLLMって何じゃ？というと、オープンに公開されているモデルのウエイトをDLしてきて手元のPC上で推論させる事である。オープンなAIモデルとは逆の存在として、モデルがDLできないクローズなAIモデルもある。 OpenAIやAnthropicのような最先端AI企業のクローズなAIモデルに比べて、オープンに公開されているオープンなAIモデルの性能は今でもかなり後れを取っている。だから去年の間はあくまでAIの本命はChatGPTのようなクローズモデルであって、オープンなAIモデルなんて眼中にありませんみたいな風潮が無くはなかった。だが最近は風向きが少々変わってきている。 GPTのAPI高い問題＆ OpenAIがAIベンチャー皆殺しにしてしまう問題まず「結局GPTのAPIを叩いてサービス運営して成功し
- AI
- LLM
- あとで読む
- ChatGPT
- 機械学習
- 人工知能
- mac
- IT
- API
- GPU
AntigravityとGemini 3でアプリ開発したら、めちゃくちゃ効率的だった話
- 378 users
- blog.usize-tech.com
- テクノロジー
- 2025/12/17
こんにちは。SCSKの松渕です。先日、発表されたばかりのGoogle Antigravityをインストール＆簡易WEBサイト構築してみましたが、今回はもう少しアプリ開発をしてみた実体験をブログに書きます！はじめに Antigravityとは AWSのKiroと同様に、AIエージェント型統合開発環境（Agentic IDE）と呼ばれるものです。 Antigravityのポイントとしては、特に以下の点になるかと思っております。・ AIによるブラウザ操作も可能・ AIによる自律的な実装・アウトプット品質の高さ（これはGemini 3のポイントではありますが）・ Google Cloud環境とのシームレスな連携類似サービスとの比較は以下の通りです IDE/プラットフォーム開発元主な設計思想と特徴類似サービスとの差別化ポイント Antigravity Google エージェン
- AI
- あとで読む
- 開発
- Gemini
- アプリ
- google
- LLM
- cloud
日本語の手書きメモを書き起こせるOCRを探すために23モデルを片っ端から試した話
- 224 users
- nyosegawa.com
- テクノロジー
- 2026/03/17
こんにちは！逆瀬川ちゃん (@gyakuse) です！今日は日本語の手書きメモをいい感じに書き起こしてくれるOCRを探して、23モデルを片っ端から比較してみた話をまとめていきたいと思います。手書きメモは楽しいが電子化がつらいわたしはいまだに手書きメモをよく書きます。打ち合わせの最中にさっと書いたり、アイデアを整理するときにペンで図を描いたり。手を動かしながら考えるのはとても楽しいし、タイピングとは違う思考の広がり方があります。ただ問題は電子化です。ノートに書いたメモをあとからSlackやNotionに転記するのがとにかくつらい。自分の字を自分で読み返す作業がすでにつらいのに、それを打ち直すのは二重苦です。 OCRで自動化したいのですが、日本語の手書き文字って既存のOCRモデルにとってはかなり難しいタスクです。活字ならどのモデルでも高精度ですが、手書きとなると精度がガクッと落ちます。
- OCR
- AI
- あとで読む
- Gemini
- 日本語
- Claude
- API
- LLM
- ツール
- アプリ
LLMガードレールの活用法と役割を正しく理解する - GMO Flatt Security Blog
- 164 users
- blog.flatt.tech
- テクノロジー
- 2025/05/26
TL;DR LLMガードレールはLLMの入出力を監視・制御する技術であり、LLMアプリケーションにおける様々な脅威への対抗策になります。しかし、あくまで役割は脅威の緩和・低減であるため、それぞれの脅威に対する根本的な対策をした上で、万が一の事故に備え文字通りガードレールとして導入する必要があります。本文中では、RAGアプリケーションの利用する外部データベースにプロンプトインジェクションを引き起こすデータが存在し、LLMに対する入力として利用された場合、LLMガードレールで検知する例を紹介しています。しかし、根本的には外部データベースに悪意あるデータが登録されないよう対策すべきです。このブログではLLMガードレールで対応できる脅威を実際に検証しながら整理し、適切なユースケースを議論します。はじめにこんにちは、GMO Flatt Security株式会社所属のセキュリティエンジニア滝上
- LLM
- あとで読む
- AI
- security
- セキュリティ
- 運用
- 人工知能
OpenAI o3, Claude 3.7 Sonnet , Gemini 2.5 Proの評価と解釈[2025年4月版] - Algomatic Tech Blog
- 146 users
- tech.algomatic.jp
- テクノロジー
- 2025/04/28
こんにちは。Algomatic AI Transformation(AX) のsergicalsix（@sergicalsix）です。最近OpenAI の o3, o4-mini、Anthropic の Claude 3.7 Sonnet、Google の Gemini 2.5 Pro や Gemini 2.5 Flash など、次々と新しい大規模言語モデル（LLM）が登場しました。あまりのスピードに、最新動向を追い切れず困っている方も多いのではないでしょうか。モデルを選ぶ際は、実際に触ってみた使用感や解きたい課題・利用環境を重視するのが理想です。しかし、すべてのモデルをあらゆるシナリオで試すのは現実的に難しいです。そこで役立つのが公開ベンチマークのスコアです。自分で全モデルを試せなくても、共通データセットで測った成績をベースラインとして押さえておけば、おおまかな実力を比較できます。
- AI
- あとで読む
- コーディング
- Gemini
- blog
Antigravityで大人のLP開発
- 94 users
- zenn.dev/xxishan
- テクノロジー
- 2026/01/29
AI開発プラットフォーム「Antigravity」を使ってランディングページ（LP）を作成しようと思った際に、この辺に気をつけてやったよということを共有します。 LP開発に必要な前提知識 LPとはすなわちサービス（またはプロダクト）について知ってもらい、特定のアクション（お問合せ、資料請求、購読など）につなげるものです。つまりトップページと、何らかのアクション対象（たとえばお問合せフォーム）が必要になります。また、信頼性のあるサービスに見えるように、トップページ以外にページもあります。（広義の）LP （狭義の）ランディングページ CTA（Call To Action）ボタンお問合せフォームページ3点セット（企業概要、プライバシーポリシー、特定商取引法に基づく表記） CTAボタンはヒーローセクション（ページ上部の一番目立つ部分）やヘッダーなどに置かれ、その気になったらすぐ問合せフォーム
- Antigravity
- あとで読む
- 開発
- AI
- API
- web制作
- Webサービス
- デザイン
Google I/O の発表まとめ
- 88 users
- zenn.dev/schroneko
- テクノロジー
- 2025/05/21
tl;dr Google I/O 2025 でたくさんのサービスや機能が発表されたよイベントに合わせて公開されたものはすべてひと通りまとめたよ発表だけでまだ使うことのできないサービスも多いよ（アメリカ限定も多い）しばらく追記していくよこれはなに？ Google I/O 2025 の発表をまとめたもの。開発者向けに限らず、よくばって発表内容をおおよそ網羅した（書きかけのため予定）ので、気になるところだけ読んでください。発表内容が豪勢で、悲しいかな、徹夜をしてしまったので、せっかくなのでみなさんの時短になれば＆自分の覚え書きとしてまとめています。少しでも参考になれば幸いです。こちらに今回の発表に関わる全 27 記事が一覧になっており、それらの中から押さえておくべき記事をかいつまんで簡潔にまとめます。発表動画（Keynote）について計約三時間の実況中継。場所はマウンテンビューの
- AI
- あとで読む
- Google
- Gemini
- 人工知能
ローカルLLMでzoltraakを動かせるか検証してみた
- 69 users
- zenn.dev/robustonian
- テクノロジー
- 2024/07/15
はじめにどんな人向けの記事？ローカルLLMに興味のある人 zoltraakに興味のある方 LLMを用いて要件定義書を作りたい方内容今回は元木さんのZoltraakを使って、自然言語から要件定義書を作ってみようと思います。ただし、リリースされてから2ヶ月以上経ったzoltraakを普通に動かすだけでは面白くないので、この記事ではローカルLLMを使った場合にどの程度の品質のアウトプットが得られるか、そもそもまともに使えるのかを検証してみたいと思います。結論結論から述べると、下記の通りになりました。現状のローカルLLMだけでzoltraakを完全に動作させるのは難しそう。要件定義書は問題なく作成できる。その後の工程の、ディレクトリ・ファイル構成を作成するための実行可能なpythonコードを作ることができなかった。 grimoiresの記載を工夫することで、ある程度は改善できる
- LLM
- あとで読む
- 人工知能
- GPT
- 設計
- local
Gemini Advancedを1ヶ月間使ってみた感想 - laiso
- 53 users
- laiso.hatenablog.com
- テクノロジー
- 2024/09/18
これまでメインで使うAIチャットをChatGPT Plus、Claude Proと順番に乗り換えてきました。なので今月はGoogleのGemini Advancedを1ヶ月間使ってみたので、その感想を書いてみます。 gemini.google Gemini Advancedの特徴 Gemini Advancedにすると現最上位モデルのGemini 1.5 Proが使えます。Gemini 1.5 Proは、Googleによると既存のモデルよりコーディング、論理的推論、ニュアンスの異なる指示に従うことなどの複雑なタスクを処理する能力が大幅に向上しているとされています。また100万トークンのコンテキスト・ウィンドウ（Large Context Window）で長文が読解できます*1。無償版は画像のみアップロード可能ですが、Gemini AdvancedではテキストやPDFも対応しています。コン
- Gemini
- AI
- 生成AI
- google
- あとで読む
- article
- rails
最近作ってる地味LLMコマンドラインツールたち: site2pdf, askrepo - laiso
- 50 users
- laiso.hatenablog.com
- テクノロジー
- 2024/11/04
地味LLMコマンドラインツールとはここでいうLLMツールとは、モデルのインプットとアウトプットを繋ぐ「グルーコード」として機能するプログラムのことです。筆者が現在開発しているツールもLLMをベースにして、従来の作業をより簡便にすることを目的としています。このツールは単独で完結する価値を持つというよりも、他のツールと組み合わせることでその真価を発揮します。そのため、外見的には派手さがなく、地味な存在といえるでしょう（コマンドラインツールがそもそも地味の代名詞でありますが）。例えば、アプリのソースコードを自動生成するような華やかなツールがある一方で、バックエンドで静かにデータを整形するだけの地味なライブラリも存在しているのです。 Gemini系モデルの良いところツールの共通点としては意外とGemini系モデルを活用しています。 Geminiの特徴の一つは、その「トークン長」、つまり
- LLM
- PDF
- あとで読む
- AI
- ツール
- モデル
- 人工知能
- techfeed
Gemini 1.5 のロングコンテキストを活かして AI を育てるアプローチ〜 RAG の限界を軽やかに突破するために
- 49 users
- zenn.dev/google_cloud_jp
- テクノロジー
- 2024/07/26
Gemini 1.5 のロングコンテキストを活かして AI を育てるアプローチ〜 RAG の限界を軽やかに突破するためにはじめにこの記事では、Gemini 1.5 のロングコンテキストを活かして LLM を用いた AI システムを段階的に育てるアプローチを説明します。後半では、RAG システムの導入ハードルを下げるためにこのアプローチを適用するイメージをサンプルコードとあわせて紹介します。ここではまず、前提知識となるグラウンディングや RAG の仕組みを説明します。グラウンディングと RAG の違いについて LLM の業務活用に向けて勉強していると、かならず耳にするのが「グラウンディング」や「RAG」というキーワードです。グラウンディングは、LLM の基盤モデル自身が保有していない（学習していない）追加の参考情報をプロンプトに埋め込む事で、参考情報に基づいた回答を生成させるテクニ
- AI
- 検索
- LLM
- 学習
- データ
- あとで読む
- システム
- *まとめ
- 統計
- 勉強
型安全かつシンプルなAgentフレームワーク「PydanticAI」の実装を解剖する - ABEJA Tech Blog
- 40 users
- tech-blog.abeja.asia
- テクノロジー
- 2024/12/12
はじめにこちらはABEJAアドベントカレンダー2024 12日目の記事です。こんにちは、ABEJAでデータサイエンティストをしている坂元です。最近はLLMでアプローチしようとしていたことがよくよく検証してみるとLLMでは難しいことが分かり急遽CVのあらゆるモデルとレガシーな画像処理をこれでもかというくらい詰め込んだパイプラインを実装することになった案件を経験して、LLMでは難しそうなことをLLM以外のアプローチでこなせるだけの引き出しとスキルはDSとしてやはり身に付けておくべきだなと思うなどしています（LLMにやらせようとしていることは大抵難しいことなので切り替えはそこそこ大変）。とはいうものの、Agentの普及によってより複雑かつ高度な推論も出来るようになってきています。弊社の社内外のプロジェクト状況を見ていても最近では単純なRAG案件は減りつつあり、計画からアクションの実行、結果
- Pydantic
- あとで読む
- ai
- python
- 人工知能
- ツール
LiteLLM を使って色々な LLM API サービスをいい感じに使いこなす
- 39 users
- zenn.dev/magicmoment
- テクノロジー
- 2024/12/06
この記事は Magic Moment Advent Calendar 2024 5 日目の記事です。 Magic Moment でプロダクトデータを活用した機能の開発・検討をしている @nagomiso です。気づけば前回の記事から 1 年が経過していました。時間の流れが早すぎて驚きを隠せません。ここ 1 年での変化としては体重が大幅に増えました。原因は間違いなくラーメンの食べ過ぎです。節制せねば… 🍜 はじめに Google が Gemini 1.5 Pro / Flush を公開したり OpenAI が GPT-4o / 4o mini, OpenAI o1 / o1 mini を公開したりと 2024 年も LLM の進化には目を見張るものがありました。こうした進化によって開発で使える高性能な LLM API サービスが増えるのは喜ばしいことですがサービス毎に API が異な
- LLM
- API
- あとで読む
- 設定
- service
- サービス
- ai
速度・出力量・コスト効率最強の、Gemini 1.5 Flash！
- 30 users
- zenn.dev/acntechjp
- テクノロジー
- 2024/05/17
はじめにおれの名前は樋口恭介。とにかく速いものが好きだ。そして今日は最近一番"速さ"を感じたものを紹介したい。そう、"Flash"のことです。 5月15日にGoogleの新しいモデル「Gemini 1.5 Flash」が発表され、ちょうどその日に名古屋イノベーターズガレージというところで生成AIのセミナーをすることになっていたので、その場で触ってみました。そしたら……なんかプロンプト一発で1万字くらいが数分で出てきてしまい、あまりの衝撃で絶句してしまいました。LLMが出てきてから1年半くらい？　ほぼ毎日触っていますが、こいつらはまだおれを驚かせてくれる……。以下は急に446行・約1万字が出てきて放心状態のぼくの様子。まあこういうのは動きを見てもらうのが一番でしょうから、ぜひ見てみてください。以下、あらためて触ってみた様子を動画におさめたものです。 Flashのデモ動画いやこれマジ
2025: The year in LLMs
- 30 users
- simonwillison.net
- テクノロジー
- 2026/01/01
31st December 2025 This is the third in my annual series reviewing everything that happened in the LLM space over the past 12 months. For previous years see Stuff we figured out about AI in 2023 and Things we learned about LLMs in 2024. It’s been a year filled with a lot of different trends. The year of “reasoning” The year of agents The year of coding agents and Claude Code The year of LLMs on th
【VertexAI Gemini】社内用AI議事録生成アプリを作ってみたので、開発経緯および学んだことを紹介 - Insight Edge Tech Blog
- 29 users
- techblog.insightedge.jp
- テクノロジー
- 2024/11/11
はじめに開発経緯作成したアプリの構成および議事録作成手順構成議事録作成手順半年間運用して得られた学び議事録自動生成の精度がどうだったか？使用したモデルおよびコストについてモデルコスト安全フィルターについてプロンプトおよび生成過程について VertexAI Geminiの凄さについて議事録を投稿できるまでの手順の制限についてまとめと今後の期待はじめにこんにちは、Insight Edgeで開発エンジニアをしているニャットです。入社から1年以上が経ちましたが、まだまだ学ぶことが多く、日々、社内の勉強会やリソースをフル活用して新しい技術の習得に挑戦し続けています。今回は、勉強会の時間を活用しつつ「社内用の議事録自動作成アプリ」を少しずつ開発し、半年間社内で運用しながら改善を重ねたので、その開発経緯と得られた学びを紹介します。開発経緯 2024年5月頃、Googl
- あとで読む
Things we learned about LLMs in 2024
- 28 users
- simonwillison.net
- テクノロジー
- 2025/01/01
31st December 2024 A lot has happened in the world of Large Language Models over the course of 2024. Here’s a review of things we figured out about the field in the past twelve months, plus my attempt at identifying key themes and pivotal moments. This is a sequel to my review of 2023. In this article: The GPT-4 barrier was comprehensively broken Some of those GPT-4 models run on my laptop LLM pri
- LLM
- あとで読む
【インターンレポート】OpenAI Agents SDK (Python版) でコールセンター風音声対話型マルチエージェントデモを作ってみた(おまけ付き) - Insight Edge Tech Blog
- 27 users
- techblog.insightedge.jp
- テクノロジー
- 2025/07/10
目次【インターンレポート】OpenAI Agents SDK (Python版) でコールセンター風音声対話型マルチエージェントデモを作ってみた(おまけ付き) はじめに 1.AIエージェント✖️音声 = 音声エージェント 1.1 普及してきたAIエージェントについて 1.2 音声エージェントの恩恵について考える 1.3 リアルタイム音声対話API・音声エージェント開発ツールの紹介 2. OpenAI Agents SDK (Python版)で作る音声対話型マルチエージェントツール 2.1 OpenAI Agents SDKとは 2.2 2種類の音声エージェントの構造 2.3 デモの紹介 2.4 今後の展望おわりに参考資料はじめにこんにちは！！！ Insight Edgeでアルバイトをしております、東京科学大学大学院修士2年の田中です。大学院では、経営工学系の研究室で、サッカーの
Top AI Stories of 2024! Agents Rise, Prices Fall, Models Shrink, Video Takes Off, Acquisitions Morph
- 23 users
- info.deeplearning.ai
- テクノロジー
- 2025/01/15
Dear friends, Is AI progressing rapidly? Yes! But while the progress of underlying AI technology has indeed sped up over the past 2 years, the fastest acceleration is in applications. Consider this: GPT-4 was released March 2023. Since then, models have become much faster, cheaper, sometimes smaller, more multimodal, and better at reasoning, and many more open weight versions are available — so pr
- AI
- あとで読む
Gemini API + Cloudflare + Astro で作るアイスブレイクジェネレーター - Qiita
- 14 users
- qiita.com
- テクノロジー
- 2024/12/24
HRBrain Advent Calendar 2024 24日目の記事です。はじめにこんにちは。@yug1224(Yuji Yamaguchi)です。 MTGをスムーズに進めるためのアイスブレイク。しかし、毎回ありきたりな質問になりがちで、新しいアイデアを考えるのに苦労することもあります。そこで今回は、Googleの大規模言語モデルGeminiを活用し、アイスブレイクの話題を生成するWebアプリケーションを作ってみました。 Google AI Studio を使った準備まず、Google AI StudioでGemini APIのAPI Keyとサンプルコードを取得します。Google AI Studioは、Geminiを利用するための環境が整っており、API Keyの管理やプロンプトの実行が簡単に行えます。 Google AI Studioのプロジェクトを開きます API Key
- あとで読む
Amazon Bedrock の新モデル Amazon Nova の精度を確認してみた - Taste of Tech Topics
- 13 users
- acro-engineer.hatenablog.com
- テクノロジー
- 2024/12/16
はじめに急に冬らしい寒さを感じるようになってきました。データ分析エンジニアの木介です。 Amazon Bedrock Advent Calendar 2024 シリーズ２の16日目のブログ記事になります。 qiita.com 今回は12月のAWS re:Invent 2024にて発表のあったAWSの最新LLMモデルAmazon Novaを触っていきたいと思います。 www.aboutamazon.com はじめに概要 Novaとは Novaで出来ること使い方他モデルとの比較 Amazon Nova の精度を確認してみる 1.特殊な日本語の理解 2.画像認識 3.画像生成 4.動画生成まとめ概要 Novaとは Amazon Novaは12月に発表されたAmazonが新たに提供する新たな生成AIモデルファミリーです。テキスト、画像、動画といったマルチモーダルなコンテンツの入力が
無料で学ぶ！生成AIとバズった技術まとめ（LLM、LangChain、Dify、SAM2、Stable Diffusion、RVCなど） - Qiita
- 13 users
- qiita.com
- テクノロジー
- 2025/01/27
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? まえがき「ここ数年でバズったAI技術や、最近勢いのある生成系AI技術をキャッチアップしたい」最近のLLMブームにより、一般の人も簡単にAI技術を使いこなせるようになりました。特に、もともとAIに明るくなくても、エンジニアなら実装までできるので、インパクトのあるプロダクトを作ることが可能になりました。「これまでモデル開発をしてきたデータサイエンティスト・AIエンジニアの立場が危ぶまれている気がする」そんな危機感から、一通り、まずは知る・使えるようになることを目指してこの記事を書くことにしました。前半パート: 使ってみる編（全員
- AI
- あとで読む
Real-world gen AI use cases from the world's leading organizations | Google Cloud Blog
- 11 users
- cloud.google.com
- テクノロジー
- 2025/01/04
AI is here, AI is everywhere: Top companies, governments, researchers, and startups are already enhancing their work with Google's AI solutions. Published April 12, 2024; last updated October 9, 2025. Automotive & Logistics Business & Professional Services Financial Services Healthcare & Life Sciences Hospitality & Travel Manufacturing, Industrial & Electronics Media, Marketing & Gaming Public Sec
- ai
- dev
- google
- あとで読む
Gemini 2.0 Flash から MCP を利用して BigQuery を操作する
- 10 users
- zenn.dev/hogeticlab
- テクノロジー
- 2024/12/13
Google Cloud Champion Innovators Advent Calendar 2024 の 12 日目の記事です。はじめに LLM が広く普及し、活用範囲が急速に拡大してきたことで、ツール連携機能を活用した AI エージェントを構築する機会も増えてきています。このような LLM とツールの連携により、チャットインターフェースから様々なシステムやサービスを制御・自動化できるようになりました。しかし、AI エージェントの開発には2つの困りごとがあると感じています。1つ目は、複雑な指示を処理するために必要な高性能モデルの応答速度が遅い点、2つ目は複数のプロジェクトでツールを再利用する際の実装効率の問題です。本記事では、これらに対する解決策の一例を紹介します。LLM から BigQuery を操作するユースケースにおいて、応答速度が遅い点については Gemini 2.0
- MCP
- gemini
- LLM
マルチエージェントで新規事業立案を検証 - Google ADK + Geminiによる議論設計の実践 - Insight Edge Tech Blog
- 9 users
- techblog.insightedge.jp
- テクノロジー
- 2026/03/19
はじめにこんにちは、Insight Edge アジャイル開発チームの山崎です。マルチエージェントシステムを設計する際、多くの設計判断に直面します。議論はシングルステップで十分か、複数ステップに分割すべきか？各ステップに誰を参加させるべきか？プロンプトはどこまで詳細に書くべきか？今回の記事では、Google ADK + Geminiを用いて、スタートアップの新規事業立案という具体的な意思決定の事例でマルチエージェントシステムを実際に構築し、議論の論点、議論の進め方、議論するメンバーなどを変化させながら、3つの異なるアプローチを比較検証しました。その結果、以下の知見を得ました（詳細は考察セクションを参照）。議論メンバーの非対称性設計: 楽観派と批判派のバランスが議論品質を左右する細かいステップ分割: 論点を細分化することで議論が効率化し、成果物精度が向上するプロンプトチューニングの
Deep Research再現実装をDeep Research以上に詳しく検証してみた - AKARI Tech Blog
- 8 users
- tech.akariinc.co.jp
- テクノロジー
- 2025/03/06
はじめにこんばんは！今週のAKARI Tech Blogは、DX Solution 事業本部 Dev の許が担当いたします。先日OpenAIが「Deep Research」を公開し、その驚異的な文献調査能力が話題となりましたね！皆様使っていますでしょうか。これまでひいこら言いながらインターネット検索していた時代と比べると、「Deep Research お願いします！」で、それなりの分析レポートが出てくることに隔世の感を感じますね。これだけ性能の良いものが出てきた以上、仕組みが気になるところ。できることなら、自分たちでも再現実装してみたい！しかし例によってOpenAIは実装をオープンにはしてくれない……。そこで登場するのが、Deep ResearchのOSS再現プロジェクトたち！まずは Deep ResearchにOpenな再現実装について聞いてみましょうか。 ChatGP
AIニュースノート：nano-bananaが話題に、AGENTS.mdの採用広がる、Microsoft Copilotに3Dモデリング機能が追加、ChatGPTでプロジェクト専用メモリー搭載、Claude for Chromeの安全設計など | gihyo.jp
- 6 users
- gihyo.jp
- テクノロジー
- 2025/09/01
AIニュースノート⁠⁠：nano-bananaが話題に⁠⁠、AGENTS.mdの採用広がる⁠⁠、Microsoft Copilotに3Dモデリング機能が追加⁠⁠、ChatGPTでプロジェクト専用メモリー搭載⁠⁠、Claude for Chromeの安全設計など gihyo.jpのニュース記事として取り上げていなかったもののなかから、直近の興味深いAIに関連するニュース概要を簡単にまとめてみました。 ※この記事は、不正確な内容を含んでいる可能性のある実験的コンテンツです。正確な情報はリンク先を確認してください。 nano-bananaの週でした nano-bananaこと、Gemini 2.5 Flash Imageがリリースされて、このモデルによる画像生成・編集が話題になった週でした。興味深い使い方やベストプラクティスも紹介されています。 “nano-banana”の舞台裏⁠：対話×段階編
- article
OpenRouter経由でGPTを使うほうが、OpenAIから直接使うよりも安い現実【2025年1月現在】｜伊志嶺(LLMで業務改善する人)
- 6 users
- note.com/brave_quince241
- テクノロジー
- 2025/02/06
OpenRouter経由でGPTを使うほうが、OpenAIから直接使うよりも安い現実【2025年1月現在】 Open Routerは複数のAIモデルにアクセスできる統一インターフェースを提供する革新的なプラットフォームです。 GPT, Claude, Geminiはもちろん、最近話題のDeepSeek V3などにも同じPythonコードで利用できます。以下のような感じです。 # どのモデルを使う場合でも、クライアントの宣言方法は同じ client = openai.OpenAI(api_key="OPEN_ROUTER_API_KEY", base_url="https://openrouter.ai/api/v1") # GPTのテスト response = client.chat.completions.create( model="google/gemini-flash-1.5",
- あとで読む
Gemini 2.0 FlashとRubyでDeepResearchを作ってみた！
- 6 users
- zenn.dev/koduki
- テクノロジー
- 2025/02/05
はじめに LLMの躍進はすさまじく、年初からGemini 2.0、DeepSeek R1、Mistral Small 3、OpenAI o3-miniなど、新しくて強力なモデルが次々と登場しています。今年も非常にエキサイティングな年になりそうです。そんな2025年ですが、単なるLLMだけでなく「AIエージェントの年になる！」とも言われています。先日も、GoogleによるGemini 1.5をベースにしたDeepResearchと同名の、OpenAIによるo3ベースのDeepResearchが発表され、大きな注目を集めました。現在、個人的にAriaというAIエージェントフロントエンドを作っているので、今回はDeepResearch風のアプリケーションを自作して、その感触を掴んでみたいと思います。ちなみに、今回作成した機能のデモはこちらです。 AIエージェントとは？エージェントに関して
- article
Updated production-ready Gemini models, reduced 1.5 Pro pricing, increased rate limits, and more- Google Developers Blog
- 5 users
- developers.googleblog.com
- テクノロジー
- 2024/09/25
Updated production-ready Gemini models, reduced 1.5 Pro pricing, increased rate limits, and more Today, we’re releasing two updated production-ready Gemini models: Gemini-1.5-Pro-002 and Gemini-1.5-Flash-002 along with: >50% reduced price on 1.5 Pro (both input and output for prompts <128K)2x higher rate limits on 1.5 Flash and ~3x higher on 1.5 Pro2x faster output and 3x lower latencyUpdated defa
Vertex AI: Gemini API の Context caching の紹介
- 4 users
- zenn.dev/google_cloud_jp
- テクノロジー
- 2024/07/10
何の話かと言うと Google Cloud で利用可能なマルチモーダル対応の基盤モデルである Gemini 1.5 Pro / Flash に対して、Context caching の機能が利用可能になりました。これがどのような機能で何の役に立つのかを実際の使用例とあわせて、わかりやすく説明します。 Context caching のない時 Gemini はマルチモーダル対応モデルなので、プロンプトに動画などのメディアコンテンツを埋め込むことができます。具体的には、次のように Python のリスト形式でプロンプトを構成します。
Gemini is now accessible from the OpenAI Library- Google Developers Blog
- 4 users
- developers.googleblog.com
- テクノロジー
- 2024/11/09
Starting today, developers can access the latest Gemini models via the OpenAI Library and REST API, making it easier to get started with Gemini. We will initially support the Chat Completions API and Embeddings API, with plans for additional compatibility in the weeks and months to come. You can read more in the Gemini API docs, and if you aren't already using the OpenAI libraries, we recommend th
- 人工知能
- Google
Gemini 1.5 の JSONモードを試す｜npaka
- 4 users
- note.com/npaka
- テクノロジー
- 2024/06/03
Gemini 1.5 のJSONモードを試したので、まとめました。 1. JSONモード「JSONモード」は、LLMの出力をJSON形式に強制するためのモードです。「gemini-1.5-pro」「gemini-1.5-flash」で利用可能です。さらに、「gemini-1.5-pro」は「制約付きデコード」をサポートします。これにより、推論時にスキーマオブジェクト (または同等のPython型) を渡すことができ、出力はそのスキーマに厳密に従います。 2. JSONモードの使い方JSONモードの使い方は、次のとおりです。 (1) パッケージのインストール。 # パッケージのインストール !pip install -q -U google-generativeai(2) 「Google AI Studio」でAPIキーを取得し、シークレットの「GOOGLE_API_KEY」に登録後、以下
【実践】Claude×YAMLが優秀！：1回の指示でリサーチ、記事執筆、サムネ生成、グラレコ化が完了する夢のワークフロー結果｜テツメモ｜tetumemo｜Newsletter
- 4 users
- note.com/tetumemo
- テクノロジー
- 2025/04/09
📝いや、これ楽しすぎる「Claude 3.7 Sonnet」×「Projects機能」×「YAML指示書」が超優秀！ ✅実行例 ①、リサーチ指示書作成 ②、①でWebリサーチ ③、②の結果で1万文字のnote記事執筆 ④、③の結果でサムネ用プロンプト生成 ⑤、③の結果を元にグラレコ生成 Claudeで一撃出力記事で解説済み↓ https://t.co/KkMQJphHhQ pic.twitter.com/28uNmnsYco — テツメモ｜AI図解×検証｜Newsletter (@tetumemo) April 7, 2025 「Claude 3.7 Sonnet」×「Projects機能」×「YAML指示書」の流れ上記のステップに「グラレコ化」を追加発行済の記事を読むことで、自由自在に指示を組み込むことができるようになります。 Webリサーチ用の調査プロンプトを生成調査プロンプ
クラスメソッドデータアナリティクス通信(機械学習編) – 2024年6月号 | DevelopersIO
- 4 users
- dev.classmethod.jp
- テクノロジー
- 2024/06/05
データアナリティクス事業本部インテグレーション部機械学習チームの鈴木です。クラスメソッドデータアナリティクス通信(機械学習編) の2024年6月号です。2024年5月分のアップデート情報をお届けできればと思います。はじめに AWSでは、Amazon Personalizeで新たなレシピUser-Personalization-v2とPersonalized-Ranking-v2が使えるようになった点が個人的に大きなアップデートでした。モデルのアーキテクチャが新しくなり、精度の向上や推論速度のアップがされました。以下のブログでも詳細に取り上げています。 Google Cloudでは、Vertex AI SearchでチェックグラウンディングAPIが一般提供開始されました。これにより、生成された回答に対して、事実のチェックが必要な項目を特定することができるようになり、より正しい回答
- 機械学習
- AWS
Gemini 2.0 Flash API の使用方法を、実装しながら解説
- 3 users
- zenn.dev/mkj
- テクノロジー
- 2025/01/25
「Gemini 2.0 flash」のAPIでの使い方について、Google Colaboratory で実装しながら解説します。以前の「Gemini 1.5」とは利用ライブラリなどが異なるため、その点も踏まえて解説します。記事の最後では、実際にアプリケーション（AI-Agentもどき）に導入するアーキテクチャについても簡単に紹介いたします。（執筆：小川雄太郎）。本記事では最初に「Gemini 2.0 Flash」で動作させるための「設定系」について解説します。その後、会話を1回実行する場合、会話を往復させる場合、そして会話履歴の続きから会話させる場合について、それぞれ実装しながら解説します。本記事で紹介する実装コード（Google ColaboratoryのNotebook）は以下のリポジトリに置いています。 link: Gemini_2_Yutaro_Ogawa_2025
Gemini 2.0 Flash Live API （試験運用版）を使ってAIと日本語で会話してみた | DevelopersIO
- 3 users
- dev.classmethod.jp
- テクノロジー
- 2024/12/15
AWS事業本部コンサルティング部の石川です。12/11にGoogle Gemini 2.0 という新しいモデルがリリースされました。現在、Gemini 2.0 Flashの試験運用版が、Google AI StudioおよびVertex AIのGemini APIを通じて開発者向けに提供されています。単に精度が上がっただけではなく、かなり色々なことができるモデルのようだな、と思っていたところ Philipp Schmid さんがサンプルコードを上げてるじゃないですかぁーということで、検証の旅に行ってきました。 Gemini 2.0 とは Gemini 2.0は、Googleが2024年12月11日に発表した次世代AIモデルです。現在、Gemini 2.0 Flashの試験運用版のみですが、2025年1月には一般提供を開始し、モデルサイズも拡大する予定です。高速性能 Gemini 2.
- ai
Google Search でハルシネーションに立ち向かえ！〜 Gemini のグラウンディング機能徹底活用
- 3 users
- zenn.dev/google_cloud_jp
- テクノロジー
- 2024/10/25
何の話かと言うと Google Cloud で提供される基盤モデルの Gemini 1.5 Pro / Flash には、Google 検索や Vertex AI Search と連携するグラウンディング機能があります。この機能の使い方を説明します。基礎知識の確認大規模言語モデルは、モデルの学習時に得た情報をもとに回答を生成するため、学習時に存在しない情報を必要とする質問には正しく回答できません。この課題を解決する方法として、大きく、ファインチューニングとプロンプトエンジニアリングの 2 つの手法があります。大規模言語モデルの回答品質を向上する方法ファインチューニングは、追加学習用のデータや学習処理を実行するインフラが必要となるので、まずは、プロンプトエンジニアリングを試す場合が多いでしょう。プロンプトエンジニアリングによる改善例としてよくあるのが、学習時に存在しない情報をプロンプ
Geminiへの構造化データの入出力制御
- 3 users
- zenn.dev/google_cloud_jp
- テクノロジー
- 2024/12/04
概要 Gemini を用いた少サイズデータを用いたコンテンツ生成に焦点を当て、構造化データ（CSV、JSON など）を効果的に活用する方法をPythonを用いて解説します。Gemini が持つ大規模トークン処理能力のメリットを活かした、より効率的なコンテンツ生成手法を提案します。序論 AI が急速に進化する時代において、大量のデータを分析・活用する能力は極めて重要です。RAG 環境はこうしたタスクに理想的ですが、より少量のデータでコンテンツ生成を行う必要があるシナリオもあります。Gemini は、大量のトークンを処理できるため、有望な解決策を提供します。プロンプトとアップロードされたファイルを組み合わせることで、限られたデータでも効果的に活用できます。ただし、CSV や JSON などの構造化データ形式を扱う際には、AI が情報を正確に解釈・理解できることを保証する必要があります。ここで
【誰でもできる】Gemini CLIのためのGCPアカウントなしから始める！有料版Gemini APIキー取得＆Windows設定ガイド｜平岡憲人（ノーリー）
- 3 users
- note.com/norito_hiraoka
- テクノロジー
- 2025/06/26
【誰でもできる】Gemini CLIのためのGCPアカウントなしから始める！有料版Gemini APIキー取得＆Windows設定ガイドこの記事では、Google Cloud Platform（GCP）のアカウントを持っていない方が、有料で利用できるGemini APIキーを取得し、ご自身のWindows PCで使えるように環境変数を設定し、今話題のGemini CLIを安全に利用できるまでの全ステップを、適宜スクリーンショット付きで、一つ一つ丁寧に解説します。 Gemini CLIは、Googleのアカウントとの紐づけや、Google AI Studio で発行される無料のGemini API Keyでは、Googleに情報がだだ漏れになってしまします。あなたのアイディアも、プロンプトも、コードもすべてGoogleが学習に使うことになります。しかし、この記事で述べる有料版のGemini
- API
- あとで読む