サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
iPhone 17
qiita.com/sakasegawa
総評としては、Claudeがライブラリ指示追従性能が高く便利で、ロングコンテキストを加味するとGemini 2.5 Proをサブとして用いると良さそうです。 備考 実際のコーディングにおいては画像対応やモデルごとの最大コンテキスト長も加味する場合もあります。上記ではo1以外は画像対応しており、かつコンテキスト長を最大付近まで使うと現状では性能劣化が激しいためロングコンテキスト性能だけを見るに留めました。 どの言語を使えばいいの? この節のサマリ とりあえず日本語でOK LLMにおける言語間の差異について プロンプトにおける言語選択は重要な問題です。言語によって、これらの能力が変わります。 推論能力 トークン効率 ChatGPT が登場した当時は明確に英語での推論が優れていましたが、現在はトークン効率が改善され、以下のベンチマークで見るとおり、推論能力も他とあまり変わりません。 ゆえに現状で
こんにちは!逆瀬川 ( https://x.com/gyakuse ) です! このアドベントカレンダーでは生成AIのアプリケーションを実際に作り、どのように作ればいいのか、ということをわかりやすく書いていければと思います。アプリケーションだけではなく、プロダクト開発に必要なモデルの調査方法、training方法、基礎知識等にも触れていければと思います。 今回の記事について 今回の記事では以下の内容に触れます MarkItDownの紹介 Pull-Requestを出してみる MarkItDownの紹介 さまざまなタイプのファイルをMarkdownに変換するためのライブラリです。非常に人気で、数日前に公開されたのですが記事公開時点で16.5Kスターもついています。内部を見るとパース処理のために python-pptx, pandas, pdfminer, mammoth等のライブラリを呼び出
こんにちは!逆瀬川 ( https://x.com/gyakuse ) です! このアドベントカレンダーでは生成AIのアプリケーションを実際に作り、どのように作ればいいのか、ということをわかりやすく書いていければと思います。アプリケーションだけではなく、プロダクト開発に必要なモデルの調査方法、training方法、基礎知識等にも触れていければと思います。 今回作ったもの: 0. 今回の記事について 以前、27分でかんたんなチャットアプリを作り、記事も執筆して公開するというデモをやりました。今日はOpenAIから発表されたo1 Proを用いてアプリケーションの企画・開発をやっていきたいと思います。今回の記事の目的は「このレベルだったらほとんど自動的にできる」というのを明らかにすることです。もちろん各段階での能力はまだ未熟ですが、ちゃんとしたプロダクトが100点としたら20点くらいは取れると思
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? こんにちは!逆瀬川 ( https://x.com/gyakuse ) です! このアドベントカレンダーでは生成AIのアプリケーションを実際に作り、どのように作ればいいのか、ということをわかりやすく書いていければと思います。アプリケーションだけではなく、プロダクト開発に必要なモデルの調査方法、training方法、基礎知識等にも触れていければと思います。 0. 今回の記事について 今日は言語モデルのハルシネーション (hallucination, 幻覚) についてお話します。 そもそもハルシネーションってなに?みたいなところから、ハルシ
こんにちは!逆瀬川 ( https://x.com/gyakuse ) です! このアドベントカレンダーでは生成AIのアプリケーションを実際に作り、どのように作ればいいのか、ということをわかりやすく書いていければと思います。アプリケーションだけではなく、プロダクト開発に必要なモデルの調査方法、training方法、基礎知識等にも触れていければと思います。 0. 今回の記事について 今日は言語モデルの推論部分について軽くお話します。 それではやっていきましょう 1. そもそも: LLMってどうやって動いてる? ハルシネーションについて考える前に、ぱぱっとLLMの挙動について思い出していきましょう。 LLMは膨大なテキストデータを使ってトレーニングされ、「次に来るであろうトークン (サブワード単位の単語)」を予測する仕組みになっています。ChatGPTやLlamaなどのモデルは、Transfo
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 結論 スポットで使うならColab、Runpodが最強 ゲーミングPCでいいならどこかで買うかBREAJONでサブスクしよう だいたいRunpodさんがなんとかしてくれる 今回の記事について こんにちは!逆瀬川 ( https://x.com/gyakuse ) です!今日は最強のGPUプロバイダー決定戦をします。世は大GPU時代となりました。Valorantをやるにも、APEXをやるにも、ある程度高性能なGPUが必要です。League of Legends はノートパソコンでも遊べるのでおすすめです。 その他の利用として機械学習のモデ
サンプル数が少なすぎる雑プロット: F1値だとGemini 1.5 Pro 002とDocument AIが同率一位 GPT-4oは特にRecallの低さが顕著で取りこぼしが多い タスク別に見ていくと文字埋め込みのないPDFやスキャンされたデータのようなきれいなテキスト抽出はLMMのほうが優秀 (1) 横書きの活字抽出はどれも同程度 (2, 5) 縦書きの活字抽出はGPT-4oが異様に低くなる (3) 横書きの手書き文字抽出はDocument AIが優秀, LMMは取りこぼしが多くなる (4) 視覚的文書からの情報抽出処理の流れについて 次に、認識ミスを考える前にどうやって画像からの情報抽出を行うかを明らかにします。 この情報抽出においては、単純に画像からテキスト抽出しているだけではなく、情報抽出タスク(構造化データの抽出)も絡んできます。 わかりやすい事例 以前、こちらの記事では、レシー
こんにちは!逆瀬川 ( https://x.com/gyakuse ) です! アドベントカレンダー2日目です!これがあと23日続くのか…? 今日はこれ (の裏側部分) を作っていきます。表側は ChatVRMという pixiv さんのめちゃ神アプリケーションです。 今回の記事について 今日はspeech-to-speechサーバーについて紹介します。 さいきんOpenAIのRealtime APIが公開された通り、世は音声対話システム時代です。ですが、Realtime APIは高額なので、安くできたらうれしいです。あと、自分のPCで動いたら、便利。 ということで、今日はspeech-to-speechサーバーを作り、ChatVRMと連結させて自分専用かつ自分のPCのみで動くアシスタントAIを作っていきます。なお、Realtime APIとは違い、end-to-endなモデルではなく、昔な
mcp_server_youtube という名前にしました。 mcp_server_youtube というディレクトリができます。 mcp_server_youtube/src/mcp_server_youtube/server.py にサーバー実装を記述します。 実装 MCPサーバーの実装はほとんどgpt-4oを使って行いました。 ポイント 今回はこのサーバーに登録されたツールが youtube-search のみなので、handle_call_tool に到着したリクエストが youtube-search と一致している場合のみ処理行います YouTube Data API v3 は単純にAPIを実装するだけです これの嬉しさ 普通にfunction callingからAPIを叩くだけなら、MCPサーバーはいりません。ただ、独立したMCPサーバーとして作ることで再利用がしやすい形になり
Prompt Tokensはテキストの15%になっています。 計算しやすいようにCompletion Tokensをどちらも1,000とすると、 画像として処理した場合は0.022595ドル=3.55円 テキスト抽出して処理した場合は0.065995ドル=10.38 円 と約3倍もの開きがあります。 一方で処理時間は1.5倍に増加しています。 実装紹介: 論文から解説生成 落合陽一さんが紹介したサーベイの方法論を使い、論文解説を生成します。 処理手順 arXiv URLからプレプリントをダウンロード base64形式に変換後 GPT-4oに渡して解説を生成 実装 def download_paper(arxiv_url: str, save_dir: str) -> str: """ arXivから論文をダウンロードする関数 Args: arxiv_url (str): ダウンロードする論
概要 GPT-4oが発表されました。 GPT-4oについては以下のツイートによくまとまっています。 使用している映像は以下でまとめられています。 非常に優秀でAI系のプロダクトがまた何個か死んだと思いますが、それはさておき使っていきましょう。 APIではすでに利用可能になっております。 今回は以下のcookbookにある動画要約をgradioに移植します。 https://cookbook.openai.com/examples/gpt4o/introduction_to_gpt4o デモ 以下の Huggingface Space を作りました。APIキーと動画を貼り付けて試用することができます。 1分間の動画で0.1ドル / 60秒くらいかかります。API使用料に注意してください。 現状のGPT-4o APIの制限 動画はそのままアップロードできません これは将来的にもできるとされてい
概要 食事のカロリー推定は非常に困難なタスクでした。 一般的なアプローチとしては、物体検知modelをfine-tuningし、料理画像から個々の料理の領域を判定することでカロリーを推定してきました。 GPT-4oを利用するとそのへんを飛ばして、いきなりカロリーが推定できます。精度の面では劣ると考えられますが、実装の容易さと未知のクラス (学習データセット内に含まれない料理) への対応を考えると、十分に利用価値があると思われます。 今回の記事では、実際のデモも紹介しているのですぐ利用することができます。 早速結果を見てみよう デモ 実装 カロリー推定 json-mode で処理をさせます。step-by-stepに推論を処理させるために、最初に雑な推論を記述させてから、各食品のカロリー量を推定させています。 # GPT-4にカロリーを推定させる (JSON-MODE) response =
こんにちは!逆瀬川 (@gyakuse)です! さいきん以下の記事を書きました。 上記記事ではOpenAIが新しく提供したFunction callingを使って請求書から請求額や請求先情報等を自動的に抽出するという仕組みを解説しています。 ちなみに、functionsの定義書くのだるくてChatGPTに書かせていました。つまり、functionsをChat APIを使って自動で作れば、任意の種別の資料にすぐさま適用できるというわけです。今日はこちらの仕組みの紹介と、AppendixとしてGoogle Bardで情報抽出する、というのをやってみます。 処理の流れ ユーザーがやることが画像やPDFをアップロードするだけだと未来っぽいです。書類種別も考えさせてしまいましょう。 画像やPDFをアップロードする OCRで文字列を座標とともに抽出する 上記座標付きテキストをChat APIに投げて書
こんにちは!逆瀬川 (@gyakuse) です! 今日は開発に使うときのプロンプトの例を紹介します。ただ、これは一例に過ぎず、もっと雑な表現や工夫されたプロンプトを使っても良いでしょう。大事なのは、どのように情報を与えるとうまくin-context learningしてくれそうか、ということを考えながらプロンプトを渡してあげることだと思います。 だいじなこと ChatGPTのGPT-4を使いましょう ChatGPTをそのまま使う場合、オプトアウト申請し、受理されたことを確認しましょう オプトアウトしていても他者に会話履歴が見える状態になる等のトラブルもあったため、API経由のほうが安全です 会社のプログラム等は情シス部門と連携を取り、会社のポリシーを検討をしましょう 実装を依頼するプロンプト 「行いたいこと」「処理の流れ」「参照ドキュメント」という順で書いてあげると良いです。 サンプルプロ
こんにちは!逆瀬川 ( @gyakuse ) です! 今日は最近作った議事録文字起こしアプリに話者分離機能をくっつけたものを作っていきたいと思います。 ChatGPT APIの使い方、Whisper APIの使い方、Hugging Face Spacesへのデプロイ方法等を知りたい場合は以下の記事をぜひ! できたもの openai_keyにOpenAIのAPIキーを入れる メイン音声ファイルに会話音声 (wav, 25MB以内) を入れる 話者 (1) 参考音声ファイルに話者 (1) の参考音声 (wav) を入れる 話者 (1) の名前を入れる 話者 (2) 参考音声ファイルに話者 (1) の参考音声 (wav) を入れる 話者 (2) の名前を入れる 上記を行って送信ボタンを押すと処理が開始されます。なお、参考音声は10秒程度で大丈夫です。実装全体は以下で確認できます。 話者分離 (S
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? こんにちは!逆瀬川 ( @gyakuse ) です! きょうは発表があったばかりのChatGPT Pluginについて紹介していきたいと思います。 ChatGPT Pluginとは かんたんに言ってしまうと、ChatGPTの能力を拡張するためのプラグインです。よくわかりませんね。 わかりやすくいうと、 「来週の土日に旅行いきたいんだけど2万円以下で適当にいいとこ見繕って予約しといて」 「アイヨー」 みたいなことができるやつです。 もちろんこれらはChatGPTのAPIを用いてもできましたが、これを容易に実現する手段として提供されました。
こんにちは!逆瀬川 ( https://twitter.com/gyakuse )です! 今日はGPT-4に強引に画像を読み込ませて行きたいと思います。 やりたいこと 言語モデルのIncontext Learning能力だけで画像を認識させる なにが面白いのか Computer Visionは非常におもしろい研究領域であり、畳み込みニューラルネットワーク(CNN)やTransformerを画像認識の領域に広げたVision Transformerは超おもろいです。 先日発表されたVirtual ChatGPTは既存研究を組み合わせ、VQA(画像をもちいた質問回答)や画像編集を行うことを可能にしています。 これらの研究はさらに進歩し、動画領域などに進んでいくことでしょう。 さて、今回はそれを忘れます。バイバーイ マタネー 今日やりたいのは、言語モデルのIncontext Learning
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? こんにちは!逆瀬川 ( https://twitter.com/gyakuse ) です! 今日発表されたGPT-4について見ていきたいと思います。 なにがすごいのか 専門的な問題を解けるようになった たとえば米国司法試験で上位10%、GPT-3.5は下位10%だった 非常に長い文章を入出力できるようになった 最大で32k tokens (日本語で約2.5万文字、文庫で50pくらい) 画像をもとに会話できるようになった (これは実験段階でまだ提供されません) 特に嬉しいのは32k tokensまで文章を扱えるようになったことでしょう。
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? こんにちは!逆瀬川 ( https://twitter.com/gyakuse ) です。 今日はAIの進歩にともなうヒトの役割にかんするポエムを書いていきます! なにについて書いてある文章か AI※の進歩ってすごいよね AIがなんでもできるようになったら、ヒトは何を思うか ※AIって気軽に使う世界になったのもすごい. なお、MicrosoftはすでにAGI as a serviceについて考えている: https://thegenerality.com/agi/ さいきん思うこと 言語モデルや生成モデルの進歩は凄まじくて、どんどん知的
こんにちは!逆瀬川 ( https://twitter.com/gyakuse ) こちらに引き続き、LangChainの解説をしていきたいと思います。 副読用Colab: 動かしながら遊びましょう。 前回のあらすじ Chatbotや言語モデルを使ったサービスを作ろうとしたときに生のOpenAI APIを使うのは以下の点でたいへん。 プロンプトの共通化や管理をすること 複数のドキュメントやWebの情報を参照して質問応答をすること 言語モデルにcsvやpdf等のプレーンテキストでないファイルを読ませること それらの処理を統括して管理すること 使い方まとめ(1)で説明したLangChainの各モジュールはこれを解決するためのものでした。 Prompt Templates : プロンプトの管理 LLMs : 言語モデルのラッパー(OpenAI::GPT-3やGPT-Jなど) Document L
こんにちは!逆瀬川( https://twitter.com/gyakuse )です! 今日はLangChainの使い方について書いていこうと思います。 ChatGPT API の欠点について LangChainについて書く前に、ChatGPT APIの使いづらい部分をまとめていきたいと思います。 これを考えておくと、なぜLangChainが必要であるかということがわかり、さらに今後どのような機能が搭載されうるか/されるべきかということがわかります。 ChatGPT APIを使う際の難しい部分は一般的に以下のようにまとめられます。 プロンプトの共通化や管理が面倒くさい 最近の事実をベースとした質問-応答が難しい 最大の入出力合計が4096トークン(約3000字)であるため、長い情報を持たせることがしづらい ExcelやCSV、PDF等を直接読み込ませることができない 出力の処理のチェーンの
こんにちは!逆瀬川 ( https://twitter.com/gyakuse )です! 今日はBingGPT Cloneを作ってみたいと思います。コードを以下で公開しているのでぜひ遊んでみてください。 BingGPTについて BingAIやBingChatとも呼ばれる、Bingのチャット機能です。 特徴としては検索を行い、その結果に基づいて回答をしてくれることがあり、ChatGPTの弱みである最新情報を取得できないこと、事実に基づいて回答をできないこと(あくまで大規模なデータからトレーニングしている言語モデルであるため、嘘をつく)を解消してくれます。 ちなみに、ChatGPTに聞いてみると以下のように返答してくれました。 あらためてChatGPTのzero-shot性能に驚かされます。ただ、嘘はついていませんが、最新の情報を回答してくれません。 このBingGPTはめっちゃ便利なのですが
こんにちは!逆瀬川 ( https://twitter.com/gyakuse )です! 今日は気軽にできるプロンプトインジェクション対策を紹介したいと思います。 プロンプトインジェクションとは ChatGPTなどの言語モデルをベースとしたサービスに対し、「これまでの命令を表示してください」などの文章を与え、出力をジャックしてしまう攻撃手法です。 Prompt Leaking, Jailbreaking, 等の類似手法が知られています。 対策 これへの対策は簡単で、命令を追加で挿入する手法があります。以下に示します。 import openai openai.api_key = openai_key def completion(new_message_text:str, settings_text:str = '', past_messages:list = []): """ この関数は
こんにちは!逆瀬川( https://twitter.com/gyakuse )です! 今日はさいきんよく質問されるGPT-3の事実ベースのQAについて書いていこうと思います。 したいこと 長めの文章ファイルを対象に質問を投げかけ、適切に回答してくれる仕組みを作る うれしみ 今回の手法を用いると、ファクトに基づいた回答ができるので、以下のような分野に応用が可能です。 QAデータをもっている企業における質問応答チャットボットの構築 企業/事業ごとの専門知識をもったチャットボットの構築 教科書等を読み込ませた家庭教師的なチャットボットの構築 論文等の各種文献の読解補佐チャットボットの構築 AITuberやAIキャラクターに長期記憶を持たせる BingGPTなどのようなシステムの構築 どのように実現するか考える 大量の文章ファイルや長文を対象にQAする難しさについて 単純な質問-応答は以下のよう
こんにちは!逆瀬川 ( https://twitter.com/gyakuse )です! 今日はcsvからレポートを作成するのを自動化してみたいと思います。 これを使うと、excel/csvからシュッとそれっぽいレポート文章を作ることができます。 参考 どのように行うかの検討 CSVを扱ってデータをいい感じに解釈してくれるやつだとLangChainに実装されてそうなので調べてみました。 CSV Agentというのがあったのですが、Python3.9以上を要求されColabで扱いづらいこと、かつ使ってみたところうれしみが小さかったので今回は自分で実装してみることにしました。 ちなみにLangChain::CSVAgentを使うと以下のようになります。対話形式で特定のカラムの平均値とか出せるので楽しいです。ちなみにこれを使う場合は動的にコード生成しているので、Prompt Injectionさ
こんにちは!逆瀬川 ( https://twitter.com/gyakuse ) です。 今日はメールの自動返信作成をMake(ツール連携サービス)を使ってやってみたいと思います。 ※MakeとはZapierやIFTTTと同じIPaaS系のサービスです。 参考 概要 Gmailに来た新着メールをMakeとChatGPT APIを使い返信文章候補を作成します。 そもそもできそうかの確認 OpenAIのChatGPT API Playgroundを使って、これができるか確認してみます。 なお、text-davinci-003はChatGPT API(gpt-3.5 turbo)の10倍の価格なので、今回は用いません 追記: 脳死で書いてたのであれですが、MakeはまだChatGPT APIに対応していないのでtext-davinci-003を使います。 以下のようなプロンプトを実行しました
こんにちは!逆瀬川 ( https://twitter.com/gyakuse )です! 今日は昨日公開されたFLAN-20B with UL2を使ってChatGPT APIのように会話をしてみたいと思います。 概要 Google BrainのYi Tayさんらが開発した新しく公開された言語モデルのFLAN-20B with UL2を使ってChatbotみたいな対話をしてみるテストです。 翻訳を組み合わせて実現します。デカ言語モデルが手元で動いてめちゃくちゃ嬉しさがあります。 Google Colab Colab ProのプレミアムGPUでないと動きません 使い方 ランタイム > ランタイムのタイプを変更からGPU / プレミアムとする A100 40GB VRAMであることを確認しておきましょう すべてのセルを実行 注意 ローカルで動かす場合 VRAMを33GB程度使用します 今後int
こんにちは!逆瀬川( https://twitter.com/gyakuse ) です! 今日は公開されたばかりのChatGPT APIを使ってAIキャラクターを作ってみます。 概要 ChatGPT APIを使ってAIキャラクターを作る 嬉しいところ 以前のOpenAIのGPT-3.5系のAPIは $0.0200 / 1K tokens で、だいたい1000文字で3〜5円くらいでした。 今回のChatGPT APIは $0.002 / 1K tokens であるため、1/10のやすさになっています。 また、規約が更新され、APIを使ったinput/outputは学習対象外(オプトアウトがデフォルト)となりました。 DPAの締結(OpenAIの書式に従う必要があります)も可能になっているためより以前よりは守秘性の高いコミュニケーションに使用できる可能性があります。 Colab 実装 会話を行
次のページ
このページを最初にブックマークしてみませんか?
『@sakasegawaのマイページ - Qiita』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く