サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
TGS2024
qiita.com/sakasegawa
Prompt Tokensはテキストの15%になっています。 計算しやすいようにCompletion Tokensをどちらも1,000とすると、 画像として処理した場合は0.022595ドル=3.55円 テキスト抽出して処理した場合は0.065995ドル=10.38 円 と約3倍もの開きがあります。 一方で処理時間は1.5倍に増加しています。 実装紹介: 論文から解説生成 落合陽一さんが紹介したサーベイの方法論を使い、論文解説を生成します。 処理手順 arXiv URLからプレプリントをダウンロード base64形式に変換後 GPT-4oに渡して解説を生成 実装 def download_paper(arxiv_url: str, save_dir: str) -> str: """ arXivから論文をダウンロードする関数 Args: arxiv_url (str): ダウンロードする論
概要 GPT-4oが発表されました。 GPT-4oについては以下のツイートによくまとまっています。 使用している映像は以下でまとめられています。 非常に優秀でAI系のプロダクトがまた何個か死んだと思いますが、それはさておき使っていきましょう。 APIではすでに利用可能になっております。 今回は以下のcookbookにある動画要約をgradioに移植します。 https://cookbook.openai.com/examples/gpt4o/introduction_to_gpt4o デモ 以下の Huggingface Space を作りました。APIキーと動画を貼り付けて試用することができます。 1分間の動画で0.1ドル / 60秒くらいかかります。API使用料に注意してください。 現状のGPT-4o APIの制限 動画はそのままアップロードできません これは将来的にもできるとされてい
概要 食事のカロリー推定は非常に困難なタスクでした。 一般的なアプローチとしては、物体検知modelをfine-tuningし、料理画像から個々の料理の領域を判定することでカロリーを推定してきました。 GPT-4oを利用するとそのへんを飛ばして、いきなりカロリーが推定できます。精度の面では劣ると考えられますが、実装の容易さと未知のクラス (学習データセット内に含まれない料理) への対応を考えると、十分に利用価値があると思われます。 今回の記事では、実際のデモも紹介しているのですぐ利用することができます。 早速結果を見てみよう デモ 実装 カロリー推定 json-mode で処理をさせます。step-by-stepに推論を処理させるために、最初に雑な推論を記述させてから、各食品のカロリー量を推定させています。 # GPT-4にカロリーを推定させる (JSON-MODE) response =
こんにちは!逆瀬川 (@gyakuse)です! さいきん以下の記事を書きました。 上記記事ではOpenAIが新しく提供したFunction callingを使って請求書から請求額や請求先情報等を自動的に抽出するという仕組みを解説しています。 ちなみに、functionsの定義書くのだるくてChatGPTに書かせていました。つまり、functionsをChat APIを使って自動で作れば、任意の種別の資料にすぐさま適用できるというわけです。今日はこちらの仕組みの紹介と、AppendixとしてGoogle Bardで情報抽出する、というのをやってみます。 処理の流れ ユーザーがやることが画像やPDFをアップロードするだけだと未来っぽいです。書類種別も考えさせてしまいましょう。 画像やPDFをアップロードする OCRで文字列を座標とともに抽出する 上記座標付きテキストをChat APIに投げて書
こんにちは!逆瀬川 (@gyakuse) です! 今日は開発に使うときのプロンプトの例を紹介します。ただ、これは一例に過ぎず、もっと雑な表現や工夫されたプロンプトを使っても良いでしょう。大事なのは、どのように情報を与えるとうまくin-context learningしてくれそうか、ということを考えながらプロンプトを渡してあげることだと思います。 だいじなこと ChatGPTのGPT-4を使いましょう ChatGPTをそのまま使う場合、オプトアウト申請し、受理されたことを確認しましょう オプトアウトしていても他者に会話履歴が見える状態になる等のトラブルもあったため、API経由のほうが安全です 会社のプログラム等は情シス部門と連携を取り、会社のポリシーを検討をしましょう 実装を依頼するプロンプト 「行いたいこと」「処理の流れ」「参照ドキュメント」という順で書いてあげると良いです。 サンプルプロ
こんにちは!逆瀬川 ( @gyakuse ) です! 今日は最近作った議事録文字起こしアプリに話者分離機能をくっつけたものを作っていきたいと思います。 ChatGPT APIの使い方、Whisper APIの使い方、Hugging Face Spacesへのデプロイ方法等を知りたい場合は以下の記事をぜひ! できたもの openai_keyにOpenAIのAPIキーを入れる メイン音声ファイルに会話音声 (wav, 25MB以内) を入れる 話者 (1) 参考音声ファイルに話者 (1) の参考音声 (wav) を入れる 話者 (1) の名前を入れる 話者 (2) 参考音声ファイルに話者 (1) の参考音声 (wav) を入れる 話者 (2) の名前を入れる 上記を行って送信ボタンを押すと処理が開始されます。なお、参考音声は10秒程度で大丈夫です。実装全体は以下で確認できます。 話者分離 (S
こんにちは!逆瀬川 ( @gyakuse ) です! きょうは発表があったばかりのChatGPT Pluginについて紹介していきたいと思います。 ChatGPT Pluginとは かんたんに言ってしまうと、ChatGPTの能力を拡張するためのプラグインです。よくわかりませんね。 わかりやすくいうと、 「来週の土日に旅行いきたいんだけど2万円以下で適当にいいとこ見繕って予約しといて」 「アイヨー」 みたいなことができるやつです。 もちろんこれらはChatGPTのAPIを用いてもできましたが、これを容易に実現する手段として提供されました。 BingGPT (正式名称New Bing) のように検索して回答してくれたり、会社の文章群をもとに質問回答してくれたり、 商品を注文してくれるなどのアクションを行う機能が追加された、と理解しておくとよさそうです。 これはまだWaitlistであり、今後公
こんにちは!逆瀬川 ( https://twitter.com/gyakuse )です! 今日はGPT-4に強引に画像を読み込ませて行きたいと思います。 やりたいこと 言語モデルのIncontext Learning能力だけで画像を認識させる なにが面白いのか Computer Visionは非常におもしろい研究領域であり、畳み込みニューラルネットワーク(CNN)やTransformerを画像認識の領域に広げたVision Transformerは超おもろいです。 先日発表されたVirtual ChatGPTは既存研究を組み合わせ、VQA(画像をもちいた質問回答)や画像編集を行うことを可能にしています。 これらの研究はさらに進歩し、動画領域などに進んでいくことでしょう。 さて、今回はそれを忘れます。バイバーイ マタネー 今日やりたいのは、言語モデルのIncontext Learning
こんにちは!逆瀬川 ( https://twitter.com/gyakuse ) です! 今日発表されたGPT-4について見ていきたいと思います。 なにがすごいのか 専門的な問題を解けるようになった たとえば米国司法試験で上位10%、GPT-3.5は下位10%だった 非常に長い文章を入出力できるようになった 最大で32k tokens (日本語で約2.5万文字、文庫で50pくらい) 画像をもとに会話できるようになった (これは実験段階でまだ提供されません) 特に嬉しいのは32k tokensまで文章を扱えるようになったことでしょう。 たとえば小説を書くみたいなときも、プロット、設定等に3000文字使っても、残り2.2万文字くらい使えます。 画像をもとにした会話の例 USER: この画像はどこがおかしいですか?パネルごとに説明してください GPT-4: この画像は、3つのパネルで構成される
こんにちは!逆瀬川 ( https://twitter.com/gyakuse ) です。 今日はAIの進歩にともなうヒトの役割にかんするポエムを書いていきます! なにについて書いてある文章か AI※の進歩ってすごいよね AIがなんでもできるようになったら、ヒトは何を思うか ※AIって気軽に使う世界になったのもすごい. なお、MicrosoftはすでにAGI as a serviceについて考えている: https://thegenerality.com/agi/ さいきん思うこと 言語モデルや生成モデルの進歩は凄まじくて、どんどん知的な活動がAIに置き換えられて行きそうな空気を感じます。じっさい、イラストを描くことやプログラミングを実装することなどは、かなりできるようになってきています。 今回は、こうした人間しか出来ないと思われていたことが、どんどんAIができてくることによって、何が起き
こんにちは!逆瀬川 ( https://twitter.com/gyakuse ) こちらに引き続き、LangChainの解説をしていきたいと思います。 副読用Colab: 動かしながら遊びましょう。 前回のあらすじ Chatbotや言語モデルを使ったサービスを作ろうとしたときに生のOpenAI APIを使うのは以下の点でたいへん。 プロンプトの共通化や管理をすること 複数のドキュメントやWebの情報を参照して質問応答をすること 言語モデルにcsvやpdf等のプレーンテキストでないファイルを読ませること それらの処理を統括して管理すること 使い方まとめ(1)で説明したLangChainの各モジュールはこれを解決するためのものでした。 Prompt Templates : プロンプトの管理 LLMs : 言語モデルのラッパー(OpenAI::GPT-3やGPT-Jなど) Document L
こんにちは!逆瀬川( https://twitter.com/gyakuse )です! 今日はLangChainの使い方について書いていこうと思います。 ChatGPT API の欠点について LangChainについて書く前に、ChatGPT APIの使いづらい部分をまとめていきたいと思います。 これを考えておくと、なぜLangChainが必要であるかということがわかり、さらに今後どのような機能が搭載されうるか/されるべきかということがわかります。 ChatGPT APIを使う際の難しい部分は一般的に以下のようにまとめられます。 プロンプトの共通化や管理が面倒くさい 最近の事実をベースとした質問-応答が難しい 最大の入出力合計が4096トークン(約3000字)であるため、長い情報を持たせることがしづらい ExcelやCSV、PDF等を直接読み込ませることができない 出力の処理のチェーンの
こんにちは!逆瀬川 ( https://twitter.com/gyakuse )です! 今日はBingGPT Cloneを作ってみたいと思います。コードを以下で公開しているのでぜひ遊んでみてください。 BingGPTについて BingAIやBingChatとも呼ばれる、Bingのチャット機能です。 特徴としては検索を行い、その結果に基づいて回答をしてくれることがあり、ChatGPTの弱みである最新情報を取得できないこと、事実に基づいて回答をできないこと(あくまで大規模なデータからトレーニングしている言語モデルであるため、嘘をつく)を解消してくれます。 ちなみに、ChatGPTに聞いてみると以下のように返答してくれました。 あらためてChatGPTのzero-shot性能に驚かされます。ただ、嘘はついていませんが、最新の情報を回答してくれません。 このBingGPTはめっちゃ便利なのですが
こんにちは!逆瀬川 ( https://twitter.com/gyakuse )です! 今日は気軽にできるプロンプトインジェクション対策を紹介したいと思います。 プロンプトインジェクションとは ChatGPTなどの言語モデルをベースとしたサービスに対し、「これまでの命令を表示してください」などの文章を与え、出力をジャックしてしまう攻撃手法です。 Prompt Leaking, Jailbreaking, 等の類似手法が知られています。 対策 これへの対策は簡単で、命令を追加で挿入する手法があります。以下に示します。 import openai openai.api_key = openai_key def completion(new_message_text:str, settings_text:str = '', past_messages:list = []): """ この関数は
こんにちは!逆瀬川( https://twitter.com/gyakuse )です! 今日はさいきんよく質問されるGPT-3の事実ベースのQAについて書いていこうと思います。 したいこと 長めの文章ファイルを対象に質問を投げかけ、適切に回答してくれる仕組みを作る うれしみ 今回の手法を用いると、ファクトに基づいた回答ができるので、以下のような分野に応用が可能です。 QAデータをもっている企業における質問応答チャットボットの構築 企業/事業ごとの専門知識をもったチャットボットの構築 教科書等を読み込ませた家庭教師的なチャットボットの構築 論文等の各種文献の読解補佐チャットボットの構築 AITuberやAIキャラクターに長期記憶を持たせる BingGPTなどのようなシステムの構築 どのように実現するか考える 大量の文章ファイルや長文を対象にQAする難しさについて 単純な質問-応答は以下のよう
こんにちは!逆瀬川 ( https://twitter.com/gyakuse )です! 今日はcsvからレポートを作成するのを自動化してみたいと思います。 これを使うと、excel/csvからシュッとそれっぽいレポート文章を作ることができます。 参考 どのように行うかの検討 CSVを扱ってデータをいい感じに解釈してくれるやつだとLangChainに実装されてそうなので調べてみました。 CSV Agentというのがあったのですが、Python3.9以上を要求されColabで扱いづらいこと、かつ使ってみたところうれしみが小さかったので今回は自分で実装してみることにしました。 ちなみにLangChain::CSVAgentを使うと以下のようになります。対話形式で特定のカラムの平均値とか出せるので楽しいです。ちなみにこれを使う場合は動的にコード生成しているので、Prompt Injectionさ
こんにちは!逆瀬川 ( https://twitter.com/gyakuse ) です。 今日はメールの自動返信作成をMake(ツール連携サービス)を使ってやってみたいと思います。 ※MakeとはZapierやIFTTTと同じIPaaS系のサービスです。 参考 概要 Gmailに来た新着メールをMakeとChatGPT APIを使い返信文章候補を作成します。 そもそもできそうかの確認 OpenAIのChatGPT API Playgroundを使って、これができるか確認してみます。 なお、text-davinci-003はChatGPT API(gpt-3.5 turbo)の10倍の価格なので、今回は用いません 追記: 脳死で書いてたのであれですが、MakeはまだChatGPT APIに対応していないのでtext-davinci-003を使います。 以下のようなプロンプトを実行しました
Google の FLAN-20B with UL2 を動かしてChatGPT APIのように使ってみる!言語モデルflanUL2YiTay こんにちは!逆瀬川 ( https://twitter.com/gyakuse )です! 今日は昨日公開されたFLAN-20B with UL2を使ってChatGPT APIのように会話をしてみたいと思います。 概要 Google BrainのYi Tayさんらが開発した新しく公開された言語モデルのFLAN-20B with UL2を使ってChatbotみたいな対話をしてみるテストです。 翻訳を組み合わせて実現します。デカ言語モデルが手元で動いてめちゃくちゃ嬉しさがあります。 Google Colab Colab ProのプレミアムGPUでないと動きません 使い方 ランタイム > ランタイムのタイプを変更からGPU / プレミアムとする A100 4
こんにちは!逆瀬川( https://twitter.com/gyakuse ) です! 今日は公開されたばかりのChatGPT APIを使ってAIキャラクターを作ってみます。 概要 ChatGPT APIを使ってAIキャラクターを作る 嬉しいところ 以前のOpenAIのGPT-3.5系のAPIは $0.0200 / 1K tokens で、だいたい1000文字で3〜5円くらいでした。 今回のChatGPT APIは $0.002 / 1K tokens であるため、1/10のやすさになっています。 また、規約が更新され、APIを使ったinput/outputは学習対象外(オプトアウトがデフォルト)となりました。 DPAの締結(OpenAIの書式に従う必要があります)も可能になっているためより以前よりは守秘性の高いコミュニケーションに使用できる可能性があります。 Colab 実装 会話を行
こんにちは!逆瀬川 ( https://twitter.com/gyakuse ) です! 今日は契約書の更新差分の比較をGPT-3とGoogle Document AIを使ってやってみたいと思います。 概要 異なるバージョンの契約書をPDF解析システムとGPT-3を使って自動的に比較し、リスクなどの検討も自動で出力する仕組みを作る。 Colab 使い方 Document AIの準備 (作成方法など詳しくは後述) Google CloudのDocument AIでプロセッサを作成する プロセッサ一覧から作成したプロセッサを選び、予測エンドポイントをコピーする https://console.cloud.google.com/ai/document-ai/processors json形式のAPIキーファイルをダウンロードしておく OpenAI APIキーの準備 すべてのセルを実行 比較した
こんにちは!逆瀬川( https://twitter.com/gyakuse )です! 今日はプレゼンの自動生成をやっていきたいと思います! 作成したスライド参考: 概要 GPT-3を用いて任意の目的からプレゼンの骨子を作り、 Diffusion Modelを用いてスライドを説明するような画像を生成します。 海外ではスライド作成系のサービスがどかどか出てるので、見てみると楽しいです。 https://elucile.lubis.co.jp/ https://www.beautiful.ai/ https://www.slidesai.io/ https://beta.tome.app/ Colab 注意 今回のシステムはOpenAIのAPIキー、Google CloudのプロジェクトIDを必要とします 処理毎にCloud StorageのBucketを作成します 不要になり次第こちらから削
こんにちは!逆瀬川 ( https://twitter.com/gyakuse ) です! 今日は英語のYouTube動画を日本語字幕を自動でつける方法を紹介します。 作成した動画 概要 英語の動画をYouTubeからダウンロードしてWhisperで書き起こしを行い、翻訳して字幕付けを行います。 この手法を使えば、そもそも日本語動画の字幕付け・切り抜き等も自動化できるのでおすすめです。 なお、本稿で扱う動画はクリエイティブ・コモンズライセンスとなっております(Joshua Davisさんに深く感謝いたします)。 処理の流れ 動画をダウンロードする 音声をダウンロードする 音声からWhisperで書き起こしを行う MoviePyを使って字幕をつける Colab Whisperを用いるため、GPUランタイム必須です(長い動画はハイメモリにしないと死ぬかも) 使い方 Google Driveに保
こんにちは!逆瀬川 (https://twitter.com/gyakuse)です! 今日は議事録の音声からの書き出しとサマリの自動生成を行います。 概要 会議音声(wavとかmp3ファイル)からWhisperを用いて書き出しを行い、GPT-3.5でサマリを自動生成します。 会議音声としていますが、べつにどんな音声でも大丈夫です。 Colab whisper.cpp版(処理に動画秒数×10倍程度の時間がかかりますがGPU不要です) whisper.fp16版(処理は動画秒数/4程度の時間で済みますがGPU必須です) 使い方 OpenAIのAPIキーを貼り付け ランタイム > すべてのセルを実行から実行し、最初の処理の下に出てくるファイル選択で録音ファイルを選択します ひたすら待ちます 実装 Whisperの軽量化 Whisperの軽量化としては、cpp実装のwhisper.cppがあります
こんにちは!逆瀬川 ( https://twitter.com/gyakuse ) です! 今日は論文をGPT-3.5系API用いて要約してみようと思います。 プロンプトエンジニアリングの参考にもなるかもしれません。 論文全体の自動翻訳はこちら: ※OpenAI GPT-3.5シリーズには code-davinci-002, text-davinci-002, text-davinci-003 が含まれます (https://platform.openai.com/docs/model-index-for-researchers) 概要 主にArXivに投稿されている英語論文を セクション単位 で要約するものです。 文章抽出には今回はGROBIDを用い、要約にはGPT-3.5を使います。 OpenAI APIについて サインアップ https://platform.openai.com/
こんにちは!逆瀬川 ( https://twitter.com/gyakuse ) です。 今日は英語論文をサクッと翻訳する方法を共有します。 素晴らしい事前学習済みモデルの恩恵で素人でも1時間程度で実装できてしまいます。 なお、実装めちゃ汚いのですが、そのあたりはご容赦ください。 論文以外の文字埋め込みのないpdfを翻訳したい場合はこちらを参考にしてください: 論文全体の自動要約についてはこちら: 概要 翻訳モデル、レイアウト検知ライブラリとpdfを操作するライブラリを用いて外国語で書かれたpdfファイルを翻訳します。 翻訳にはフリーのニューラル機械翻訳モデルFuguMTを使用します。 この手法の嬉しさ DeepLおよびDeepL APIではpdf翻訳がサポートされていますが、行の切り替わりで別の文章と認識されることが多く、途中までの文章で翻訳されるため精度が落ちてしまいます この手法で
こんにちは!sakasegawaです! ( https://twitter.com/gyakuse ) ChatGPTについて、これ前提として知っておくと便利だなーってことをまとめました! ChatGPTについて 言語モデル的特徴 ChatGPTで使われているGPT-3(正確には3.5シリーズ)は膨大なデータをもとに作られた言語モデルです。 GPT-3ではCommonCrawl、WebText 等のデータセットをもとに学習したModelが使われていて、CommonCrawlが60%程度を占めています。CommonCrawlでは、英語が50%程度に対し、日本語の含有率は5%程度となり、日本語に対してはナレッジベースとしての性能が低くなります(単純に1/10の性能とまではいかないと思います. 体感で半分くらいの性能) また、Transformer型(要は古代ツイッタラーにわかりやすくいうと超す
こんにちは!sakasegawaです! ( https://twitter.com/gyakuse ) 今日は今流行のChatGPTについて紹介します! ChatGPTとは OpenAIが開発するGPT-3(※)というめちゃくちゃすごい言語モデルをベースとしたチャットアプリです。 色んな質問にすぐ答えてくれます。 この記事ではさまざまな使い方を紹介します。 https://chat.openai.com/ ちなみにGPT-3関連では、noteの以下記事も便利なのでぜひ読んでみてください AIがコミットメッセージ自動生成!神ツール『auto-commit』『commit-autosuggestions』の紹介 ※正確にはGPT-3.5シリーズと呼ばれています ChatGPTの仕組みを考えながらプロンプトを作る手法はこちらに別途まとめています 文章 質問-応答 〜について教えて Wikiped
このページを最初にブックマークしてみませんか?
『@sakasegawaのマイページ - Qiita』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く