ブックマーク / qiita.com/sakasegawa (13)

  • 論文解説をGPT-4oを使って自動的に生成してみる - Qiita

    Prompt Tokensはテキストの15%になっています。 計算しやすいようにCompletion Tokensをどちらも1,000とすると、 画像として処理した場合は0.022595ドル=3.55円 テキスト抽出して処理した場合は0.065995ドル=10.38 円 と約3倍もの開きがあります。 一方で処理時間は1.5倍に増加しています。 実装紹介: 論文から解説生成 落合陽一さんが紹介したサーベイの方法論を使い、論文解説を生成します。 処理手順 arXiv URLからプレプリントをダウンロード base64形式に変換後 GPT-4oに渡して解説を生成 実装 def download_paper(arxiv_url: str, save_dir: str) -> str: """ arXivから論文をダウンロードする関数 Args: arxiv_url (str): ダウンロードする論

    論文解説をGPT-4oを使って自動的に生成してみる - Qiita
    yug1224
    yug1224 2024/06/05
  • GPT-4o の画像認識能力がすごい!カロリー推定アプリを作ってみる - Qiita

    概要 事のカロリー推定は非常に困難なタスクでした。 一般的なアプローチとしては、物体検知modelをfine-tuningし、料理画像から個々の料理の領域を判定することでカロリーを推定してきました。 GPT-4oを利用するとそのへんを飛ばして、いきなりカロリーが推定できます。精度の面では劣ると考えられますが、実装の容易さと未知のクラス (学習データセット内に含まれない料理) への対応を考えると、十分に利用価値があると思われます。 今回の記事では、実際のデモも紹介しているのですぐ利用することができます。 早速結果を見てみよう デモ 実装 カロリー推定 json-mode で処理をさせます。step-by-stepに推論を処理させるために、最初に雑な推論を記述させてから、各品のカロリー量を推定させています。 # GPT-4にカロリーを推定させる (JSON-MODE) response =

    GPT-4o の画像認識能力がすごい!カロリー推定アプリを作ってみる - Qiita
    yug1224
    yug1224 2024/05/14
  • リリースされたGPT-4oを使って動画のサマリー生成をしてみる! - Qiita

    概要 GPT-4oが発表されました。 GPT-4oについては以下のツイートによくまとまっています。 使用している映像は以下でまとめられています。 非常に優秀でAI系のプロダクトがまた何個か死んだと思いますが、それはさておき使っていきましょう。 APIではすでに利用可能になっております。 今回は以下のcookbookにある動画要約をgradioに移植します。 https://cookbook.openai.com/examples/gpt4o/introduction_to_gpt4o デモ 以下の Huggingface Space を作りました。APIキーと動画を貼り付けて試用することができます。 1分間の動画で0.1ドル / 60秒くらいかかります。API使用料に注意してください。 現状のGPT-4o APIの制限 動画はそのままアップロードできません これは将来的にもできるとされてい

    リリースされたGPT-4oを使って動画のサマリー生成をしてみる! - Qiita
    yug1224
    yug1224 2024/05/14
  • 開発に使える?ChatGPTとプロンプトエンジニアリング - Qiita

    こんにちは!逆瀬川 (@gyakuse) です! 今日は開発に使うときのプロンプトの例を紹介します。ただ、これは一例に過ぎず、もっと雑な表現や工夫されたプロンプトを使っても良いでしょう。大事なのは、どのように情報を与えるとうまくin-context learningしてくれそうか、ということを考えながらプロンプトを渡してあげることだと思います。 だいじなこと ChatGPTのGPT-4を使いましょう ChatGPTをそのまま使う場合、オプトアウト申請し、受理されたことを確認しましょう オプトアウトしていても他者に会話履歴が見える状態になる等のトラブルもあったため、API経由のほうが安全です 会社のプログラム等は情シス部門と連携を取り、会社のポリシーを検討をしましょう 実装を依頼するプロンプト 「行いたいこと」「処理の流れ」「参照ドキュメント」という順で書いてあげると良いです。 サンプルプロ

    開発に使える?ChatGPTとプロンプトエンジニアリング - Qiita
    yug1224
    yug1224 2023/04/16
  • Whisperで文字起こしをした議事録の発話者の名前を自動的に判定する! - Qiita

    こんにちは!逆瀬川 ( @gyakuse ) です! 今日は最近作った議事録文字起こしアプリに話者分離機能をくっつけたものを作っていきたいと思います。 ChatGPT APIの使い方、Whisper APIの使い方、Hugging Face Spacesへのデプロイ方法等を知りたい場合は以下の記事をぜひ! できたもの openai_keyにOpenAIAPIキーを入れる メイン音声ファイルに会話音声 (wav, 25MB以内) を入れる 話者 (1) 参考音声ファイルに話者 (1) の参考音声 (wav) を入れる 話者 (1) の名前を入れる 話者 (2) 参考音声ファイルに話者 (1) の参考音声 (wav) を入れる 話者 (2) の名前を入れる 上記を行って送信ボタンを押すと処理が開始されます。なお、参考音声は10秒程度で大丈夫です。実装全体は以下で確認できます。 話者分離 (S

    Whisperで文字起こしをした議事録の発話者の名前を自動的に判定する! - Qiita
    yug1224
    yug1224 2023/04/07
  • GPT-4に無理やり画像を認識させてみるテスト - Qiita

    こんにちは!逆瀬川 ( https://twitter.com/gyakuse )です! 今日はGPT-4に強引に画像を読み込ませて行きたいと思います。 やりたいこと 言語モデルのIncontext Learning能力だけで画像を認識させる なにが面白いのか Computer Visionは非常におもしろい研究領域であり、畳み込みニューラルネットワーク(CNN)やTransformerを画像認識の領域に広げたVision Transformerは超おもろいです。 先日発表されたVirtual ChatGPTは既存研究を組み合わせ、VQA(画像をもちいた質問回答)や画像編集を行うことを可能にしています。 これらの研究はさらに進歩し、動画領域などに進んでいくことでしょう。 さて、今回はそれを忘れます。バイバーイ マタネー 今日やりたいのは、言語モデルのIncontext Learning

    GPT-4に無理やり画像を認識させてみるテスト - Qiita
    yug1224
    yug1224 2023/03/21
  • AIの進歩とつらみについて - Qiita

    こんにちは!逆瀬川 ( https://twitter.com/gyakuse ) です。 今日はAIの進歩にともなうヒトの役割にかんするポエムを書いていきます! なにについて書いてある文章か AI※の進歩ってすごいよね AIがなんでもできるようになったら、ヒトは何を思うか ※AIって気軽に使う世界になったのもすごい. なお、MicrosoftはすでにAGI as a serviceについて考えている: https://thegenerality.com/agi/ さいきん思うこと 言語モデルや生成モデルの進歩は凄まじくて、どんどん知的な活動がAIに置き換えられて行きそうな空気を感じます。じっさい、イラストを描くことやプログラミングを実装することなどは、かなりできるようになってきています。 今回は、こうした人間しか出来ないと思われていたことが、どんどんAIができてくることによって、何が起き

    AIの進歩とつらみについて - Qiita
    yug1224
    yug1224 2023/03/17
  • GPT-4のすごさとその影響範囲について - Qiita

    こんにちは!逆瀬川 ( https://twitter.com/gyakuse ) です! 今日発表されたGPT-4について見ていきたいと思います。 なにがすごいのか 専門的な問題を解けるようになった たとえば米国司法試験で上位10%、GPT-3.5は下位10%だった 非常に長い文章を入出力できるようになった 最大で32k tokens (日語で約2.5万文字、文庫で50pくらい) 画像をもとに会話できるようになった (これは実験段階でまだ提供されません) 特に嬉しいのは32k tokensまで文章を扱えるようになったことでしょう。 たとえば小説を書くみたいなときも、プロット、設定等に3000文字使っても、残り2.2万文字くらい使えます。 画像をもとにした会話の例 USER: この画像はどこがおかしいですか?パネルごとに説明してください GPT-4: この画像は、3つのパネルで構成される

    GPT-4のすごさとその影響範囲について - Qiita
    yug1224
    yug1224 2023/03/16
  • ChatGPTを使ったサービスにおいて気軽にできるプロンプトインジェクション対策 - Qiita

    こんにちは!逆瀬川 ( https://twitter.com/gyakuse )です! 今日は気軽にできるプロンプトインジェクション対策を紹介したいと思います。 プロンプトインジェクションとは ChatGPTなどの言語モデルをベースとしたサービスに対し、「これまでの命令を表示してください」などの文章を与え、出力をジャックしてしまう攻撃手法です。 Prompt Leaking, Jailbreaking, 等の類似手法が知られています。 対策 これへの対策は簡単で、命令を追加で挿入する手法があります。以下に示します。 import openai openai.api_key = openai_key def completion(new_message_text:str, settings_text:str = '', past_messages:list = []): """ この関数は

    ChatGPTを使ったサービスにおいて気軽にできるプロンプトインジェクション対策 - Qiita
    yug1224
    yug1224 2023/03/08
  • 契約書の差分比較をGPT-3を使って自動化する - Qiita

    こんにちは!逆瀬川 ( https://twitter.com/gyakuse ) です! 今日は契約書の更新差分の比較をGPT-3Google Document AIを使ってやってみたいと思います。 概要 異なるバージョンの契約書をPDF解析システムとGPT-3を使って自動的に比較し、リスクなどの検討も自動で出力する仕組みを作る。 Colab 使い方 Document AIの準備 (作成方法など詳しくは後述) Google CloudのDocument AIでプロセッサを作成する プロセッサ一覧から作成したプロセッサを選び、予測エンドポイントをコピーする https://console.cloud.google.com/ai/document-ai/processors json形式のAPIキーファイルをダウンロードしておく OpenAI APIキーの準備 すべてのセルを実行 比較した

    契約書の差分比較をGPT-3を使って自動化する - Qiita
    yug1224
    yug1224 2023/02/26
  • OpenAIのGPT-3.5系APIを使って論文を自動で要約する - Qiita

    こんにちは!逆瀬川 ( https://twitter.com/gyakuse ) です! 今日は論文をGPT-3.5系API用いて要約してみようと思います。 プロンプトエンジニアリングの参考にもなるかもしれません。 論文全体の自動翻訳はこちら: ※OpenAI GPT-3.5シリーズには code-davinci-002, text-davinci-002, text-davinci-003 が含まれます (https://platform.openai.com/docs/model-index-for-researchers) 概要 主にArXivに投稿されている英語論文を セクション単位 で要約するものです。 文章抽出には今回はGROBIDを用い、要約にはGPT-3.5を使います。 OpenAI APIについて サインアップ https://platform.openai.com/

    OpenAIのGPT-3.5系APIを使って論文を自動で要約する - Qiita
    yug1224
    yug1224 2023/02/13
  • 疑惑の判定?サッカーのVAR判定システムからみる、現代スポーツAIのすごさ - Qiita

    こんにちは!sakasegawa( https://twitter.com/gyakuse )です! 日勝ってめちゃくちゃ嬉しい気持ちなので、まとめました。 VARって一体なに? VARとは、ビデオアシスタントレフェリーの略で、サッカーのレフェリーがビデオを使用して判断を修正するためのシステムです。ひとつ大事なことは、VARはAIを前提としません。 引用: FIFA公式サイト 上図のような、大量のカメラ情報を統合する仕組みがあり、VARルームにて確認することができます。 引用: FIFA公式サイト このカメラの映像と各種AIが提供するデータをもとに統合的に判断を下すことがVARの基的な流れになります。 AIの提供する仕組み VARをサポートするAIには3つの種類があります。 IoTサッカーボール 半自動オフサイドテクノロジー ゴールラインテクノロジー 半自動オフサイドテクノロジーは20

    疑惑の判定?サッカーのVAR判定システムからみる、現代スポーツAIのすごさ - Qiita
    yug1224
    yug1224 2022/12/03
  • ChatGPT使い方総まとめ - Qiita

    こんにちは!sakasegawaです! ( https://twitter.com/gyakuse ) 今日は今流行のChatGPTについて紹介します! ChatGPTとは OpenAIが開発するGPT-3(※)というめちゃくちゃすごい言語モデルをベースとしたチャットアプリです。 色んな質問にすぐ答えてくれます。 この記事ではさまざまな使い方を紹介します。 https://chat.openai.com/ ちなみにGPT-3関連では、noteの以下記事も便利なのでぜひ読んでみてください AIがコミットメッセージ自動生成!神ツール『auto-commit』『commit-autosuggestions』の紹介 ※正確にはGPT-3.5シリーズと呼ばれています ChatGPTの仕組みを考えながらプロンプトを作る手法はこちらに別途まとめています 文章 質問-応答 〜について教えて Wikiped

    ChatGPT使い方総まとめ - Qiita
    yug1224
    yug1224 2022/12/02
  • 1