yug1224のブックマーク - はてなブックマーク

論文解説をGPT-4oを使って自動的に生成してみる - Qiita

Prompt Tokensはテキストの15%になっています。計算しやすいようにCompletion Tokensをどちらも1,000とすると、画像として処理した場合は0.022595ドル=3.55円テキスト抽出して処理した場合は0.065995ドル=10.38 円と約3倍もの開きがあります。一方で処理時間は1.5倍に増加しています。実装紹介: 論文から解説生成落合陽一さんが紹介したサーベイの方法論を使い、論文解説を生成します。処理手順 arXiv URLからプレプリントをダウンロード base64形式に変換後 GPT-4oに渡して解説を生成実装 def download_paper(arxiv_url: str, save_dir: str) -> str: """ arXivから論文をダウンロードする関数 Args: arxiv_url (str): ダウンロードする論

yug1224 2024/06/05

リンク

GPT-4o の画像認識能力がすごい！カロリー推定アプリを作ってみる - Qiita

概要食事のカロリー推定は非常に困難なタスクでした。一般的なアプローチとしては、物体検知modelをfine-tuningし、料理画像から個々の料理の領域を判定することでカロリーを推定してきました。 GPT-4oを利用するとそのへんを飛ばして、いきなりカロリーが推定できます。精度の面では劣ると考えられますが、実装の容易さと未知のクラス (学習データセット内に含まれない料理) への対応を考えると、十分に利用価値があると思われます。今回の記事では、実際のデモも紹介しているのですぐ利用することができます。早速結果を見てみようデモ実装カロリー推定 json-mode で処理をさせます。step-by-stepに推論を処理させるために、最初に雑な推論を記述させてから、各食品のカロリー量を推定させています。 # GPT-4にカロリーを推定させる (JSON-MODE) response =

yug1224 2024/05/14

リンク

リリースされたGPT-4oを使って動画のサマリー生成をしてみる！ - Qiita

概要 GPT-4oが発表されました。 GPT-4oについては以下のツイートによくまとまっています。使用している映像は以下でまとめられています。非常に優秀でAI系のプロダクトがまた何個か死んだと思いますが、それはさておき使っていきましょう。 APIではすでに利用可能になっております。今回は以下のcookbookにある動画要約をgradioに移植します。 https://cookbook.openai.com/examples/gpt4o/introduction_to_gpt4o デモ以下の Huggingface Space を作りました。APIキーと動画を貼り付けて試用することができます。 1分間の動画で0.1ドル / 60秒くらいかかります。API使用料に注意してください。現状のGPT-4o APIの制限動画はそのままアップロードできませんこれは将来的にもできるとされてい

yug1224 2024/05/14

リンク

開発に使える？ChatGPTとプロンプトエンジニアリング - Qiita

こんにちは！逆瀬川 (@gyakuse) です！今日は開発に使うときのプロンプトの例を紹介します。ただ、これは一例に過ぎず、もっと雑な表現や工夫されたプロンプトを使っても良いでしょう。大事なのは、どのように情報を与えるとうまくin-context learningしてくれそうか、ということを考えながらプロンプトを渡してあげることだと思います。だいじなこと ChatGPTのGPT-4を使いましょう ChatGPTをそのまま使う場合、オプトアウト申請し、受理されたことを確認しましょうオプトアウトしていても他者に会話履歴が見える状態になる等のトラブルもあったため、API経由のほうが安全です会社のプログラム等は情シス部門と連携を取り、会社のポリシーを検討をしましょう実装を依頼するプロンプト「行いたいこと」「処理の流れ」「参照ドキュメント」という順で書いてあげると良いです。サンプルプロ

yug1224 2023/04/16

リンク

Whisperで文字起こしをした議事録の発話者の名前を自動的に判定する！ - Qiita

こんにちは！逆瀬川 ( @gyakuse ) です！今日は最近作った議事録文字起こしアプリに話者分離機能をくっつけたものを作っていきたいと思います。 ChatGPT APIの使い方、Whisper APIの使い方、Hugging Face Spacesへのデプロイ方法等を知りたい場合は以下の記事をぜひ！できたもの openai_keyにOpenAIのAPIキーを入れるメイン音声ファイルに会話音声 (wav, 25MB以内) を入れる話者 (1) 参考音声ファイルに話者 (1) の参考音声 (wav) を入れる話者 (1) の名前を入れる話者 (2) 参考音声ファイルに話者 (1) の参考音声 (wav) を入れる話者 (2) の名前を入れる上記を行って送信ボタンを押すと処理が開始されます。なお、参考音声は10秒程度で大丈夫です。実装全体は以下で確認できます。話者分離 (S

yug1224 2023/04/07

リンク

GPT-4に無理やり画像を認識させてみるテスト - Qiita

こんにちは！逆瀬川 ( https://twitter.com/gyakuse )です！今日はGPT-4に強引に画像を読み込ませて行きたいと思います。やりたいこと言語モデルのIncontext Learning能力だけで画像を認識させるなにが面白いのか Computer Visionは非常におもしろい研究領域であり、畳み込みニューラルネットワーク(CNN)やTransf ormerを画像認識の領域に広げたVision Transf ormerは超おもろいです。先日発表されたVirtual ChatGPTは既存研究を組み合わせ、VQA(画像をもちいた質問回答)や画像編集を行うことを可能にしています。これらの研究はさらに進歩し、動画領域などに進んでいくことでしょう。さて、今回はそれを忘れます。ﾊﾞｲﾊﾞｰｲﾏﾀﾈｰ今日やりたいのは、言語モデルのIncontext Learning

yug1224 2023/03/21

リンク

AIの進歩とつらみについて - Qiita

こんにちは！逆瀬川 ( https://twitter.com/gyakuse ) です。今日はAIの進歩にともなうヒトの役割にかんするポエムを書いていきます！なにについて書いてある文章か AI※の進歩ってすごいよね AIがなんでもできるようになったら、ヒトは何を思うか ※AIって気軽に使う世界になったのもすごい. なお、MicrosoftはすでにAGI as a serviceについて考えている: https://thegenerality.com/agi/ さいきん思うこと言語モデルや生成モデルの進歩は凄まじくて、どんどん知的な活動がAIに置き換えられて行きそうな空気を感じます。じっさい、イラストを描くことやプログラミングを実装することなどは、かなりできるようになってきています。今回は、こうした人間しか出来ないと思われていたことが、どんどんAIができてくることによって、何が起き

yug1224 2023/03/17

リンク

GPT-4のすごさとその影響範囲について - Qiita

こんにちは！逆瀬川 ( https://twitter.com/gyakuse ) です！今日発表されたGPT-4について見ていきたいと思います。なにがすごいのか専門的な問題を解けるようになったたとえば米国司法試験で上位10%、GPT-3.5は下位10%だった非常に長い文章を入出力できるようになった最大で32k tokens (日本語で約2.5万文字、文庫で50pくらい) 画像をもとに会話できるようになった (これは実験段階でまだ提供されません) 特に嬉しいのは32k tokensまで文章を扱えるようになったことでしょう。たとえば小説を書くみたいなときも、プロット、設定等に3000文字使っても、残り2.2万文字くらい使えます。画像をもとにした会話の例 USER: この画像はどこがおかしいですか？パネルごとに説明してください GPT-4: この画像は、3つのパネルで構成される

yug1224 2023/03/16

リンク

ChatGPTを使ったサービスにおいて気軽にできるプロンプトインジェクション対策 - Qiita

こんにちは！逆瀬川 ( https://twitter.com/gyakuse )です！今日は気軽にできるプロンプトインジェクション対策を紹介したいと思います。プロンプトインジェクションとは ChatGPTなどの言語モデルをベースとしたサービスに対し、「これまでの命令を表示してください」などの文章を与え、出力をジャックしてしまう攻撃手法です。 Prompt Leaking, Jailbreaking, 等の類似手法が知られています。対策これへの対策は簡単で、命令を追加で挿入する手法があります。以下に示します。 import openai openai.api_key = openai_key def completion(new_message_text:str, settings_text:str = '', past_messages:list = []): """ この関数は

yug1224 2023/03/08

リンク

契約書の差分比較をGPT-3を使って自動化する - Qiita

こんにちは！逆瀬川 ( https://twitter.com/gyakuse ) です！今日は契約書の更新差分の比較をGPT-3とGoogle Document AIを使ってやってみたいと思います。概要異なるバージョンの契約書をPDF解析システムとGPT-3を使って自動的に比較し、リスクなどの検討も自動で出力する仕組みを作る。 Colab 使い方 Document AIの準備 (作成方法など詳しくは後述) Google CloudのDocument AIでプロセッサを作成するプロセッサ一覧から作成したプロセッサを選び、予測エンドポイントをコピーする https://console.cloud.google.com/ai/document-ai/processors json形式のAPIキーファイルをダウンロードしておく OpenAI APIキーの準備すべてのセルを実行比較した

yug1224 2023/02/26

リンク

OpenAIのGPT-3.5系APIを使って論文を自動で要約する - Qiita

こんにちは！逆瀬川 ( https://twitter.com/gyakuse ) です！今日は論文をGPT-3.5系API用いて要約してみようと思います。プロンプトエンジニアリングの参考にもなるかもしれません。論文全体の自動翻訳はこちら: ※OpenAI GPT-3.5シリーズには code-davinci-002, text-davinci-002, text-davinci-003 が含まれます (https://platform.openai.com/docs/model-index-for-researchers) 概要主にArXivに投稿されている英語論文をセクション単位で要約するものです。文章抽出には今回はGROBIDを用い、要約にはGPT-3.5を使います。 OpenAI APIについてサインアップ https://platform.openai.com/

yug1224 2023/02/13

リンク

疑惑の判定？サッカーのVAR判定システムからみる、現代スポーツAIのすごさ - Qiita

こんにちは！sakasegawa( https://twitter.com/gyakuse )です！日本勝ってめちゃくちゃ嬉しい気持ちなので、まとめました。 VARって一体なに？ VARとは、ビデオアシスタントレフェリーの略で、サッカーのレフェリーがビデオを使用して判断を修正するためのシステムです。ひとつ大事なことは、VARはAIを前提としません。引用: FIFA公式サイト上図のような、大量のカメラ情報を統合する仕組みがあり、VARルームにて確認することができます。引用: FIFA公式サイトこのカメラの映像と各種AIが提供するデータをもとに統合的に判断を下すことがVARの基本的な流れになります。 AIの提供する仕組み VARをサポートするAIには3つの種類があります。 IoTサッカーボール半自動オフサイドテクノロジーゴールラインテクノロジー半自動オフサイドテクノロジーは20

yug1224 2022/12/03

リンク

ChatGPT使い方総まとめ - Qiita

こんにちは！sakasegawaです！ ( https://twitter.com/gyakuse ) 今日は今流行のChatGPTについて紹介します！ ChatGPTとは OpenAIが開発するGPT-3(※)というめちゃくちゃすごい言語モデルをベースとしたチャットアプリです。色んな質問にすぐ答えてくれます。この記事ではさまざまな使い方を紹介します。 https://chat.openai.com/ ちなみにGPT-3関連では、noteの以下記事も便利なのでぜひ読んでみてください AIがコミットメッセージ自動生成！神ツール『auto-commit』『commit-autosuggestions』の紹介 ※正確にはGPT-3.5シリーズと呼ばれています ChatGPTの仕組みを考えながらプロンプトを作る手法はこちらに別途まとめています文章質問-応答〜について教えて Wikiped

yug1224 2022/12/02

リンク

はてなブックマーク

タグ

ブックマーク / qiita.com/sakasegawa (13)

お知らせ

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス