並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 45件

新着順 人気順

GPT-4Vの検索結果1 - 40 件 / 45件

  • GPT-4Vができることをまとめてみた - 電通総研 テックブログ

    こんにちは。ISID 金融ソリューション事業部の若本です。 先日、GPT-4から発展し、画像も扱うことができるGPT-4 with vision(GPT-4V)が発表されました。GPT-4Vは大規模マルチモーダルモデル(LMMs: Large multimodal models)と呼ばれるAIモデルの一種であり、GPT-4の入力として「画像」を拡張したものになります。 今日は Microsoft Researchの論文[1]を中心に、Open AIの発表したSystem Card[2]も踏まえ、GPT-4Vでできることや苦手とすること、そして実用上の制限について解説します。 GPT-4Vの特徴 ① 画像とテキストを入力にできる GPT-4Vでは、GPT-4のテキスト入力に加えて画像も入力することが可能になりました。 画像は複数枚入力することが可能であり、かつ、画像とテキストを任意に交互に組

      GPT-4Vができることをまとめてみた - 電通総研 テックブログ
    • GPT-4V: 驚きを隠せない進化!凄すぎて"ズキズキワクワク"が止まりません!!! - Qiita

      この記事で行なっていること 凄すぎて”ズキズキワクワク"が止まりません はじめに ついこの間、ChatGPTは2022年1月までの情報を学習した、というい発表がありましたが、さらに今回のアップデートで 画像解析機能(GPT-4V) が追加され、アップロードした画像を使った新たなタスクの実行が可能になってます。そして、それが凄すぎます 衝撃的な投稿 まずはこちらの衝撃的な投稿をご覧ください。 動画は自転車の画像と共に「サドルを下げる手助けをしてください」で始まります。 ChatGPTからレコメンドが返ってきますが、それに対して、質問者は追加で ポイントになりそうな部分を拡大してアップロード マニュアルと自分の持っているツールの写真もアップロード します。 その結果、その質問者は、サドルを下げることに成功!そんな内容です。 自分の環境で、画像解析機能(GPT-4V)を使えるのか? さて、画像解

        GPT-4V: 驚きを隠せない進化!凄すぎて"ズキズキワクワク"が止まりません!!! - Qiita
      • AIの進化が止まらない→スクショを送るだけでゲームも作れる、バグも修正できる、宿題もやってくれる、認証システムも…… 【GPT-4V 使用例】

        Barnacules Nerdgasm @Barnacules I just got ChatGPT to write me an entire Tetris clone with animated 3D starfield in the background with scoring mechanics and sudo 3D effect on blocks. I want to make it clear I didn't write a single piece of code, only copied and pasted after telling it to add each feature! 😎 pic.twitter.com/hnoaN5uiwV 2023-10-17 11:07:36 Barnacules Nerdgasm @Barnacules Now I have

          AIの進化が止まらない→スクショを送るだけでゲームも作れる、バグも修正できる、宿題もやってくれる、認証システムも…… 【GPT-4V 使用例】
        • AWSの構成図をChatGPT(GPT-4V)に読み込ませてIaCコードを生成してみた | DevelopersIO

          こんにちは、つくぼし(tsukuboshi0755)です! 最近ChatGPTがGPT-4Vを発表し、AI業界がさらに盛り上がりを見せてますね。 GPT-4Vを用いる事で、ChatGPTがユーザ側から入力された画像を読み取った上で、応答を返してくれるようになります。 GPT-4V(ision) system card この機能追加により、なんと以下のようにAWSの構成図を読み取って、IaCコードを生成できる事が話題になっていました。 本日をもって引退します pic.twitter.com/fygAQDQ5kj — 電気ひつじ(onoteru) (@teru0x1) October 13, 2023 これを見て私もGPT-4Vを試してみたくなったので、今回はChatGPTを使って、様々なAWSの構成図を入力し、どこまで正確にIaCコードを生成できるか確認してみます! GPT-4Vを利用する際

            AWSの構成図をChatGPT(GPT-4V)に読み込ませてIaCコードを生成してみた | DevelopersIO
          • 【GPT-4V APIのおすすめ活用事例】OpenAIの最新モデルを使ったヤバい使い方10選 | WEEL

            みなさん、API経由でGPT-4Vが使えるようになったのはご存知ですか? その名も「GPT-4V API」というモデル名なのですが、GitHubでスター10,000超えのAIツール・tldrawに採用されています。 このGPT-4V APIは、アプリ・サービスに目を与えてくれるすぐれものなんです! 当記事では、そんなGPT-4V APIの活用事例のうち、SNSでバズったものだけを10個ピックアップしました。 最後まで読んでいただくと、APIで作れるアプリ・サービスのレパートリーが増えるかもしれません。ぜひ最後までお読みくださいね! GPT-4V APIとは?概要を紹介 「GPT-4V API」はChatGPT APIのなかで唯一、画像入力に対応しているモデルです。アプリやWebサービス上からGPT-4モデルへの画像の転送を実現してくれます。 その利用料金については、画像サイズに依存するのが

            • ChatGPTのGPT-4Vを使ってSQL文を画像から作成する - Taste of Tech Topics

              igaです。 ポケモンsleepを継続していますが、カビゴン評価がマスターになれません。 ChatGPTが見たり、聞いたり、話したりできるようになる、と言われている「GPT-4 with vision (GPT-4V)」が使えるようになったので、早速使ってみたいと思います。 openai.com 今回は、データベースのテーブル関連図を画像ファイルでもらった想定で、画像からテーブルのDDLが生成できるかを確認してみます。 やりたいこと 以下のような、テーブルの関連図とサンプルデータが描かれた画像ファイルをもらいました。 この画像ファイルをChatGPT-4に渡して、SQLのDDLが生成できるか確認します。 画像を解釈できるか確認する いきなりDDLを作らせる前に、まずは画像ファイルに書かれたテーブル構造を、マークダウンで出力してもらいます。 プロンプトの入力欄の左に絵のアイコン(画像の赤で囲

                ChatGPTのGPT-4Vを使ってSQL文を画像から作成する - Taste of Tech Topics
              • GPT4-Vの100分の1のサイズで同等の性能を誇るマルチモーダルモデル「Llama 3-V」が登場、トレーニング費用はたった8万円

                画像認識が可能なオープンソースモデルの「Llama 3-V」が公開されました。Llama 3-Vは、OpenAIのマルチモーダルモデル「GPT4-V」よりも格段に小型で、事前トレーニングにかかる費用は500ドル(約78000円)程度なのにもかかわらず、ほとんどの指標で同等のパフォーマンスを示しています。 Llama 3-V: Matching GPT4-V with a 100x smaller model and 500 dollars | by Aksh Garg | May, 2024 | Medium https://aksh-garg.medium.com/llama-3v-building-an-open-source-gpt-4v-competitor-in-under-500-7dd8f1f6c9ee 今回発表されたLlama 3-Vは、 Metaが公開した言語モデルの「L

                  GPT4-Vの100分の1のサイズで同等の性能を誇るマルチモーダルモデル「Llama 3-V」が登場、トレーニング費用はたった8万円
                • OpenAI、ChatGPTが画像を分析する『GPT-4V(ビジョン)』を発表。安全性、嗜好性、福祉機能を強化 | AIDB

                  OpenAIが最近リリースしたGPT-4V(ビジョン)は、従来のChatGPTが持っていたテキスト処理能力に加え、画像分析機能を備えています。この進化において、GPT-4Vは「画像処理の安全性能」と「嗜好性の学習」が強化されています。また、DALL-E3との連携においても非常に有用であると期待されます。 なお、本技術によって実現される「見る」に加え、ChatGPTは「聞く」、「話す」ことができるようにもなります。(9/25より)2週間かけて、PlusユーザーはChatGPTに画像を見てもらったり音声で会話できるようになります(iOS & Android)。 関連研究 ChatGPTの”ふるまいの変化”を定量的に分析した結果 OpenAI、大規模言語モデルの数学能力を大きく向上させることに成功 GPT-4を使用した知的労働者のパフォーマンスは軒並み向上し、もとの成績が良くないほど顕著。※注意

                    OpenAI、ChatGPTが画像を分析する『GPT-4V(ビジョン)』を発表。安全性、嗜好性、福祉機能を強化 | AIDB
                  • GPT-4V x LINE Bot を Cloudflare Workers で実現するためにやったこと・やらなかったこと - hatappi.blog

                    この記事では OpenAI が提供する Vision API (GPT-4V) を使用して、LINE に投稿した画像に反応する Bot を作成した際にやったこと・やらなかったことを書いています。 Bot の実装を細かく解説はしていないので、それを知りたい方は「ChatGPT LINE」などでググると参考になる良い記事が沢山でてくるのでそちらを参照してください! モチベーション LINE Bot は昔実装したものがありグループ LINE で身の回りのあれこれを通知する君になっていました。機能としては通知のみだったので何か反応してほしいなーと思ったのが最初のきっかけでした。冬休みで時間もあったので OpenAI 周りのプロダクトを整理するためにドキュメントを一通り見てその中から Vison API を使えば画像にも反応できる Bot にもなり面白そうなことがわかったのでガッと実装することにしま

                      GPT-4V x LINE Bot を Cloudflare Workers で実現するためにやったこと・やらなかったこと - hatappi.blog
                    • GPT-4Vのモデルを利用してOCRできるか試してみた - Taste of Tech Topics

                      こんにちは、安部です。 気温の上下に翻弄されて最近風邪をひいてしまいましたが、皆さま元気にお過ごしでしょうか。 今回は、GPT-4Vのモデルを利用して、OCRができるか試していきます。 GPT-4Vによって、「ChatGPTに目ができた」などと騒がれましたが、文字認識はどれくらいできるのでしょうか? 得意分野ではなさそうですが、GPTも進化が目覚ましいので分かりませんね。 検証では、日本語(漢字/ひらがな/カタカナ)・英語の2言語で精度など比較していきます。 また、手書き・活字での違いも見ていきましょう。 一番簡単に試せるChatGPT(Web版)でOCRをさせようとするとエラーになることが多かったので、 ここではAPIを使っていくこととします。 APIを呼び出すプログラム 以下のコードを使い、gpt-4-vision-previewというモデルを呼び出しています。 画像は個人のgithu

                        GPT-4Vのモデルを利用してOCRできるか試してみた - Taste of Tech Topics
                      • 米Apple、iPhoneのUIを理解するモバイル専用AI言語モデル「Ferret-UI」発表 GPT-4V越えの性能

                        このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 X: @shiropen2 米Appleに所属する研究者らが発表した論文「Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs」は、iPhoneやAndroidなどのモバイルUI画面をより深く理解し、インタラクションできるように設計されたマルチモーダル大規模言語モデル(MLLM)を提案した研究報告である。 Ferret-UIは、モバイルUIの画面上で、多様な入力形式(点、ボックス、スケッチ)を用いて参照タスク(ウィジェット分類、アイコン認識、OCRなど)を実行し、グラウンディングタスク(ウィジェット検索、

                          米Apple、iPhoneのUIを理解するモバイル専用AI言語モデル「Ferret-UI」発表 GPT-4V越えの性能
                        • ChatGPTが眼を持った!GPT-4Vの衝撃と活用事例50選|ChatGPT研究所

                          2023年9月25日、OpenAIはChatGPTの新機能としてGPT-4Vを公開しました。このアップデートによりChatGPTは画像を読み取りと応答ができるようになり、AIの活用の幅を大きく広げるものとなっています。本記事では、GPT-4Vの使い方と、Xで共有されたGPT-4Vの活用法50選をご紹介します。 使い方ChatGPT Plusに登録が必要です。(ただし、機能は登録ユーザーの中から段階的に提供されているため、すぐに使えない場合があります。) 2 . 左下のカメラのマークからChatGPTに提供したい画像を撮影、または隣の写真のマークをクリックして、カメラロールから画像を選択することもできます。 3 . あとは、ChatGPTに伝えたい内容をテキストで入力するだけです。 さて、ここからはこのGPT-4Vの機能を活用してできること50選をご紹介してきます。それでは早速見ていきましょ

                            ChatGPTが眼を持った!GPT-4Vの衝撃と活用事例50選|ChatGPT研究所
                          • 進化したChatGPT 画像認識・生成可能になったGPT-4Vが凄い

                              進化したChatGPT 画像認識・生成可能になったGPT-4Vが凄い
                            • 【GPT-4V】ChatGPTが画像入力と音声入力に対応!使い方〜実践まで徹底解説 | WEEL

                              2023年9月25日にリリースされた新たな機能で、ChatGPTがついに、目と声を手に入れました。 具体的には、画像解析機能と音声出力機能のAPI「GPT-4V」が追加され、マルチモーダルAIになったとのこと。 要するに、ChatGPTで画像入力と音声出力ができるようになり、今までよりさらに便利になったということですね! 今回はそのGPT-4Vの概要や新機能について、特徴を踏まえながら詳しくご紹介します。ぜひ最後までご覧ください! GPT4Vの概要 GPT-4V(Vision)は、Open AI社が開発した従来のGPT-4に画像解析機能と音声出力機能を持たせたマルチモーダルAIです。マルチモーダルAIとは、複数のデータをもとに情報を集めて、解析・出力を可能とするAIのことです。 つまりGPT-4を搭載したChatGPTに「目」と「声」が実装されたことで、画像・音声・テキストという異なる情報

                              • GPT-4Vを使ってゲーム実況させる - Qiita

                                はじめに GPT-4Vを使ってゲーム実況をさせてみます。 この記事はLLM Advent Calendar 2023の12月14日のアドベントカレンダー記事となります。 解説 以下のようなゲーム実況スクリプトを自動で作成できる状態が、この記事のゴールです。 「お気に入りのゲーム実況をする、超興奮した日本人人気VTuberのスタイルで、短いナレーションスクリプトを作成してください」でゲームプレイ動画をGPT-4Vに入れてみました。GPT-4Vやっぱり性能いいなぁ (TTSはvoicevox使用) pic.twitter.com/GR1kcMYENN — inada (@dev_inada) November 7, 2023 コード と言っても、コード自体は数10行で、以下の通り簡単に実装できます。 from IPython.display import display, Image impo

                                  GPT-4Vを使ってゲーム実況させる - Qiita
                                • 画像分析機能を持つオープンソースLLM『LLaVA-1.5』登場。手持ちの画像を分析可能。GPT-4Vとの違い | AIDB

                                  画像分析機能を持つ新しいオープンソースの大規模言語モデル(LLM)「LLaVA-1.5」が登場しました。このモデルは、ウィスコンシン大学とMicrosoftによって開発され、多くの業界と研究者に進展をもたらす可能性があります。 LLaVA-1.5は、GPT-4(V)の競合的なモデルで、視覚と言語の理解において優れたパフォーマンスを発揮します。LLaVA-1.5のデモは公開されており、手持ちの画像を分析させることができます。 参照論文情報 タイトル:Improved Baselines with Visual Instruction Tuning 著者:Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee 所属:University of Wisconsin–Madison, Microsoft Research, Redmond URL:htt

                                    画像分析機能を持つオープンソースLLM『LLaVA-1.5』登場。手持ちの画像を分析可能。GPT-4Vとの違い | AIDB
                                  • GPT-4VのAPIをサクッと使ってみる!|peisuke

                                    概要昨日発表されたGPT-4VのAPI(画像に対して質問を投げることができるAPI)を早速利用してみたので、サクッと使ってみようと思う。 使い方当然ながら、現時点ではLangChainなどのライブラリからは利用できないし、Pythonのライブラリもなさそう(→ありました)。ここに使い方が乗っているので、そのまま使ってみる。ローカルのイメージをbase64エンコードして送る感じらしい。 やってみる今回は、インターネットで検索して出てきた画像に対して、簡単な質問をしてみよう。今後いろんな論文をサクッと実装していきたいと思うのだけど、まずは手始めに早稲田大学の講義のページを使わせてもらいます。制約条件付き最適化の問題を解かせてみようと思います。 https://www.f.waseda.jp/ksuga/2007chap17.pdfよりimport base64 import requests

                                      GPT-4VのAPIをサクッと使ってみる!|peisuke
                                    • Appleの研究者、マルチモーダルLLM「MM1」の論文発表 視覚タスクではGPT-4Vに匹敵

                                      MM1は、画像とテキストのペア、画像とテキストの混合データ、テキストのみのデータの混合でトレーニングされている。Mixture-of-Experts(MoE)や教師あり微調整でパラメータを300億までスケールアップすることで、比較的コンパクトなサイズでも競合するMLLMに匹敵する結果をベンチマークで達成したとしている。 視覚タスクでは、米OpenAIの「GPT-4V」や米Googleの「Gemini」に匹敵している。 MM1のアーキテクチャなどは公開されていない。Appleの研究者らは論文の結論を「ここで得られた知見が、コミュニティが特定の単一モデルアーキテクチャやデータ戦略を超えて、強力なモデルを構築するのに役立つことを願っている」と結んだ。 Appleの研究者らは、昨年12月ごろから複数のLLM関連の論文を発表してきた。 Appleのティム・クックCEOは2月の業績発表で、年内にAI分

                                        Appleの研究者、マルチモーダルLLM「MM1」の論文発表 視覚タスクではGPT-4Vに匹敵
                                      • GPT-4Vの性能テストと様々な活用方法|IT navi

                                        1.画像内容の把握GPT-4Vは、ChatGPTの入力欄の左端に以下のような画像を添付するアイコンが表示されれば、利用することができます。 ChatGPTに画像をアップロードするには、このアイコンをクリックして、アップロードしたい画像ファイルを選択するか、入力欄に画像をそのままコピーしてください。 (1) ジブリ画像の理解ジブリは、公式サイトから沢山の画像をフリー素材として提供しています。 その中から、「千と千尋の神隠し」の以下の画像についてGPT-4に尋ねてみました。 出典:千と千尋の神隠し>この画像の内容を詳しく解説してください。 ChatGPT この画像は、スタジオジブリが制作したアニメ映画『千と千尋の神隠し』の一場面を示しています。 中央に座っている少女は千尋というキャラクターです。彼女は映画の主人公で、このストーリーの中で多くの冒険と成長を経験します。 隣にいる白い顔を持つキャラ

                                          GPT-4Vの性能テストと様々な活用方法|IT navi
                                        • 新モデルの追加と値下げ、ChatGPTのメモリ機能追加、「Sora」の発表… 『OpenAI GPT-4V/ChatGPT/GPTs 人工知能プログラミング実践入門』著者が語る、OpenAIの技術情報 | ログミーBusiness

                                          布留川氏の自己紹介布留川英一氏:それでは始めます。OpenAI本出版記念として、今日は「OpenAI最新技術情報と技術情報キャッチアップ術」について話そうと思います。 最初に簡単に自己紹介をします。名前は布留川英一と申します。ハンドルネームはnpakaでやっています。株式会社ゼルペムに所属していますが、基本は個人でやっているようなものです。 プログラム歴は40年と言っていますが、1984年の「ファミリーベーシック」みたいなものから始めたので、ちょうど40年ということでキリがいい数字でした。インターネット歴は大学に入った1994年からなので、ちょうど30年です。 技術書歴は、最初に書いたのが、「iモード」のアプリの開発ができるようになった本なので、2001年からで、今のところだいたい年間2冊ペースで50冊ほど本を書いています。 自分は誰かというと、ハードウェアというよりはロボットを動かすAI

                                            新モデルの追加と値下げ、ChatGPTのメモリ機能追加、「Sora」の発表… 『OpenAI GPT-4V/ChatGPT/GPTs 人工知能プログラミング実践入門』著者が語る、OpenAIの技術情報 | ログミーBusiness
                                          • Table TransformerとGPT-4Vを用いたPDF内の表の解析|QunaSys

                                            RAGは非常に有用なツールですが、PDFの論文などを扱う際には、表データを正しく読み取れない場合があります。 表の構造を適切に処理することは難しく、いくつかの改善策が提案されています。 例えば、RAGを構築するのに使われるライブラリであるLlamaIndexのドキュメントに以下のような情報があります。 このドキュメントでは表を含むデータを扱う方法として、PDFを一旦すべて画像データに変換し、画像として表の形式を保持したままGPT-4Vでデータを解析することを提案しています。 ただ、PDF1ページ分の画像をそのままGPT-4Vに解析させても精度はあまり良くないようで、後述するTable Transformerを使って表部分の画像のみ抽出してから解析を行うことで、より良い結果が得られたのことでした。 本記事では、この方法を用いてPDF内の表の解析を試してみます。 手順としては 1. PDFの全

                                              Table TransformerとGPT-4Vを用いたPDF内の表の解析|QunaSys
                                            • GPT-4V と Segment Anything で楽々アノテーション

                                              これは GO Inc. Advent Calendar 2023 の 12 日目の記事です。 私 kzykmyzw は GO 株式会社でコンピュータビジョンに関する研究開発から実装までを担当しており、本記事もコンピュータビジョンに関連しますが、会社での業務とは無関係です。あまり専門的に深い話はしませんが、ある程度知識のある方を対象としていますのでコンピュータビジョンに関する一般的な用語は解説せずに使います。 はじめに 2023 年の 9 月頃に画像認識が可能な GPT-4V(ision) が ChatGPT 経由で使えるようになり、2023 年 11 月 6 日に行われた Open AI DevDay で API 経由でも使えるようになったことが発表されました。主な使い方はやはり画像を自然言語で説明させることかと思いますが、普段は物体検出やセマンティックセグメンテーション(以下セマセグ)と

                                                GPT-4V と Segment Anything で楽々アノテーション
                                              • The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)

                                                Large multimodal models (LMMs) extend large language models (LLMs) with multi-sensory skills, such as visual understanding, to achieve stronger generic intelligence. In this paper, we analyze the latest model, GPT-4V(ision), to deepen the understanding of LMMs. The analysis focuses on the intriguing tasks that GPT-4V can perform, containing test samples to probe the quality and genericity of GPT-4

                                                • イーロン・マスクのAI企業が画像を理解可能なマルチモーダルAI「Grok-1.5」を発表、「GPT-4V」や「Gemini Pro 1.5」に匹敵する性能

                                                  イーロン・マスク氏が設立したAI企業「xAI」が、同社初のマルチモーダルAIモデル「Grok-1.5」を発表しました。Grok-1.5は画像の理解が可能で、「フローチャートを認識してコードを書く」「栄養成分表示を見てカロリーを計算する」といった操作が可能です。 Grok-1.5 Vision Preview https://x.ai/blog/grok-1.5v Grok-1.5は1つのモデルで「文章生成」と「画像認識」に対応するマルチモーダルAIモデルです。Grok-1.5は既存のGrokユーザーと一部のテスターを対象に、近日中にテストが始まる予定です。 xAIはGrok-1.5の性能を示す例を複数公開しています。例えば、以下の例ではフローチャートを見せつつ「このフローチャートをPythonコードに変換して」と頼むだけでPythonのコードを出力できています。 また、栄養成分表示を見せて

                                                    イーロン・マスクのAI企業が画像を理解可能なマルチモーダルAI「Grok-1.5」を発表、「GPT-4V」や「Gemini Pro 1.5」に匹敵する性能
                                                  • GPT-4Vで“動画”を分析 米Microsoftが「MM-VID」発表

                                                    このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 米Microsoft Azure AIに所属する研究者らが発表した論文「MM-Vid: Advancing Video Understanding with GPT-4V(ision)」は、GPT-4で手書きの文字や図を読み取れるようになる技術「GPT-4V(ision)」を利用してビデオの内容を詳細なスクリプトに変換し、大規模言語モデル(LLM)に高度なビデオ理解能力を与えるという研究報告である。 長時間のビデオ、特に1時間以上のものを理解するのは、複数のエピソードにわたる画像や音声のシーケンスを分析する高度な手法が求められる複雑なタスク

                                                      GPT-4Vで“動画”を分析 米Microsoftが「MM-VID」発表
                                                    • Llama 3-V: Matching GPT4-V with a 100x smaller model and 500 dollars

                                                      Edit (June 3 )— From TwitterFirst of all, we want to sincerely apologize to the original authors of MiniCPM. We wanted Mustafa to make the original statement but have been unable to contact him since yesterday. @siddrrsh and I posted Llama3-v with @mustafaaljadery. Mustafa wrote the entirety of the code for the project. Sid and I were both really excited about multimodal models and liked the archi

                                                        Llama 3-V: Matching GPT4-V with a 100x smaller model and 500 dollars
                                                      • GPT-4VでiPhoneの画面を操作するシステム 米Microsoftなどの研究者らが開発

                                                        このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 米カリフォルニア大学サンディエゴ校や米Microsoftなどに所属する研究者らが発表した論文「GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation」は、スマートフォンのGUI(グラフィカルユーザーインタフェース)ナビゲーション用にGPT-4Vを基盤として構築されたエージェントシステムを提案した研究報告である。 最近の研究では、スマートフォンのタスク自動化に着目している。方法の一つとして、画面画像をテキストで説明し、大規模言語

                                                          GPT-4VでiPhoneの画面を操作するシステム 米Microsoftなどの研究者らが開発
                                                        • 【GPT-4V】ChatGPTが人間を超越する。究極の使い方10選 | WEEL

                                                          みなさん、とうとうChatGPTが画像入力に対応しました! 2023年9月25日に発表された「GPT-4V」は文字にくわえて、画像入力・音声出力が可能なマルチモーダルAI。ChatGPTへの実装に伴い、有料版では画像を頼りに説明文やソースコードの生成ができるようになりました。 GPT-4Vを発表したOpenAIのツイートにはなんと、いいねが40,000件も付いています。 ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https

                                                          • Chat(チャット)GPTの新機能「GPT-4V」とは?無料で使える??利用方法の具体例をご紹介

                                                            GPT-4Vはいつから使えるか、無料で使えるのかなどまとめ Chat(チャット)GPTの新たなモデル、GPT-4Vがリリースされました。これまでのChatGPTはテキストの質問に対して、テキストで返答してくれるものでしたが、今回のGPT-4Vのリリースによってどんな機能が使えるようになったのでしょうか。 本記事では、GPT-4Vの概要や、GPT-4Vの使い方・利用方法などについてまとめてご紹介します。ぜひ参考にしてみてください。 創業手帳では、ChatGPTの可能性についてまとめた「ChatGPT 生成AIガイド」をリリース!ChatGPTと専門家との対決や、ChatGPTの活用方法について、また最新の他生成AIについてもいくつかご紹介。無料でお読みいただけますので、是非あわせてご活用ください。 ※この記事を書いている「創業手帳」ではさらに充実した情報を分厚い「創業手帳・印刷版」でも解説し

                                                              Chat(チャット)GPTの新機能「GPT-4V」とは?無料で使える??利用方法の具体例をご紹介
                                                            • Apple Vision ProにGPT-4Vを組み合わせて指差したものを説明してもらったり、目の前にいる人物の感情を推定させたりする|shi3z

                                                              Apple Vision ProにGPT-4Vを組み合わせて指差したものを説明してもらったり、目の前にいる人物の感情を推定させたりする Apple Vision Proは作業環境として理想的だ。 このブログもVisionProとMacBookProで書いてる。 VisionProをかけてMacBookProを見るとMacBookProの上に「Connect」という単語が出てくる。これだけですごい。「Connect」を押すとMacの画面が消え、代わりに大スクリーンがポップアップする。圧倒的に作業しやすい。 ・・・というか、これならもうMacBookAirでよくないか?わざわざProを持ち歩く必要性が・・・ まあいいか。 それはそれとして、すげー便利なんだがやはりAI機能が弱い。 あと、まだVisionProではかな漢字変換が使えない(のに、JIS配列のHHKBは認識する)。 ブログを書いたり

                                                                Apple Vision ProにGPT-4Vを組み合わせて指差したものを説明してもらったり、目の前にいる人物の感情を推定させたりする|shi3z
                                                              • SDXLでライブ映像をリアルタイム画像生成できる高速化ツール「LCM-LoRA」、GPT-4Vより良い結果も示す画像理解モデル「CogVLM」など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge

                                                                2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第20回目は、Stable Diffusion微調整モデルなどを高速化するツール「LCM-LoRA」、画像理解を得意とするオープンソース視覚言語モデル「CogVLM」をはじめとする、生成AI最新論文の概要5つをお届けします。 生成AI論文ピックアップStable Diffusion微調整モデルなどを高速化するツール「LCM-LoRA」 Hugging Faceらが開発> 画像理解を得意とするオープンソース視覚言語モデル「CogVLM」 テキスト内容と画像内の物体とを細かく関連付けて対話できるモデル「GLaMM」 Googleらが開発 大規模言語モデルを低コストで効率よ

                                                                  SDXLでライブ映像をリアルタイム画像生成できる高速化ツール「LCM-LoRA」、GPT-4Vより良い結果も示す画像理解モデル「CogVLM」など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge
                                                                • Apple開発の画像生成AI「マトリョーシカ拡散モデル」、iPadでリアルタイムに動画を理解するGPT-4V超えAI「MiniCPM-V 2.6」など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge

                                                                  この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第58回)では、先日OpenAIが発表した「SearchGPT」など、Webのタイムリーな情報と大規模言語モデルを組みわせた検索AIのオープンソースモデル「MindSearch」や、Stability AIが発表した、単一の入力画像から3Dメッシュを0.5秒で生成する「Stable Fast 3D」を取り上げます。 Preferred Networks(PFN)の子会社Preferred Elements(PFE)は、独自開発の国産大規模言語モデル「PLaMo」(プラモ)を発表しました。日本語性能においてGPT-4を上回る精度を達成しています。商用版のPLaMo 1.0 Primeは今秋リリース予定とし、現在はβ版の無料トライアルの申し込みを受け付けています。 さて、この1週間の気になる生成AI技術をピック

                                                                    Apple開発の画像生成AI「マトリョーシカ拡散モデル」、iPadでリアルタイムに動画を理解するGPT-4V超えAI「MiniCPM-V 2.6」など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge
                                                                  • GPT-4V(ision) System Cardをざっくり訳した - Qiita

                                                                    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに OpenAIが3月に発表していたものの実装していなかった、画像および音声を取り扱うことのできるマルチモーダルモデル「GPT4-V」のdeployが発表されました。本当に全部この会社がやればいいんじゃないか? ChatGPTのPlus/Enterpriseユーザーに2週間かけて提供するそうです。最近ChatGPTのほうの処理能力が落ちつつあってGPT-4のAPIばっかり使ってるんですが、ChatGPT Plusは解約できそうにないですね。 GPT4-Vを中心としたV&LのLLMはDocumentUnderstandingの文脈で

                                                                      GPT-4V(ision) System Cardをざっくり訳した - Qiita
                                                                    • GPT-4V(ision) system card

                                                                      GPT-4 with vision (GPT-4V) enables users to instruct GPT-4 to analyze image inputs provided by the user, and is the latest capability we are making broadly available. Incorporating additional modalities (such as image inputs) into large language models (LLMs) is viewed by some as a key frontier in artificial intelligence research and development. Multimodal LLMs offer the possibility of expanding

                                                                        GPT-4V(ision) system card
                                                                      • ChatGPT新機能「GPT-4V」とは?使い方・料金などを解説

                                                                        2022年11月にOpenAI社のChatGPTがリリースされて以来、ChatGPTは世界中のさまざまな分野に大きな影響を与えました。 たとえば、SEOに強いAIライティングツール「トランスコープ」は、OpenAI社のGPT-4を搭載したを搭載しており、SEOに強い文章作成が可能なAIツールです。ChatGPTはさまざまなビジネスに応用され、業務効率化・サービス改善と活用の幅が広いです。 そして、2023年9月25日、OpenAI社は新機能として「GPT-4V」の導入を発表し、世間から注目を集めています。 リリース以降も進化し続けるChatGPTのおかげで、私たちの生活や仕事はたった1年で便利になりました。 本記事では、ChatGPT有料版ユーザーの皆様に向けて、新機能であるGPT-4Vの概要や活用事例10選をご紹介します。 ネット上では「ChatGPTに目ができた」と表現されており、新た

                                                                          ChatGPT新機能「GPT-4V」とは?使い方・料金などを解説
                                                                        • 【LLaVA 1.5】オープンソース版GPT4-Vの使い方~比較レビューまで | WEEL

                                                                          皆さんは、LLaVA-1.5という大規模マルチモーダルモデル(LMM)をご存じですか? このLLMは、既存のLLMをベースに、画像入力を理解する能力を持たせて、より強力にしたLMMなんです。 公開されたGithubのスター数は5,000を超えているところを見ると、かなりの注目度の高さが伺えますね! 今回は、LLaVA-1.5の概要や使い方、実際に使ってみた感想をお伝えします。 ぜひ最後までご覧ください! LLaVA-1.5の概要 LLaVAは、GPT-4レベルの能力を持つ大規模な言語とビジョンモデルを構築するために開発が進められている大規模マルチモーダルモデル(LMM)です。 最新モデルのLLaVA-1.5では、Llama2をベースにしており、画像エンコーダのCLIP ViT-L/14を組み合わせて画像入力の理解能力を付与し、それに基づいて適切な文章を生成できます。 このようにLlama2

                                                                          • GPT-4Vに旅行中に撮影した写真を見せて説明させたらなんだかヤバイ|shi3z

                                                                            さっき書いたエントリで「GPT-4Vに旅先の写真を見せて本は書けるか」というのをトライしようとしたら予想の斜め上になったので共有する。 神の雫か?誰だよリナって 旅行記を書かせてみる世界一周の配達員: 砂漠の楽園への到着 彼の名はタカシ。かつて日本の小さな町でUberEatsの配達員として日々を過ごしていた彼が、ある日、世界一周の旅に出ることを決意した。バイクでの配達の経験を活かし、彼は自らのバイクを相棒に、未知なる地へと足を進めた。 アジア、ヨーロッパ、アフリカと彼は数々の国々を渡り歩き、その途中で多くの文化や料理、そして人々との出会いに心を温められてきた。一度は高山の頂上でバイクが故障し、夜を迎える寸前に現地の住民に助けられたことも。その度に、彼の心には新しい経験とともに感謝の気持ちが刻まれていった。 そして、彼が辿り着いたのは、砂漠の中に突如現れる壮大な人工の楽園、ドバイ。画像からも

                                                                              GPT-4Vに旅行中に撮影した写真を見せて説明させたらなんだかヤバイ|shi3z
                                                                            • ChatGPTの有料版「GPT-4V」を無料で使う裏ワザ

                                                                              「ChatGPT」の登場から1年が経ち、世界中のさまざまな分野に大きな影響を与えています。最新版「GPT-4V」は従来までのテキストベースから画像認識機能を搭載し、完全無欠な存在に近づきつつあります。ただし、最新版のGPT-4Vは有料版でのみされている機能。これを無料で使う裏ワザを紹介しましょう。 GPT-4Vが無料で使えるBingチャット GPT-4Vを使うには月額20ドルの課金が必要ですが、常に活用する人以外、月3千円の出費は躊躇する金額でしょう。そこで活用したいのが、Microsoftが提供している検索エンジンのBingです。 Bingには「チャット(Copilot)」という機能があり、これがUIは別物ですが、じつはChatGPTそのもの。Microsoftアカウントでログインして、「会話のスタイル」を「より厳密に」にすればGPT-4Vが使えてしまうのです。 実際にBingチャットで

                                                                              • GitHub - haotian-liu/LLaVA: [NeurIPS'23 Oral] Visual Instruction Tuning (LLaVA) built towards GPT-4V level capabilities and beyond.

                                                                                [2024/05/10] 🔥 LLaVA-NeXT (Stronger) models are released, stronger LMM with support of LLama-3 (8B) and Qwen-1.5 (72B/110B). [Blog] [Checkpoints] [Demo] [Code] [2024/05/10] 🔥 LLaVA-NeXT (Video) is released. The image-only-trained LLaVA-NeXT model is surprisingly strong on video tasks with zero-shot modality transfer. DPO training with AI feedback on videos can yield significant improvement. [Blo

                                                                                  GitHub - haotian-liu/LLaVA: [NeurIPS'23 Oral] Visual Instruction Tuning (LLaVA) built towards GPT-4V level capabilities and beyond.
                                                                                • プロンプトの推定をDALL·E 3とGPT-4Vにまかせた! - ABEJA Tech Blog

                                                                                  目次 はじめに DALL·E 3とGPT-4Vにまかせる 実装 実験結果 定量評価 その他 さいごに はじめに この記事はABEJAアドベントカレンダー2023の2日目の記事です。 こんにちは。データサイエンティストの小林です。12月に入り、クリスマスももうすぐですね。 私は一年中、Spotifyの"Christmas Hits!"を聞くくらいにクリスマスソングが大好きです! アドベントカレンダー用にクリスマスっぽいサムネを作ろうかなと思い、早速ChatGPTに作ってもらっていたのですが、画像生成のプロンプト調整結構難しいですよね。。 ネットで流れてくる他の人の作った画像、どんなプロンプトで作ったんだろう?とが気になることが結構あります。 そこで今回は、先月公開されたGPT-4 with Vision(GPT-4V)のAPIを用いて、DALL·E 3への画像生成プロンプトを自動で推定・修正

                                                                                    プロンプトの推定をDALL·E 3とGPT-4Vにまかせた! - ABEJA Tech Blog