GPT-4Vの人気記事 43件 - はてなブックマーク

1 - 40 件 / 43件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

GPT-4Vの検索結果1 - 40 件 / 43件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

GPT-4Vに関するエントリは43件あります。 AI、人工知能、 ChatGPT などが関連タグです。人気エントリには『GPT-4Vができることをまとめてみた - 電通総研テックブログ』などがあります。

GPT-4Vができることをまとめてみた - 電通総研テックブログ
- 260 users
- tech.dentsusoken.com
- テクノロジー
- 2023/10/12
こんにちは。ISID 金融ソリューション事業部の若本です。先日、GPT-4から発展し、画像も扱うことができるGPT-4 with vision（GPT-4V）が発表されました。GPT-4Vは大規模マルチモーダルモデル（LMMs: Large multimodal models）と呼ばれるAIモデルの一種であり、GPT-4の入力として「画像」を拡張したものになります。今日は Microsoft Researchの論文[1]を中心に、Open AIの発表したSystem Card[2]も踏まえ、GPT-4Vでできることや苦手とすること、そして実用上の制限について解説します。 GPT-4Vの特徴 ① 画像とテキストを入力にできる GPT-4Vでは、GPT-4のテキスト入力に加えて画像も入力することが可能になりました。画像は複数枚入力することが可能であり、かつ、画像とテキストを任意に交互に組
- ChatGPT
- あとで読む
- AI
- GPT
- 画像
- 自然言語処理
- 機械学習
- OpenAI
- LLM
GPT-4V: 驚きを隠せない進化！凄すぎて"ズキズキワクワク"が止まりません！！！ - Qiita
- 198 users
- qiita.com/yanagih
- テクノロジー
- 2023/10/07
この記事で行なっていること凄すぎて”ズキズキワクワク"が止まりませんはじめについこの間、ChatGPTは2022年1月までの情報を学習した、というい発表がありましたが、さらに今回のアップデートで画像解析機能(GPT-4V) が追加され、アップロードした画像を使った新たなタスクの実行が可能になってます。そして、それが凄すぎます衝撃的な投稿まずはこちらの衝撃的な投稿をご覧ください。動画は自転車の画像と共に「サドルを下げる手助けをしてください」で始まります。 ChatGPTからレコメンドが返ってきますが、それに対して、質問者は追加でポイントになりそうな部分を拡大してアップロードマニュアルと自分の持っているツールの写真もアップロードします。その結果、その質問者は、サドルを下げることに成功！そんな内容です。自分の環境で、画像解析機能(GPT-4V)を使えるのか？さて、画像解
- ChatGPT
- AI
- あとで読む
- プログラム
- 機械学習
- GPT
- アプリ
- javascript
- CSS
- プログラミング
AIの進化が止まらない→スクショを送るだけでゲームも作れる、バグも修正できる、宿題もやってくれる、認証システムも…… 【GPT-4V 使用例】
- 196 users
- togetter.com
- テクノロジー
- 2023/10/20
OpenAIが提供するChatGPT Visionは画像の認識や分析に長けた機能（要：$20/月のChatGPT Plusアカウント）例えば、バグが起こっている様子をスクショして送れば、AIがソースコードの問題箇所を検出し、訂正したコードを送ってくれます。ほかには手書きの文字を読み込んでテキストデータにしたり、画像を認識してその状況を文章化したりといった使い方も可能です。生成AIの発展によって現在プロンプトエンジニアリングは注目を集めていますが、この技術を上手く活用できればプロンプトを書く手間すらも減らしていけるかもしれません。
- AI
- あとで読む
- ChatGPT
- プロンプト
- OpenAI
- 人工知能
- game
AWSの構成図をChatGPT(GPT-4V)に読み込ませてIaCコードを生成してみた | DevelopersIO
- 175 users
- dev.classmethod.jp
- テクノロジー
- 2023/10/15
こんにちは、つくぼし(tsukuboshi0755)です！最近ChatGPTがGPT-4Vを発表し、AI業界がさらに盛り上がりを見せてますね。 GPT-4Vを用いる事で、ChatGPTがユーザ側から入力された画像を読み取った上で、応答を返してくれるようになります。 GPT-4V(ision) system card この機能追加により、なんと以下のようにAWSの構成図を読み取って、IaCコードを生成できる事が話題になっていました。本日をもって引退します pic.twitter.com/fygAQDQ5kj — 電気ひつじ(onoteru) (@teru0x1) October 13, 2023 これを見て私もGPT-4Vを試してみたくなったので、今回はChatGPTを使って、様々なAWSの構成図を入力し、どこまで正確にIaCコードを生成できるか確認してみます！ GPT-4Vを利用する際
- ChatGPT
- あとで読む
- AWS
- AI
- 文章生成AI
- 人工知能
- terraform
- Amazon Web Services
- コード

【GPT-4V APIのおすすめ活用事例】OpenAIの最新モデルを使ったヤバい使い方10選 | WEEL
- 155 users
- weel.co.jp
- テクノロジー
- 2023/12/05
みなさん、API経由でGPT-4Vが使えるようになったのはご存知ですか？その名も「GPT-4V API」というモデル名なのですが、GitHubでスター10,000超えのAIツール・tldrawに採用されています。このGPT-4V APIは、アプリ・サービスに目を与えてくれるすぐれものなんです！当記事では、そんなGPT-4V APIの活用事例のうち、SNSでバズったものだけを10個ピックアップしました。最後まで読んでいただくと、APIで作れるアプリ・サービスのレパートリーが増えるかもしれません。ぜひ最後までお読みくださいね！なお弊社では、生成AIツール開発についての無料相談を承っています。こちらからお気軽にご相談ください。 →無料相談で話を聞いてみる GPT-4V APIとは？概要を紹介「GPT-4V API」はChatGPT APIのなかで唯一、画像入力に対応しているモデルです
- ChatGPT
- あとで読む
- AI
- OpenAI
- 開発
- 文章生成AI
- GPT
- LLM
- 人工知能
ChatGPTのGPT-4Vを使ってSQL文を画像から作成する - Taste of Tech Topics
- 94 users
- acro-engineer.hatenablog.com
- テクノロジー
- 2023/10/18
igaです。ポケモンsleepを継続していますが、カビゴン評価がマスターになれません。 ChatGPTが見たり、聞いたり、話したりできるようになる、と言われている「GPT-4 with vision (GPT-4V)」が使えるようになったので、早速使ってみたいと思います。 openai.com 今回は、データベースのテーブル関連図を画像ファイルでもらった想定で、画像からテーブルのDDLが生成できるかを確認してみます。やりたいこと以下のような、テーブルの関連図とサンプルデータが描かれた画像ファイルをもらいました。この画像ファイルをChatGPT-4に渡して、SQLのDDLが生成できるか確認します。画像を解釈できるか確認するいきなりDDLを作らせる前に、まずは画像ファイルに書かれたテーブル構造を、マークダウンで出力してもらいます。プロンプトの入力欄の左に絵のアイコン（画像の赤で囲
- SQL
- あとで読む
- ChatGPT
- 人工知能
- 文章生成AI
- AI
- techfeed
- GPT
- OpenAI
- 画像
GPT4-Vの100分の1のサイズで同等の性能を誇るマルチモーダルモデル「Llama 3-V」が登場、トレーニング費用はたった8万円
- 64 users
- gigazine.net
- テクノロジー
- 2024/05/29
画像認識が可能なオープンソースモデルの「Llama 3-V」が公開されました。Llama 3-Vは、OpenAIのマルチモーダルモデル「GPT4-V」よりも格段に小型で、事前トレーニングにかかる費用は500ドル(約78000円)程度なのにもかかわらず、ほとんどの指標で同等のパフォーマンスを示しています。 Llama 3-V: Matching GPT4-V with a 100x smaller model and 500 dollars | by Aksh Garg | May, 2024 | Medium https://aksh-garg.medium.com/llama-3v-building-an-open-source-gpt-4v-competitor-in-under-500-7dd8f1f6c9ee 今回発表されたLlama 3-Vは、 Metaが公開した言語モデルの「L
- llama
- ai
- llm
- 人工知能
- GPT
- あとで読む
- techfeed
OpenAI、ChatGPTが画像を分析する『GPT-4V（ビジョン）』を発表。安全性、嗜好性、福祉機能を強化 | AIDB
- 58 users
- ai-data-base.com
- テクノロジー
- 2023/09/26
関連研究 ChatGPTの”ふるまいの変化”を定量的に分析した結果 OpenAI、大規模言語モデルの数学能力を大きく向上させることに成功 GPT-4を使用した知的労働者のパフォーマンスは軒並み向上し、もとの成績が良くないほど顕著。※注意点あり従来の課題 GPT-4Vは、従来のGPT-4が抱えていたいくつかの課題を解決する形で登場しました。テキスト中心の処理能力従来のGPT-4は、テキストデータの処理能力に特化しており、テキストベースの質問応答、文章生成、自然言語理解など、多くの用途で非常に有用でした。しかし、裏を返せば画像や音声など他のメディア形式に対する対応が不足していました。テキストと画像が組み合わさったマルチモーダルなデータに対する処理能力が限定的でした。画像入力とプライバシー GPT-4の画像データに対する安全な処理能力には限界がありました。例えばプライバシー保護の観点が
- ChatGPT
- OpenAI
- AI
- 文章生成AI
- 人工知能
- techfeed
- あとで読む
GPT-4V x LINE Bot を Cloudflare Workers で実現するためにやったこと・やらなかったこと - hatappi.blog
- 58 users
- hatappi.blog
- テクノロジー
- 2024/01/02
この記事では OpenAI が提供する Vision API (GPT-4V) を使用して、LINE に投稿した画像に反応する Bot を作成した際にやったこと・やらなかったことを書いています。 Bot の実装を細かく解説はしていないので、それを知りたい方は「ChatGPT LINE」などでググると参考になる良い記事が沢山でてくるのでそちらを参照してください！モチベーション LINE Bot は昔実装したものがありグループ LINE で身の回りのあれこれを通知する君になっていました。機能としては通知のみだったので何か反応してほしいなーと思ったのが最初のきっかけでした。冬休みで時間もあったので OpenAI 周りのプロダクトを整理するためにドキュメントを一通り見てその中から Vison API を使えば画像にも反応できる Bot にもなり面白そうなことがわかったのでガッと実装することにしま
- Cloudflare
- あとで読む
- LINE
- 開発
- 機械学習
- api
- 画像
GPT-4Vのモデルを利用してOCRできるか試してみた - Taste of Tech Topics
- 46 users
- acro-engineer.hatenablog.com
- テクノロジー
- 2023/12/18
こんにちは、安部です。気温の上下に翻弄されて最近風邪をひいてしまいましたが、皆さま元気にお過ごしでしょうか。今回は、GPT-4Vのモデルを利用して、OCRができるか試していきます。 GPT-4Vによって、「ChatGPTに目ができた」などと騒がれましたが、文字認識はどれくらいできるのでしょうか？得意分野ではなさそうですが、GPTも進化が目覚ましいので分かりませんね。検証では、日本語(漢字/ひらがな/カタカナ)・英語の2言語で精度など比較していきます。また、手書き・活字での違いも見ていきましょう。一番簡単に試せるChatGPT（Web版）でOCRをさせようとするとエラーになることが多かったので、ここではAPIを使っていくこととします。 APIを呼び出すプログラム以下のコードを使い、gpt-4-vision-previewというモデルを呼び出しています。画像は個人のgithu
米Apple、iPhoneのUIを理解するモバイル専用AI言語モデル「Ferret-UI」発表　GPT-4V越えの性能
- 37 users
- www.itmedia.co.jp
- テクノロジー
- 2024/04/12
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 X：＠shiropen2 米Appleに所属する研究者らが発表した論文「Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs」は、iPhoneやAndroidなどのモバイルUI画面をより深く理解し、インタラクションできるように設計されたマルチモーダル大規模言語モデル（MLLM）を提案した研究報告である。 Ferret-UIは、モバイルUIの画面上で、多様な入力形式（点、ボックス、スケッチ）を用いて参照タスク（ウィジェット分類、アイコン認識、OCRなど）を実行し、グラウンディングタスク（ウィジェット検索、
- 人工知能
- iPhone
- techfeed
- iPad
- AI
- あとで読む
ChatGPTが眼を持った！GPT-4Vの衝撃と活用事例50選｜ChatGPT研究所
- 33 users
- chatgpt-lab.com
- テクノロジー
- 2023/10/10
AGIラボは、最高のAI情報をお届けするためのマガジン・コミュニティです。GPTsを筆頭にClaude 3やSoraなど注目のAIについても詳しく解説、今日から使えるAI活用情報を一番わかりやすくお伝えします。他に限定コミュニティへのアクセス、限定イベントへの参加権が含まれます。
- 人工知能
- あとで読む
進化したChatGPT　画像認識・生成可能になったGPT-4Vが凄い
- 30 users
- www.watch.impress.co.jp
- テクノロジー
- 2023/10/26
- 人工知能
- あとで読む
【GPT-4V】ChatGPTが画像入力と音声入力に対応！使い方〜実践まで徹底解説 | WEEL
- 30 users
- weel.co.jp
- テクノロジー
- 2023/09/28
ChatGPTがついに、目と耳を手に入れました。 9月25日、OpenAIがChatGPTに、画像解析機能と音声出力機能のGPT-4Vが追加され、マルチモーダルAIになったと発表しました。とうとうChatGPTで画像入力と音声出力ができるようになりました！GPT-4V機能を使うと実際にこんなことができちゃうんです！今回は話題沸騰中のGPT-4Vの概要や新機能について、特徴を踏まえながら紹介いたします。是非最後までご覧ください！なお弊社では、生成AIツール開発についての無料相談を承っています。こちらからお気軽にご相談ください。 →無料相談で話を聞いてみる GPT 4Vの概要 GPT-4Vは、Open AI社が開発した従来のGPT-4に画像解析機能と音声出力機能を持たせたマルチモーダルAIです。これは、つまりGPT-4を搭載したChatGPTに「目」と「声」が実装されるということ！テ
- OpenAI
- AI
- ChatGPT
- 人工知能
- 開発
GPT-4Vを使ってゲーム実況させる - Qiita
- 29 users
- qiita.com/takaaki_inada
- テクノロジー
- 2023/12/14
はじめに GPT-4Vを使ってゲーム実況をさせてみます。この記事はLLM Advent Calendar 2023の12月14日のアドベントカレンダー記事となります。解説以下のようなゲーム実況スクリプトを自動で作成できる状態が、この記事のゴールです。「お気に入りのゲーム実況をする、超興奮した日本人人気VTuberのスタイルで、短いナレーションスクリプトを作成してください」でゲームプレイ動画をGPT-4Vに入れてみました。GPT-4Vやっぱり性能いいなぁ (TTSはvoicevox使用) pic.twitter.com/GR1kcMYENN — inada (@dev_inada) November 7, 2023 コードと言っても、コード自体は数10行で、以下の通り簡単に実装できます。 from IPython.display import display, Image impo
- ChatGPT
- あとで読む
- 人工知能
- qiita
- techfeed
- game
- ゲーム
画像分析機能を持つオープンソースLLM『LLaVA-1.5』登場。手持ちの画像を分析可能。GPT-4Vとの違い | AIDB
- 26 users
- ai-data-base.com
- テクノロジー
- 2023/10/11
関連研究（続きは記事末尾にあります） ■OpenAI、ChatGPTが画像を分析する『GPT-4V（ビジョン）』を発表。安全性、嗜好性、福祉機能を強化 ■Microsoftの画像セグメンテーション新技術「SEEM（Segment Everything Everywhere Model）」の凄さ、Meta AIのSAMとの違い従来の課題視覚情報の処理能力不足従来のLLMは、言語タスクに対する能力は優れていましたが、多モーダル（視覚と言語）のアップデートはあまり行われていませんでした。要するに、視覚的な情報を処理する能力には限界がありました。高性能な画像分析LLMの需要多くの開発者や研究者が高性能な画像分析LLMを求めていましたが、これまでのところそのようなモデルは一般に提供されていませんでした。これらの課題を解決するために、LLaVA-1.5が開発されました。このモデルは、視覚エ
- LLM
- GPT
- 分析
- AI
- 画像
- あとで読む
- モデル
GPT-4VのAPIをサクッと使ってみる！｜peisuke
- 24 users
- note.com/peisuke
- テクノロジー
- 2023/11/07
概要昨日発表されたGPT-4VのAPI（画像に対して質問を投げることができるAPI）を早速利用してみたので、サクッと使ってみようと思う。使い方当然ながら、現時点ではLangChainなどのライブラリからは利用できないし、Pythonのライブラリもなさそう（→ありました）。ここに使い方が乗っているので、そのまま使ってみる。ローカルのイメージをbase64エンコードして送る感じらしい。やってみる今回は、インターネットで検索して出てきた画像に対して、簡単な質問をしてみよう。今後いろんな論文をサクッと実装していきたいと思うのだけど、まずは手始めに早稲田大学の講義のページを使わせてもらいます。制約条件付き最適化の問題を解かせてみようと思います。 https://www.f.waseda.jp/ksuga/2007chap17.pdfよりimport base64 import requests
- GPT
- OpenAI
- API
- AI
- あとで読む
Appleの研究者、マルチモーダルLLM「MM1」の論文発表　視覚タスクではGPT-4Vに匹敵
- 23 users
- www.itmedia.co.jp
- テクノロジー
- 2024/03/18
MM1は、画像とテキストのペア、画像とテキストの混合データ、テキストのみのデータの混合でトレーニングされている。Mixture-of-Experts（MoE）や教師あり微調整でパラメータを300億までスケールアップすることで、比較的コンパクトなサイズでも競合するMLLMに匹敵する結果をベンチマークで達成したとしている。視覚タスクでは、米OpenAIの「GPT-4V」や米Googleの「Gemini」に匹敵している。 MM1のアーキテクチャなどは公開されていない。Appleの研究者らは論文の結論を「ここで得られた知見が、コミュニティが特定の単一モデルアーキテクチャやデータ戦略を超えて、強力なモデルを構築するのに役立つことを願っている」と結んだ。 Appleの研究者らは、昨年12月ごろから複数のLLM関連の論文を発表してきた。 Appleのティム・クックCEOは2月の業績発表で、年内にAI分
GPT-4Vの性能テストと様々な活用方法｜IT navi
- 20 users
- note.com/it_navi
- テクノロジー
- 2023/10/05
１．画像内容の把握GPT-4Vは、ChatGPTの入力欄の左端に以下のような画像を添付するアイコンが表示されれば、利用することができます。 ChatGPTに画像をアップロードするには、このアイコンをクリックして、アップロードしたい画像ファイルを選択するか、入力欄に画像をそのままコピーしてください。 (1) ジブリ画像の理解ジブリは、公式サイトから沢山の画像をフリー素材として提供しています。その中から、「千と千尋の神隠し」の以下の画像についてGPT-4に尋ねてみました。出典：千と千尋の神隠し＞この画像の内容を詳しく解説してください。 ChatGPT　この画像は、スタジオジブリが制作したアニメ映画『千と千尋の神隠し』の一場面を示しています。中央に座っている少女は千尋というキャラクターです。彼女は映画の主人公で、このストーリーの中で多くの冒険と成長を経験します。隣にいる白い顔を持つキャラ
新モデルの追加と値下げ、ChatGPTのメモリ機能追加、「Sora」の発表…　『OpenAI GPT-4V／ChatGPT／GPTs 人工知能プログラミング実践入門』著者が語る、OpenAIの技術情報
- 15 users
- logmi.jp
- テクノロジー
- 2024/05/13
『OpenAI GPT-4V／ChatGPT／GPTs 人工知能プログラミング実践入門』著者の布留川氏は、登壇時点までのOpenAIの最新情報と、最新技術情報のキャッチアップ術について話しました。全4回。布留川氏の自己紹介布留川英一氏：それでは始めます。OpenAI本出版記念として、今日は「OpenAI最新技術情報と技術情報キャッチアップ術」について話そうと思います。最初に簡単に自己紹介をします。名前は布留川英一と申します。ハンドルネームはnpakaでやっています。株式会社ゼルペムに所属していますが、基本は個人でやっているようなものです。プログラム歴は40年と言っていますが、1984年の「ファミリーベーシック」みたいなものから始めたので、ちょうど40年ということでキリがいい数字でした。インターネット歴は大学に入った1994年からなので、ちょうど30年です。技術書歴は、最初に書いた
- 学習
- 技術
- AI
- 情報
- プログラミング
- programming
GPT-4V と Segment Anything で楽々アノテーション
- 14 users
- zenn.dev/kzykmyzw
- テクノロジー
- 2023/12/12
これは GO Inc. Advent Calendar 2023 の 12 日目の記事です。私 kzykmyzw は GO 株式会社でコンピュータビジョンに関する研究開発から実装までを担当しており、本記事もコンピュータビジョンに関連しますが、会社での業務とは無関係です。あまり専門的に深い話はしませんが、ある程度知識のある方を対象としていますのでコンピュータビジョンに関する一般的な用語は解説せずに使います。はじめに 2023 年の 9 月頃に画像認識が可能な GPT-4V(ision) が ChatGPT 経由で使えるようになり、2023 年 11 月 6 日に行われた Open AI DevDay で API 経由でも使えるようになったことが発表されました。主な使い方はやはり画像を自然言語で説明させることかと思いますが、普段は物体検出やセマンティックセグメンテーション（以下セマセグ）と
Table TransformerとGPT-4Vを用いたPDF内の表の解析｜QunaSys
- 12 users
- note.com/qunasys
- テクノロジー
- 2024/03/12
RAGは非常に有用なツールですが、PDFの論文などを扱う際には、表データを正しく読み取れない場合があります。表の構造を適切に処理することは難しく、いくつかの改善策が提案されています。例えば、RAGを構築するのに使われるライブラリであるLlamaIndexのドキュメントに以下のような情報があります。このドキュメントでは表を含むデータを扱う方法として、PDFを一旦すべて画像データに変換し、画像として表の形式を保持したままGPT-4Vでデータを解析することを提案しています。ただ、PDF1ページ分の画像をそのままGPT-4Vに解析させても精度はあまり良くないようで、後述するTable Transformerを使って表部分の画像のみ抽出してから解析を行うことで、より良い結果が得られたのことでした。本記事では、この方法を用いてPDF内の表の解析を試してみます。手順としては 1. PDFの全
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)
- 10 users
- arxiv.org
- テクノロジー
- 2023/10/02
Large multimodal models (LMMs) extend large language models (LLMs) with multi-sensory skills, such as visual understanding, to achieve stronger generic intelligence. In this paper, we analyze the latest model, GPT-4V(ision), to deepen the understanding of LMMs. The analysis focuses on the intriguing tasks that GPT-4V can perform, containing test samples to probe the quality and genericity of GPT-4
GPT-4Vで“動画”を分析　米Microsoftが「MM-VID」発表
- 9 users
- www.itmedia.co.jp
- テクノロジー
- 2023/11/10
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: ＠shiropen2 米Microsoft Azure AIに所属する研究者らが発表した論文「MM-Vid: Advancing Video Understanding with GPT-4V（ision）」は、GPT-4で手書きの文字や図を読み取れるようになる技術「GPT-4V（ision）」を利用してビデオの内容を詳細なスクリプトに変換し、大規模言語モデル（LLM）に高度なビデオ理解能力を与えるという研究報告である。長時間のビデオ、特に1時間以上のものを理解するのは、複数のエピソードにわたる画像や音声のシーケンスを分析する高度な手法が求められる複雑なタスク
- AI
Llama 3-V: Matching GPT4-V with a 100x smaller model and 500 dollars
- 9 users
- aksh-garg.medium.com
- テクノロジー
- 2024/05/29
Edit (June 3 )— From TwitterFirst of all, we want to sincerely apologize to the original authors of MiniCPM. We wanted Mustafa to make the original statement but have been unable to contact him since yesterday. @siddrrsh and I posted Llama3-v with @mustafaaljadery. Mustafa wrote the entirety of the code for the project. Sid and I were both really excited about multimodal models and liked the archi
GPT-4VでiPhoneの画面を操作するシステム　米Microsoftなどの研究者らが開発
- 8 users
- www.itmedia.co.jp
- テクノロジー
- 2023/11/22
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: ＠shiropen2 最近の研究では、スマートフォンのタスク自動化に着目している。方法の一つとして、画面画像をテキストで説明し、大規模言語モデル（LLM）で処理するアプローチがある。今回は、大規模マルチモーダルモデル（LMM）の効果を生かし、GPT-4Vを使用したゼロショットのスマートフォンGUIナビゲーションシステム「MM-Navigator」を提案する。 MM-Navigatorは、人間のユーザーと同様にスマートフォンの画面と対話し、与えられた指示を遂行するための次の行動を決定できる。 LMMを使用したGUIナビゲーションには、2つの主要な課題がある。これら
- test
- 人工知能
- AI
イーロン・マスクのAI企業が画像を理解可能なマルチモーダルAI「Grok-1.5」を発表、「GPT-4V」や「Gemini Pro 1.5」に匹敵する性能
- 8 users
- gigazine.net
- テクノロジー
- 2024/04/15
イーロン・マスク氏が設立したAI企業「xAI」が、同社初のマルチモーダルAIモデル「Grok-1.5」を発表しました。Grok-1.5は画像の理解が可能で、「フローチャートを認識してコードを書く」「栄養成分表示を見てカロリーを計算する」といった操作が可能です。 Grok-1.5 Vision Preview https://x.ai/blog/grok-1.5v Grok-1.5は1つのモデルで「文章生成」と「画像認識」に対応するマルチモーダルAIモデルです。Grok-1.5は既存のGrokユーザーと一部のテスターを対象に、近日中にテストが始まる予定です。 xAIはGrok-1.5の性能を示す例を複数公開しています。例えば、以下の例ではフローチャートを見せつつ「このフローチャートをPythonコードに変換して」と頼むだけでPythonのコードを出力できています。また、栄養成分表示を見せて
【GPT-4V】ChatGPTが人間を超越する。究極の使い方10選 | WEEL
- 8 users
- weel.co.jp
- テクノロジー
- 2023/10/02
みなさん、とうとうChatGPTが画像入力に対応しました！ 2023年9月25日に発表された「GPT-4V」は文字にくわえて、画像入力・音声出力が可能なマルチモーダルAI。ChatGPTへの実装に伴い、有料版では画像を頼りに説明文やソースコードの生成ができるようになりました。 GPT-4Vを発表したOpenAIのツイートにはなんと、いいねが40,000件も付いています。 ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https
- 画像
- あとで読む
Apple Vision ProにGPT-4Vを組み合わせて指差したものを説明してもらったり、目の前にいる人物の感情を推定させたりする｜shi3z
- 6 users
- note.com/shi3zblog
- テクノロジー
- 2024/02/10
Apple Vision ProにGPT-4Vを組み合わせて指差したものを説明してもらったり、目の前にいる人物の感情を推定させたりする Apple Vision Proは作業環境として理想的だ。このブログもVisionProとMacBookProで書いてる。 VisionProをかけてMacBookProを見るとMacBookProの上に「Connect」という単語が出てくる。これだけですごい。「Connect」を押すとMacの画面が消え、代わりに大スクリーンがポップアップする。圧倒的に作業しやすい。・・・というか、これならもうMacBookAirでよくないか?わざわざProを持ち歩く必要性が・・・まあいいか。それはそれとして、すげー便利なんだがやはりAI機能が弱い。あと、まだVisionProではかな漢字変換が使えない(のに、JIS配列のHHKBは認識する)。ブログを書いたり
SDXLでライブ映像をリアルタイム画像生成できる高速化ツール「LCM-LoRA」、GPT-4Vより良い結果も示す画像理解モデル「CogVLM」など重要論文5本を解説（生成AIウィークリー） | テクノエッジ TechnoEdge
- 6 users
- www.techno-edge.net
- テクノロジー
- 2023/11/13
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第20回目は、Stable Diffusion微調整モデルなどを高速化するツール「LCM-LoRA」、画像理解を得意とするオープンソース視覚言語モデル「CogVLM」をはじめとする、生成AI最新論文の概要5つをお届けします。生成AI論文ピックアップStable Diffusion微調整モデルなどを高速化するツール「LCM-LoRA」　Hugging Faceらが開発画像理解を得意とするオープンソース視覚言語モデル「CogVLM」テキスト内容と画像内の物体とを細かく関連付けて対話できるモデル「GLaMM」　Googleらが開発大規模言語モデルを低コストで効率よく
- あとで読む
Chat（チャット）GPTの新機能「GPT-4V」とは？無料で使える？？利用方法の具体例をご紹介
- 5 users
- sogyotecho.jp
- テクノロジー
- 2023/10/31
GPT-4Vはいつから使えるか、無料で使えるのかなどまとめ Chat（チャット）GPTの新たなモデル、GPT-4Vがリリースされました。これまでのChatGPTはテキストの質問に対して、テキストで返答してくれるものでしたが、今回のGPT-4Vのリリースによってどんな機能が使えるようになったのでしょうか。本記事では、GPT-4Vの概要や、GPT-4Vの使い方・利用方法などについてまとめてご紹介します。ぜひ参考にしてみてください。創業手帳では、ChatGPTの可能性についてまとめた「ChatGPT　生成AIガイド　2023」をリリース！ChatGPTと専門家との対決や、ChatGPTの活用方法について、また最新の他生成AIについてもいくつかご紹介。無料でお読みいただけますので、是非あわせてご活用ください。 ※この記事を書いている「創業手帳」ではさらに充実した情報を分厚い「創業手帳・印刷版」
GPT-4V(ision) System Cardをざっくり訳した - Qiita
- 5 users
- qiita.com/Ikwus
- テクノロジー
- 2023/09/28
はじめに OpenAIが3月に発表していたものの実装していなかった、画像および音声を取り扱うことのできるマルチモーダルモデル「GPT4-V」のdeployが発表されました。本当に全部この会社がやればいいんじゃないか？ ChatGPTのPlus/Enterpriseユーザーに2週間かけて提供するそうです。最近ChatGPTのほうの処理能力が落ちつつあってGPT-4のAPIばっかり使ってるんですが、ChatGPT Plusは解約できそうにないですね。 GPT4-Vを中心としたV&LのLLMはDocumentUnderstandingの文脈での活用が期待されており、先日Googleを中心としたグループもLMDX: Language Model-based Document Information Extraction and Localizationという論文を発表していました。Geminiなん
- AI
- GPT-4V
GPT-4V(ision) system card
- 5 users
- openai.com
- テクノロジー
- 2023/09/26
GPT-4 with vision (GPT-4V) enables users to instruct GPT-4 to analyze image inputs provided by the user, and is the latest capability we are making broadly available. Incorporating additional modalities (such as image inputs) into large language models (LLMs) is viewed by some as a key frontier in artificial intelligence research and development. Multimodal LLMs offer the possibility of expanding
- あとで読む
ChatGPT新機能「GPT-4V」とは？使い方・料金などを解説
- 5 users
- transcope.io
- テクノロジー
- 2023/10/14
2022年11月にOpenAI社のChatGPTがリリースされて以来、ChatGPTは世界中のさまざまな分野に大きな影響を与えました。たとえば、SEOに強いAIライティングツール「トランスコープ」は、OpenAI社のGPT-4を搭載したを搭載しており、SEOに強い文章作成が可能なAIツールです。ChatGPTはさまざまなビジネスに応用され、業務効率化・サービス改善と活用の幅が広いです。そして、2023年9月25日、OpenAI社は新機能として「GPT-4V」の導入を発表し、世間から注目を集めています。リリース以降も進化し続けるChatGPTのおかげで、私たちの生活や仕事はたった1年で便利になりました。本記事では、ChatGPT有料版ユーザーの皆様に向けて、新機能であるGPT-4Vの概要や活用事例10選をご紹介します。ネット上では「ChatGPTに目ができた」と表現されており、新た
GPT-4Vに旅行中に撮影した写真を見せて説明させたらなんだかヤバイ｜shi3z
- 4 users
- note.com/shi3zblog
- 暮らし
- 2023/10/14
さっき書いたエントリで「GPT-4Vに旅先の写真を見せて本は書けるか」というのをトライしようとしたら予想の斜め上になったので共有する。神の雫か?誰だよリナって旅行記を書かせてみる世界一周の配達員: 砂漠の楽園への到着彼の名はタカシ。かつて日本の小さな町でUberEatsの配達員として日々を過ごしていた彼が、ある日、世界一周の旅に出ることを決意した。バイクでの配達の経験を活かし、彼は自らのバイクを相棒に、未知なる地へと足を進めた。アジア、ヨーロッパ、アフリカと彼は数々の国々を渡り歩き、その途中で多くの文化や料理、そして人々との出会いに心を温められてきた。一度は高山の頂上でバイクが故障し、夜を迎える寸前に現地の住民に助けられたことも。その度に、彼の心には新しい経験とともに感謝の気持ちが刻まれていった。そして、彼が辿り着いたのは、砂漠の中に突如現れる壮大な人工の楽園、ドバイ。画像からも
ChatGPTの有料版「GPT-4V」を無料で使う裏ワザ
- 4 users
- radiolife.com
- テクノロジー
- 2024/01/27
「ChatGPT」の登場から1年が経ち、世界中のさまざまな分野に大きな影響を与えています。最新版「GPT-4V」は従来までのテキストベースから画像認識機能を搭載し、完全無欠な存在に近づきつつあります。ただし、最新版のGPT-4Vは有料版でのみされている機能。これを無料で使う裏ワザを紹介しましょう。 GPT-4Vが無料で使えるBingチャット GPT-4Vを使うには月額20ドルの課金が必要ですが、常に活用する人以外、月3千円の出費は躊躇する金額でしょう。そこで活用したいのが、Microsoftが提供している検索エンジンのBingです。 Bingには「チャット（Copilot）」という機能があり、これがUIは別物ですが、じつはChatGPTそのもの。Microsoftアカウントでログインして、「会話のスタイル」を「より厳密に」にすればGPT-4Vが使えてしまうのです。実際にBingチャットで
GitHub - haotian-liu/LLaVA: [NeurIPS'23 Oral] Visual Instruction Tuning (LLaVA) built towards GPT-4V level capabilities and beyond.
- 4 users
- github.com/haotian-liu
- テクノロジー
- 2023/04/23
[03/10] Releasing LMMs-Eval, a highly efficient evaluation pipeline we used when developing LLaVA-NeXT. It supports the evaluation of LMMs on dozens of public datasets and allows new dataset onboarding, making the dev of new LMMs much faster. [Blog] [Codebase] [1/30] 🔥 LLaVA-NeXT (LLaVA-1.6) is out! With additional scaling to LLaVA-1.5, LLaVA-NeXT-34B outperforms Gemini Pro on some benchmarks. It
- あとで読む
プロンプトの推定をDALL·E 3とGPT-4Vにまかせた！ - ABEJA Tech Blog
- 4 users
- tech-blog.abeja.asia
- テクノロジー
- 2023/12/02
目次はじめに DALL·E 3とGPT-4Vにまかせる実装実験結果定量評価その他さいごにはじめにこの記事はABEJA Advent Calendar 2023の2日目の記事です。こんにちは。データサイエンティストの小林です。12月に入り、クリスマスももうすぐですね。私は一年中、Spotifyの"Christmas Hits!"を聞くくらいにクリスマスソングが大好きです！アドベントカレンダー用にクリスマスっぽいサムネを作ろうかなと思い、早速ChatGPTに作ってもらっていたのですが、画像生成のプロンプト調整結構難しいですよね。。ネットで流れてくる他の人の作った画像、どんなプロンプトで作ったんだろう？とが気になることが結構あります。そこで今回は、先月公開されたGPT-4 with Vision（GPT-4V）のAPIを用いて、DALL·E 3への画像生成プロンプトを自
GPT4-Vで画面設計書から画面を生成させる - Qiita
- 4 users
- qiita.com/shyamagu
- テクノロジー
- 2024/05/02
はじめにこれまで設計書からプログラム、構成図からIaCなど、GPT4-Vで画像を使ったケースを取り扱ってきました。今回は画面設計書みたいなものから画面のコードを生成させてみたいと思います。なお、生成するコードはSvelteコンポーネントです。画面設計書本当は日本語が良かったのですが、日本語OCRの精度に不安があったので英語で記載しました。なお、英語もChatGPTで日本語をもとに翻訳したものをそのままいれています。 DallePanel.svleteというSvelteコンポーネントについて、画面の構成と、動作に関する説明などを右側にいれています。右側の説明は画像にいれなくてもプロンプトに入れてもいいかなと思いましたが、とりあえず画像です。ともすればfigmaとかでもいいじゃないかっていう話もありますが、動作含めて画像にすることを今回試します。説明の内容は日本語（翻訳前）だと以下
- あとで読む
【LLaVA 1.5】オープンソース版GPT4-Vの使い方～比較レビューまで | WEEL
- 4 users
- weel.co.jp
- テクノロジー
- 2023/10/09
皆さんは、LLaVA-1.5という大規模マルチモーダルモデル（LMM）をご存じですか？このLLMは、既存のLLMをベースに、画像入力を理解する能力を持たせて、より強力にしたLMMなんです。公開されたGithubのスター数は5,000を超えているところを見ると、かなりの注目度の高さが伺えますね！今回は、LLaVA-1.5の概要や使い方、実際に使ってみた感想をお伝えします。ぜひ最後までご覧ください！なお弊社では、生成AIツール開発についての無料相談を承っています。こちらからお気軽にご相談ください。 →無料相談で話を聞いてみる LLaVA-1.5の概要 LLaVAは、GPT-4レベルの能力を持つ大規模な言語とビジョンモデルを構築するために開発が進められている大規模マルチモーダルモデル（LMM)です。最新版ではLlama2をベースにしており、視覚エンコーダを組み合わせて画像入力の理解能
- 人工知能