タグ

ブックマーク / note.com/negipoyoc (2)

  • OpenAIのgpt-4-vision-previewに画像を投げてどんなことをしてくれるのか試してみた|ねぎぽよし

    捉え方としては「GPT-4が視覚を持つようになったもの」なのでテキストタスクも引き続きGPT-4と同等の精度で扱える URLでもBase64エンコードした画像のどちらでもOK png jpeg webp git(アニメーション無しのものに限る)を受け付けている 特性 Limitationsの欄に、どんな画像が苦手なのかが書いてありますね。 日語や韓国語などの非ラテンアルファベットテキストは苦手 チェスの盤面など正確な空間定位が必要なタスクは苦手 上下逆さまの画像は誤って解釈される可能性がある 特定の状況(?)で誤った説明やキャプションを生成することがある APIにCAPTCHA画像を投げてもシステムによってリジェクトされる など。 それでも、「画像を解釈して文字にする」という能力に誰もが触れるようになったのはたいへん力強いと思います。 色々遊んでみた実験に使ったコードさくっと試したかった

    OpenAIのgpt-4-vision-previewに画像を投げてどんなことをしてくれるのか試してみた|ねぎぽよし
  • ChatGPT APIをUnityから動かす。|ねぎぽよし

    こんにちは。 先日AIエージェント開発の技術解説記事を書いて「今後ChatGPTライクのAPIが出てきた瞬間に進化すると思う」という話をしたのですが… まさか3日後にChatGPT APIが出てくるとは思いませんでした。 というわけで今回はUnityからChatGPT APIを叩く方法について書いてみます。 先日の記事で用いたGPT-3TextCompletionAPIよりも(Langchainなどを使わず)カスタマイズ無しで実際のAI利用シーンに活用できそうな印象を受けました。 具体的には… 応答速度が早い(応答の文章の長さによりますが、手元の環境では1~3秒で返ってきました) AI側の応答の前提条件の設定ができる。(キャラクターの性格や語尾など) (過去のプロンプトや生成結果を次のプロンプトに引き継ぐような実装をすることで)会話の文脈を考慮した応答をすることができる。 という特徴があ

    ChatGPT APIをUnityから動かす。|ねぎぽよし
  • 1