はじめに OpenAIが3月に発表していたものの実装していなかった、画像および音声を取り扱うことのできるマルチモーダルモデル「GPT4-V」のdeployが発表されました。本当に全部この会社がやればいいんじゃないか? ChatGPTのPlus/Enterpriseユーザーに2週間かけて提供するそうです。最近ChatGPTのほうの処理能力が落ちつつあってGPT-4のAPIばっかり使ってるんですが、ChatGPT Plusは解約できそうにないですね。 GPT4-Vを中心としたV&LのLLMはDocumentUnderstandingの文脈での活用が期待されており、先日Googleを中心としたグループもLMDX: Language Model-based Document Information Extraction and Localizationという論文を発表していました。Geminiなん