米Appleと米カリフォルニア大学サンタバーバラ校(UCSB)の研究者らは2月5日(現地時間)、マルチモーダル大規模言語モデル(MLLM)によるテキストベースの画像編集についての論文を発表し、その実装である「MGIE」(MLLM-Guided Image Editing)のコードをGitHubで公開した。また、Hugging Faceで試すこともできる。 MGIEは、テキストプロンプトで画像のトリミングやサイズ変更、フィルターの追加などの編集操作を行えるツール。画像全体の編集だけでなく、部分的な変更も可能だ。例えば、ピザの画像を「もっとヘルシーに」と命じるとミニトマトを追加したり、写真内のPCのディスプレイの画面を差し替えたりできる。 Hugging Faceのデモでは、編集したい画像をドロップして英語で命令を入力すると、結果が表示される。短い命令を、MGIEがより詳しい命令に変えてから実