キャプションを超えた画像からのテキスト生成の進歩について：自己合理化の事例研究

世の中カテゴリーの変更を依頼記事元:

arxiv-check-250201.firebaseapp.com

1 userがブックマークコメント

記事へのコメント1件

注目コメント
新着コメント

arxiv_reader 事前に訓練された言語モデルの成功を受けて、ビジョンと言語の統合が注目を集めています。それにもかかわらず、新しいマルチモーダルモデルの一部は、画像を条件としたテキスト生成に適しています。この少数派は通常

2022/05/25 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

キャプションを超えた画像からのテキスト生成の進歩について：自己合理化の事例研究

On Advances in Text Generation from Images Beyond Captioning: A Case Study in Self-Rationalizatio... On Advances in Text Generation from Images Beyond Captioning: A Case Study in Self-Rationalization 事前に訓練された言語モデルの成功を受けて、ビジョンと言語の統合が注目を集めています。それにもかかわらず、新しいマルチモーダルモデルの一部は、画像を条件としたテキスト生成に適しています。この少数派は通常、画像のキャプション、つまり画像に明示的に表示されるものを説明することを目的とした画像のみを条件とするテキスト生成タスクのために開発および評価されます。このホワイトペーパーでは、一歩下がって質問します。これらのモデルは、テキストと画像の両方を条件として、より複雑な生成タスクに対してどのように機能するのでしょうか。共同マルチモーダル事前トレーニング、視覚的に適応された事前トレーニングされた言語モデル、