エントリーの編集
![loading...](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/common/loading@2x.gif)
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
![アプリのスクリーンショット](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/entry/app-screenshot.png)
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
キャプションを超えた画像からのテキスト生成の進歩について:自己合理化の事例研究
On Advances in Text Generation from Images Beyond Captioning: A Case Study in Self-Rationalizatio... On Advances in Text Generation from Images Beyond Captioning: A Case Study in Self-Rationalization 事前に訓練された言語モデルの成功を受けて、ビジョンと言語の統合が注目を集めています。それにもかかわらず、新しいマルチモーダルモデルの一部は、画像を条件としたテキスト生成に適しています。この少数派は通常、画像のキャプション、つまり画像に明示的に表示されるものを説明することを目的とした画像のみを条件とするテキスト生成タスクのために開発および評価されます。このホワイトペーパーでは、一歩下がって質問します。これらのモデルは、テキストと画像の両方を条件として、より複雑な生成タスクに対してどのように機能するのでしょうか。共同マルチモーダル事前トレーニング、視覚的に適応された事前トレーニングされた言語モデル、
2022/05/25 リンク