最近、大規模なデータセットと強力なトランスフォーマーネットワークを導入することにより、ビデオ言語の事前トレーニングは、特に検索で大きな成功を収めています。それでも、既存のビデオ言語トランスフォーマーモデルは、明示的にきめ細かいセマンティックアラインメントを行いません。この作業では、オブジェクト認識トランスフォーマーを紹介します。これは、ビデオ言語トランスフォーマーを拡張してオブジェクト表現を組み込むオブジェクト中心のアプローチです。重要なアイデアは、バウンディングボックスとオブジェクトタグを活用してトレーニングプロセスをガイドすることです。広く使用されている4つのベンチマークで、ビデオテキストマッチングの3つの標準サブタスクでモデルを評価します。また、提案された方法に関する詳細な分析と詳細なアブレーションを提供します。検討したすべてのタスクとデータセットでパフォーマンスが明らかに向上してい
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く