高密度の連続時間オプティカルフローを推定する方法を提示します。従来の高密度オプティカルフロー法は、2つの画像間のピクセル変位を計算します。情報が不足しているため、これらのアプローチでは、2つの画像間のブラインドタイムでピクセルの軌跡を復元できません。この作業では、イベントカメラからのイベントを追加で使用することにより、ピクセルごとの連続時間オプティカルフローを計算できることを示します。イベントは、非同期の性質とマイクロ秒の応答時間により、画像空間の動きに関する時間的にきめ細かい情報を提供します。これらの利点を活用して、パラメーター化されたベジェ曲線を介して、連続時間でピクセルの軌跡を密に予測します。これを達成するために、このタスクに強い誘導バイアスを持つニューラルネットワークを構築するための複数のイノベーションを導入します。最初に、イベントデータを使用して時間内に複数の順次相関ボリュームを
Show Me What and Tell Me How: Video Synthesis via Multimodal Conditioning 条件付きビデオ合成のほとんどの方法は、条件として単一のモダリティを使用します。これには大きな制限があります。たとえば、画像を条件とするモデルでは、モーション情報を提供する手段がないため、ユーザーが希望する特定のモーション軌跡を生成することは問題があります。逆に、言語情報は、ビデオのコンテンツを正確に定義していなくても、目的の動きを説明できます。この作品は、共同または別々に提供されるテキストと画像から利益を得るマルチモーダルビデオ生成フレームワークを提示します。ビデオの量子化表現の最近の進歩を活用し、複数のモダリティを入力として双方向トランスフォーマーを適用して、個別のビデオ表現を予測します。ビデオの品質と一貫性を向上させるために、自己学習でトレ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く