Dynamic Multi-Person Mesh Recovery From Uncalibrated Multi-View Cameras 動的な複数人のメッシュ回復は、最近3Dビジョンでホットなトピックになっています。ただし、キャリブレーションされていないカメラからの複数人のモーションキャプチャに焦点を当てた作品はほとんどなく、主に2つの課題に直面しています。もう1つは、密な対応の欠如を使用して、動的な複数人のシーンでまばらなカメラジオメトリを制約できることです。私たちの重要なアイデアは、モーションの事前知識を、ノイズの多い人間のセマンティクスからの外部カメラパラメータと人間のメッシュの同時最適化に組み込むことです。最初に、検出された人間のセマンティクスの低周波ノイズと高周波ノイズを低減するために、物理幾何学の一貫性を導入します。次に、わずかにノイズの多い入力からの外因性カメラパラメ
SAC: Semantic Attention Composition for Text-Conditioned Image Retrieval 画像を効率的に検索する機能は、さまざまな製品のユーザーエクスペリエンスを向上させるために不可欠です。マルチモーダル入力を介してユーザーフィードバックを組み込んで視覚的検索をナビゲートすると、取得した結果を特定のユーザークエリに合わせて調整するのに役立ちます。参照画像と一緒にサポートテキストフィードバックを利用して、両方の入力によって課せられた制約を同時に満たす画像を取得する、テキスト条件付き画像検索のタスクに焦点を当てます。テキストフィードバックから複数のクロスグラニュラーセマンティック編集を組み込み、それを視覚的特徴に適用することによって複合画像-テキスト特徴を学習する必要があるため、このタスクは困難です。これに対処するために、「どこを見るか」
StructFormer: Learning Spatial Structure for Language-Guided Semantic Rearrangement of Novel Objects オブジェクトを意味的に意味のある配置に幾何学的に編成することは、構築された世界に浸透します。そのため、倉庫、オフィス、および家庭で動作する支援ロボットは、オブジェクトを認識してこれらの意味的に意味のある構造に再配置する機能から大きな恩恵を受けるでしょう。有用であるためには、これらのロボットは、以前は見られなかったオブジェクトと戦い、重要なプログラミングなしで命令を受け取る必要があります。以前の作品では、ペアワイズの意味関係とこれらの単純な関係を変更するための順次操作の認識を検討しましたが、オブジェクトを円やテーブル設定などの複雑な構造に配置する機能は示されていません。この問題に対処するために
Hand-Object Contact Prediction via Motion-Based Pseudo-Labeling and Guided Progressive Label Correction すべての手と物体の相互作用は、接触から始まります。手と物体の間の接触状態を予測することは、手と物体の相互作用を理解するのに役立ちますが、手と物体の分析に関する以前の方法は、相互作用する手と物体が既知であると想定しており、詳細には研究されていません。この研究では、手と物体の接触を予測するためのビデオベースの方法を紹介します。具体的には、ビデオと1組の手とオブジェクトのトラックが与えられた場合、各フレームのバイナリ接触状態(接触または非接触)を予測します。ただし、多数のハンドオブジェクトトラックと連絡先ラベルに注釈を付けるにはコストがかかります。この困難を克服するために、(i)モーションベ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く