Video Text Tracking With a Spatio-Temporal Complementary Model テキスト追跡とは、ビデオ内の複数のテキストを追跡し、各テキストの軌跡を作成することです。既存の方法は、検出による追跡フレームワークを利用することによって、このタスクを積み重ねます。つまり、各フレームのテキストインスタンスを検出し、連続するフレームの対応するテキストインスタンスを関連付けます。このパラダイムの追跡精度は、より複雑なシナリオでは厳しく制限されていると主張します。たとえば、モーションブラーなどが原因で、テキストインスタンスの検出を見逃すと、テキストの軌跡が途切れます。さらに、外観が似ているさまざまなテキストインスタンスは簡単に混乱し、テキストインスタンスの関連付けが正しくなくなります。この目的のために、新しい時空間補完テキスト追跡モデルがこの論文で提案され
生成的敵対的ネットワーク(GAN)の最近の成功は、顔のアニメーションタスクで大きな進歩を遂げました。ただし、顔画像の複雑なシーン構造では、ソース画像から大幅に逸脱した顔ポーズのビデオを生成することが依然として困難です。一方では、顔の幾何学的構造を知らないと、生成された顔画像が不適切に歪む可能性があります。一方、生成された画像の一部の領域がソース画像で遮られている可能性があり、GANがリアルな外観を生成するのが困難になります。これらの問題に対処するために、顔画像のさまざまなコンポーネントをモデル化するために特定の幾何学的構造を構築する構造認識顔アニメーション(SAFA)メソッドを提案します。よく知られているモーションベースの顔アニメーション手法に従って、3Dモーフィング可能モデル(3DMM)を使用して顔をモデル化し、複数のアフィン変換を使用して髪やあごひげなどの他の前景コンポーネントをモデル
Combining Machine Learning with Physics: A Framework for Tracking and Sorting Multiple Dark Solitons 極低温原子実験では、データは多くの場合、システムの準備と測定に使用される手法に固有の情報損失を被る画像の形式で提供されます。これは、ボーズ・アインシュタイン凝縮(BEC)の励起間の相互作用など、対象のプロセスが複雑な場合に特に問題になります。このホワイトペーパーでは、機械学習(ML)モデルと物理ベースの従来の分析を組み合わせて、BECの画像内の複数の孤立性励起を識別および追跡するフレームワークについて説明します。 MLベースのオブジェクト検出器を使用して、孤立性励起を特定し、物理情報に基づいた分類器を開発して、孤立性励起を物理的に動機付けられたサブカテゴリに分類します。最後に、特定の機能がキ
ImageNetおよびCLIPベースのモデルによって導かれるプロセスを使用して、オブジェクトの3Dモデルと異なる表示角度での2Dレンダリングを共同で生成する方法を紹介します。私たちの結果は、ターゲットのキャプションを呼び起こし、視覚的に魅力的に見えるレンダリングで、アナモルフィックオブジェクトを生成できることを示しています。 We present a method for jointly generating 3D models of objects and 2D renders at different viewing angles, with the process guided by ImageNet and CLIP -based models. Our results indicate that it can generate anamorphic objects, with r
この論文では、教育ビデオから学ぶ自己監視型視聴覚モデルを探求します。以前の研究では、これらのモデルは、ビデオの大規模なデータセットでトレーニングした後、話し言葉や音を視覚的なコンテンツに関連付けることができることが示されていますが、英語のビデオでのみトレーニングおよび評価されました。多言語の視聴覚表現を学習するために、英語のビデオでトレーニングされたモデルを活用し、それを日本語のビデオなどの他の言語の視聴覚データに適用するカスケードアプローチを提案します。カスケードアプローチを使用すると、日本のビデオのみのトレーニングと比較して、検索パフォーマンスが約10倍向上することがわかります。また、英語のビデオでトレーニングされたモデルを日本語とヒンディー語の画像のキャプションに適用し、最先端のパフォーマンスを実現します。 In this paper, we explore self-supervi
Synthetic magnetic resonance images for domain adaptation: Application to fetal brain tissue segmentation 子宮内で発達している人間の脳の定量的評価は、神経発達を完全に理解するために重要です。したがって、自動化された多組織胎児脳セグメンテーションアルゴリズムが開発されており、これには注釈付きデータのトレーニングが必要です。ただし、利用可能な注釈付き胎児脳データセットは、数と不均一性が制限されており、堅牢なセグメンテーションのためのドメイン適応戦略を妨げています。このコンテキストでは、胎児の脳の磁気共鳴取得数値ファントムであるFaBiANを使用して、胎児の脳のさまざまな現実的な磁気共鳴画像とそのクラスラベルをシミュレートします。これらの複数の合成注釈付きデータは、無料で生成され、ターゲット
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く