Panoptic-based Object Style-Align for Image-to-Image Translation 画像翻訳の目覚ましい最近の進歩にもかかわらず、複数の矛盾するオブジェクトを含む複雑なシーンは依然として挑戦的な問題です。翻訳された画像は忠実度が低く、細部の小さなオブジェクトがあり、オブジェクト認識で不十分なパフォーマンスが得られるためです。事前知識としての画像の完全なオブジェクト認識(つまり、境界ボックス、カテゴリ、およびマスク)がないと、各オブジェクトのスタイル変換を画像変換プロセスで追跡することは困難になります。コンパクトなパノプティコンセグメンテーションデータセットとともに、画像から画像への変換のために、パノプティコンベースのオブジェクトスタイルアライン生成敵対的ネットワーク(POSA-GAN)を提案します。パノプティコンセグメンテーションモデルは、パノ
Semantic Map Injected GAN Training for Image-to-Image Translation 画像から画像への変換は、生成的敵対的ネットワーク(GAN)を使用して、あるドメインから別のドメインに画像を変換する最近の傾向です。既存のGANモデルは、変換の入力モダリティと出力モダリティのみを利用してトレーニングを実行します。この論文では、GANモデルのセマンティックインジェクショントレーニングを実行します。具体的には、元の入力および出力モダリティでトレーニングし、入力からセマンティックマップへの変換のためにトレーニングのいくつかのエポックを注入します。元のトレーニングを、入力画像をターゲットドメインに変換するためのトレーニングと呼びましょう。元のトレーニングにセマンティックトレーニングを挿入すると、トレーニングされたGANモデルの一般化機能が向上します。さ
曲のダンスの振り付けは挑戦的な仕事であり、音楽のテーマとリズムを考慮しながら、独特のスタイルのダンス要素を提示する際に創造的でなければなりません。類似性の取得、シーケンス間のモデリング、生成的敵対的ネットワークなどのさまざまなアプローチで取り組んできましたが、生成されたダンスシーケンスは、モーションリアリズム、多様性、音楽の一貫性に欠けていることがよくあります。本稿では、音楽から3Dダンスの振り付けを生成する方法を学ぶために、最適なトランスポートネットワーク(MDOT-Net)を使用したMusic-to-Danceを提案します。生成されたダンス分布の信憑性を評価するための最適な輸送距離と、ダンス分布と入力音楽の間の対応を測定するためのGromov-Wasserstein距離を紹介します。これにより、不安定性や発散性の発電機損失の問題に悩まされることが多い標準的なGANトレーニングの制限を緩
3Dメッシュの幾何学的特徴学習は、コンピューターグラフィックスの中心であり、多くの視覚アプリケーションにとって非常に重要です。ただし、ディープラーニングは現在、必要な操作や効率的な実装が不足しているため、異種3Dメッシュの階層モデリングに遅れをとっています。この論文では、異種3Dメッシュ上で効果的な幾何学的深層学習のための一連のモジュラー操作を提案します。これらの操作には、メッシュの畳み込み、(アン)プーリング、および効率的なメッシュデシメーションが含まれます。これらの操作のオープンソース実装を提供します。これらはまとめてPicassoと呼ばれます。 PicassoのメッシュデシメーションモジュールはGPUで高速化されており、ディープラーニングのためにメッシュのバッチをオンザフライで処理できます。私たちの(アン)プーリング操作は、さまざまな解像度のネットワーク層にわたって新しく作成されたニ
A Systematic IoU-Related Method: Beyond Simplified Regression for Better Localization Smooth-ℓ_1Lossなどの4変数独立回帰ローカリゼーション損失は、最新の検出器でデフォルトで使用されます。それにもかかわらず、この種の損失は単純化されすぎているため、最終的な評価指標である交差点(IoU)と矛盾します。標準のIoUを直接使用することも不可能ではありません。これは、重複しないボックスの場合の一定のゼロのプラトーと、最小の非ゼロの勾配により、トレーニングが不可能になる可能性があるためです。したがって、これらの問題に対処するための体系的な方法を提案します。まず、新しいメトリックである拡張IoU(EIoU)を提案します。これは、2つのボックスがオーバーラップしていない場合は明確に定義され、オーバーラップし
NeRF-SR: High-Quality Neural Radiance Fields using Super-Sampling NeRF-SRは、主に低解像度(LR)入力を使用した高解像度(HR)の新しいビュー合成のソリューションです。私たちの方法は、多層パーセプトロンを使用してポイントごとの密度と色を予測するNeural Radiance Fields(NeRF)に基づいて構築されています。 NeRFは任意の縮尺で画像を生成する一方で、観察された画像を超える解像度に苦労しています。私たちの重要な洞察は、NeRFにはローカルの事前分布があるということです。つまり、3Dポイントの予測を近くの領域に伝播し、正確さを保つことができます。最初に、各画像ピクセルで複数の光線を発射するスーパーサンプリング戦略によってそれを活用します。これにより、サブピクセルレベルでマルチビュー制約が適用されます。
Structure-Aware Multi-Hop Graph Convolution for Graph Neural Networks 本論文では、グラフ上の信号を分類するための空間グラフ畳み込み(GC)を提案します。既存のGCメソッドは、フィーチャスペースの構造情報の使用に制限されています。さらに、GCのシングルステップでは、ターゲットノードからのワンホップ隣接ノードの機能のみを使用します。この論文では、GCのパフォーマンスを改善するための2つの方法を提案します。1)特徴空間の構造情報を利用する方法と、2)1つのGCステップでマルチホップ情報を利用する方法です。最初の方法では、フィーチャスペースに3つの構造フィーチャを定義します。フィーチャ角度、フィーチャ距離、およびリレーショナル埋め込みです。 2番目の方法は、GC内のマルチホップネイバーのノードごとの機能を集約します。両方の方法を
焦点深度(DFF)は、カメラの焦点の変化を使用して深度を推測する手法です。この作業では、畳み込みニューラルネットワーク(CNN)を提案して、焦点スタック内で最も焦点の合ったピクセルを見つけ、焦点推定から深度を推測します。ネットワークの重要な革新は、新しいディープディファレンシャルフォーカスボリューム(DFV)です。 DFVは、さまざまな焦点距離にわたって積み重ねられた特徴を使用して1次導関数を計算することにより、焦点分析のために焦点情報とコンテキスト情報の両方をキャプチャできます。さらに、まばらにサンプリングされた焦点スタックを処理し、最終的な予測に不確実性の推定を提供するために、焦点推定のための確率回帰メカニズムも導入します。包括的な実験は、提案されたモデルが、優れた一般化可能性と高速で複数のデータセットに対して最先端のパフォーマンスを達成することを示しています。 Depth-from-
TransZero: Attribute-guided Transformer for Zero-Shot Learning ゼロショット学習(ZSL)は、セマンティック知識を表示されているクラスから表示されていないクラスに転送することにより、新しいクラスを認識することを目的としています。セマンティックの知識は、異なるクラス間で共有される属性の説明から学習されます。これは、識別可能な領域の特徴を表すオブジェクト属性をローカライズするための強力な事前確率として機能し、視覚とセマンティックの重要な相互作用を可能にします。一部の注意ベースのモデルは、単一の画像でそのような領域の特徴を学習しようとしましたが、視覚的特徴の転送可能性と識別属性のローカリゼーションは通常無視されます。この論文では、TransZeroと呼ばれる属性誘導トランスフォーマーネットワークを提案し、視覚的特徴を洗練し、ZSLでの
コンピュータビジョンの多くのアプリケーションでは、2Dおよび3D画像が1つしかない多数のソースからのデータを融合することにより、時間の経過に伴うオブジェクトの軌道を正確に推定することが重要です。この論文では、因子グラフベースの確率的追跡フレームワークの特徴に対して生成密度と組み合わせて深い特徴エンコーディングを使用する方法を示します。学習した特徴エンコーダーとそれらの生成密度を組み合わせた尤度モデルを提示します。どちらも教師ありの方法でトレーニングされています。また、尤度の定式化にフィードする画像分類モデルを使用して、確率を直接推測する実験も行います。これらのモデルは、モーションモデルやその他の事前情報など、ドメイン固有の知識を表す他の因子を補完するために因子グラフに追加される深い因子を実装するために使用されます。次に、因子は、ガウス事前分布を使用した拡張カルマンスムーザーの形式をとる非線
ニューラルシーン表現が3Dスカラー場を高い再構成品質で効果的に圧縮する可能性があるにもかかわらず、シーン表現ネットワークを使用したトレーニングとデータ再構成ステップの計算の複雑さは、実際のアプリケーションでの使用を制限します。このホワイトペーパーでは、シーン表現ネットワークを変更してこれらの制限を軽減できるかどうか、およびこれらのアーキテクチャを時間的再構築タスクにも使用できるかどうかを分析します。 GPUテンソルコアを使用してシーン表現ネットワークの新しい設計を提案し、再構成をオンチップレイトレーシングカーネルにシームレスに統合します。さらに、従来のデータ駆動型アプローチの代替としての画像誘導ネットワークトレーニングの使用を調査し、品質と速度に関するこの代替の潜在的な長所と短所を調査します。時変フィールドの空間超解像アプローチの代替として、任意の粒度でのランダムアクセス再構成を可能にする
D3Net: A Speaker-Listener Architecture for Semi-supervised Dense Captioning and Visual Grounding in RGB-D Scans 3Dでのクローズドキャプションと視覚的接地に関する最近の研究は、印象的な結果を達成しています。両方の分野での開発にもかかわらず、利用可能な3D視覚言語データの量が限られているため、3D視覚的接地および3D高密度キャプション手法の過剰適合の問題が発生します。また、複雑な3D環境でオブジェクトを区別して記述する方法はまだ十分に研究されていません。これらの課題に対処するために、D3Netを紹介します。これは、検出、記述、および識別が可能なエンドツーエンドのニューラルスピーカー-リスナーアーキテクチャです。私たちのD3Netは、自己批判的な方法で3Dの高密度キャプションと視覚的
シャコ目(シャコ目)の視覚システムは、最近、パラダイムシフト偏光およびマルチスペクトルイメージングセンサーの設計の青写真を提供し、困難な医療およびリモートセンシングの問題に対するソリューションを可能にしました。ただし、これらのバイオインスパイアードセンサーは、stomatopodビジュアルシステムのハイダイナミックレンジ(HDR)と非同期偏光ビジョン機能を欠いており、時間分解能を\ 〜12 msに、ダイナミックレンジを\ 〜72dBに制限しています。ここでは、最大ナイキストフレームレートを超えて電力とサンプルデータを節約するために、持続的で一時的な生物学的視覚経路を模倣する、新しいシャコに触発された偏光カメラを紹介します。このバイオインスパイアードセンサーは、100万倍の照明範囲にわたって、ミリ秒未満の遅延で同期強度フレームと非同期偏光輝度変化情報の両方を同時にキャプチャします。当社のPD
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く