arxiv_readerのブックマーク / 2021年11月29日 - はてなブックマーク

arxiv_reader id:arxiv_reader

2021年11月29日のブックマーク (209件)

ManiFest：数ショットの画像翻訳のためのマニホールド変形
arxiv_reader 2021/11/29
ほとんどの画像から画像への変換方法では、多数のトレーニング画像が必要であるため、それらの適用性が制限されます。代わりに、ManiFestを提案します。これは、少数の画像のみからターゲットドメインのコン

arXiv

metric

manifold

few-shot

domain

representation

adversarial

arXiv reaDer
リンク
GMFlow：グローバルマッチングによるオプティカルフローの学習
arxiv_reader 2021/11/29
学習ベースのオプティカルフロー推定は、フロー回帰の畳み込みを伴うコストボリュームのパイプラインによって支配されてきました。これは、本質的に局所相関に限定されているため、大変位の長年の課題に対処するのは

arXiv

residual

learning

transformer

benchmark

optical flow

convolutional

arXiv reaDer

estimation
リンク
暗闇の中でのNeRF：ノイズの多い生画像からのハイダイナミックレンジビュー合成
arxiv_reader 2021/11/29
Neural Radiance Fields（NeRF）は、ポーズをとった入力画像のコレクションから高品質の新しいビューを合成するための手法です。ほとんどのビュー合成方法と同様に、NeRFは入力として

arXiv

representation

synthesis

arXiv reaDer
リンク
SWAT：トークン内およびトークン間の空間構造
arxiv_reader 2021/11/29
視覚データをトークン（つまり、画像パッチ）としてモデル化し、それらの上に注意メカニズムまたはフィードフォワードネットワークを適用することは、近年非常に効果的であることが示されています。このようなアプロ

arXiv

transformer

benchmark

arXiv reaDer

segmentation

attention

classification
リンク
一時的なアクティビティ検出のための弱いガイド付き自己教師付き事前トレーニング
arxiv_reader 2021/11/29
時間的アクティビティ検出は、アクティビティ分類（つまり、アクティビティ認識）で行われるビデオレベルの予測とは対照的に、フレームごとのアクティビティクラスを予測することを目的としています。検出に必要な高

arXiv

activity

benchmark

self-supervised

action

arXiv reaDer

dataset

detection

classification
リンク
3D再構築のための学習可能なカーネルとしてのニューラルフィールド
arxiv_reader 2021/11/29
ニューラルカーネルフィールドを提示します。これは、学習したカーネルリッジ回帰に基づいて暗黙的な3D形状を再構築するための新しい方法です。私たちの手法は、スパース指向のポイントから3Dオブジェクトや大き

arXiv

3D

reconstruction

sparse

arXiv reaDer

bias
リンク
高品質のインスタンスセグメンテーションのためのマスクトランスファイナー
arxiv_reader 2021/11/29
2段階のクエリベースのインスタンスセグメンテーション方法は、驚くべき結果を達成しました。ただし、それらのセグメント化されたマスクはまだ非常に粗いです。この論文では、高品質で効率的なインスタンスセグメン

arXiv

benchmark

sparse

arXiv reaDer

segmentation
リンク
不滅の追跡者：Tracklet Never Dies
arxiv_reader 2021/11/29
以前のオンライン3Dマルチオブジェクトトラッキング（3DMOT）メソッドは、トラックレットが数フレームの新しい検出に関連付けられていない場合、トラックレットを終了します。ただし、他のオブジェクトによっ

arXiv

3D

vehicle

MOT

trajectory

arXiv reaDer

dataset
リンク
イチゴの3D形状センシングとディープラーニングベースのセグメンテーション
arxiv_reader 2021/11/29
農業部門の自動化とロボット化は、この業界が直面する社会経済的課題に対する実行可能な解決策と見なされています。このテクノロジーは、多くの場合、作物、植物、および環境全体に関する情報を提供するインテリジェ

arXiv

3D

stereo

occlusion

arXiv reaDer

estimation

segmentation
リンク
低コストで効率的なマラリア検出に向けて
arxiv_reader 2021/11/29
致命的であるが治癒可能な病気であるマラリアは、毎年数十万人の命を奪っています。健康の複雑さを回避するには、早期かつ正確な診断が不可欠ですが、血液塗抹標本のスライドを分析するための高価な顕微鏡と訓練を受

arXiv

localization

arXiv reaDer

domain adaptation

dataset

detection

classification
リンク
Gradient-SDF：3D再構成のための半陰関数曲面表現
arxiv_reader 2021/11/29
暗黙的表現と明示的表現の利点を組み合わせた3Dジオメトリの新しい表現であるGradient-SDFを紹介します。すべてのボクセルに符号付き距離フィールドとその勾配ベクトルフィールドの両方を格納すること

arXiv

3D

reconstruction

mesh

point cloud

tracking

representation

arXiv reaDer

gradient

pose
リンク
ソースフリードメイン適応のための固有の近隣構造の活用
arxiv_reader 2021/11/29
ドメイン適応（DA）は、ソースドメインとターゲットドメイン間のドメインシフトを軽減することを目的としています。ほとんどのDAメソッドは、ソースデータへのアクセスを必要としますが、多くの場合、それは不可

arXiv

3D

point cloud

regularization

arXiv reaDer

domain adaptation

affinity

dataset
リンク
空間ノイズカリキュラム学習による対照的なオブジェクトレベルの事前トレーニング
arxiv_reader 2021/11/29
対照学習ベースの事前トレーニングの目標は、ラベルのない大量のデータを活用して、ダウンストリームに容易に適応できるモデルを作成することです。現在のアプローチは、画像識別タスクの解決を中心に展開しています

arXiv

pre-training

augmentation

representation

arXiv reaDer

contrastive learning

dataset
リンク
TVT：教師なしドメイン適応のための転送可能なビジョントランスフォーマー
arxiv_reader 2021/11/29
教師なしドメイン適応（UDA）は、ラベル付きのソースドメインから学習した知識をラベルなしのターゲットドメインに転送することを目的としています。以前の作業は、主に畳み込みニューラルネットワーク（CNN）

arXiv

unsupervised

transformer

benchmark

adversarial

arXiv reaDer

domain adaptation

CNN

clustering

attention
リンク
個別に公正な表現のための潜在空間平滑化
公正な表現学習は、ダウンストリームアプリケーションに関係なく、公平性と有用性を確保するためにユーザーデータをエンコードします。ただし、個別に公正な表現を学習すること、つまり、類似した個人が同様に扱われることを保証することは、コンピュータービジョンなどの高次元の設定では依然として困難です。この作業では、高次元データの個人の公平性を証明するための最初の表現学習方法であるLASSIを紹介します。私たちの重要な洞察は、生成モデリングの最近の進歩を活用して、生成潜在空間内の類似した個人のセットをキャプチャすることです。これにより、敵対的なトレーニングを使用して表現間の距離を最小限に抑えることにより、類似した個人が互いに接近してマッピングされている個別に公正な表現を学習できます。最後に、ランダム化された平滑化を使用して、類似した個人を近くにマッピングし、ダウンストリームアプリケーションのローカルロバス
arxiv_reader 2021/11/29
公正な表現学習は、ダウンストリームアプリケーションに関係なく、公平性と有用性を確保するためにユーザーデータをエンコードします。ただし、個別に公正な表現を学習すること、つまり、類似した個人が同様に扱われ

arXiv

representation learning

generative

adversarial

arXiv reaDer

computer vision
リンク
マルチパーソンエクストリームモーション予測
arxiv_reader 2021/11/29
人間の動きの予測は、過去の3Dスケルトンのシーケンスを前提として将来のポーズを予測することを目的としています。この問題は最近ますます注目を集めていますが、それは主に一人の人間のために単独で取り組まれて

arXiv

3D

action

human

arXiv reaDer

dataset

attention

person

pose
リンク
低GPUメモリ要件でSpatialConfiguration-Netを使用した効率的な多臓器セグメンテーション
arxiv_reader 2021/11/29
多くの医療データセットで適切に実行できる多くのセマンティックセグメンテーション方法が存在しますが、多くの場合、それらは臨床診療で直接使用するように設計されていません。 2つの主な懸念事項は、異なるスキ

arXiv

dataset

arXiv reaDer

semantic segmentation
リンク
スコアベースの拡散モデルによる条件付き画像の生成
arxiv_reader 2021/11/29
スコアベースの拡散モデルは、深い生成モデリングのための最も有望なフレームワークの1つとして浮上しています。この作業では、スコアベースの拡散モデルを使用して条件付き確率分布を学習するためのさまざまなアプ

arXiv

generative

learning

arXiv reaDer
リンク
VL-LTR：ロングテール視覚認識のためのクラスごとの視覚言語表現の学習
VL-LTR: Learning Class-wise Visual-Linguistic Representation for Long-Tailed Visual Recognition ディープラーニングベースのモデルは、現実の世界でロングテールデータを処理するときに課題に直面します。既存のソリューションは通常、画像モダリティに基づいて、クラスの不均衡の問題に対処するために、いくつかのバランス戦略または転移学習を採用しています。この作業では、VL-LTRと呼ばれる視覚言語のロングテール認識フレームワークを提示し、ロングテール認識（LTR）にテキストモダリティを導入することの利点に関する実証的研究を実施します。既存のアプローチと比較して、提案されたVL-LTRには以下のメリットがあります。（1）私たちの方法は、画像から視覚的表現を学習するだけでなく、インターネットから収集されたノイズ
arxiv_reader 2021/11/29
ディープラーニングベースのモデルは、現実の世界でロングテールデータを処理するときに課題に直面します。既存のソリューションは通常、画像モダリティに基づいて、クラスの不均衡の問題に対処するために、いくつか

arXiv

benchmark

representation

transfer learning

arXiv reaDer
リンク
SAPNet：知覚的対照的ドレインのためのセグメンテーション対応プログレッシブネットワーク
arxiv_reader 2021/11/29
深層学習アルゴリズムは、最近、自然および合成の雨データセットの両方で有望な雨の排出性能を達成しました。重要な低レベルの前処理段階として、排水ネットワークは雨の筋を取り除き、細かい意味の詳細を保持する必

arXiv

unsupervised

synthesis

arXiv reaDer

contrastive learning

dataset

detection

semantic segmentation
リンク
架空のクラス表現を使用して、識別力のあるゼロショット学習者を後押しする
arxiv_reader 2021/11/29
識別ゼロショット学習に焦点を当て、この作業では、追加の架空のクラスを生成するために、見られたクラスのセットをトレーニング中に動的に増強する新しいメカニズムを紹介します。これらの架空のクラスは、トレーニ

arXiv

learning

representation

arXiv reaDer

dataset

zero-shot
リンク
裏返しの視覚的な場所の認識
Visual Place Recognition (VPR) is generally concerned with localizing outdoor images. However, localizing indoor scenes that contain part of an outdoor scene can be of large value for a wide range of applications. In this paper, we introduce Inside Out Visual Place Recognition (IOVPR), a task aiming to localize images based on outdoor scenes visible through windows. For this task we present the ne
arxiv_reader 2021/11/29
視覚的場所認識（VPR）は、一般的に屋外画像のローカライズに関係しています。ただし、屋外シーンの一部を含む屋内シーンをローカライズすることは、幅広いアプリケーションにとって大きな価値があります。この論

arXiv

localization

augmentation

arXiv reaDer

dataset
リンク
μNCA：超コンパクトなニューラルセルオートマトンによるテクスチャ生成
arxiv_reader 2021/11/29
非常にコンパクトなモデルを使用して、例に基づく手続き型テクスチャ合成の問題を研究します。サンプル画像が与えられた場合、微分可能プログラミングを使用して、リカレントニューラルセルオートマトン（NCA）ル

arXiv

recurrent

synthesis

generative

arXiv reaDer

differentiable
リンク
GeoNeRF：GeometryPriorを使用したNeRFの一般化
arxiv_reader 2021/11/29
神経放射輝度フィールドに基づく一般化可能なフォトリアリスティックな新しいビュー合成方法であるGeoNeRFを紹介します。私たちのアプローチは、ジオメトリ推論とレンダラーの2つの主要な段階で構成されてい

arXiv

dataset

occlusion

synthesis

arXiv reaDer

reasoning

attention

RGB-D
リンク
生成エピソード記憶における意味的完了のモデル
多くの異なる研究は、エピソード記憶が生成プロセスであることを示唆していますが、ほとんどの計算モデルはストレージビューを採用しています。この作品では、生成エピソード記憶の計算モデルを提案します。これは、海馬がエピソードの選択された側面を記憶の痕跡として保存および取得するという中心的な仮説に基づいていますが、これは必然的に不完全です。想起時に、新皮質は、セマンティック完了と呼ばれるプロセスで、一般的なセマンティック情報に基づいて欠落している情報を合理的に埋めます。エピソードとして、コンテキストを表すさまざまな背景で補強された数字の画像（MNIST）を使用します。私たちのモデルはVQ-VAEに基づいており、インデックス行列の形式で圧縮された潜在表現を生成しますが、それでもある程度の空間分解能があります。注意がインデックスマトリックスの一部を選択し、他の部分は破棄されると想定します。これはエピソー
arxiv_reader 2021/11/29
多くの異なる研究は、エピソード記憶が生成プロセスであることを示唆していますが、ほとんどの計算モデルはストレージビューを採用しています。この作品では、生成エピソード記憶の計算モデルを提案します。これは、

arXiv

compression

augmentation

representation

generative

arXiv reaDer

attention
リンク
STEEX：セマンティクスによる反事実的説明の操作
arxiv_reader 2021/11/29
ディープラーニングモデルがセーフティクリティカルなアプリケーションでますます使用されるようになると、説明可能性と信頼性が大きな懸念事項になります。低解像度の顔のポートレートなどの単純な画像の場合、訓練

arXiv

learning

sparse

synthesis

face

generative

arXiv reaDer

dataset

classification
リンク
量子順列同期
arxiv_reader 2021/11/29
コンピュータビジョンのコンテキストで同期問題を解決するための最初の量子アルゴリズムであるQuantumSyncを紹介します。特に、離散変数の非凸最適化問題を解くことを含む順列同期に焦点を当てています。

arXiv

annealing

computer vision

arXiv reaDer
リンク
すべての関係が等しいわけではありません：シーングラフ生成のための有益なラベルのマイニング
arxiv_reader 2021/11/29
シーングラフ生成（SGG）は、オブジェクトのペア間のさまざまな相互作用をキャプチャすることを目的としています。これは、シーンを完全に理解するために不可欠です。関係のセット全体でトレーニングされた既存の

arXiv

learning

metric

benchmark

arXiv reaDer

reasoning

bias

zero-shot
リンク
教師なし異常検出のためのインペインティングX線撮影画像
arxiv_reader 2021/11/29
放射線画像（略してSQUID）から異常を修復および検出するためのスペース認識メモリキューを提案します。放射線画像プロトコルは特定の身体領域に焦点を合わせているため、非常に類似した画像を生成し、患者全体

arXiv

unsupervised

recurrent

benchmark

arXiv reaDer

anomaly detection

dataset
リンク
M6-UFC：条件付き画像合成のためのマルチモーダルコントロールの統合
arxiv_reader 2021/11/29
条件付き画像合成は、テキストによる説明、参照画像、保存する画像ブロック、およびそれらの組み合わせの形式で、いくつかのマルチモーダルガイダンスに従って画像を作成することを目的としています。この論文では、

arXiv

autoregressive

transformer

synthesis

face

arXiv reaDer

dataset
リンク
SurfEmb：学習した表面埋め込みを使用したオブジェクトポーズ推定のための密で連続的な対応分布
arxiv_reader 2021/11/29
対称性のような視覚的な曖昧さについての事前の知識がなくても、データからオブジェクトの表面上の密で連続的な2D-3D対応分布を学習するためのアプローチを提示します。また、学習した分布を使用して剛体オブジ

arXiv

unsupervised

6D

contrastive

synthesis

arXiv reaDer

embedding

pose estimation
リンク
QMagFace：シンプルで正確な品質を意識した顔認識
arxiv_reader 2021/11/29
顔認識システムは、不正確なマッチングの決定につながる可能性のある大きな変動（さまざまなポーズ、照明、表情など）を処理する必要があります。これらの変動性は、認識のためのサンプルの有用性に対して定義される

arXiv

face recognition

benchmark

arXiv reaDer

pose
リンク
TDAM：CNNでのコンテキストガイド付き特徴選択のためのトップダウンアテンションモジュール
arxiv_reader 2021/11/29
畳み込みニューラルネットワーク（CNN）の注意モジュールは、複数のコンピュータービジョンタスクでネットワークのパフォーマンスを向上させる効果的な方法です。多くの作品は、チャネル、空間、および自己注意の

arXiv

localization

computer vision

weakly-supervised

arXiv reaDer

CNN

attention

classification
リンク
形態デコーダー：惑星監視とロボット機能のための不均一な岩石の浸透率を定量化する機械学習ガイド付き3Dビジョン
arxiv_reader 2021/11/29
透過性は、天然流体の流動特性に大きな影響を及ぼします。格子ボルツマンシミュレーターは、ナノおよびミクロポアネットワークからの透過性を決定します。シミュレーターは、蓄積されたエラーと高い計算能力の消費に

arXiv

3D

reconstruction

learning

robot

MRI

arXiv reaDer

segmentation
リンク
スパースImagenetモデルはどの程度うまく転送されますか？
arxiv_reader 2021/11/29
転移学習は、大規模な「上流」データセットで事前トレーニングされたモデルを適応させて、「下流」の特殊なデータセットで良好な結果をもたらす古典的なパラダイムです。一般に、「アップストリーム」データセットで

arXiv

sparse

pruning

regularization

transfer learning

arXiv reaDer

dataset

CNN
リンク
自己注意マルチインスタンス学習とリカレントニューラルネットワークを組み合わせたH＆E画像からの説明可能なエンドツーエンドの前立腺癌再発予測に向けて
arxiv_reader 2021/11/29
組織病理学画像データの臨床意思決定支援は、主に強力に監視された注釈に焦点を当てています。これは直感的な解釈可能性を提供しますが、専門家のパフォーマンスに拘束されます。ここでは、説明可能な癌再発予測ネッ

arXiv

learning

explainable

arXiv reaDer

interpretation

RNN

attention
リンク
ContIG：遺伝学を用いた医用画像処理のための自己監視型マルチモーダル対照学習
arxiv_reader 2021/11/29
高い注釈コストは、最新の深層学習アーキテクチャを臨床的に関連する医療ユースケースに適用する際の大きなボトルネックであり、ラベルのないデータから学習するための新しいアルゴリズムの必要性を実証しています。

arXiv

benchmark

self-supervised

arXiv reaDer

contrastive learning

dataset

person
リンク
モバイル顔検証シナリオでの顔埋め込みの保護に向けて
arxiv_reader 2021/11/29
この論文では、ニューラルネットワークベースの顔検証システムで人々の顔を表現するために使用される敏感な顔の埋め込みを保護する方法であるPolyProtectを提案します。 PolyProtectは、ユー

arXiv

embedding

face recognition

arXiv reaDer
リンク
交絡因子の識別なしの因果的視覚特徴学習
arxiv_reader 2021/11/29
深層学習の交絡因子は、一般に、特徴表現に浸透するモデルの一般化に悪影響を及ぼします。したがって、交絡因子からの干渉を受けない因果的特徴を学習することが重要です。以前のほとんどの因果学習ベースのアプロー

arXiv

identification

learning

benchmark

domain

representation

arXiv reaDer

interpretation

dataset
リンク
医療画像セグメンテーションのためのアノテーター選好と確率的注釈エラーのモデリング
arxiv_reader 2021/11/29
医用画像の手動注釈は非常に主観的であり、必然的で巨大な注釈バイアスにつながります。ディープラーニングモデルは、さまざまなタスクで人間のパフォーマンスを超える可能性がありますが、これらのバイアスを模倣ま

arXiv

learning

benchmark

disentangling

human

arXiv reaDer

segmentation

bias
リンク
強化説明学習
arxiv_reader 2021/11/29
ディープラーニングは非常に複雑になり、画像分類、オブジェクト検出などのいくつかの古典的な問題の解決に大きな成功を収めています。これらの決定を説明するためのいくつかの方法が提案されています。顕著性マップ

arXiv

benchmark

approximation

reinforcement learning

saliency

arXiv reaDer

dataset

detection

classification
リンク
点群ニューラルネットワークに対する説明可能性を意識したワンポイント攻撃
arxiv_reader 2021/11/29
点群のニューラルネットワークの提案により、3Dオブジェクト認識の分野でディープラーニングが輝き始め、研究者は敵対攻撃による点群ネットワークの信頼性を調査することに関心が高まっています。ただし、既存の研

arXiv

3D

learning

point cloud

adversarial

arXiv reaDer
リンク
MPSN：屋内ビデオヘッド検出用のモーション対応疑似シャムネットワーク
arxiv_reader 2021/11/29
屋内ビデオでの頭部検出は、多くの実際のアプリケーションに不可欠なコンポーネントです。ディープモデルは、一般的なオブジェクト検出で目覚ましい進歩を遂げましたが、複雑な屋内シーンでは十分に満足できません。

arXiv

human

adversarial

arXiv reaDer

dataset

detection

video

pose
リンク
計量学習の相互情報ビューの統一：クロスエントロピーとペアワイズ損失
arxiv_reader 2021/11/29
最近、ディープメトリックラーニング（DML）の重要な研究努力は、サンプルマイニングやペアの重み付けなどの最適化を容易にするために複雑なスキームを必要とする複雑なペアワイズ距離損失の設計に焦点を当てて

arXiv

benchmark

generative

arXiv reaDer

metric learning

classification
リンク
POEM：効率的な点群処理のための期待値最大化に基づく1ビットの点ごとの操作
POEM: 1-bit Point-wise Operations based on Expectation-Maximization for Efficient Point Cloud Processing リアルタイムのポイントクラウド処理は、多くのコンピュータービジョンタスクの基本ですが、リソースが制限されたエッジデバイスの計算問題には依然として挑戦しています。この問題に対処するために、効率的な点群処理のためにXNOR-Netベースのバイナリニューラルネットワーク（BNN）を実装しますが、ガウス分布の重みと学習不可能なスケールファクターという、2つの主な欠点のためにパフォーマンスが大幅に低下します。この論文では、効率的な点群処理のために、期待値最大化（POEM）に基づくポイントごとの操作をBNNに導入します。 EMアルゴリズムは、ロバストなバイモーダル分布の重みを効率的に制約できます
arxiv_reader 2021/11/29
リアルタイムのポイントクラウド処理は、多くのコンピュータービジョンタスクの基本ですが、リソースが制限されたエッジデバイスの計算問題には依然として挑戦しています。この問題に対処するために、効率的な点群処

arXiv

reconstruction

edge device

point cloud

representation

real time

arXiv reaDer

computer vision
リンク
異常検出用の変圧器の修復
arxiv_reader 2021/11/29
コンピュータビジョンの異常検出は、通常の画像のセットから逸脱している画像を識別するタスクです。一般的なアプローチは、深い畳み込みオートエンコーダーをトレーニングして、画像の覆われた部分を修復し、出力を

arXiv

transformer

convolutional

arXiv reaDer

anomaly detection

segmentation

dataset

computer vision

pose
リンク
PicArrange-Macコンピュータでプライベート画像を視覚的に並べ替え、検索、探索する
arxiv_reader 2021/11/29
ネイティブのmacOSアプリケーションPicArrangeは、最先端の画像並べ替えと類似性検索を統合して、ユーザーが画像の概要を把握できるようにします。完全な画像管理ワークフローに対応するツールにする

arXiv

arXiv reaDer
リンク
教師なし分布外検出を理解するためのデータ不変量
arxiv_reader 2021/11/29
教師なし分布外（U-OOD）検出は、ミッションクリティカルなシステムでの重要性と、監視対象のシステムよりも幅広い適用性により、最近大きな注目を集めています。この注目の高まりにもかかわらず、U-OODメ

arXiv

unsupervised

anomaly

benchmark

OOD

arXiv reaDer

dataset

detection

attention
リンク
テーブル構造認識のためのニューラルコラボレーティブグラフマシン
arxiv_reader 2021/11/29
最近、テーブル構造の認識は、深いグラフモデルの助けを借りて目覚ましい進歩を遂げました。それらのほとんどは、表形式の要素の単一の視覚的手がかりを利用するか、グラフの関係を推論するために、初期の融合を介し

arXiv

benchmark

reasoning

arXiv reaDer
リンク
教師なしドメイン適応のための対照的な隣接空間
ソースドメインとターゲットドメインの間の隣接スペースを利用することは、最近の教師なしドメイン適応アプローチの1つです。ただし、隣接インスタンスの予測でソースラベルがターゲットラベルよりも優勢である、ラベルの平衡崩壊の問題は、これまで対処されていません。この論文では、それに取り組むために、隣接空間における不確実性の高いインスタンスのエントロピーを最小化するインスタンスごとのミニマックス戦略を提案します。ミニマックス問題の解法により、ビシナル空間を2つの部分空間に分割します。対照空間とコンセンサス空間です。対照的な空間では、インスタンスを制約して対照的なビューとラベルを付けることでドメイン間の不一致を軽減し、コンセンサス空間はドメイン内のカテゴリ間の混乱を減らします。私たちの方法の有効性は、Office-31、Office-Home、VisDA-Cなど、最先端のパフォーマンスを実現する公開ベン
arxiv_reader 2021/11/29
ソースドメインとターゲットドメインの間の隣接スペースを利用することは、最近の教師なしドメイン適応アプローチの1つです。ただし、隣接インスタンスの予測でソースラベルがターゲットラベルよりも優勢である、ラ

arXiv

unsupervised

benchmark

contrastive

arXiv reaDer

domain adaptation
リンク
マルチモーダル軌道予測のためのエージェントとレーン情報の共同学習
arxiv_reader 2021/11/29
近くのエージェントのもっともらしい将来の軌道を予測することは、自動運転車の安全性にとって重要な課題であり、主に2つの外部キュー（動的な隣接エージェントと静的なシーンコンテキスト）に依存します。最近のア

arXiv

vehicle

learning

recurrent

trajectory

arXiv reaDer

dataset

attention
リンク
LasHeR：RGBT追跡のための大規模な高多様性ベンチマーク
arxiv_reader 2021/11/29
RGBTトラッキングは、コンピュータービジョンのコミュニティで大きな関心を集めていますが、この研究分野には、ディープRGBTトラッカーのトレーニングとRGBTトラッキング方法の包括的な評価の両方に不可

arXiv

benchmark

tracking

arXiv reaDer

dataset

computer vision

video
リンク
CM-Netv0：同心マスクベースの任意の形状のテキスト検出
arxiv_reader 2021/11/29
最近、高速な任意の形状のテキスト検出が魅力的な研究トピックになっています。ただし、ほとんどの既存の方法は非リアルタイムであり、インテリジェントシステムでは不十分な場合があります。いくつかのリアルタイム

arXiv

representation

real time

arXiv reaDer

dataset

detection
リンク
ゼロショットニューラルアーキテクチャ検索からの効率的なオブジェクト検出バックボーンの再検討
Revisiting Efficient Object Detection Backbones from Zero-Shot Neural Architecture Search オブジェクト検出モデルでは、検出バックボーンは全体的な推論コストの半分以上を消費します。最近の研究では、Neural Architecture Search（NAS）を使用してバックボーンアーキテクチャを最適化することにより、このコストを削減しようとしています。ただし、オブジェクト検出用の既存のNASメソッドは、数百から数千のGPU時間の検索を必要とするため、ペースの速い研究開発では実用的ではありません。この作業では、この問題に対処するための新しいゼロショットNAS手法を提案します。 ZenDetという名前の提案された方法は、ネットワークパラメータをトレーニングせずに効率的な検出バックボーンを自動的に設計し、アー
arxiv_reader 2021/11/29
オブジェクト検出モデルでは、検出バックボーンは全体的な推論コストの半分以上を消費します。最近の研究では、Neural Architecture Search（NAS）を使用してバックボーンアーキテクチ

arXiv

pre-training

benchmark

NAS

human

arXiv reaDer

dataset

detection

zero-shot
リンク
視覚的対話における強化学習のための明示的な関係状態のモデリング
arxiv_reader 2021/11/29
AIエージェントが有意義なビジュアルダイアログ（VD）を実施することを奨励するために、強化学習の使用が可能であることが証明されています。強化学習では、状態を表し、アクションによって引き起こされる状態の

arXiv

metric

reinforcement learning

representation

human

arXiv reaDer

dataset
リンク
予測、防止、および評価：事前にトレーニングされた視覚言語モデルによって強化された、もつれを解いたテキスト駆動型画像操作
arxiv_reader 2021/11/29
解きほぐされた画像操作を実現するために、以前の作業は手動の注釈に大きく依存しています。一方、利用可能な操作は、モデルがトレーニングされた事前定義されたセットに制限されます。この論文では、手動の注釈を必

arXiv

pre-training

metric

disentangling

face

arXiv reaDer
リンク
ArchRepair：ディープニューラルネットワークのブロックレベルのアーキテクチャ指向の修復
arxiv_reader 2021/11/29
過去数年にわたって、ディープニューラルネットワーク（DNN）は大きな成功を収め、多くのアプリケーションドメインで継続的に適用されてきました。ただし、産業タスクでの実際の展開中に、DNNは、過剰適合、実

arXiv

localization

DNN

domain

arXiv reaDer
リンク
シーンテキスト認識用のラベル付きデータで検証された繁体字中国語の合成データセット
arxiv_reader 2021/11/29
シーンテキスト認識（STR）は、学界や産業界で広く研究されてきました。テキスト認識モデルのトレーニングには、多くの場合、大量のラベル付きデータが必要ですが、データのラベル付けは、特に繁体字中国語のテキ

arXiv

benchmark

synthesis

arXiv reaDer

dataset
リンク
PAENet：3Dから2Dの網膜血管セグメンテーションのための進歩的な注意強化ネットワーク
arxiv_reader 2021/11/29
3Dから2Dの網膜血管セグメンテーションは、光コヒーレンストモグラフィー血管造影（OCTA）画像における困難な問題です。正確な網膜血管のセグメンテーションは、眼科疾患の診断と予防にとって重要です。ただ

arXiv

3D

pooling

learning

representation

arXiv reaDer

segmentation

dataset

attention
リンク
軌道予測のための階層型モーションエンコーダ-デコーダネットワーク
arxiv_reader 2021/11/29
軌道予測は、インテリジェントビークルやソーシャルロボットの分野で極めて重要な役割を果たします。最近の作品は、空間的な社会的影響や時間的な動きの注意のモデル化に焦点を当てていますが、動きの固有の特性、つ

arXiv

vehicle

pooling

trajectory

robot

arXiv reaDer

dataset
リンク
3D人間の再構成のための陰関数学習とパラメトリックモデルの組み合わせ
arxiv_reader 2021/11/29
深層学習近似として表される陰関数は、3D表面を再構築するのに強力です。ただし、制御できない静的なサーフェスしか生成できないため、ポーズまたはシェイプパラメータを編集して結果のモデルを変更する機能が制

arXiv

3D

reconstruction

sparse

point cloud

representation

human

arXiv reaDer

computer vision

pose
リンク
LoopReg：3Dヒューマンメッシュ登録のための陰関数曲面対応、ポーズ、および形状の自己教師あり学習
arxiv_reader 2021/11/29
服を着た人間の3Dスキャンに3D人間モデルを適合させる問題に対処します。従来の方法は、データとモデルの対応と人間のモデルパラメータ（ポーズと形状）の両方を最適化しますが、ソリューションの近くで初期化さ

arXiv

3D

pre-training

mesh

domain

self-supervised

human

arXiv reaDer

differentiable

pose
リンク
2Dセグメンテーションの事前設定によるデータ拡張3Dセマンティックシーンの完了
arxiv_reader 2021/11/29
セマンティックシーンコンプリーション（SSC）は、ロボット工学から支援コンピューティングまで、多くの実用的なアプリケーションを備えた挑戦的なコンピュータービジョンタスクです。その目標は、シーンの視野内

arXiv

3D

computer vision

augmentation

arXiv reaDer

segmentation

dataset

CNN

RGB-D
リンク
人物画像生成のための自己監視相関マイニングネットワーク
arxiv_reader 2021/11/29
人物画像の生成は、ソース画像に対して非剛体変形を実行することを目的としています。これには、通常、トレーニングのために位置合わせされていないデータペアが必要です。最近、自己監視された方法は、自己再構築の

arXiv

unsupervised

disentangling

self-supervised

representation

face

arXiv reaDer

dataset

person

pose
リンク
貪欲なネットワーク拡大
arxiv_reader 2021/11/29
深い畳み込みニューラルネットワークに関する最近の研究では、アーキテクチャ設計の単純なパラダイムが示されています。つまり、EfficientNetやRegNetなど、より多くのMACを備えたモデルは通常

arXiv

CNN

arXiv reaDer
リンク
TextVQAの構造化されたマルチモーダルアテンション
arxiv_reader 2021/11/29
この論文では、主に上記の最初の2つの問題を解決するために、エンドツーエンドの構造化マルチモーダル注意（SMA）ニューラルネットワークを提案します。 SMAは、最初に構造グラフ表現を使用して、画像に表示

arXiv

dataset

pre-training

benchmark

representation

arXiv reaDer

reasoning

VQA

attention
リンク
正確な3D腫瘍セグメンテーションのための堅牢な体積変換器
arxiv_reader 2021/11/29
この論文では、体積医療画像セグメンテーションのためのTransformerアーキテクチャを紹介します。ボリュームセグメンテーションのための計算効率の高いTransformerアーキテクチャを設計するこ

arXiv

3D

transformer

representation

arXiv reaDer

segmentation

dataset

attention
リンク
Fusion Encoderを介した肝腫瘍および血管セグメンテーションのフル解像度機能コンテキストの活用：肝腫瘍および血管3D再構成への適用
arxiv_reader 2021/11/29
肝臓がんは、世界で最も一般的な悪性疾患の1つです。 CT画像での肝腫瘍と血管のセグメンテーションとラベリングは、肝腫瘍の診断と外科的介入において医師に便利さを提供することができます。過去数十年の間に、

arXiv

3D

reconstruction

transformer

arXiv reaDer

CT

segmentation

dataset

attention
リンク
3D形状分析のための内側スペクトル座標
arxiv_reader 2021/11/29
近年、表面メッシュ、それらのボクセル化された内部、または表面点群によって表される3Dオブジェクトの形状分析に対するコミュニティへの関心が再び高まっています。部分的には、この関心は、RGBDカメラの可用

arXiv

3D

point cloud

arXiv reaDer

segmentation

computer vision

autonomous driving

RGB-D

classification
リンク
2D画像からの3Dポーズ推定と将来のモーション予測
3D Pose Estimation and Future Motion Prediction from 2D Images この論文では、3D人体ポーズを推定し、RGB画像シーケンスから将来の3Dモーションを予測するという、相関性の高いタスクに共同で取り組むことを検討しています。リー代数のポーズ表現に基づいて、人間の運動運動学を自然に保存する新しい自己投影メカニズムが提案されています。これは、エンコーダー-デコーダートポロジに基づくシーケンス間マルチタスクアーキテクチャによってさらに促進されます。これにより、両方のタスクで共有される共通の基盤を活用できます。最後に、フレームワークのパフォーマンスを向上させるために、グローバルな改良モジュールが提案されています。 PoseMoNetと呼ばれる私たちのアプローチの有効性は、Human3.6MおよびHumanEva-Iベンチマークでのアブレーシ
arxiv_reader 2021/11/29
この論文では、3D人体ポーズを推定し、RGB画像シーケンスから将来の3Dモーションを予測するという、相関性の高いタスクに共同で取り組むことを検討しています。リー代数のポーズ表現に基づいて、人間の運動運

arXiv

multi-task

3D

benchmark

seq2seq

representation

human

arXiv reaDer

pose estimation
リンク
共同表現学習とオンラインクラスタリングによる教師なし活動のセグメンテーション
arxiv_reader 2021/11/29
ビデオフレームクラスタリングを口実タスクとして使用し、同時に表現学習とオンラインクラスタリングを実行する、教師なしアクティビティセグメンテーションの新しいアプローチを紹介します。これは、表現学習とクラ

arXiv

unsupervised

activity

representation learning

regularization

arXiv reaDer

segmentation

dataset

clustering
リンク
生成的敵対的ネットワークと敵対的自動エンコーダ：チュートリアルと調査
Generative Adversarial Networks and Adversarial Autoencoders: Tutorial and Survey これは、Generative Adversarial Network（GAN）、敵対的オートエンコーダー、およびそれらのバリアントに関するチュートリアルと調査論文です。まず、敵対的学習とバニラGANについて説明します。次に、条件付きGANとDCGANについて説明します。モード崩壊問題が導入され、この問題を解決するために、ミニバッチGAN、展開GAN、BourGAN、混合GAN、D2GAN、およびワッサースタインGANを含むさまざまな方法が導入されています。次に、GANの最尤推定について、f-GAN、敵対的変分ベイズ、ベイズGANとともに説明します。次に、GAN、InfoGAN、GRAN、LSGAN、エネルギーベースのGAN、Ca
arxiv_reader 2021/11/29
これは、Generative Adversarial Network（GAN）、敵対的オートエンコーダー、およびそれらのバリアントに関するチュートリアルと調査論文です。まず、敵対的学習とバニラGANに

arXiv

GAN

learning

few-shot

arXiv reaDer

estimation

Bayesian
リンク
セマンティックセグメンテーションのための効率的なセルフアンサンブルフレームワーク
予測のアンサンブルは、個別に行われる個々の予測よりもパフォーマンスが優れていることが知られています。ただし、セマンティックセグメンテーションなど、大量の計算リソースを必要とするタスクの場合、個別にトレーニングする必要のある学習者のアンサンブルを作成することは、ほとんど扱いにくいものです。この作業では、アンサンブルの従来の重いトレーニングコストを回避しながら、アンサンブルメソッドによって提供されるパフォーマンスの向上を活用してセマンティックセグメンテーションを強化することを提案します。私たちの自己アンサンブルフレームワークは、機能ピラミッドネットワークメソッドによって生成されたマルチスケール機能セットを利用して、独立したデコーダーにフィードし、単一のモデル内にアンサンブルを作成します。アンサンブルと同様に、最終的な予測は、各学習者によって行われた予測の集計です。以前の作品とは対照的に、私たち
arxiv_reader 2021/11/29
予測のアンサンブルは、個別に行われる個々の予測よりもパフォーマンスが優れていることが知られています。ただし、セマンティックセグメンテーションなど、大量の計算リソースを必要とするタスクの場合、個別にトレ

arXiv

benchmark

arXiv reaDer

dataset

semantic segmentation
リンク
制限された情報フローによる解きほぐされた監視されていない画像の翻訳
arxiv_reader 2021/11/29
教師なし画像から画像への変換方法は、2つのドメイン間で共有される構造を維持しながら、あるドメインの画像を別のドメインのもっともらしい例にマッピングすることを目的としています。多対多の設定では、ターゲッ

arXiv

unsupervised

bias

disentangling

synthesis

domain

arXiv reaDer

dataset

embedding
リンク
MetaPose：3D監視なしの複数のビューからの高速3Dポーズ
arxiv_reader 2021/11/29
ディープラーニングの時代では、キャリブレーションが不明な複数のカメラからの人間の姿勢推定は、これまでほとんど注目されていませんでした。このタスクを高精度で最小の遅延オーバーヘッドで実行するようにニュー

arXiv

3D

monocular

weakly-supervised

human pose estimation

arXiv reaDer

dataset

keypoint

attention

pose estimation
リンク
SDAN：ずれた光学ズームを学習するための二乗変形可能アライメントネットワーク
arxiv_reader 2021/11/29
ディープニューラルネットワーク（DNN）ベースの超解像アルゴリズムにより、生成される画像の品質が大幅に向上しました。ただし、これらのアルゴリズムは、位置がずれた光学ズームの学習が難しいため、実際の超解

arXiv

learning

super-resolution

DNN

convolutional

arXiv reaDer

attention
リンク
NeSF：3Dシーンの一般化可能なセマンティックセグメンテーションのためのニューラルセマンティックフィールド
arxiv_reader 2021/11/29
ポーズをとったRGB画像のみから3Dセマンティックフィールドを生成する方法であるNeSFを紹介します。古典的な3D表現の代わりに、私たちの方法は、3D構造が点ごとの関数によってキャプチャされる陰関数的

arXiv

3D

synthesis

representation

arXiv reaDer

semantic segmentation

pose
リンク
分布シフトに関するきめ細かい分析
arxiv_reader 2021/11/29
実世界に機械学習モデルを導入するには、分散シフトに対する堅牢性が重要です。この必要性にもかかわらず、これらのシフトを引き起こす根本的なメカニズムを定義し、複数の異なる分布シフトにわたるアルゴリズムの堅

arXiv

learning

synthesis

arXiv reaDer

dataset
リンク
グレースケールへの移行：学習不可能な例の理解と改善への道
Going Grayscale: The Road to Understanding and Improving Unlearnable Examples 最近の研究では、知覚できない摂動を適用して、学習不可能な例（ULE）を作成できることが示されています。つまり、トレーニング中に分類子を改善するためにコンテンツを使用できない画像です。この論文では、ULEを理解し、ULEが最初に作成されたとおりに改善するために研究者がたどるべき道を明らかにします（ULEO）。この論文は4つの貢献をしています。まず、ULEOが色を悪用し、その結果、敵対的なトレーニングに頼ることなく、単純なグレースケールの事前フィルタリングによってその影響を軽減できることを示します。次に、ULEO-GrayAugsと呼ばれるULEOの拡張を提案します。これは、最適化中にグレースケールの知識とデータ拡張を利用することにより、生
arxiv_reader 2021/11/29
最近の研究では、知覚できない摂動を適用して、学習不可能な例（ULE）を作成できることが示されています。つまり、トレーニング中に分類子を改善するためにコンテンツを使用できない画像です。この論文では、UL

arXiv

CNN

adversarial

arXiv reaDer
リンク
半教師あり行動認識のための時間勾配からの学習
arxiv_reader 2021/11/29
半教師ありビデオアクション認識により、ラベル付けされたデータが非常に限られている場合でも、ディープニューラルネットワークで優れたパフォーマンスを実現できる傾向があります。ただし、既存のメソッドは主に現

arXiv

semi-supervised

learning

benchmark

representation

action recognition

arXiv reaDer

gradient

video
リンク
平衡ネットワークにおける共同推論と入力最適化
Joint inference and input optimization in equilibrium networks ディープラーニングの多くのタスクには、ネットワークへの入力を最適化して、目的を最小化または最大化することが含まれます。例としては、生成モデルの潜在空間を最適化してターゲット画像に一致させたり、入力を逆に摂動させて分類器のパフォーマンスを悪化させたりします。ただし、このような最適化を実行するには、勾配ステップごとにネットワークを完全に順方向および逆方向に通過する必要があるため、従来は非常にコストがかかります。別の一連の研究で、最近の研究スレッドは、深層平衡（DEQ）モデルを開発しました。これは、従来のネットワーク深度を無視し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスです。この論文では、これら2つの設定の間に自然な相
arxiv_reader 2021/11/29
ディープラーニングの多くのタスクには、ネットワークへの入力を最適化して、目的を最小化または最大化することが含まれます。例としては、生成モデルの潜在空間を最適化してターゲット画像に一致させたり、入力を逆

arXiv

denoising

learning

generative

adversarial

arXiv reaDer

gradient
リンク
野生での3D車両再構築のための神経陰的モデリングの修復
arxiv_reader 2021/11/29
単一のビューからのまばらな部分的な観察から高品質の3Dオブジェクトを再構築することは、コンピュータービジョン、ロボット工学、およびグラフィックスのさまざまなアプリケーションにとって非常に重要です。最近

arXiv

3D

reconstruction

vehicle

sparse

synthesis

regularization

arXiv reaDer

dataset

computer vision
リンク
ここを見てください：微妙な主要地域に出席するために監督を利用する
arxiv_reader 2021/11/29
コンピュータビジョンでの深層学習の成功にもかかわらず、微妙で小さなオブジェクト（または領域）を認識するアルゴリズムは依然として困難です。たとえば、地上のシーンで野球やフリスビーを認識したり、X線画像で

arXiv

learning

augmentation

domain

arXiv reaDer

dataset

computer vision
リンク
ビデオベースのコンピュータビジョンタスクのためのコセグメンテーションに触発された注意モジュール
arxiv_reader 2021/11/29
ビデオベースのコンピュータビジョンタスクは、顕著な領域の推定とそれらの領域間の相互作用から恩恵を受けることができます。従来、これは、事前にトレーニングされたモデルを利用してオブジェクト検出、オブジェク

arXiv

computer vision

re-id

arXiv reaDer

segmentation

CNN

detection

attention

pose estimation
リンク
FedDropoutAvg：組織病理学画像分類のための一般化可能な連合学習
FedDropoutAvg: Generalizable federated learning for histopathology image classification 連合学習（FL）を使用すると、参加サイトのデータを共有することなく、深層学習モデルの共同学習が可能になります。医療画像分析タスクにおけるFLは比較的新しく、拡張の余地があります。この研究では、一般化可能なモデルをトレーニングするための新しい連合学習アプローチであるFedDropoutAvgを提案します。提案された方法は、クライアントの選択とフェデレーション平均化プロセスの両方でランダム性を利用します。 FedDropoutAvgを、実際のマルチサイト組織病理学画像分類タスクのFLシナリオのいくつかのアルゴリズムと比較します。 FedDropoutAvgを使用すると、最終モデルが他のFLアプローチよりも優れたパフォーマ
arxiv_reader 2021/11/29
連合学習（FL）を使用すると、参加サイトのデータを共有することなく、深層学習モデルの共同学習が可能になります。医療画像分析タスクにおけるFLは比較的新しく、拡張の余地があります。この研究では、一般化可

arXiv

learning

arXiv reaDer

dataset

classification
リンク
適応型セルフトレーニングによるクロスドメインオブジェクト検出
arxiv_reader 2021/11/29
オブジェクト検出におけるドメイン適応の問題に取り組みます。この問題では、ソース（監視のあるドメイン）とターゲットドメイン（監視のない対象のドメイン）の間に大幅なドメインシフトがあります。広く採用されて

arXiv

learning

augmentation

adversarial

arXiv reaDer

domain adaptation

bias

detection
リンク
ビジョントランスフォーマーの興味深い特性
arxiv_reader 2021/11/29
ビジョントランスフォーマー（ViT）は、さまざまなマシンビジョンの問題で優れたパフォーマンスを発揮します。これらのモデルは、コンテキストキューをエンコードするために一連の画像パッチに柔軟に対応できるマ

arXiv

transformer

few-shot

domain

adversarial

arXiv reaDer

dataset

CNN

semantic segmentation

classification
リンク
OTB-morph：顔テンプレートに適用されたモーフィングによるワンタイムバイオメトリクス
arxiv_reader 2021/11/29
キャンセル可能な生体認証とは、処理または保存の前に、キーを使用して生体認証入力を意図的に変換する一連の技術を指します。この変換は繰り返し可能であり、その後の生体認証の比較が可能になります。このホワイト

arXiv

face

arXiv reaDer

biometrics
リンク
SwinBERT：ビデオキャプションにまばらな注意を払うエンドツーエンドのトランスフォーマー
arxiv_reader 2021/11/29
ビデオキャプションへの標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するキャプション生成モデルを指示します。これらの特徴抽出器は通常、固定フレームレートでサンプリングされたビデオ

arXiv

learning

transformer

captioning

sparse

video

representation

arXiv reaDer

dataset

attention
リンク
MCMCMRF粒子フィルターを使用した相互作用を伴う複数のターゲット追跡
arxiv_reader 2021/11/29
このホワイトペーパーでは、ターゲットの相互作用を処理し、ハイジャックによるトラッカーの障害を防ぐことができる、複数のターゲット追跡方法の実装について説明します。参照されるアプローチでは、マルコフ連鎖モ

arXiv

arXiv reaDer

tracking
リンク
コンピュータビジョンユーザーエンティティ行動分析
arxiv_reader 2021/11/29
インサイダーの脅威はコストがかかり、検出が難しく、残念ながら発生が増加しています。このような脅威の検出を改善するために、強力な特徴を抽出し、高品質の画像エンコーディングを生成し、攻撃ベクトルを強化して

arXiv

arXiv reaDer

computer vision

detection

classification
リンク
テスト時間の増加とランダムフォレストを使用した単純なトレーニング後の堅牢性
arxiv_reader 2021/11/29
ディープニューラルネットワーク（DNN）は、多くの実際のタスクで優れたパフォーマンスを実現しますが、敵対的な攻撃に対して非常に脆弱です。このような攻撃に対する主要な防御策は、敵対者のトレーニングです。

arXiv

augmentation

DNN

adversarial

arXiv reaDer

classification
リンク
相関機能に基づく均質な低解像度顔認識方法
arxiv_reader 2021/11/29
顔認識技術は、人間の識別、制御された入場、モバイルデバイスアクセスなどの手段など、多くのミッションクリティカルなシナリオで広く採用されています。セキュリティ監視は、顔認識技術の典型的なシナリオです。監

arXiv

identification

face recognition

human

arXiv reaDer

video
リンク
ニューラルネットワークにおける内在次元、永続的なホモロジーおよび一般化
arxiv_reader 2021/11/29
統計的学習理論の古典的な知恵に反して、現代のディープニューラルネットワークは、通常、数百万のパラメーターを含んでいますが、一般化されています。最近、反復最適化アルゴリズムの軌道がフラクタル構造を持つこ

arXiv

learning

arXiv reaDer
リンク
自己監視視覚表現学習のための意味認識生成
arxiv_reader 2021/11/29
本論文では、生成プロキシと識別プロキシの両方を含む自己監視視覚表現学習アプローチを提案します。ここでは、ターゲットネットワークに中間レベルの特徴に基づいて元の画像を復元するように要求することにより、前

arXiv

pre-training

representation learning

self-supervised

generative

arXiv reaDer

classification
リンク
DA ^ 2-Net：多様で適応性のある注意畳み込みニューラルネットワーク
arxiv_reader 2021/11/29
標準の畳み込みニューラルネットワーク（CNN）の設計では、ネットワークのパフォーマンスを向上させるために、さまざまな機能を明示的にキャプチャすることの重要性に焦点を当てることはめったにありません。代わ

arXiv

benchmark

arXiv reaDer

dataset

CNN

attention
リンク
スーパートークンを介したVisionTransformerのグローバルインタラクションモデリング
arxiv_reader 2021/11/29
コンピュータビジョンにおけるTransformerアーキテクチャの人気により、研究の焦点は計算効率の高い設計の開発にシフトしています。ウィンドウベースのローカルアテンションは、最近の作品で採用されてい

arXiv

computer vision

transformer

representation learning

arXiv reaDer

CNN

embedding

attention

classification
リンク
ディープアンサンブルを使用した光学および SAR 衛星画像からの全国的な森林構造の検索
arxiv_reader 2021/11/29
情報に基づいた方法で地球の森林を監視および管理することは、生物多様性の喪失や気候変動などの課題に取り組むための重要な要件です。森林評価のための従来の現場または空中キャンペーンは、地域レベルでの分析のた

arXiv

learning

synthesis

arXiv reaDer

Bayesian

satellite
リンク
シーン表現トランスフォーマー：セット潜在的なシーン表現によるジオメトリフリーの新しいビュー合成
arxiv_reader 2021/11/29
コンピュータビジョンの古典的な問題は、インタラクティブな速度で新しいビューをレンダリングするために使用できるいくつかの画像から3Dシーン表現を推測することです。以前の作業は、テクスチャメッシュなどの事

arXiv

3D

reconstruction

dataset

transformer

arXiv reaDer

reasoning

computer vision

semantic segmentation

pose
リンク
幾何学的コンテキストを使用したシーングラフの生成
arxiv_reader 2021/11/29
シーングラフの生成は、視覚的な質問応答、画像のキャプション、自動運転車、群衆の行動分析、活動認識などの画像理解プロジェクトに対する需要の高まりとともに、コンピュータービジョンの研究で大きな注目を集めて

arXiv

activity

captioning

arXiv reaDer

computer vision

attention
リンク
ソフトアクターによるロボットスキルの適応-批評家のガウス混合モデル
arxiv_reader 2021/11/29
現実の世界で行動する自律エージェントの中心的な課題は、そのノイズの多い知覚とダイナミクスに対処するためにスキルのレパートリーを適応させることです。スキルの学習を長期的なタスクに拡張するには、ロボットは

arXiv

pre-training

trajectory

sparse

robot

reinforcement learning

simulation

adaptation

arXiv reaDer

video
リンク
GPR1200：汎用コンテンツベースの画像検索のベンチマーク
arxiv_reader 2021/11/29
ディープニューラルネットワークの検索固有のトレーニングが最近傍画像の検索品質に有益であることが広く示されていますが、これらのモデルのほとんどは、ランドマーク画像のドメインでトレーニングおよびテストされ

arXiv

landmark

benchmark

domain

arXiv reaDer

dataset
リンク
VaxNeRF：ボクセル加速ニューラル放射輝度フィールドのクラシックの再考
arxiv_reader 2021/11/29
神経放射輝度フィールド（NeRF）は、データ駆動型3D再構成で一般的な方法です。そのシンプルさと高品質のレンダリングを考えると、多くのNeRFアプリケーションが開発されています。ただし、NeRFの大き

arXiv

3D

multi-task

reconstruction

learning

arXiv reaDer
リンク
隣接する最小パス間の暗黙の発散制約を使用した表面セグメンテーション
arxiv_reader 2021/11/29
修正された最小パスアイコナール方程式を使用して、3D画像からオブジェクトをセグメンテーションするための新しいアプローチを紹介します。提案された方法は、暗黙の制約（不均一な最小パスEikonalに対する

arXiv

3D

arXiv reaDer

segmentation
リンク
Points2Sound：3Dポイントクラウドシーンを使用したモノラルからバイノーラルオーディオまで
arxiv_reader 2021/11/29
没入型アプリケーションの場合、仮想環境の人々に有意義な体験をもたらすには、視覚的な対応物と一致するバイノーラルサウンドの生成が不可欠です。最近の研究では、2D視覚情報をガイダンスとして使用して、モノラ

arXiv

3D

learning

sparse

point cloud

synthesis

domain

loss function

convolutional

arXiv reaDer
リンク
画像から画像への変換と画像圧縮のための新しいフレームワーク
A Novel Framework for Image-to-image Translation and Image Compression 機械学習を使用したデータ駆動型のパラダイムは、画像処理と通信で広く普及しつつあります。特に、画像から画像（I2I）への変換は、画像合成、スタイル転送、画像復元などの画像処理の問題に対して一般的で広く使用されているアプローチです。同時に、ニューラルイメージの圧縮は、ビジュアルコミュニケーションにおける従来のコーディングアプローチのデータ駆動型の代替手段として登場しました。このホワイトペーパーでは、マルチドメイン画像合成に焦点を当てて、これら2つのパラダイムを組み合わせてI2I圧縮および変換フレームワークを統合する方法について説明します。最初に、量子化とエントロピーコーディングをI2I変換フレームワーク（つまりI2Icodec）に統合することにより、分散
arxiv_reader 2021/11/29
機械学習を使用したデータ駆動型のパラダイムは、画像処理と通信で広く普及しつつあります。特に、画像から画像（I2I）への変換は、画像合成、スタイル転送、画像復元などの画像処理の問題に対して一般的で広く使

arXiv

quantization

residual

compression

learning

synthesis

adaptation

arXiv reaDer
リンク
空間方向混合モデルを使用したパスガイド
arxiv_reader 2021/11/29
パストレーシングアルゴリズムで光パスを構築するための学習ベースの方法を提案します。これは、空間指向性ガウス混合モデル（SDMM）と呼ばれるものから繰り返し最適化してサンプリングします。特に、入射放射輝

arXiv

representation

pre-training

arXiv reaDer
リンク
StereoSpike：スパイキングニューラルネットワークによる深さ学習
arxiv_reader 2021/11/29
深度推定は重要なコンピュータービジョンタスクであり、特に自動運転車でのナビゲーションやロボット工学でのオブジェクト操作に役立ちます。ここでは、エンドツーエンドのニューロモルフィックアプローチを使用して

arXiv

vehicle

stereo

regularization

real time

arXiv reaDer

estimation

dataset

computer vision

SNN
リンク
GeomNet：3Dスケルトンベースの相互作用認識のためのSPD行列空間とコレスキー空間のリーマン幾何学に基づくニューラルネットワーク
arxiv_reader 2021/11/29
この論文では、3Dスケルトンシーケンスからの2人の相互作用の表現と分類のための新しい方法を提案します。私たちのアプローチの重要なアイデアは、ガウス分布を使用して、R nと対称正定値（SPD）行列の空間

arXiv

3D

activity

benchmark

representation

action recognition

human

arXiv reaDer

embedding

classification
リンク
BoxeR：ボックス-2Dおよび3Dトランスフォーマーへの注意
arxiv_reader 2021/11/29
この論文では、Box-Attentionと呼ばれる単純な注意メカニズムを提案します。関心のあるボックスからサンプリングされたグリッドフィーチャ間の空間的相互作用を可能にし、いくつかのビジョンタスクのト

arXiv

3D

vehicle

transformer

R-CNN

arXiv reaDer

segmentation

detection

attention
リンク
きめ細かい認識のための意味的双線形プーリング
arxiv_reader 2021/11/29
当然のことながら、車両識別や鳥の分類などのきめ細かい認識には、特定の階層ラベルがあり、細かいカテゴリは粗いカテゴリよりも常に分類が困難です。ただし、最近の深層学習ベースの方法のほとんどは、きめ細かいオ

arXiv

vehicle

identification

pooling

learning

arXiv reaDer

dataset

classification
リンク
HybVIO：リアルタイム視覚慣性オドメトリの限界を押し上げる
arxiv_reader 2021/11/29
フィルタリングベースの視覚慣性オドメトリ（VIO）と最適化ベースのSLAMを組み合わせるための新しいハイブリッドアプローチであるHybVIOを紹介します。私たちの方法の中核は、IMUバイアスモデリング

arXiv

SLAM

benchmark

odometry

tracking

real time

arXiv reaDer

dataset

bias

detection
リンク
歪み関係ガイド付き転送学習による数ショットの実像超解像
arxiv_reader 2021/11/29
実世界で大きくクリーンに歪んだトレーニング画像ペアを収集することは簡単ではありません。これは、これらの教師あり学習ベースの画像復元（IR）メソッドの実際のアプリケーションを深刻に制限します。以前の研究

arXiv

unsupervised

pre-training

benchmark

few-shot

synthesis

transfer learning

arXiv reaDer

gradient
リンク
モーション周波数ガイダンスを介した人間のモーションの多様な事前調査
arxiv_reader 2021/11/29
プライアは、人間の動きにもっともらしい制約を与える上で重要な役割を果たします。以前の作品は、さまざまな状況下でさまざまなパラダイムに従ってモーションプライアを設計しているため、汎用性が不足しています。

arXiv

denoising

representation learning

human

arXiv reaDer

embedding
リンク
限られたラベリングリソースと変化する取得特性のための疑似ドメインを使用した継続的なアクティブラーニング
arxiv_reader 2021/11/29
臨床ルーチン中の医用画像における機械学習は、スキャナープロトコル、ハードウェア、またはポリシーの変更によって損なわれ、取得設定のセットが不均一になります。初期の静的トレーニングセットで深層学習モデルを

arXiv

learning

domain

arXiv reaDer

estimation

segmentation

detection
リンク
差別化可能なアーキテクチャ検索が初期化時にネットワークプルーニングに対応：より信頼性が高く、効率的で柔軟なフレームワーク
arxiv_reader 2021/11/29
微分可能ARChiTectureSearch（DARTS）は、その単純さと効率性のためにNeural Architecture Search（NAS）の主流のパラダイムになりましたが、最近の研究では、

arXiv

metric

pruning

NAS

saliency

arXiv reaDer

differentiable
リンク
多入力多出力高速R-CNNによるロバストな物体検出
arxiv_reader 2021/11/29
近年、多くのベンチマークで視覚認識に目覚ましい進歩が見られましたが、配布外の設定での現実世界への一般化は依然として重要な課題です。堅牢な視覚認識のための最先端の方法は、モデルアンサンブルです。ただし、

arXiv

R-CNN

benchmark

OOD

representation

arXiv reaDer

estimation

detection

semantic segmentation
リンク
MegLoc：堅牢で正確なビジュアルローカリゼーションパイプライン
arxiv_reader 2021/11/29
このホワイトペーパーでは、屋内と屋外のシーン、1日のさまざまな時間、1年のさまざまな季節、さらには何年にもわたるさまざまなシナリオで、堅牢で正確な6-DoFポーズ推定を行うためのビジュアルローカリゼー

arXiv

localization

arXiv reaDer

dataset

autonomous driving

pose estimation
リンク
自己監視コンテンツスタイル解きほぐしによる密度を意識したヘイズ画像合成
arxiv_reader 2021/11/29
敵対的訓練によるヘイズ画像翻訳の重要な手順は、ヘイズ合成にのみ関与する特徴、すなわちスタイル特徴と、不変のセマンティックコンテンツを表す特徴、すなわちコンテンツ特徴との間の解きほぐしにある。以前の方法

arXiv

vehicle

disentangling

synthesis

self-supervised

adversarial

arXiv reaDer

detection

classification
リンク
単一のRGB画像からの回転同変3Dハンドメッシュ生成
arxiv_reader 2021/11/29
2DRGB画像から3Dハンドメッシュを生成するための回転同変モデルを開発します。これにより、手の入力画像が回転すると、生成されたメッシュが対応する回転を受けることが保証されます。さらに、これにより、回

arXiv

3D

reconstruction

mesh

point cloud

arXiv reaDer

dataset

pose
リンク
ガウスカーネル平滑化
arxiv_reader 2021/11/29
画像の取得とセグメンテーションにより、ノイズが発生する可能性があります。画像の登録やパラメータ化などの画像処理をさらに行うと、ノイズが増える可能性があります。したがって、ノイズ測定を減らして信号をブ

arXiv

arXiv reaDer

segmentation
リンク
カメレオンを見つけることができますか？ Co-Salientオブジェクト検出からの敵対的にカモフラージュする画像
arxiv_reader 2021/11/29
Co-salient object Detection（CoSOD）は最近大きな進歩を遂げ、検索関連のタスクで重要な役割を果たしました。ただし、それは必然的にまったく新しい安全性とセキュリティの問題を

arXiv

metric

classification

loss function

saliency

adversarial

arXiv reaDer

dataset

detection

pose
リンク
ソースモデルアンサンブルを選択するための転送可能性メトリック
arxiv_reader 2021/11/29
転移学習におけるアンサンブル選択の問題に対処します。ソースモデルのプールが大きい場合、ターゲットトレーニングセットを微調整した後、ターゲットテストセットで最高のパフォーマンスが得られるモデルのアンサン

arXiv

pre-training

metric

domain

transfer learning

arXiv reaDer

dataset

semantic segmentation
リンク
きめ細かい画像操作のためのStyleGANの属性固有のコントロールユニット
Attribute-specific Control Units in StyleGAN for Fine-grained Image Manipulation 近年、StyleGANによる画像操作への関心が高まっており、最近の研究では、いくつかのセマンティック潜在空間を分析して、生成された画像の属性を編集することに大きな成功を収めていますが、これらの潜在空間ではセマンティックおよび空間操作の精度が限られているため、既存の取り組みは、きめ細かいStyleGAN画像操作、つまりローカル属性変換では無効になります。この問題に対処するために、機能マップと変調スタイルの複数のチャネルで構成される属性固有の制御ユニットを発見します。具体的には、個々のコントロールユニットではなく、コントロールユニットの変調スタイルチャネルと機能マップを共同で操作して、意味的および空間的に解きほぐされたコントロールを取
arxiv_reader 2021/11/29
近年、StyleGANによる画像操作への関心が高まっており、最近の研究では、いくつかのセマンティック潜在空間を分析して、生成された画像の属性を編集することに大きな成功を収めていますが、これらの潜在空間

arXiv

disentangling

sparse

face

arXiv reaDer
リンク
教師なしドメイン適応のための敵対的に訓練されたオブジェクト検出器
arxiv_reader 2021/11/29
ラベルが豊富なソースドメインからラベルのないターゲットドメインに知識を転送することを含む教師なしドメインの適応は、オブジェクト検出の分野で注釈コストを大幅に削減するために使用できます。この研究では、教

arXiv

unsupervised

benchmark

human

adversarial

arXiv reaDer

domain adaptation

dataset

detection
リンク
Uformer：画像復元用の一般的なU字型トランスフォーマー
arxiv_reader 2021/11/29
このホワイトペーパーでは、画像復元のための効果的かつ効率的なTransformerベースのアーキテクチャであるUformerを紹介します。このアーキテクチャでは、Transformerブロックを使用し

arXiv

denoising

transformer

arXiv reaDer

bias
リンク
NomMer：視覚認識のためのVisionTransformerの相乗的コンテキストを指定する
NomMer: Nominate Synergistic Context in Vision Transf ormer for Visual Recognition 最近、事実上の要素として自己注意（SA）を備えたVision Transf ormers（ViT）が、コンピュータービジョンコミュニティで大きな可能性を示しています。効率とパフォーマンスのトレードオフのために、一連の作業はローカルパッチ内でSA操作を実行するだけですが、グローバルなコンテキスト情報は破棄されます。これは視覚認識タスクに不可欠です。この問題を解決するために、後続のグローバルローカルViTは、モデル内でローカルSAとグローバルSAを並行して、または別の方法で結合することに挑戦します。それにもかかわらず、徹底的に組み合わされたローカルコンテキストとグローバルコンテキストは、さまざまな視覚データの冗長性が存在する可能性があ
arxiv_reader 2021/11/29
最近、事実上の要素として自己注意（SA）を備えたVision Transformers（ViT）が、コンピュータービジョンコミュニティで大きな可能性を示しています。効率とパフォーマンスのトレードオフの

arXiv

transformer

arXiv reaDer

computer vision

detection

semantic segmentation

classification
リンク
PolyViT：画像、ビデオ、オーディオでのビジョントランスフォーマーの共同トレーニング
arxiv_reader 2021/11/29
学習可能なパラメーターのほとんどすべてを共有しながら、複数のモダリティとデータセットを処理できる単一のトランスフォーマーモデルをトレーニングできますか？この質問に答える画像、音声、ビデオでトレーニング

arXiv

transformer

domain

representation

arXiv reaDer

dataset

video
リンク
ノンパラメトリックデータ拡張は、深層学習ベースの脳腫瘍セグメンテーションを改善します
Non Parametric Data Augmentations Improve Deep-Learning based Brain Tumor Segmentation 磁気共鳴画像法（MRI）データからの自動脳腫瘍セグメンテーションは、治療に対する腫瘍の反応と個別化された治療の層別化を評価する上で重要な役割を果たします。手動セグメンテーションは退屈で主観的です。脳腫瘍セグメンテーションのための深層学習ベースのアルゴリズムは、客観的なものを提供する可能性があります。ただし、このようなアルゴリズムのトレーニングには、常に利用できるとは限らない大規模なデータセットが必要です。データ拡張技術により、大規模なデータセットの必要性が減る可能性がありますが、現在のアプローチはほとんどパラメトリックであり、パフォーマンスが最適ではない可能性があります。脳腫瘍セグメンテーションのデータ拡張の2つのノン
arxiv_reader 2021/11/29
磁気共鳴画像法（MRI）データからの自動脳腫瘍セグメンテーションは、治療に対する腫瘍の反応と個別化された治療の層別化を評価する上で重要な役割を果たします。手動セグメンテーションは退屈で主観的です。脳腫

arXiv

augmentation

regularization

MRI

arXiv reaDer

segmentation

dataset
リンク
抽象的推論における体系的な一般化のための代数表現の学習
arxiv_reader 2021/11/29
インテリジェンスはコネクショニストまたは古典主義者によって実現されていますか？コネクショニストのアプローチは超人的なパフォーマンスを達成しましたが、そのようなタスク固有の優位性は体系的な一般化において

arXiv

learning

domain

representation

arXiv reaDer

reasoning
リンク
いくつかの深層学習ベースのCT金属アーチファクト低減方法におけるドメインギャップ問題の調査
arxiv_reader 2021/11/29
CT画像の金属アーチファクトは、画質を乱し、診断を妨げる可能性があります。最近、多くの深層学習ベースのCT金属アーチファクト低減（MAR）法が提案されています。現在のディープMARメソッドは、シミュレ

arXiv

unsupervised

domain

arXiv reaDer

CT

dataset
リンク
CDNetはあなたが必要とするすべてです：カスケードDCNベースの水中物体検出RCNN
arxiv_reader 2021/11/29
物体検出は、コンピュータビジョンの分野における非常に重要な基礎研究の方向性であり、コンピュータビジョンの分野における他の高度なタスクの基本的な方法です。これは、オブジェクトトラッキング、ビデオ動作認識

arXiv

R-CNN

tracking

convolutional

arXiv reaDer

dataset

computer vision

detection

video
リンク
教師なしドメイン適応のための意味的に一貫した画像から画像への変換
arxiv_reader 2021/11/29
教師なしドメイン適応（UDA）は、ソースドメインでトレーニングされたモデルを、ラベル付けされたデータが利用できない新しいターゲットドメインに適応させることを目的としています。この作業では、合成コンピュ

arXiv

unsupervised

semi-supervised

learning

benchmark

synthesis

generative

arXiv reaDer

domain adaptation

semantic segmentation
リンク
錯乱円予測ネットワークによる自然な敵対的なボケのレンダリング
arxiv_reader 2021/11/29
ボケ効果は、写真の焦点が合っていない部分をぼかす自然な浅い被写界深度現象です。美的に美しい写真を追求するために、人々は通常、ボケ効果を写真の不可欠な部分と見なします。その自然な利点と普遍性、そして多く

arXiv

learning

synthesis

adversarial

arXiv reaDer

dataset

gradient

classification
リンク
暗黙の空間ドメインノッチフィルタリングによるDeepFake検出の回避
Dodging DeepFake Detection via Implicit Spatial-Domain Notch Filtering DeepFake画像の現在の高忠実度の生成と高精度の検出は、軍拡競争にあります。非常に現実的で「検出を回避する」DeepFakeを作成することで、次世代のDeepFake検出機能を向上させるという究極の目標を達成できると確信しています。この論文では、暗黙の空間領域ノッチフィルタリングを実行することにより、画質を損なうことなく偽の画像のアーティファクトパターンを低減するためのシンプルで強力なパイプラインを提案します。最初に、周波数領域のノッチフィルタリングは、空間領域の周期的なノイズを除去するのに効果的であることが有名ですが、ノッチフィルタに必要な手動設計のため、当面のタスクでは実行不可能であることを示します。したがって、ノッチフィルタリング効果を再現
arxiv_reader 2021/11/29
DeepFake画像の現在の高忠実度の生成と高精度の検出は、軍拡競争にあります。非常に現実的で「検出を回避する」DeepFakeを作成することで、次世代のDeepFake検出機能を向上させるという究極

arXiv

deepfake

domain

adversarial

arXiv reaDer

detection
リンク
ネットワーク構造の戦い：CNN、トランスフォーマー、およびMLPの実証的研究
arxiv_reader 2021/11/29
畳み込みニューラルネットワーク（CNN）は、コンピュータービジョンの主要なディープニューラルネットワーク（DNN）アーキテクチャです。最近、TransformerおよびVision Transform

arXiv

computer vision

transformer

DNN

arXiv reaDer

CNN

classification
リンク
実用的な展開に向けて-ディープニューラルネットワークへのステージバックドア攻撃
arxiv_reader 2021/11/29
AIセキュリティコミュニティの主要な目標の1つは、実際のアプリケーション向けのディープラーニングモデルを安全かつ確実に作成して展開することです。この目的のために、近年、本番段階（またはトレーニング段階

arXiv

learning

DNN

adversarial

arXiv reaDer

attention
リンク
確率的および幾何学的な深さ：遠近法によるオブジェクトの検出
arxiv_reader 2021/11/29
3Dオブジェクト検出は、運転支援システムなどのさまざまな実用的なアプリケーションで必要とされる重要な機能です。単眼3D検出は、画像ベースのアプローチの代表的な一般的な設定として、LiDARに依存する従

arXiv

3D

monocular

LiDAR

benchmark

representation

real time

arXiv reaDer

estimation

detection
リンク
エンドツーエンドのビジョンと言語のトランスフォーマーのトレーニングに関する実証的研究
arxiv_reader 2021/11/29
ビジョンと言語（VL）の事前トレーニングは、さまざまなVLダウンストリームタスクで非常に効果的であることが証明されています。最近の作業では、完全なトランスフォーマーベースのVLモデルは、以前のリージョ

arXiv

pre-training

transformer

arXiv reaDer

attention
リンク
衛星ビデオ内の小さくて密度の高い移動物体の検出と追跡：ベンチマーク
arxiv_reader 2021/11/29
衛星ビデオカメラは、大規模なエリアの継続的な観測を提供できます。これは、多くのリモートセンシングアプリケーションにとって重要です。ただし、衛星ビデオで移動物体の検出と追跡を実現することは、物体の外観情

arXiv

benchmark

tracking

arXiv reaDer

dataset

detection

video

satellite
リンク
自己蒸留自己教師あり表現学習
arxiv_reader 2021/11/29
自己監視学習の最先端のフレームワークは、最近、トランスベースのモデルを完全に利用すると、従来のCNNモデルと比較してパフォーマンスが向上する可能性があることを示しています。画像の2つのビューの相互情報

arXiv

contrastive

representation learning

self-supervised

arXiv reaDer

dataset

CNN
リンク
特殊なクラスとリソースの制約の下での迅速なElasticArchitecture Search
arxiv_reader 2021/11/29
多くの実際のアプリケーションでは、リソースの制約とクラスのグループに対応する対象のスーパークラスが動的に指定される、さまざまなデプロイメントシナリオを処理する必要があることがよくあります。さまざまな展

arXiv

NAS

arXiv reaDer

dataset

classification
リンク
教師なしドメイン適応のためのWin-Winトランスフォーマーを介したドメイン固有の知識と不変の知識の両方の活用
Exploiting Both Domain-specific and Invariant Knowledge via a Win-win Transf ormer for Unsupervised Domain Adaptation 教師なしドメイン適応（UDA）は、ラベル付きのソースドメインからラベルなしのターゲットドメインに知識を転送することを目的としています。ほとんどの既存のUDAアプローチは、ドメイン不変表現を学習し、2つのドメイン間で1つの分類子を共有することで知識の伝達を可能にします。ただし、タスクに関連するドメイン固有の情報を無視し、統合された分類子を両方のドメインに適合させると、各ドメインの機能の表現力が制限されます。このホワイトペーパーでは、同等のパラメーターを備えたTransf ormerアーキテクチャが、CNNの対応するアーキテクチャよりも転送可能な表現を生成できること
arxiv_reader 2021/11/29
教師なしドメイン適応（UDA）は、ラベル付きのソースドメインからラベルなしのターゲットドメインに知識を転送することを目的としています。ほとんどの既存のUDAアプローチは、ドメイン不変表現を学習し、2つ

arXiv

unsupervised

transformer

benchmark

representation

arXiv reaDer

domain adaptation

dataset

CNN

classification
リンク
より少ない注釈に向けて：ドメイン適応セマンティックセグメンテーションの領域不純物と予測の不確実性による能動学習
arxiv_reader 2021/11/29
セルフトレーニングにより、ドメイン適応セマンティックセグメンテーションが大幅に促進されました。これにより、ターゲットドメインで疑似ラベルが繰り返し生成され、ネットワークが再トレーニングされます。ただし

arXiv

representation learning

domain

arXiv reaDer

dataset

semantic segmentation
リンク
高密度オブジェクト検出のためのローカリゼーション蒸留
arxiv_reader 2021/11/29
知識蒸留（KD）は、オブジェクト検出でコンパクトなモデルを学習する強力な機能を備えています。オブジェクト検出のための以前のKDメソッドは、ローカリゼーション情報の抽出が非効率的であるため、分類ロジット

arXiv

learning

localization

benchmark

knowledge distillation

arXiv reaDer

detection

classification
リンク
MLデコーダー：スケーラブルで用途の広い分類ヘッド
arxiv_reader 2021/11/29
この論文では、新しい注意ベースの分類ヘッドであるML-Decoderを紹介します。 ML-Decoderは、クエリを介してクラスラベルの存在を予測し、グローバル平均プーリングと比較して空間データのより

arXiv

pooling

arXiv reaDer

distillation

zero-shot

classification
リンク
OPA：オブジェクト配置評価データセット
arxiv_reader 2021/11/29
画像合成は、ある画像から別の背景画像にオブジェクトを挿入することによってリアルな合成画像を生成することを目的としています。挿入されたオブジェクトの配置（場所、サイズ、オクルージョンなど）が不合理であり

arXiv

occlusion

dataset

arXiv reaDer
リンク
空中物体検出のための指向性RepPoint
arxiv_reader 2021/11/29
一般的なオブジェクトとは対照的に、空中ターゲットは、周囲が雑然としている任意の方向に非軸方向に整列していることがよくあります。バウンディングボックスの向きを回帰する主流のアプローチとは異なり、この論文

arXiv

learning

localization

representation

arXiv reaDer

dataset

detection

classification
リンク
単一のデュアルピクセルカメラを使用した顔の深さと法線の推定
Facial Depth and Normal Estimation using Single Dual-Pixel Camera 多くのモバイルメーカーは最近、より高速なオートフォーカスと美的画像キャプチャのために、主力モデルにデュアルピクセル（DP）センサーを採用しています。それらの利点にもかかわらず、3D顔の理解のためのそれらの使用法に関する研究は、DP画像の視差を利用するデータセットとアルゴリズム設計の欠如のために制限されています。これは、サブアパーチャ画像のベースラインが非常に狭く、焦点ぼけ領域に視差が存在するためです。この論文では、3D顔の形状を再構築するDP指向の深度/通常ネットワークを紹介します。この目的のために、マルチカメラ構造化照明システムでキャプチャされた101人の135Kを超える画像を含むDP顔データを収集します。これには、メートル法の深度マップと表面法線を含む、対
arxiv_reader 2021/11/29
多くのモバイルメーカーは最近、より高速なオートフォーカスと美的画像キャプチャのために、主力モデルにデュアルピクセル（DP）センサーを採用しています。それらの利点にもかかわらず、3D顔の理解のためのそれ

arXiv

3D

metric

face

arXiv reaDer

estimation

dataset
リンク
回転と魚眼歪みを回復するためのディープシングルイメージカメラキャリブレーション用の汎用カメラモデルの再考
Rethinking Generic Camera Models for Deep Single Image Camera Calibration to Recover Rotation and Fisheye Distortion 最近の学習ベースのキャリブレーション方法では、単一の画像から外因性および内因性のカメラパラメータを予測できますが、これらの方法の精度は魚眼画像では低下します。この劣化は、実際の予測と予想される予測の不一致が原因で発生します。この問題に対処するために、さまざまなタイプの歪みに対処できる可能性のある一般的なカメラモデルを提案します。当社の一般的なカメラモデルは、カメラ投影の閉形式の数値計算による学習ベースの方法に利用されます。回転と魚眼レンズの歪みを同時に回復するために、カメラモデルを使用する学習ベースのキャリブレーション方法を提案します。さらに、4つの外因性およ
arxiv_reader 2021/11/29
最近の学習ベースのキャリブレーション方法では、単一の画像から外因性および内因性のカメラパラメータを予測できますが、これらの方法の精度は魚眼画像では低下します。この劣化は、実際の予測と予想される予測の不

arXiv

loss function

arXiv reaDer

dataset

bias
リンク
ContourletNet：多方向階層表現を使用した一般化された雨除去アーキテクチャ
ContourletNet: A Generalized Rain Removal Architecture Using Multi-Direction Hierarchical Representation 雨のシーンから取得した画像は、通常、視界が悪く、コンピュータビジョンアプリケーションのパフォーマンスを損なう可能性があります。雨のシナリオは、中程度の雨と大雨のシーンの2つのクラスに分類できます。中程度の雨のシーンは主に雨の筋で構成され、大雨のシーンには雨の筋とベール効果（もやに似ています）の両方が含まれます。既存の方法は、これら2つのケースで個別に優れたパフォーマンスを達成しましたが、大雨と中程度の雨の両方のシナリオに効果的に対処するための一般的なアーキテクチャがまだ不足しています。この論文では、コンターレット変換（CT）を使用して、中程度の雨と大雨の両方のシナリオに対処することに
arxiv_reader 2021/11/29
雨のシーンから取得した画像は、通常、視界が悪く、コンピュータビジョンアプリケーションのパフォーマンスを損なう可能性があります。雨のシナリオは、中程度の雨と大雨のシーンの2つのクラスに分類できます。中程

arXiv

representation

CT

arXiv reaDer

computer vision
リンク
ジョイントステレオ3Dオブジェクト検出と陰関数曲面再構成
Joint stereo 3D object detection and implicit surface reconstruction カテゴリレベルの3Dオブジェクト検出と、野生のステレオRGB画像のペアに基づく暗黙的な形状推定のための最初の学習ベースのフレームワークを紹介します。従来のステレオ3Dオブジェクト検出アプローチは、検出されたオブジェクトを3Dバウンディングボックスでのみ記述し、それらの全面的なジオメトリを推測できないため、現実的な屋外の没入型体験を作成することは困難です。対照的に、正確なローカリゼーションを実行できるだけでなく、検出されたオブジェクトの完全で解像度にとらわれない形状記述を提供できる新しいモデルS-3D-RCNNを提案します。まず、グローバルローカルフレームワークを使用して、オブジェクト座標系の推定を形状再構築から切り離します。次に、ステレオの関心領域からポ
arxiv_reader 2021/11/29
カテゴリレベルの3Dオブジェクト検出と、野生のステレオRGB画像のペアに基づく暗黙的な形状推定のための最初の学習ベースのフレームワークを紹介します。従来のステレオ3Dオブジェクト検出アプローチは、検出

arXiv

3D

reconstruction

localization

pre-training

metric

benchmark

arXiv reaDer

estimation

detection
リンク
ACPL：半教師あり医用画像分類のためのアンチカリキュラム疑似ラベリング
arxiv_reader 2021/11/29
医療画像分析（MIA）における効果的な半教師あり学習（SSL）は、2つの課題に対処する必要があります。1）マルチクラス（病変分類など）とマルチラベル（複数疾患診断など）の両方の問題に効果的に取り組む。

arXiv

semi-supervised

learning

arXiv reaDer

dataset

classification
リンク
ディープフェイクを超えた戦争：顔の偽造品と対抗策のベンチマーク
arxiv_reader 2021/11/29
近年、視覚的な偽造は、人間が詐欺を特定できないほど高度なレベルに達しており、情報セキュリティに重大な脅威をもたらしています。フェイクニュース、有名人の名誉毀損または恐喝、政治戦争における政治家のなりす

arXiv

benchmark

face

arXiv reaDer

detection

pose
リンク
土地利用と土地被覆分類のための深層移動学習：比較研究
arxiv_reader 2021/11/29
高空間解像度の画像を使用してリモートセンシング画像分類を効率的に実装すると、土地利用と土地被覆（LULC）の分類に大きな価値をもたらすことができます。リモートセンシングと深層学習技術の新しい進歩により

arXiv

residual

pre-training

augmentation

transfer learning

arXiv reaDer

dataset

CNN

gradient

classification
リンク
疑似ぼかしシンセサイザーを使用した人間とシーンの動きのぼかし除去
arxiv_reader 2021/11/29
現在の深層学習ベースのモーションブレ除去方法は、合成ブラーとシャープデータのペアを利用して、特定のフレームワークを回帰します。このタスクは、ぼやけた画像入力を出力として復元されたバージョンに直接変換す

arXiv

learning

synthesis

human

adversarial

arXiv reaDer
リンク
ディープラーニングを使用したfMRIからの自然画像再構成：調査
arxiv_reader 2021/11/29
脳イメージング技術と機械学習ツールの出現により、人間の脳内の視覚情報のエンコーディングをキャプチャするための計算モデルの構築に多くの努力が注がれてきました。最も困難な脳解読タスクの1つは、機能的磁気共

arXiv

reconstruction

activity

learning

metric

benchmark

human

arXiv reaDer

dataset
リンク
CIRCLE：大規模な屋内シーンのための畳み込み暗黙的再構成と完了
CIRCLE: Convolutional Implicit Reconstruction and Completion for Large-scale Indoor Scene CIRCLEを紹介します。これは、ローカルの陰的符号付き距離関数に基づく大規模なシーンの完成と幾何学的な改良のためのフレームワークです。これは、エンドツーエンドのスパース畳み込みネットワークであるCirc Netに基づいており、ローカルの幾何学的詳細とグローバルシーンの構造コンテキストを共同でモデル化することで、従来の3Dシーンデータで一般的に発生する欠落領域を回復しながら、きめ細かいオブジェクトの詳細を保持できます。新しい微分可能なレンダリングモジュールにより、テスト時の改良が可能になり、再構成の品質が向上します。実世界のデータセットと合成データセットの両方での広範な実験により、簡潔なフレームワークが効率的かつ効
arxiv_reader 2021/11/29
CIRCLEを紹介します。これは、ローカルの陰的符号付き距離関数に基づく大規模なシーンの完成と幾何学的な改良のためのフレームワークです。これは、エンドツーエンドのスパース畳み込みネットワークであるCi

arXiv

3D

reconstruction

sparse

synthesis

convolutional

arXiv reaDer

differentiable

dataset
リンク
半教師ありセマンティックセグメンテーションのための摂動および厳密な平均教師
arxiv_reader 2021/11/29
入力画像、特徴、またはネットワークの摂動を使用した一貫性学習は、半教師ありセマンティックセグメンテーションで顕著な結果を示していますが、このアプローチは、ラベルのないトレーニング画像の不正確な予測によ

arXiv

semi-supervised

learning

benchmark

adversarial

arXiv reaDer

semantic segmentation
リンク
SO（3）による対応のない点群登録-同変陰的形状表現
arxiv_reader 2021/11/29
本論文は点群回転登録のための対応のない方法を提案した。同変ニューラルネットワークの最近の開発によって可能になった、SO（3）-同変特性を保持する特徴空間への各点群の埋め込みを学習します。提案された形状

arXiv

reconstruction

learning

point cloud

representation

arXiv reaDer

embedding
リンク
あなたが誰であるかに注意してください：キーポイント検出とインスタンス認識アソシエーションのための自己注意の監督
arxiv_reader 2021/11/29
このホワイトペーパーでは、Transformerを使用してキーポイントの検出とインスタンスの関連付けを解決する新しい方法を紹介します。ボトムアップの複数人のポーズ推定モデルの場合、キーポイントを検出し

arXiv

transformer

arXiv reaDer

segmentation

keypoint

embedding

detection

attention

pose estimation
リンク
V2C：ビジュアルボイスクローニング
arxiv_reader 2021/11/29
既存の音声クローニング（VC）タスクは、段落テキストを、参照音声で指定された目的の音声の音声に変換することを目的としています。これにより、人工音声アプリケーションの開発が大幅に促進されました。ただし、

arXiv

emotion

metric

arXiv reaDer

dataset

video
リンク
マスク着用率を推定するための検出ベースおよび回帰ベースのアプローチの有効性
arxiv_reader 2021/11/29
公共の場所でのマスク着用率を推定することは、保健当局が政策を迅速に分析して実施することを可能にするので重要です。画像解析に基づいてマスク着用率を推定する方法が報告されている。ただし、方法論とデータセッ

arXiv

face

arXiv reaDer

estimation

dataset

detection

video

classification
リンク
多方向知覚GANによるアルツハイマー病の形態学的特徴の視覚化
arxiv_reader 2021/11/29
アルツハイマー病（AD）の初期段階の診断は、さらなる悪化を遅らせるためのタイムリーな治療に不可欠です。 ADの初期段階の形態学的特徴を視覚化することは、臨床的に非常に価値があります。この作業では、新し

arXiv

GAN

domain

MRI

saliency

arXiv reaDer

dataset

classification
リンク
ImageNetスケールでのアクティブラーニング
arxiv_reader 2021/11/29
アクティブラーニング（AL）アルゴリズムは、注釈に最適なデータのサブセットを特定することを目的としているため、ディープニューラルネットワーク（DNN）は、このラベル付きサブセットでトレーニングしたとき

arXiv

learning

benchmark

DNN

self-supervised

arXiv reaDer

dataset
リンク
学習した機能マップ同期による多方向非剛体点群登録
arxiv_reader 2021/11/29
点群で定義された学習関数に関連するマップを同期することにより、複数の非剛体形状を共同で登録する新しい方法であるSyNoRiMを紹介します。非剛体形状を処理する機能は、コンピューターアニメーションから3

arXiv

3D

occlusion

point cloud

arXiv reaDer
リンク
量子化された変換オートエンコーダ：ディープネットワークにおける任意の変換への同変の達成
arxiv_reader 2021/11/29
この作業では、これらの変換のモデルを与えずに、純粋にデータから、深いネットワークで入力変換への同変を達成する方法を調査します。たとえば、畳み込みニューラルネットワーク（CNN）は、画像の変換と同変です

pose estimation

embedding

arXiv reaDer

CNN

arXiv

synthesis

dataset
リンク
ダーモスコピーおよび臨床画像における皮膚病変のマルチラベル分類および黒色腫診断のためのグラフベースのカテゴリー間およびモダリティ間ネットワーク
arxiv_reader 2021/11/29
黒色腫の識別には、臨床およびダーモスコピー法を使用して取得された皮膚病変画像の統合分析が含まれます。皮膚鏡画像は、肉眼で見える臨床画像を補足する地下の視覚構造の詳細なビューを提供します。黒色腫の診断は

embedding

arXiv reaDer

representation

identification

arXiv

classification

learning

dataset
リンク
少ないほど多い：ランドマークからの接地されたナビゲーション指示の生成
arxiv_reader 2021/11/29
屋内ルートで撮影した360度画像からのナビゲーション指示の自動生成を研究しています。既存のジェネレーターは視覚的な接地が不十分であるため、言語の事前確率に依存してオブジェクトを幻覚化します。当社のMA

arXiv

landmark

human

arXiv reaDer

dataset

detection

pose
リンク
未知の物体検出のための不確実性を意識した提案セグメンテーション
arxiv_reader 2021/11/29
自動運転などの実世界のアプリケーションでオブジェクトを検出するためにディープニューラルネットワークを展開する最近の取り組みでは、トレーニング中に関連するすべてのオブジェクトクラスが観察されていることを

arXiv

augmentation

arXiv reaDer

estimation

detection

autonomous driving

semantic segmentation

classification
リンク
レンズレスイメージングを改善するためのコード化された照明
マスクベースのレンズレスカメラは、フラット、薄型、軽量であるため、大きな表面積と任意の形状を備えた計算イメージングシステムの新しい設計に適しています。レンズレスカメラの最近の進歩にもかかわらず、レンズレスカメラから復元された画像の品質は、基礎となる測定システムの悪条件のためにしばしば劣っています。この論文では、レンズレスカメラで再構成された画像の品質を改善するためにコード化された照明を使用することを提案します。私たちのイメージングモデルでは、レンズレスカメラがセンサーの測定値を記録するときに、シーン/オブジェクトが複数のコード化された照明パターンで照らされます。いくつかの照明パターンを設計およびテストし、シフトドット（および関連する直交）パターンが全体として最高のパフォーマンスを提供することを確認しました。システムの分離可能性とブロック対角構造を活用する、高速で複雑度の低い回復アルゴリズム
arxiv_reader 2021/11/29
マスクベースのレンズレスカメラは、フラット、薄型、軽量であるため、大きな表面積と任意の形状を備えた計算イメージングシステムの新しい設計に適しています。レンズレスカメラの最近の進歩にもかかわらず、レンズ

arXiv

simulation

arXiv reaDer

reconstruction
リンク
PoP-Net：深度画像からの複数人の3Dポーズ推定のためのパーツネットワーク上のポーズ
arxiv_reader 2021/11/29
本論文では、PoP-Netと呼ばれるリアルタイム手法を提案して、深度画像から複数人の3Dポーズを予測します。 PoP-Netは、ボトムアップのパーツ表現とトップダウンのグローバルポーズを1回のショット

arXiv

3D

augmentation

benchmark

real time

arXiv reaDer

single-shot

dataset

detection

pose estimation
リンク
ロバストな同変イメージング：ノイズの多い部分的な測定からイメージングを学習するための完全に監視されていないフレームワーク
Robust Equivariant Imaging: a fully unsupervised framework for learning to image from noisy and partial measurements ディープネットワークは、医用画像から計算写真に至るまで、複数の画像逆問題で最先端のパフォーマンスを提供します。ただし、ほとんどの既存のネットワークは、取得が困難または不可能なことが多いクリーンな信号でトレーニングされています。同変イメージング（EI）は、信号分布に存在するグループ不変性を利用して、部分的な測定データのみから再構成関数を学習する、最近の自己監視学習フレームワークです。 EIの結果は印象的ですが、ノイズが増えるとパフォーマンスが低下します。この論文では、ノイズの多い部分測定のみから画像化することを学習できるロバスト同変画像化（REI）フレームワーク
arxiv_reader 2021/11/29
ディープネットワークは、医用画像から計算写真に至るまで、複数の画像逆問題で最先端のパフォーマンスを提供します。ただし、ほとんどの既存のネットワークは、取得が困難または不可能なことが多いクリーンな信号で

arXiv

unsupervised

reconstruction

learning

self-supervised

arXiv reaDer
リンク
正常組織合併症確率モデルの解釈可能な深層学習のための相対的連続性形式の拡張
Extending the Relative Seriality Formalism for Interpretable Deep Learning of Normal Tissue Complication Probability Models Kallmanらの相対的な連続性モデルを正式に示します。単純なタイプの畳み込みニューラルネットワークに正確にマッピングします。このアプローチは、それぞれ傍観者効果と階層的組織組織の観点から、畳み込み層と積み重ねられた中間プーリング層のフィードフォワード接続の自然な解釈につながります。これらの結果は、大規模なイメージングおよび線量測定データセットを使用して、放射線生物学的に解釈可能な正常組織合併症の確率の深層学習の原理実証として機能します。 We formally demonstrate that the relative seriality mo
arxiv_reader 2021/11/29
Kallmanらの相対的な連続性モデルを正式に示します。単純なタイプの畳み込みニューラルネットワークに正確にマッピングします。このアプローチは、それぞれ傍観者効果と階層的組織組織の観点から、畳み込み層

arXiv

pooling

learning

arXiv reaDer

interpretation

dataset

CNN
リンク
条件付きピクセル合成による衛星画像の時空間超解像
arxiv_reader 2021/11/29
高解像度の衛星画像は、世界の人口、地域の経済的生計、生物多様性など、さまざまなタスクに役立つことが証明されています。残念ながら、高解像度の画像は収集頻度が低く、購入に費用がかかるため、これらのダウンス

arXiv

super-resolution

synthesis

human

arXiv reaDer

satellite
リンク
償却プロンプト：CLIPをドメイン移管学習にガイド
arxiv_reader 2021/11/29
ドメイン一般化（DG）は、目に見えないドメインへの一般化可能なモデルを学習することを目的とした、難しい転移学習の問題です。 CLIPやGPT-3などの最近の大規模な事前トレーニング済みモデル、つまりフ

arXiv

pre-training

benchmark

domain

transfer learning

arXiv reaDer

dataset

zero-shot

classification
リンク
セグメンテーションネットワークを適応させるための直接分布マッチングについて
On Direct Distribution Matching for Adapting Segmentation Networks 分布マッチング損失の最小化は、画像分類のコンテキストでのドメイン適応への原則的なアプローチです。ただし、現在敵対的なモデルによって支配されているセグメンテーションネットワークの適応ではほとんど見過ごされています。ラベルのない入力から計算されたいくつかの幾何学的変換まで、ネットワーク出力空間での直接カーネル密度マッチングを促進する損失関数のクラスを提案します。中間ドメイン弁別器を使用するのではなく、私たちの直接的なアプローチは、単一の損失で分布のマッチングとセグメンテーションを統合します。したがって、トレーニングの品質、安定性、効率の両方を向上させながら、余分な敵対的なステップを回避することにより、セグメンテーションの適応を簡素化します。ネットワーク出力空間で
arxiv_reader 2021/11/29
分布マッチング損失の最小化は、画像分類のコンテキストでのドメイン適応への原則的なアプローチです。ただし、現在敵対的なモデルによって支配されているセグメンテーションネットワークの適応ではほとんど見過ごさ

arXiv

MRI

loss function

adversarial

arXiv reaDer

domain adaptation

segmentation

classification
リンク
Cross Your Body：子供のための認知評価システム
多くのアクション認識手法は公開ベンチマークで大きな成功を収めていますが、そのようなパフォーマンスは、データが特定のアプリケーション要件から取得される実際のシナリオでは必ずしも再現されません。このホワイトペーパーで焦点を当てている特定の実際のアプリケーションは、認知的に要求の厳しい物理的タスクを使用する子供たちの認知評価です。 Cross-Your-Bodyと呼ばれるシステムを作成し、データを記録しました。これは、タスクが心理学者によって設計されていること、対象が子供であること、ビデオが記録するときに実際の使用法をキャプチャすることなど、いくつかの面でユニークです。心理学者による実世界の評価中にタスクを実行する子供たち。私たちのシステムの他の際立った特徴は、そのスコアを直接翻訳して、思春期の子供たちのADHDの発症を区別するための重要な要素の1つである実行機能を測定できることです。子どもたち
arxiv_reader 2021/11/29
多くのアクション認識手法は公開ベンチマークで大きな成功を収めていますが、そのようなパフォーマンスは、データが特定のアプリケーション要件から取得される実際のシナリオでは必ずしも再現されません。このホワイ

arXiv

benchmark

action recognition

arXiv reaDer

video
リンク
TrajeVAE：軌道からの制御可能な人間の動きの生成
arxiv_reader 2021/11/29
もっともらしく制御可能な3D人間の動きのアニメーションの作成は、熟練したアーティストの手動介入を必要とする長年の問題です。現在の機械学習アプローチでは、プロセスを半自動化できますが、大幅な制限がありま

arXiv

3D

learning

trajectory

human

arXiv reaDer

pose
リンク
計画/エンジニアリングにおける生態学者のためのカメラトラップデータへの深層学習の適用-捕虜の画像は、野生に一般化するモデルを訓練することができますか？
arxiv_reader 2021/11/29
種の豊富さを理解することは、その長期的な持続可能性と私たちが種に与える可能性のある影響の両方を理解するための第一歩です。生態学者は、カメラトラップを使用して、特定の動物種の存在をリモートで調査します。

arXiv

learning

arXiv reaDer

segmentation

dataset

detection

classification
リンク
慣性閉じ込め核融合における科学的生成モデルの幾何学的事前確率
arxiv_reader 2021/11/29
この論文では、慣性閉じ込め核融合のアプリケーションにおけるマルチモーダルデータ用の超球形の事前分布を備えたワッサースタインオートエンコーダ（WAE）を開発します。フォンミスフィッシャーのような分布から

arXiv

generative

dataset

arXiv reaDer
リンク
2Dアニメーション補間の知覚品質の改善
arxiv_reader 2021/11/29
従来の2Dアニメーションは労働集約的であり、多くの場合、アニメーターは1秒あたり12の動きを手動で描く必要があります。自動フレーム補間はこの負担を軽減する可能性がありますが、2Dアニメーションに固有の

arXiv

metric

occlusion

synthesis

domain

convolutional

arXiv reaDer

dataset

video

pose
リンク
自己中心的なポーズ推定のためのダイナミクス規制された運動学的方針
arxiv_reader 2021/11/29
運動学モデリング、ダイナミクスモデリング、およびシーンオブジェクト情報を緊密に統合するオブジェクト認識3D自己中心性ポーズ推定の方法を提案します。 2つのコンポーネントが別々に使用される以前の運動学ま

arXiv

3D

simulation

arXiv reaDer

video

pose estimation
リンク
敵対的ロバスト性に対する剪定の影響について
arxiv_reader 2021/11/29
剪定は、深い畳み込みネットワークの計算コストを削減するためのよく知られたメカニズムです。ただし、研究では、過剰適合を減らし、一般化を改善する正則化の形式として剪定の可能性が示されています。この一連の戦

arXiv

pruning

regularization

convolutional

arXiv reaDer

adversarial
リンク
ディープバリエーションオートエンコーダを使用したデータ駆動型の通常のフィルタリングによる高速メッシュノイズ除去
arxiv_reader 2021/11/29
3Dスキャン技術の最近の進歩により、デジタルツイン、リモート検査、リバースエンジニアリングなどのさまざまな産業用アプリケーションでの3Dモデルの展開が可能になりました。パフォーマンスが進化しているにも

arXiv

3D

reconstruction

denoising

mesh

face

arXiv reaDer
リンク
Bhattacharyyaクラス分離可能性を使用した転送可能性の推定
arxiv_reader 2021/11/29
転移学習は、コンピュータービジョンで事前にトレーニングされたモデルを活用するための一般的な方法になっています。ただし、計算コストの高い微調整を実行しないと、特定のターゲットタスクに適した事前トレーニン

arXiv

pre-training

metric

transfer learning

arXiv reaDer

estimation

dataset

computer vision

semantic segmentation

classification
リンク
JoinABLe：パラメトリックCADジョイントのボトムアップアセンブリの学習
arxiv_reader 2021/11/29
物理的な製品は、多くの場合、コンピューター支援設計（CAD）ソフトウェアでモデル化された多数の3Dパーツを組み合わせた複雑なアセンブリです。 CAD設計者は、ジョイントと呼ばれる拘束を使用して個々のパ

arXiv

3D

learning

representation

human

arXiv reaDer

dataset
リンク
検証システムのためのIDカードの効率的なセマンティックセグメンテーション方法に向けて
Towards an Efficient Semantic Segmentation Method of ID Cards for Verification Systems IDカード画像の背景を削除することは、リモート検証システムにとって真の課題です。再デジタル化された画像の多くは、背景が乱雑で、照明条件が悪く、歪みやオクルージョンが存在するためです。 IDカード画像の背景は、分類子とテキスト抽出を混乱させます。研究に利用できる画像が不足しているため、この分野は今日のコンピュータビジョンにおける未解決の問題を表しています。この作品は、IDカードのセマンティックセグメンテーションを使用して背景を削除する方法を提案します。最終的には、45,007枚の画像からなる手動でラベル付けされたデータセットと、典型的なプレゼンテーション攻撃シナリオを含む3か国（チリ、アルゼンチン、メキシコ）の5種類のI
arxiv_reader 2021/11/29
IDカード画像の背景を削除することは、リモート検証システムにとって真の課題です。再デジタル化された画像の多くは、背景が乱雑で、照明条件が悪く、歪みやオクルージョンが存在するためです。 IDカード画像の

arXiv

learning

occlusion

real time

arXiv reaDer

dataset

computer vision

detection

semantic segmentation
リンク
ACNet：ゼロショットスケッチベースの画像検索のためのアプローチおよび集中化ネットワーク
ACNet: Approaching-and-Centralizing Network for Zero-Shot Sketch-Based Image Retrieval スケッチと写真の間の大きなドメインギャップと非常に抽象的なスケッチ表現は、スケッチベースの画像検索（SBIR）に課題をもたらします。ゼロショットスケッチベースの画像検索（ZS-SBIR）は、より一般的で実用的ですが、表示されているカテゴリと表示されていないカテゴリの間に追加の知識ギャップがあるため、さらに大きな課題があります。両方のギャップを同時に緩和するために、スケッチから写真への合成と画像検索を共同で最適化するアプローチおよび集中化ネットワーク（「ACNet」と呼ばれる）を提案します。検索モジュールは、合成モジュールをガイドして、写真ドメインに徐々に近づく多様な写真のような画像を大量に生成します。したがって、ドメイ
arxiv_reader 2021/11/29
スケッチと写真の間の大きなドメインギャップと非常に抽象的なスケッチ表現は、スケッチベースの画像検索（SBIR）に課題をもたらします。ゼロショットスケッチベースの画像検索（ZS-SBIR）は、より一般的

arXiv

synthesis

domain

representation

arXiv reaDer

dataset

zero-shot

pose
リンク
階層化された制御可能なビデオ生成
レイヤード制御可能なビデオ生成を導入します。この生成では、監視なしで、ビデオの初期フレームを前景レイヤーと背景レイヤーに分解します。ユーザーは、前景マスクを操作するだけでビデオ生成プロセスを制御できます。重要な課題は、あいまいな教師なしの前景と背景の分離、および生のビデオシーケンスのみにアクセスしてユーザーの操作を予測する機能です。 2段階の学習手順を提案することにより、これらの課題に対処します。最初の段階では、損失の豊富なセットと動的な前景サイズを事前に使用して、フレームを前景レイヤーと背景レイヤーに分離する方法と、これらのレイヤーを条件として、VQ-VAEジェネレーターを使用して次のフレームを生成する方法を学習します。第2段階では、将来のフレームからマスクに（パラメーター化された）制御をフィッティングすることにより、マスクの編集を予測するようにこのネットワークを微調整します。 2つのベ
arxiv_reader 2021/11/29
レイヤード制御可能なビデオ生成を導入します。この生成では、監視なしで、ビデオの初期フレームを前景レイヤーと背景レイヤーに分解します。ユーザーは、前景マスクを操作するだけでビデオ生成プロセスを制御できま

arXiv

unsupervised

learning

benchmark

arXiv reaDer

dataset

video
リンク
カノニカルカプセル：カノニカルポーズの自己監視カプセル
arxiv_reader 2021/11/29
3D点群の自己監視カプセルアーキテクチャを提案します。順列と同等の注意を介してオブジェクトのカプセル分解を計算し、ランダムに回転したオブジェクトのペアを使用してトレーニングすることにより、プロセスを自

arXiv

3D

reconstruction

unsupervised

point cloud

self-supervised

arXiv reaDer

reasoning

attention

pose
リンク
微分可能なレンダリングを使用した人間のポーズ操作と新しいビュー合成
arxiv_reader 2021/11/29
新しいポーズで人々の斬新な見方を合成するための新しいアプローチを提示します。私たちの新しい微分可能なレンダラーは、あらゆる視点から非常にリアルな画像の合成を可能にします。レンダラーは、メッシュベースの

arXiv

reconstruction

synthesis

human

arXiv reaDer

differentiable

dataset

video

pose
リンク
ユニバーサルキャプション：視覚と言語モデルのトレーニングでコンテンツスタイルの分離を誘導する
arxiv_reader 2021/11/29
キャプションモデルは、自然な画像を説明する上で説得力のある結果を得ていますが、それでも現実世界の概念のロングテール分布全体をカバーしているわけではありません。このホワイトペーパーでは、Webスケールで

arXiv

metric

captioning

arXiv reaDer

dataset

zero-shot
リンク
野生における暗黙のオブジェクト追跡と形状再構築のためのオンライン適応
arxiv_reader 2021/11/29
雑然としたシーンから3Dオブジェクトを追跡して再構築することは、コンピュータービジョン、ロボット工学、自動運転システムの重要なコンポーネントです。陰関数（DeepSDFなど）の最近の進歩により、高品質

arXiv

3D

reconstruction

LiDAR

tracking

adaptation

arXiv reaDer

dataset

computer vision

autonomous driving
リンク
適応フーリエニューラル演算子：変圧器用の効率的なトークンミキサー
arxiv_reader 2021/11/29
ビジョントランスフォーマーは、表現学習で大きな成功を収めています。これは主に、自己注意による効果的なトークンの混合によるものです。ただし、これはピクセル数に応じて2次関数的にスケーリングされるため、高

arXiv

transformer

few-shot

representation learning

domain

convolutional

arXiv reaDer

segmentation

attention
リンク
EAD：ディープニューラルネットワークの隠された機能から敵対的な例を検出するためのアンサンブルアプローチ
arxiv_reader 2021/11/29
ディープラーニングの重要な課題の1つは、敵対的な例を検出するための効果的な戦略の定義です。この目的のために、標準的なマルチクラス分類シナリオで、敵対的な例を識別するためのEnsemble Advers

arXiv

identification

pre-training

DNN

representation

adversarial

arXiv reaDer

dataset

detection

classification
リンク
医療画像セグメンテーションのための因果関係に触発された単一ソースドメインの一般化
arxiv_reader 2021/11/29
ディープラーニングモデルは通常、ドメインシフトの問題に悩まされており、1つのソースドメインでトレーニングされたモデルは、他の見えないドメインにうまく一般化されません。この作業では、単一ソースドメインの

arXiv

learning

augmentation

domain

MRI

arXiv reaDer

segmentation
リンク
ビデオキャプションのための階層的モジュラーネットワーク
arxiv_reader 2021/11/29
ビデオキャプションは、表現学習が重要な役割を果たすコンテンツに応じて自然言語の説明を生成することを目的としています。既存の方法は、主に、言語セマンティクスを十分に活用せずに、生成されたキャプションをグ

arXiv

captioning

representation learning

action

arXiv reaDer

video
リンク
体と顔のミニバッチ機能スワッピングによる3D形状変分オートエンコーダ潜在解きほぐし
arxiv_reader 2021/11/29
顔と体の3D生成モデルで、解きほぐされ、解釈可能で、構造化された潜在表現を学習することは、依然として未解決の問題です。 ID機能の制御が必要な場合、この問題は特に深刻です。この論文では、アイデンティテ

arXiv

3D

reconstruction

disentangling

self-supervised

loss function

generative

representation

face

arXiv reaDer
リンク
ディープフェイススプーフィング防止のための一貫性の正則化
arxiv_reader 2021/11/29
顔のなりすまし防止（FAS）は、顔認識システムを保護する上で重要な役割を果たします。経験的に、画像が与えられた場合、図1に示すように、この画像のさまざまなビューでより一貫した出力を持つモデルは、通常、

arXiv

face recognition

semi-supervised

learning

benchmark

regularization

self-supervised

arXiv reaDer

dataset
リンク
イメージパッチは波です：Quantum Inspired Vision MLP
arxiv_reader 2021/11/29
従来の畳み込みニューラルネットワーク（CNN）やビジョントランスフォーマーとは異なり、多層パーセプトロン（MLP）は、完全に接続されたレイヤーによってのみスタックされる非常にシンプルなアーキテクチャを

arXiv

transformer

representation

arXiv reaDer

CNN

detection

semantic segmentation

classification
リンク
マルチモーダルトランスフォーマーのスパースフュージョン
arxiv_reader 2021/11/29
マルチモーダル分類は、人間中心の機械学習のコアタスクです。情報はモダリティ間で非常に補完的であるため、精度を損なうことなく、マルチモーダル融合の前にユニモーダル情報を大幅にスパース化できます。この目的

arXiv

learning

transformer

benchmark

sparse

arXiv reaDer

dataset

classification
リンク
顔バイオメトリクスにおけるプレゼンテーション攻撃検出の概要と最近の進歩
arxiv_reader 2021/11/29
この章の主な範囲は、過去数年間の主要なリソースとこの分野の進歩を含む、顔のプレゼンテーション攻撃の検出の概要として機能することです。次のページでは、顔認識システムが直面する可能性のあるさまざまなプレゼ

arXiv

face recognition

dataset

arXiv reaDer

biometrics

detection

video
リンク
単一の拡張トレーニングサンプルからの画像形状操作
arxiv_reader 2021/11/29
この論文では、単一の画像に基づく条件付き画像操作の生成モデルであるDeepSIMを紹介します。単一画像のトレーニングを可能にするためには、大規模な拡張が重要であることがわかり、効果的な拡張として薄板ス

arXiv

augmentation

representation

generative

arXiv reaDer

segmentation
リンク
低照度画像/ビデオエンハンスメントのためのセマンティックガイドゼロショット学習
arxiv_reader 2021/11/29
低照度の画像は、人間の知覚とコンピュータビジョンアルゴリズムの両方に挑戦します。リアルタイム検出やセグメンテーションなどの計算写真やコンピュータービジョンアプリケーションの低照度画像を啓発するために、

arXiv

unsupervised

recurrent

real time

convolutional

arXiv reaDer

computer vision

detection

semantic segmentation

zero-shot
リンク
CDistNet：ロバストなテキスト認識のためのマルチドメイン文字距離の認識
arxiv_reader 2021/11/29
注意ベースのエンコーダ-デコーダフレームワークは、主に視覚的ドメインと意味的ドメインの両方からの認識の手がかりを統合することにおけるその優位性のために、シーンテキスト認識で人気が高まっています。ただし

arXiv

localization

augmentation

benchmark

domain

arXiv reaDer

dataset

embedding

attention
リンク
VLDeformer：高速クロスモーダル検索のための視覚言語分解トランスフォーマー
arxiv_reader 2021/11/29
クロスモデル検索は、テキストのみの検索エンジン（SE）の最も重要なアップグレードの1つとして浮上しています。最近、初期の相互作用を介したペアワイズテキスト画像入力の強力な表現により、視覚言語（VL）ト

arXiv

learning

pre-training

transformer

representation

human

arXiv reaDer

dataset

embedding
リンク
DuDoTrans：デュアルドメイントランスフォーマーは、スパースビューCT再構成でのサイノグラム復元により多くの注意を提供します
arxiv_reader 2021/11/29
X線サイノグラムからのコンピューター断層撮影（CT）の再構成は臨床診断に必要ですが、画像化プロセスでのヨウ素放射線は不可逆的な損傷を誘発し、それによって研究者はスパースビューCT再構成を研究するように

arXiv

reconstruction

transformer

sparse

arXiv reaDer

COVID-19

CT

dataset

attention
リンク
MaIL：画像セグメンテーションを参照するための統一されたマスク-画像-言語三峰性ネットワーク
arxiv_reader 2021/11/29
参照画像のセグメンテーションは、特定の言語式で記述された指示対象のバイナリマスクを生成することを目的とした、典型的なマルチモーダルタスクです。従来技術は、エンコーダー-フュージョン-デコーダーパイプラ

arXiv

learning

pre-training

arXiv reaDer

segmentation

dataset
リンク
- 2021年11月30日
- 2021年11月29日
- 2021年11月25日

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx