arxiv_readerのブックマーク / 2022年3月16日 - はてなブックマーク

arxiv_reader id:arxiv_reader

2022年3月16日のブックマーク (161件)

ビジュアルターゲットローカリゼーションによるオブジェクトマニピュレーション
arxiv_reader 2022/03/16
オブジェクトマニピュレーションは、身体化されたAIエージェントが周囲の世界と対話するために必要な重要なスキルです。オブジェクトを操作するためのエージェントのトレーニングには、多くの課題があります。これ

detection

localization

pose

estimation

arXiv

occlusion

3D

arXiv reaDer
リンク
効果的なビデオアップスケーリングのための時空間ダウンサンプリングの学習
arxiv_reader 2022/03/16
ダウンサンプリングは、最も基本的な画像処理操作の1つです。ビデオに不適切な時空間ダウンサンプリングを適用すると、空間のモアレパターンや時間のワゴンホイール効果などのエイリアシングの問題が発生する可能性

learning

differentiable

spatio-temporal

quantization

arXiv

reconstruction

video

arXiv reaDer
リンク
CryoAI：実際のCryo-EM画像からの3D分子ボリュームのabinitio再構成のためのポーズの償却された推論
arxiv_reader 2022/03/16
低温電子顕微鏡法（クライオEM）は、構造生物学において基本的に重要なツールになり、生命の基本的な構成要素を理解するのに役立ちます。クライオEMのアルゴリズムの課題は、数百万の非常にノイズの多い2D画像

domain

loss function

pose

arXiv

reconstruction

representation

dataset

3D

arXiv reaDer
リンク
ビデオからリアルなアバターを作成するためのアニメーション化可能な暗黙のニューラル表現
arxiv_reader 2022/03/16
この論文は、非常にまばらなカメラビューのビデオからアニメート可能な人間モデルを再構築することを目的としています。最近のいくつかの作品は、人間の幾何学と外観を神経放射輝度フィールドで表現し、パラメトリッ

sparse

video

arXiv

reconstruction

synthesis

human

dataset

3D

arXiv reaDer
リンク
1つのネットワークがすべてを支配するわけではありません：自己監視学習における手作りのアーキテクチャを超えて
arxiv_reader 2022/03/16
自己監視学習（SSL）に関する現在の文献は、ラベルのないデータでニューラルネットワークをより効果的にトレーニングするための学習目標の開発に焦点を当てています。典型的な開発プロセスには、ImageNet

learning

self-supervised

classification

benchmark

arXiv

arXiv reaDer
リンク
ニューラルネットは同じモデルを2回学習できますか？決定境界の観点からの再現性と二重降下の調査
arxiv_reader 2022/03/16
ニューラルネットワークの決定境界と決定領域を視覚化する方法について説明します。これらの視覚化を使用して、ニューラルネットワークトレーニングの再現性と一般化に関連する問題を調査します。モデルアーキテクチ

arXiv

bias

arXiv reaDer
リンク
2Dから3Dへ：単眼深度予測のベンチマークの再考
arxiv_reader 2022/03/16
ベンチマークツールの同様に急速な進化と相まって、単眼深度予測（MDP）のための多くの最近提案された方法がありました。ただし、MDPは現在、ベンチマークの過剰適合を目撃しており、3Dアプリケーションの予

dataset

benchmark

arXiv

metric

depth prediction

RGB-D

monocular

3D

arXiv reaDer
リンク
MeshUDF：符号なし距離フィールドネットワークの高速で微分可能なメッシュ
arxiv_reader 2022/03/16
符号なし距離フィールド（UDF）は、非水密面を表すために使用できます。ただし、それらを明示的なメッシュに変換する現在のアプローチは、費用がかかるか、精度が低下する傾向があります。ここでは、マーチングキ

sparse

differentiable

arXiv

mesh

arXiv reaDer
リンク
ARTEMIS：テキスト明示的マッチングと暗黙的類似性を備えた注意ベースの検索
arxiv_reader 2022/03/16
画像を検索する直感的な方法は、サンプル画像と補足テキストで構成されるクエリを使用することです。前者は検索に豊富で暗黙的なコンテキストを提供しますが、後者は明示的に新しい特性を要求するか、目的のターゲッ

attention

benchmark

arXiv

representation

pre-training

arXiv reaDer
リンク
ディープポイントクラウドの再構築
arxiv_reader 2022/03/16
3Dスキャンから得られた点群は、多くの場合、まばらで、ノイズが多く、不規則です。これらの問題に対処するために、最近の研究は、高密度化、ノイズ除去、および完全な不正確な点群を個別に実施しています。この論

sparse

arXiv

point cloud

transformer

reconstruction

denoising

dataset

3D

arXiv reaDer
リンク
MItosisDOmain一般化チャレンジの参照アルゴリズムとしてのドメイン敵対的RetinaNet
arxiv_reader 2022/03/16
有糸分裂数の評価には、評価者内および評価者間の変動性が高いことが知られています。コンピュータ支援システムは、この変動を減らし、ラベリング時間を短縮することが証明されています。ただし、これらのシステムは

domain

detection

arXiv

adversarial

arXiv reaDer
リンク
PointMixer：点群を理解するためのMLP-Mixer
arxiv_reader 2022/03/16
MLP-Mixerは、CNNとトランスフォーマーの領域に対する新しいチャレンジャーとして新たに登場しました。トランスフォーマーと比較して単純であるにもかかわらず、チャネルミキシングMLPおよびトークン

semantic segmentation

CNN

sparse

classification

arXiv

point cloud

transformer

reconstruction

3D

arXiv reaDer
リンク
ドメイン適応オブジェクト検出のための敵対的学習による同時分布アラインメント
arxiv_reader 2022/03/16
教師なしドメイン適応オブジェクト検出は、十分にトレーニングされた検出器を、豊富なラベル付きデータを含む元のソースドメインから、ラベルなしデータを含む新しいターゲットドメインに適応させることを目的として

learning

unsupervised

detection

arXiv

metric

domain adaptation

few-shot

adversarial

arXiv reaDer
リンク
深さ方向の量子化による暗黙の特徴デカップリング
arxiv_reader 2022/03/16
量子化は、ディープニューラルネットワーク（DNN）の複数のドメインに適用されています。弱い統計的依存性の特徴軸に沿って分解されたサブテンソルに量子化が適用される深さ方向量子化（DQ）を提案します。特徴

domain

DNN

quantization

estimation

arXiv

representation

arXiv reaDer
リンク
テキストに書かれていないこと：視覚信号からの空間常識の探求
arxiv_reader 2022/03/16
空間的常識、オブジェクト間の空間的位置と関係（ライオンと女の子の相対的なサイズ、サイクリング時の自転車に対する男の子の位置など）に関する知識は、常識的な知識の重要な部分です。事前トレーニングされた言語

learning

reasoning

benchmark

arXiv

synthesis

action

arXiv reaDer
リンク
MotionCLIP：人間のモーション生成をCLIPスペースに公開する
arxiv_reader 2022/03/16
MotionCLIPを紹介します。これは、解きほぐされ、適切に動作し、高度にセマンティックなテキスト記述をサポートする潜在的な埋め込みを特徴とする3Dヒューマンモーションオートエンコーダです。 Mot

domain

manifold

self-supervised

arXiv

disentangling

contrastive

pre-training

3D

embedding

arXiv reaDer
リンク
共通性と矛盾を求めて: マルチビュー部分空間クラスタリングへの共同で平滑化されたアプローチ
arxiv_reader 2022/03/16
マルチビュー部分空間クラスタリングは、堅牢なクラスタリングのために複数のビューから隠れた部分空間構造を発見することを目的としており、近年かなりの注目を集めています。大幅な進歩にもかかわらず、以前のマル

arXiv reaDer

arXiv

dataset

attention

representation learning

clustering
リンク
補助点密度レベル推定を使用したLiDARベースの3Dオブジェクト検出のための範囲認識アテンションネットワーク
arxiv_reader 2022/03/16
自動運転のためのLiDARデータからの3Dオブジェクト検出は、近年目覚ましい進歩を遂げています。最先端の方法論の中で、点群を鳥瞰図（BEV）にエンコードすることは、効果的かつ効率的であることが実証され

arXiv reaDer

arXiv

attention

real time

point cloud

detection

LiDAR

3D

CNN

autonomous driving
リンク
2Dオブジェクト検出における双曲埋め込みについて
arxiv_reader 2022/03/16
オブジェクト検出は、ほとんどの場合、ユークリッド空間で定式化されています。ユークリッド空間または球形測地線距離は、オブジェクトクラスのプロトタイプに対する画像領域の類似性を測定します。この作業では、双

embedding

classification

arXiv reaDer

arXiv

zero-shot

detection

benchmark
リンク
AdaMatch: 半教師あり学習と領域適応への統合アプローチ
arxiv_reader 2022/03/16
半教師あり学習をドメイン適応の問題に拡張して、あるデータ分布でトレーニングし、別のデータ分布でテストする非常に精度の高いモデルを学習します。一般性を目的として、教師なしドメイン適応 (UDA)、半教師

pre-training

classification

arXiv reaDer

arXiv

dataset

semi-supervised

domain adaptation

unsupervised

learning
リンク
腹部CT登録のための多臓器点群登録アルゴリズム
arxiv_reader 2022/03/16
胸部のCT画像を登録することは、病気の進行の追跡や外科的計画などのいくつかのタスクにとって重要なステップです。複雑な変形を意味する人間の腹部の不均一な内容のため、これは挑戦的なステップでもあります。こ

segmentation

arXiv reaDer

arXiv

CT

dataset

landmark

Bayesian

point cloud

tracking
リンク
二次曲面を使用したローカリゼーションとマッピングの同時実行
arxiv_reader 2022/03/16
同時ローカリゼーションとマッピング（SLAM）でマップを表現する方法には多くの可能性があります。スパースなキーポイントベースのSLAMシステムは、印象的なレベルの精度と堅牢性を実現していますが、それら

sparse

arXiv reaDer

arXiv

robot

dataset

SLAM

representation

RGB-D
リンク
自動運転車のレーダーデータ活用のための深層学習
arxiv_reader 2022/03/16
自動運転には、複雑な運転シーンを詳細に理解する必要があります。車両のセンサーの冗長性と補完性により、環境を正確かつ堅牢に把握できるため、パフォーマンスと安全性のレベルが向上します。この論文は、自動車の

generative

arXiv reaDer

arXiv

dataset

simulation

semantic segmentation

detection

LiDAR

autonomous driving

loss function
リンク
PET画像のノイズ除去のためのノイズレベルを意識したフレームワーク
arxiv_reader 2022/03/16
PETでは、さまざまな身体領域に存在する相対的な（信号に依存する）ノイズの量は大幅に異なる可能性があり、本質的にその領域に存在するカウントの数に関連しています。ある領域のカウント数は、原則として、また

embedding

arXiv reaDer

arXiv

activity

CNN

denoising
リンク
反復グラフ畳み込みによるスパース慣性測定からの人間の姿勢推定
arxiv_reader 2022/03/16
わずか6つの測定ユニットから得られた疎な慣性測定からの人間の姿勢推定のための隣接適応グラフ畳み込み長短期記憶ネットワーク（AAGC-LSTM）を提案します。 AAGC-LSTMは、単一のネットワーク操

sparse

convolutional

arXiv reaDer

arXiv

augmentation

human pose estimation

pose estimation

recurrent

learning
リンク
LiDARおよびカメラセンサーセットアップ用の自動外因性キャリブレーション方法
arxiv_reader 2022/03/16
オンボード自律知覚用のほとんどのセンサーセットアップは、LiDARとビジョンシステムで構成されています。これらは、堅牢なシーンの理解を得るために必要なさまざまなアルゴリズムの信頼性を向上させる補足情報

monocular

arXiv reaDer

arXiv

vehicle

simulation

stereo

LiDAR

pose

synthesis
リンク
ワンショット自然言語空間ビデオグラウンディングのための情報ツリーを介したエンドツーエンドモデリング
arxiv_reader 2022/03/16
自然言語の空間ビデオグラウンディングは、説明文をクエリとして使用して、ビデオフレーム内の関連オブジェクトを検出することを目的としています。大きな進歩にもかかわらず、ほとんどの既存の方法は、膨大な量の人

one-shot

arXiv reaDer

arXiv

dataset

self-supervised

human

benchmark

representation learning

video
リンク
LiDARからの迫り来る推定
arxiv_reader 2022/03/16
迫り来ることは、伝統的に観察者の網膜内の物体の相対的な拡大として定義され、脅威を知覚するための基本的な視覚的手がかりであり、衝突のないナビゲーションを実現するために使用できます。迫り来るキューの測定は

classification

segmentation

arXiv reaDer

arXiv

real time

point cloud

detection

LiDAR

estimation
リンク
変化検出のための変圧器ベースのシャムネットワーク
arxiv_reader 2022/03/16
このホワイトペーパーでは、同時登録されたリモートセンシング画像のペアからの変化検出（CD）用のトランスベースのシャムネットワークアーキテクチャ（ChangeFormerと略記）を紹介します。完全畳み込

transformer

convolutional

arXiv reaDer

arXiv

dataset

detection
リンク
L-無限距離ネットの認定された堅牢性を高める
arxiv_reader 2022/03/16
最近、張等。（2021）ℓ_∞-距離関数に基づく新しいニューラルネットワークアーキテクチャを開発しました。これは、その構造によって認定されたℓ_∞の堅牢性を自然に備えています。斬新な設計と理論的基盤

arXiv reaDer

arXiv
リンク
InvPT: 高密度シーン理解のための逆ピラミッドマルチタスクトランスフォーマー
arxiv_reader 2022/03/16
マルチタスクの密集したシーンの理解は、ピクセル単位の予測を伴う一連の相関タスクの同時認識と推論を必要とする活発な研究領域です。ほとんどの既存の作品は、畳み込み演算を多用するため、局所的なモデリングの厳

reasoning

transformer

domain

convolutional

arXiv reaDer

arXiv

dataset

learning

multi-task
リンク
平滑化事項：ドメイン適応セマンティックセグメンテーションのための運動量変換器
arxiv_reader 2022/03/16
コンピュータービジョンでのVisionTransformerバリアント（ViT）の大成功の後、ドメイン適応セマンティックセグメンテーションでも大きな可能性を示しました。残念ながら、ドメイン適応セマンテ

transformer

domain

arXiv reaDer

arXiv

semantic segmentation

computer vision

benchmark

learning
リンク
確率的セット予測としての物体検出
arxiv_reader 2022/03/16
安全性が重要なシステムに深部物体検出器を配備するには、正確な不確実性の推定が不可欠です。確率的オブジェクト検出器の開発と評価は、既存のパフォーマンス測定値の欠点によって妨げられてきました。これは、任意

arXiv reaDer

arXiv

dataset

metric

detection
リンク
OcclusionFusion：リアルタイムの動的3D再構成のためのオクルージョンを意識したモーションエスティメーション
arxiv_reader 2022/03/16
RGBDベースのリアルタイムダイナミック3D再構成は、オンライントラッキングでエラーが蓄積する可能性があるため、フレーム間のモーション推定が不正確になるという問題があります。この問題は、強いオクルージ

occlusion

arXiv reaDer

arXiv

dataset

real time

3D

reconstruction

estimation

tracking
リンク
エンドツーエンドのビデオ学習のためのバッチ正規化の落とし穴について：外科的ワークフロー分析に関する研究
arxiv_reader 2022/03/16
バッチ内の他のサンプルに依存するというバッチ正規化（BN）の固有の特性は、シーケンシャルモデリングを含むいくつかのタスクで問題を引き起こすことが知られており、これらの分野で代替案を使用するようになりま

domain

arXiv reaDer

arXiv

CNN

batch normalization

learning

video
リンク
MOBDrone：ManOverBoardRescue用のドローンビデオデータセット
arxiv_reader 2022/03/16
カメラを搭載した最新の無人航空機（UAV）は、船外に落下した人、つまり人船外（MOB）の識別と救助をスピードアップする上で重要な役割を果たすことができます。この目的のために、人工知能技術を利用して、ド

UAV

identification

arXiv reaDer

arXiv

dataset

detection

drone

benchmark

video
リンク
些細なことまたは不可能なこと-二分されたデータの難しさはモデルの違いを覆い隠します（ImageNet以降）
arxiv_reader 2022/03/16
「一般化システムの力は、そのバイアスから直接得られます」（Mitchell1980）。今日、CNNは非常に強力な一般化システムですが、CNNの誘導バイアスがモデルの決定にどのように影響するかをどの程度

transformer

bias

arXiv reaDer

arXiv

semi-supervised

self-supervised

CNN

recurrent
リンク
固有のニューラルフィールド：多様体の学習関数
arxiv_reader 2022/03/16
ニューラルフィールドは、新しいビュー合成、ジオメトリ再構築、および生成モデリングでの優れたパフォーマンスにより、コンピュータビジョンコミュニティで大きな注目を集めています。それらの利点のいくつかは、健

embedding

generative

arXiv reaDer

arXiv

attention

point cloud

computer vision

manifold

reconstruction

synthesis
リンク
オールラウンドなリアルラベル監視：半教師あり医療画像セグメンテーションのための周期的プロトタイプ一貫性学習
arxiv_reader 2022/03/16
半教師あり学習は、費用のかかる専門家が調べた注釈を取得するという重い負担を軽減するため、医療画像のセグメンテーションが大幅に進歩しました。特に、一貫性ベースのアプローチは、その優れたパフォーマンスでよ

segmentation

arXiv reaDer

arXiv

MRI

CT

attention

semi-supervised

learning
リンク
ニューラルダバー：スクリプトによるビデオの吹き替え
arxiv_reader 2022/03/16
吹き替えは、俳優の会話を再録音するポストプロダクションプロセスであり、映画製作やビデオ制作で広く使用されています。これは通常、適切な韻律で行を読み、事前に録画されたビデオと同期して、プロの声優によって

embedding

arXiv reaDer

arXiv

dataset

human

face

video

synthesis
リンク
画像の反転と編集のためのスタイルトランスフォーマー
arxiv_reader 2022/03/16
既存のGAN反転方法では、信頼性の高い再構築と柔軟な編集を同時に行うための潜在コードを提供できません。このホワイトペーパーでは、歪みが少ないだけでなく、編集の品質と柔軟性が高い、事前トレーニング済みの

transformer

GAN

arXiv reaDer

arXiv

reconstruction

CNN
リンク
DialogueNeRF: リアルなアバターの対面会話ビデオ生成に向けて
arxiv_reader 2022/03/16
会話は、メタバースでの仮想アバターアクティビティの重要なコンポーネントです。自然言語処理の開発により、テキストおよび音声による会話の生成は大きな進歩を遂げました。対面での会話は、毎日の会話の大部分を占

arXiv reaDer

arXiv

activity

dataset

attention

human

pose

video
リンク
SIFT機能からの相対ポーズ
arxiv_reader 2022/03/16
この論文は、エピポーラ幾何学と標定およびスケール共変、例えば、SIFTの特徴の幾何学的関係を提案します。基本行列の未知の要素と方向およびスケールに関連する新しい線形制約を導出します。この方程式は、よく

arXiv reaDer

arXiv

dataset

pose

estimation

synthesis
リンク
GPV-Pose：ジオメトリに基づくポイントワイズ投票によるカテゴリレベルのオブジェクトポーズ推定
arxiv_reader 2022/03/16
6Dオブジェクトのポーズ推定は最近大きな飛躍を遂げましたが、ほとんどのメソッドはまだ1つまたは少数の異なるオブジェクトしか処理できないため、アプリケーションが制限されます。この問題を回避するために、カ

6D

arXiv reaDer

arXiv

real time

metric

3D

benchmark

pose estimation

representation

learning
リンク
Panoptic SwiftNet: リアルタイムパノプティックセグメンテーションのためのピラミッドフュージョン
arxiv_reader 2022/03/16
高密度のパノラマ予測は、自動運転、自動倉庫、農業用ロボットなど、多くの既存のアプリケーションの重要な要素です。ただし、これらのアプリケーションのほとんどは、視覚的な閉ループ制御への入力として、復元され

arXiv reaDer

arXiv

panoptic segmentation

real time

autonomous driving
リンク
K-VQG：常識的な習得のための知識を意識した視覚的な質問の生成
arxiv_reader 2022/03/16
Visual Question Generation（VQG）は、画像から質問を生成するタスクです。人間が画像について質問するとき、彼らの目標はしばしばいくつかの新しい知識を習得することです。ただし、

arXiv

dataset

arXiv reaDer
リンク
LiP-Flow：潜在空間のフローの正規化によるコーデックアバターの推論時間事前確率の学習
arxiv_reader 2022/03/16
カメラのドームでキャプチャされたマルチビューデータからトレーニングされたニューラルフェイスアバターは、写実的な3D再構成を生成できます。ただし、推論時には、ヘッドセットに取り付けられたカメラまたは前面

sparse

domain

arXiv reaDer

arXiv

landmark

face

3D

reconstruction

representation

learning
リンク
より強力な分類器のためのミックスアップの力を明らかにする
arxiv_reader 2022/03/16
データ混合の増強は、ディープニューラルネットワークの一般化能力を向上させるのに効果的であることが証明されています。初期の方法では、手作りのポリシー（線形補間など）によってサンプルを混合しますが、最近の

classification

arXiv reaDer

arXiv

augmentation

saliency

benchmark
リンク
グループベースの教師なし表現解きほぐしフレームワークの構築に向けて
arxiv_reader 2022/03/16
解きほぐされた表現学習は、深層学習の主要な目標の1つであり、説明可能で一般化可能なモデルを実現するための重要なステップです。明確に定義された理論的保証は、教師なし解きほぐしを達成するための一般的な方法

arXiv reaDer

arXiv

disentangling

explainable

dataset

unsupervised

representation learning
リンク
Bamboo: 人間と機械の相乗効果でメガスケールのビジョンデータセットを継続的に構築する
arxiv_reader 2022/03/16
大規模なデータセットは、コンピュータービジョンにおいて重要な役割を果たします。既存のデータセットは、ヒューリスティックラベルシステムに従って収集されるか、サンプルに区別せずに盲目的に注釈が付けられるた

pre-training

classification

arXiv reaDer

arXiv

dataset

detection

computer vision
リンク
ポーズ-MUM：半教師あり人間のポーズ推定のためのキーポイント関係の強化
arxiv_reader 2022/03/16
半教師あり学習（SSL）の教師と生徒のフレームワークでは、適切に設計された強弱の拡張戦略と、信頼できる疑似ラベルを生成するための安定した教師が不可欠です。これらを念頭に置いて、半教師あり人間ポーズ推定

arXiv reaDer

augmentation

arXiv

dataset

semi-supervised

human pose estimation

benchmark

pose estimation

learning
リンク
交絡因子の識別なしの因果的視覚特徴学習
arxiv_reader 2022/03/16
深層学習の交絡因子は、一般に、特徴表現に浸透するモデルの一般化に悪影響を及ぼします。したがって、交絡因子からの干渉を受けない因果的特徴を学習することが重要です。以前のほとんどの因果学習ベースのアプロー

identification

domain

interpretation

arXiv reaDer

arXiv

dataset

benchmark

representation

learning
リンク
LiDARデータとセンサー融合技術に基づく3Dオブジェクト検出フレームワークの比較研究
arxiv_reader 2022/03/16
車両の周囲を推定して理解することは、自動運転車の基本的かつ重要なステップを正確に形成します。知覚システムは、車両の環境をリアルタイムで正確に解釈する上で重要な役割を果たします。一般に、知覚システムには

localization

interpretation

arXiv reaDer

arXiv

stereo

real time

detection

LiDAR

3D

pose
リンク
SILT：暗黙的な画像分解を使用した自己監視照明転送
arxiv_reader 2022/03/16
自己監視型の暗黙的な照明転送方法であるSILTを紹介します。シーンの再照明に関する以前の研究とは異なり、特定のシーンに任意の新しい照明構成を適用しようとはしていません。代わりに、他のシーンのデータベー

domain

arXiv reaDer

arXiv

dataset

self-supervised
リンク
SPA-VAE：類似部品-教師なし3D点群生成の割り当て
arxiv_reader 2022/03/16
このホワイトペーパーでは、学習したパーツベースの自己相似性を使用して、教師なしパーツ認識ポイントクラウド生成の問題に対処します。私たちのSPA-VAEは、任意のオブジェクトの潜在的な正規候補形状のセッ

occlusion

generative

bias

arXiv reaDer

arXiv

Bayesian

point cloud

unsupervised

3D
リンク
SISL：スプライシングの検出とローカリゼーションのための自己監視画像署名学習
arxiv_reader 2022/03/16
画像操作検出のための最近のアルゴリズムは、ほとんど排他的にディープネットワークモデルを使用しています。これらのアプローチでは、ネットワークをトレーニングするために、高密度のピクセル単位のグラウンドトゥ

localization

arXiv reaDer

arXiv

dataset

self-supervised

detection

representation

learning
リンク
敵対的反事実増強：アルツハイマー病分類への応用
arxiv_reader 2022/03/16
データ拡張は、過剰適合を減らし、モデルの堅牢性を向上させるために、深層学習で広く使用されています。ただし、回転、トリミング、反転などの従来のデータ拡張手法では、脳画像の年齢の変更などの意味変換は考慮さ

pre-training

classification

generative

arXiv reaDer

arXiv

augmentation

learning

gradient

adversarial

synthesis
リンク
磁気共鳴画像法の画質評価
arxiv_reader 2022/03/16
画質評価（IQA）アルゴリズムは、人間の画質に対する認識を再現することを目的としています。画像の強調、生成、および回復モデルの人気の高まりは、それらのパフォーマンスを評価するための多くの方法の開発を促

domain

arXiv reaDer

MRI

arXiv

metric

computer vision

reconstruction

denoising
リンク
空間間剪定：適応フィルター表現を使用してスパースCNNのトレーニングを改善する
arxiv_reader 2022/03/16
非構造化プルーニングは、トレーニング時と推論時の両方で、畳み込みニューラルネットワーク（CNN）のメモリフットプリントを削減するのに適しています。 CNNには、K×Kフィルターに配置されたパラメーター

sparse

pruning

bias

arXiv reaDer

arXiv

CNN

representation
リンク
熱画像の焦点合わせについて
arxiv_reader 2022/03/16
この論文では、自動焦点測定の分析に適した新しいサーモグラフィ画像データベースを紹介します。このデータベースは、8つの異なるシーンのセットで構成されており、各シーンには96の異なるフォーカス位置の1つの

arXiv reaDer

detection

arXiv
リンク
CDGNet：人間の構文解析のためのクラス配布ガイド付きネットワーク
arxiv_reader 2022/03/16
人間の構文解析の目的は、画像内の人間を構成要素に分割することです。このタスクには、クラスに従って人間の画像の各ピクセルにラベルを付けることが含まれます。人体は階層的に構造化された部分で構成されているた

human

arXiv reaDer

arXiv
リンク
DAMix：ドメインシフト下での単一画像の曇り除去のための密度を意識した混合増強
arxiv_reader 2022/03/16
深層学習ベースの方法は、近年、単一画像の曇り除去でかなりの成功を収めています。ただし、これらの方法は、ドメインシフトに直面すると、パフォーマンスが低下することがよくあります。具体的には、既存のデータセ

arXiv reaDer

arXiv

augmentation

dataset

domain adaptation
リンク
ディープラーニングを使用した駐車場分析フレームワーク
車両の数が増え続ける中、駐車場の監視と分析は現代の都市の大きな特徴になりつつあります。この研究では、駐車場を監視し、その占有率をリアルタイムで分析する方法を提示します。このソリューションは、画像分析と深層学習技術の組み合わせに基づいています。これには、パイプライン内に配置された4つのビルディングブロックが組み込まれています。車両検出、車両追跡、駐車スロットの手動注釈、およびレイトレーシングアルゴリズムを使用した占有率の推定です。この方法論の目的は、駐車場の使用を最適化し、毎日のドライバーが自分の車に適した駐車スロットを見つけるために浪費する時間を削減することです。また、駐車場のスペースをより適切に管理し、誤用事例を発見するのに役立ちます。提供されているソリューションのデモンストレーションは、次のビデオリンクに示されています：https：//www.youtube.com/watch？v=K
arxiv_reader 2022/03/16
車両の数が増え続ける中、駐車場の監視と分析は現代の都市の大きな特徴になりつつあります。この研究では、駐車場を監視し、その占有率をリアルタイムで分析する方法を提示します。このソリューションは、画像分析と

arXiv reaDer

arXiv

vehicle

real time

detection

video

estimation

tracking

learning
リンク
ノイズの多いラベルを使用した学習におけるノイズ検出のためのスケーラブルなペナルティ付き回帰
arxiv_reader 2022/03/16
ノイズの多いトレーニングセットは、通常、ニューラルネットワークの一般化と堅牢性の低下につながります。この論文では、理論的に保証されたノイズの多いラベル検出フレームワークを使用して、ノイズの多いラベルを

arXiv reaDer

arXiv

dataset

semi-supervised

detection

benchmark

learning
リンク
デジタルホログラフィック顕微鏡用の小さなネットワークを使用した高速オートフォーカス
arxiv_reader 2022/03/16
デジタルホログラフィの数値波面バックプロパゲーション原理は、z軸に沿った機械的変位なしに、独自の拡張フォーカス機能を提供します。ただし、正しい焦点距離の決定は、重要で時間のかかる問題です。ディープラー

transformer

arXiv reaDer

arXiv

3D

computer vision

learning
リンク
異常セグメンテーションのためのプロトタイプガイド付きネットワーク
arxiv_reader 2022/03/16
セマンティックセグメンテーション手法では、画像内の異常なオブジェクトを直接特定することはできません。この現実的な設定からの異常セグメンテーションアルゴリズムは、分布内オブジェクトと分布外（OOD）オブ

anomaly

arXiv reaDer

arXiv

dataset

OOD

semantic segmentation
リンク
エッジマップを使用したマルチモーダル教師なし脳画像レジストレーション
arxiv_reader 2022/03/16
微分同相変形可能なマルチモーダル画像レジストレーションは、異なるモダリティによって取得された画像を同じ座標空間に持ち込むと同時に、トポロジーと変換の可逆性を維持することを目的とした挑戦的なタスクです。

segmentation

arXiv reaDer

arXiv

unsupervised

gradient

learning

loss function
リンク
動的デュアル出力拡散モデル
arxiv_reader 2022/03/16
ノイズ除去拡散モデルとしても知られる反復ノイズ除去ベースの生成は、最近、他のクラスの生成モデルと品質が同等であり、それらを超えることが示されています。特に、画像生成の多くのサブタスクで現在最先端の生成

GAN

arXiv reaDer

arXiv

dataset

denoising
リンク
高解像度のフォトリアリスティックな画像変換のためのマルチカーブトランスレータ
arxiv_reader 2022/03/16
主要な画像から画像への変換方法は、完全に畳み込みネットワークに基づいており、画像の特徴を抽出して変換し、画像を再構築します。ただし、高解像度の画像を操作する場合、許容できない計算コストがかかります。こ

convolutional

arXiv reaDer

real time

arXiv
リンク
ビデオからの条件付きオブジェクト中心の学習
arxiv_reader 2022/03/16
オブジェクト中心の表現は、構成世界モデルを構築できる柔軟な抽象化を提供することにより、より体系的な一般化への有望な道です。単純な2Dおよび3Dデータセットに関する最近の研究では、オブジェクト中心の誘導

segmentation

arXiv reaDer

arXiv

dataset

attention

weakly-supervised

3D

tracking

optical flow
リンク
任意のスタイルの転送とドメインの一般化のための正確な機能分布のマッチング
arxiv_reader 2022/03/16
任意のスタイルの転送（AST）とドメインの一般化（DG）は重要ですが、挑戦的な視覚学習タスクであり、特徴分布マッチングの問題としてキャストできます。ガウス特徴分布を仮定すると、従来の特徴分布マッチング

arXiv reaDer

domain

learning

arXiv
リンク
GCT: 半教師付き少数ショット学習のためのグラフ共同トレーニング
arxiv_reader 2022/03/16
数ショット分類（FSC）タスクは、近年注目されている研究トピックです。これは、カテゴリ間ベースでラベル付けされたデータが不十分な場合の分類問題に対処することを目的としています。通常、研究者は基本データ

pre-training

classification

arXiv reaDer

arXiv

dataset

few-shot

benchmark
リンク
白内障の眼底画像のための注釈のない復元ネットワーク
arxiv_reader 2022/03/16
白内障は、世界中の視力喪失の主な原因です。白内障患者の診断と治療の確実性を高めるために、白内障眼底画像の読みやすさを改善するために復元アルゴリズムが開発されています。残念ながら、注釈の要件により、診療

arXiv reaDer

segmentation

arXiv
リンク
S2F2：単眼画像からの自己監視型高忠実度顔再構成
arxiv_reader 2022/03/16
単一の単眼画像から空間的に変化する顔の反射率、詳細な顔のジオメトリを再構成できる新しい顔の再構成方法を提示します。私たちは、自己監視方式でトレーニングされた、微分可能なレイトレーシング画像形成を備えた

monocular

arXiv reaDer

arXiv

self-supervised

real time

differentiable

face

reconstruction

learning
リンク
MUM：半教師ありオブジェクト検出のための画像タイルの混合と機能タイルの混合解除
arxiv_reader 2022/03/16
最近の多くの半教師あり学習（SSL）研究は、教師と生徒のアーキテクチャを構築し、教師から生成された監視信号によって生徒のネットワークをトレーニングします。ラベル情報を失うことなく弱く強い拡張入力ペアを

arXiv reaDer

arXiv

augmentation

dataset

semi-supervised

detection

benchmark

learning
リンク
胸部X線画像におけるCOVID-19の分類の確保：プライバシーを保護する深層学習アプローチ
arxiv_reader 2022/03/16
ディープラーニング（DL）は、その卓越した効率により、ヘルスケア関連の分野でますます利用されています。ただし、DLモデルで使用される個々の健康データをプライベートで安全に保つ必要があります。データの保

learning

classification

arXiv

COVID-19

dataset

arXiv reaDer
リンク
順序ラベルを使用した医用画像分類のためのメタ順序回帰フォレスト
arxiv_reader 2022/03/16
医用画像分類のパフォーマンスは、通常、クロスエントロピー（CE）損失でトレーニングされる深い畳み込みニューラルネットワーク（CNN）によって強化されています。ただし、ラベルが本質的に固有の順序特性を示

classification

arXiv reaDer

arXiv

dataset

CNN
リンク
CODA：自動運転における物体検出のための実際の道路コーナーケースデータセット
arxiv_reader 2022/03/16
自動運転のための現代の深層学習オブジェクト検出方法は、通常、歩行者や車などの一般的な交通参加者の接頭辞付きのカテゴリを想定しています。ほとんどの既存の検出器は、珍しい物体やコーナーケース（犬が通りを横

arXiv reaDer

arXiv

dataset

detection

autonomous driving

pedestrian
リンク
ビデオ言語の事前トレーニングを民主化するための地域機能の活性化
arxiv_reader 2022/03/16
ビデオ言語事前トレーニング（VLP）の最近の主な方法は、生のピクセルからエンドツーエンドの方法で転送可能な表現を学習し、ダウンストリームのビデオ言語タスクで高度なパフォーマンスを実現します。印象的な結

pre-training

arXiv reaDer

arXiv

dataset

regularization

video

representation
リンク
限られたラベリングリソースと変化する取得特性のための疑似ドメインを使用した継続的なアクティブラーニング
arxiv_reader 2022/03/16
臨床ルーチン中の医用画像における機械学習は、スキャナープロトコル、ハードウェア、またはポリシーの変更によって損なわれ、取得設定のセットが不均一になります。初期の静的トレーニングセットで深層学習モデルを

domain

segmentation

arXiv reaDer

arXiv

detection

estimation

learning
リンク
倍率事前：乳がんの組織病理学的画像の表現を学習するための自己監視法
arxiv_reader 2022/03/16
この作品は、拡大率を利用して組織病理学の医用画像にラベルなしで効率的な表現を学習するための新しい自己監視事前トレーニング方法を提示します。他の最先端の作品は、主に人間の注釈に大きく依存する完全に監視さ

pre-training

classification

domain

arXiv reaDer

arXiv

dataset

self-supervised

human

representation learning

contrastive
リンク
ActFormer: 一般的なアクション条件付き 3D ヒューマンモーション生成に向けた GAN ベースのトランスフォーマー
arxiv_reader 2022/03/16
一人のアクションだけでなく、複数の人のインタラクティブなアクションを含む、一般的なアクション条件付き3D人間の動きの生成のためのGANTransformerフレームワークを提示します。私たちのアプロー

transformer

generative

GAN

arXiv reaDer

arXiv

spatio-temporal

dataset

3D

benchmark

synthesis
リンク
APRNet：フォトリアリスティックなテキスト画像生成のためのアテンションベースのピクセルワイズレンダリングネットワーク
arxiv_reader 2022/03/16
スタイルガイド付きテキスト画像の生成では、テキストコンテンツを変更せずに、参照画像の外観を模倣してテキスト画像を合成しようとします。テキスト画像の外観には多くの側面があります。この論文では、スタイル画

arXiv reaDer

arXiv

dataset

attention

synthesis
リンク
セマンティック監視：出力スペースの一般化を可能にする
arxiv_reader 2022/03/16
この論文では、セマンティック監視（SemSup）を提案します。これは、出力スペースを一般化する分類器をトレーニングするための統一されたパラダイムです。クラスを離散シンボルとして扱う標準的な分類とは対照

embedding

classification

domain

arXiv reaDer

arXiv

dataset
リンク
マルチパーソン3Dポーズ推定のための分布を意識したシングルステージモデル
arxiv_reader 2022/03/16
この論文では、挑戦的な複数人の3Dポーズ推定問題に取り組むための新しい分布認識シングルステージ（DAS）モデルを提示します。既存のトップダウンおよびボトムアップの方法とは異なり、提案されたDASモデル

localization

arXiv reaDer

arXiv

benchmark

person

3D

CNN

pose estimation
リンク
堅牢な非剛体形状マッチングのための暗黙のフィールド監視
arxiv_reader 2022/03/16
2つの非剛体変形形状間の対応を確立することは、ビジュアルコンピューティングにおける最も基本的な問題の1つです。既存の方法は、ノイズ、外れ値、自己閉塞などの実世界のデータに固有の課題を提示すると、回復力

embedding

arXiv reaDer

arXiv

mesh

learning
リンク
類似性を意識した機能拡張を備えた数ショットのオブジェクトカウント
arxiv_reader 2022/03/16
この作業は、クエリ画像で発生する模範的なオブジェクト（つまり、1つまたは複数のサポート画像によって記述される）の数をカウントする、数ショットのオブジェクトカウントの問題を研究します。主な課題は、ターゲ

arXiv reaDer

arXiv

dataset

few-shot

benchmark

learning
リンク
InsCon：自己監視学習によるインスタンス整合性機能の表現
arxiv_reader 2022/03/16
自己監視学習による特徴表現は、画像レベルの対照学習で目覚ましい成功を収めており、画像分類タスクで印象的なパフォーマンスをもたらします。画像レベルの特徴表現は、主に単一インスタンスでの対照学習に焦点を当

localization

classification

contrastive learning

segmentation

arXiv reaDer

arXiv

self-supervised

detection

R-CNN
リンク
EdgeFormer：ビジョントランスフォーマーから学ぶことによる軽量ConvNetの改善
arxiv_reader 2022/03/16
最近、ビジョントランスフォーマーは、大規模な畳み込みベースのモデルを大幅に上回る印象的な結果を示し始めました。ただし、モバイルデバイスまたはリソースに制約のあるデバイスの小さなモデルの領域では、Con

embedding

transformer

classification

convolutional

arXiv reaDer

arXiv

segmentation

attention

detection
リンク
一般から特定へ：ブラインド超解像のためのオンライン更新
arxiv_reader 2022/03/16
ほとんどの深層学習ベースの超解像（SR）メソッドは、画像固有ではありません。1）トレーニングデータとテストデータの間のドメインギャップに関係なく、事前定義された劣化（バイキュービックダウンサンプリング

arXiv reaDer

domain

super-resolution

arXiv
リンク
MTP：効率的なセマンティックセグメンテーションネットワークのためのマルチタスクプルーニング
arxiv_reader 2022/03/16
このホワイトペーパーでは、セマンティックセグメンテーションネットワークのチャネルプルーニングに焦点を当てています。分類タスクでディープニューラルネットワークを圧縮および加速する以前の方法は、事前トレー

pruning

pre-training

classification

convolutional

arXiv reaDer

arXiv

dataset

semantic segmentation

benchmark

multi-task
リンク
超解像のための強化された CNN-Transformer 機能集約ネットワーク
arxiv_reader 2022/03/16
最近のビジョントランスフォーマーは、自己注意とともに、さまざまなコンピュータービジョンタスクで有望な結果を達成しています。特に、純粋なトランスフォーマーベースの画像復元アーキテクチャは、多数のトレーニ

transformer

convolutional

arXiv reaDer

arXiv

attention

super-resolution

benchmark

computer vision

CNN

multi-task
リンク
対照的な解きほぐし学習を使用した対になっていない深い画像の曇り除去
arxiv_reader 2022/03/16
明確でぼんやりとした画像の対になっていないセットから、効果的な不対学習ベースの画像曇り除去ネットワークを提示します。この論文は、画像のデヘイズを2クラスの分離された因子解きほぐしタスク、すなわち、鮮明

contrastive learning

arXiv reaDer

arXiv

disentangling

dataset

reconstruction

representation

adversarial

synthesis
リンク
混雑したシーンでのプログレッシブエンドツーエンドオブジェクト検出
arxiv_reader 2022/03/16
本論文では、群集検出のための新しいクエリベースの検出フレームワークを提案する。以前のクエリベースの検出器には2つの欠点があります。1つは、通常は混雑したシーンで、単一のオブジェクトに対して複数の予測が

sparse

arXiv reaDer

arXiv

dataset

detection

R-CNN
リンク
局所的注意と動的深さ方向の畳み込みの間の関係について
arxiv_reader 2022/03/16
Vision Transformer（ViT）は、視覚認識において最先端のパフォーマンスを実現し、バリアントであるLocalVisionTransformerはさらに改善を行います。 Local Vi

sparse

transformer

classification

convolutional

arXiv reaDer

arXiv

regularization

attention

semantic segmentation

detection
リンク
SATS: 継続的セマンティックセグメンテーションのための自己注意転送
arxiv_reader 2022/03/16
ますます多くのタイプの画像領域をセグメント化することを継続的に学習することは、多くのインテリジェントシステムにとって望ましい機能です。ただし、このような継続的なセマンティックセグメンテーションには、継

classification

convolutional

arXiv reaDer

arXiv

pooling

semantic segmentation

benchmark

knowledge distillation

learning
リンク
大語彙オブジェクト検出器の評価：悪魔は詳細に宿る
arxiv_reader 2022/03/16
設計上、オブジェクト検出の平均精度（AP）は、すべてのクラスを独立して処理することを目的としています。APは、カテゴリごとに独立して計算され、平均化されます。一方では、これはすべてのクラスを平等に扱う

arXiv reaDer

arXiv

metric

detection

benchmark
リンク
左から右までわかりますか？ VQAに新たな挑戦を提示
arxiv_reader 2022/03/16
Visual Question Answering（VQA）には、モデルの長所と短所を評価する手段が必要です。このような評価の1つの側面は、構図の一般化の評価、またはシーンのセットアップがトレーニング

reasoning

arXiv reaDer

arXiv

dataset

VQA

benchmark

synthesis
リンク
ブラックボックスには何が入っていますか？オブジェクト検出器内の偽の負のメカニズム
arxiv_reader 2022/03/16
オブジェクト検出では、検出器がターゲットオブジェクトの検出に失敗すると、フォールスネガティブが発生します。オブジェクト検出器がフォールスネガティブを生成する理由を理解するために、5つの「フォールスネガ

arXiv reaDer

arXiv

dataset

detection

computer vision

benchmark

R-CNN
リンク
レスポンシブリスニングヘッドの生成：ベンチマークデータセットとベースライン
arxiv_reader 2022/03/16
対面での会話中にリスナーの応答性の高いフィードバック（うなずき、笑顔など）を合成するための、新しいリスニングヘッド生成ベンチマークを提示します。トーキングヘッズ世代の不可欠な補完物として、リスニングヘ

arXiv reaDer

arXiv

robot

dataset

human

real time

face

benchmark

synthesis
リンク
識別パッチ選択とマルチインスタンス学習による病理画像の乳がん分子サブタイプ予測
arxiv_reader 2022/03/16
乳がんの分子サブタイプは、個別化された臨床治療への重要な参照です。コストと労力を節約するために、通常、患者のパラフィンブロックの1つだけが、分子サブタイプを取得するための後続の免疫組織化学（IHC）に

arXiv reaDer

arXiv

dataset

weakly-supervised

representation

learning

loss function
リンク
神経放射輝度投影
arxiv_reader 2022/03/16
提案された方法であるNeuralRadianceProjection（NeRP）は、X線画像セグメンテーションでこのような畳み込みニューラルネットワークをトレーニングする際の3つの最も根本的な不足に対

GAN

segmentation

arXiv reaDer

arXiv

metric

3D

CNN
リンク
Wave-SAN：クロスドメインの少数ショット学習のためのウェーブレットベースのスタイル拡張ネットワーク
Wave-SAN: Wavelet based Style Augmentation Network for Cross-Domain Few-Shot Learning 以前の数ショット学習（FSL）の作業は、ほとんどの場合、一般的な概念とカテゴリの自然なイメージに限定されています。これらの作品は、ソースクラスとターゲットクラスの間の視覚的な類似性が非常に高いことを前提としています。対照的に、最近提案されたクロスドメイン少数ショット学習（CD-FSL）は、多くのラベル付きの例の一般的な性質の画像から、少数のラベル付きの例のみの新しいドメイン固有のターゲットカテゴリに知識を転送することを目的としています。 CD-FSLの主な課題は、ソースドメインとターゲットドメイン間の巨大なデータシフトにあります。これは通常、まったく異なる視覚スタイルの形式です。これにより、従来のFSLメソッドを直接拡張
arxiv_reader 2022/03/16
以前の数ショット学習（FSL）の作業は、ほとんどの場合、一般的な概念とカテゴリの自然なイメージに限定されています。これらの作品は、ソースクラスとターゲットクラスの間の視覚的な類似性が非常に高いことを前

domain

arXiv reaDer

arXiv

augmentation

dataset

self-supervised

few-shot

benchmark

representation

learning
リンク
一般化されていますが、堅牢ではありませんか？ドメイン外の一般化と敵対的なロバスト性に対するデータ変更方法の影響の比較
arxiv_reader 2022/03/16
自然言語処理とコンピュータービジョンの文献の両方で、追加のトレーニングデータセット、データ拡張、バイアス除去、およびデータセットフィルタリングのいずれかを介したデータ変更が、ドメイン外（OOD）入力に

classification

domain

arXiv reaDer

augmentation

arXiv

dataset

OOD

computer vision

adversarial

synthesis
リンク
ECG信号分類のためのニューラルネットワークの敵対的ロバスト性を改善するための正則化法
arxiv_reader 2022/03/16
心電図（ECG）は、人間の心臓の状態を監視するために最も広く使用されている診断ツールです。ディープニューラルネットワーク（DNN）を使用することにより、ECG信号の解釈を完全に自動化して、患者の心臓の

identification

classification

interpretation

arXiv reaDer

arXiv

dataset

regularization

human

DNN

adversarial
リンク
P-STMO：3D人間のポーズ推定のための事前トレーニングされた時空間多対1モデル
arxiv_reader 2022/03/16
この論文は、2Dから3Dへの人間の姿勢推定タスクのための新しい事前訓練された時空間多対1（P-STMO）モデルを紹介します。空間的および時間的情報の取得の難しさを軽減するために、このタスクを事前トレー

human pose estimation

domain

self-supervised

benchmark

arXiv

denoising

pre-training

3D

pose estimation

arXiv reaDer
リンク
フォトリアリスティックな画像超解像のための効率的なディープニューラルネットワーク
arxiv_reader 2022/03/16
ディープラーニングベースのモデルの最近の進歩により、写実的（または知覚的）な単一画像の超解像が大幅に改善されました。ただし、その強力なパフォーマンスにもかかわらず、多くの方法は、計算要件が重いため、実

convolutional

arXiv reaDer

arXiv

dataset

residual

benchmark

learning

super-resolution

adversarial
リンク
RGBDセマンティックセグメンテーションのための注意ベースの二重教師ありデコーダ
arxiv_reader 2022/03/16
エンコーダー-デコーダーモデルはRGBDセマンティックセグメンテーションで広く使用されており、それらのほとんどは2ストリームネットワークを介して設計されています。一般に、RGBDからの色と幾何学的情報

reasoning

arXiv reaDer

arXiv

dataset

semantic segmentation

representation

RGB-D
リンク
勾配フィールドでの運動量上昇による点群ノイズ除去
arxiv_reader 2022/03/16
点群のノイズ除去を実現するために、従来の方法は幾何学的事前確率に大きく依存しており、ほとんどの学習ベースのアプローチは外れ値と詳細の損失に悩まされています。最近、ニューラルネットワークを使用してノイズ

arXiv reaDer

arXiv

point cloud

gradient

denoising
リンク
セグメント化しないものの学習：少数ショットのセグメンテーションに関する新しい視点
arxiv_reader 2022/03/16
最近、数ショットセグメンテーション（FSS）が広く開発されました。これまでのほとんどの作業は、分類タスクから派生したメタ学習フレームワークを通じて一般化を達成しようと努めています。ただし、トレーニング

classification

segmentation

arXiv reaDer

arXiv

few-shot

learning
リンク
キャレット：VQAの一貫性と堅牢性の評価テストスイート
arxiv_reader 2022/03/16
一連の6つのきめ細かい機能テストを通じて、最新のVQAモデルの一貫性と堅牢性を測定する体系的なテストスイートであるCARETSを紹介します。既存のVQAテストセットとは対照的に、CARETSは、モデル

arXiv reaDer

VQA

arXiv
リンク
タスクにとらわれないロバストな表現学習
arxiv_reader 2022/03/16
深層学習モデルは、入力の小さいが意図的に選択された摂動に対して非常に脆弱であることが報告されています。特に、深いネットワークは、クリーンな画像の精度がほぼ最適であるにもかかわらず、最悪の場合でも人間が

arXiv reaDer

arXiv

self-supervised

representation learning

adversarial
リンク
良いプロンプトは何百万ものパラメータに値する：視覚言語モデルのための低リソースのプロンプトベースの学習
arxiv_reader 2022/03/16
事前にトレーニングされた大規模な視覚言語（VL）モデルは、いくつかの例を使用して新しいタスクを学習し、微調整することなく新しいタスクに一般化できます。ただし、これらのVLモデルは、サイズが非現実的で推

pre-training

transformer

arXiv reaDer

arXiv

captioning

seq2seq

zero-shot

few-shot

VQA

learning
リンク
同変対照学習
arxiv_reader 2022/03/16
最先端の自己監視学習（SSL）では、事前トレーニングは、人間の知識から規定された意味のある変換の下で不変になるように促すことにより、意味的に優れた表現を生成します。実際、不変のプロパティは、同変と呼ば

pre-training

contrastive learning

arXiv reaDer

arXiv

dataset

self-supervised

human

computer vision

benchmark

representation
リンク
マルチビュー表現学習のデータソースとしての生成モデル
arxiv_reader 2022/03/16
生成モデルは、トレーニングされたデータとほとんど区別がつかないように見える非常にリアルな画像を生成できるようになりました。これは疑問を投げかけます：十分な生成モデルがある場合でも、データセットが必要で

generative

arXiv reaDer

arXiv

dataset

representation learning

contrastive
リンク
ポリシー適応によるクエリオブジェクトのローカリゼーションに対する移転可能な報酬の学習
arxiv_reader 2022/03/16
クエリオブジェクトのローカリゼーションへの強化学習ベースのアプローチを提案します。このアプローチでは、エージェントは、小さな模範的なセットによって指定された対象のオブジェクトをローカライズするようにト

localization

metric learning

arXiv reaDer

arXiv

dataset

reinforcement learning

adaptation
リンク
粗いものから細かいものへのQ-注意：離散化による視覚的ロボット操作のための効率的な学習
arxiv_reader 2022/03/16
連続ロボティクス領域で不安定でデータ非効率的なアクター批評家の方法の代わりに、離散強化学習アプローチの使用を可能にする粗いものから細かいものへの離散化方法を提示します。このアプローチは、最近リリースさ

domain

arXiv reaDer

arXiv

robot

reinforcement learning

pose

action
リンク
Hilbert Flattening: 局所性保存行列展開法
arxiv_reader 2022/03/16
単語ベクトルのシーケンス順序は、自然言語処理（NLP）で証明されているテキストの読み取りに非常に重要です。ただし、コンピュータビジョン（CV）での異なるシーケンス順序の規則は十分に検討されていませんで

transformer

arXiv reaDer

arXiv

DNN

computer vision
リンク
視覚と言語の推論のための意味的に分散されたロバストな最適化
arxiv_reader 2022/03/16
視覚と言語のモデルの分析により、言い換え、否定、テキスト含意、同義語や反意語による単語の置換などの言語現象の下での脆弱性が明らかになりました。データ拡張技術はこれらの障害モードを軽減するように設計され

arXiv reaDer

arXiv

augmentation

dataset

VQA

benchmark

adversarial

video
リンク
VPFusion：シングルビューおよびマルチビューの3D再構成のための3Dボリュームとピクセル整列機能の融合
arxiv_reader 2022/03/16
統合されたシングルビューおよびマルチビューのニューラル暗黙的3D再構築フレームワークVPFusionを紹介します。 VPFusion〜は、3D構造を意識したコンテキストをキャプチャするための3D特徴ボ

reasoning

arXiv reaDer

arXiv

dataset

attention

pooling

3D

RNN

reconstruction

representation
リンク
TTCDist: Time-to-Contact を使用したアクティブな単眼カメラからの高速距離推定
arxiv_reader 2022/03/16
距離推定は、ナビゲーション、操作、計画など、さまざまなロボットアプリケーションの基本です。特定の物体を注視し（能動的固定）、物体がいつ到達するかを推定する（接触までの時間）哺乳類の視覚系に触発されて、

monocular

arXiv reaDer

arXiv

robot

trajectory

estimation

odometry
リンク
Skydiver：時空間ワークロードバランスを活用するスパイキングニューラルネットワークアクセラレータ
arxiv_reader 2022/03/16
スパイキングニューラルネットワーク（SNN）は、より現実的な脳に触発されたコンピューティングモデルにより、人工ニューラルネットワーク（ANN）の有望な代替手段として開発されています。 SNNは、時間の

sparse

classification

convolutional

arXiv reaDer

arXiv

segmentation

spatio-temporal

SNN
リンク
腰椎の自動セマンティックセグメンテーション：磁気共鳴画像に関するマルチパラメトリックおよびマルチセンター研究における臨床的適用性
arxiv_reader 2022/03/16
医療画像セグメンテーションの主な問題の1つは、これらの画像の変動性が高いことです。これは、画像の起源（マルチセンター）、取得プロトコル（マルチパラメトリック）、および人体の変動性、とりわけ、病気、年齢

arXiv reaDer

arXiv

U-Net

attention

human

semantic segmentation

CNN
リンク
深い3Dから2Dへの透かし：3Dメッシュへのメッセージの埋め込みと2Dレンダリングからのメッセージの抽出
arxiv_reader 2022/03/16
電子透かしは、著作権保護のために広く使用されています。従来の3D透かしアプローチまたは商用ソフトウェアは、通常、メッセージを3Dメッシュに埋め込み、後で歪んだ/歪んでいない透かし付き3Dメッシュから直

embedding

arXiv reaDer

arXiv

real time

differentiable

3D

mesh

learning
リンク
ハイパースペクトル画像のトモグラフィック再構成のための畳み込みニューラルネットワークの応用
arxiv_reader 2022/03/16
畳み込みニューラルネットワーク（CNN）を利用する新しい方法を提案して、コンピューター断層撮影イメージング分光計（CTIS）画像からハイパースペクトルキューブを再構築します。現在の再構成アルゴリズムは

sparse

arXiv reaDer

arXiv

real time

reconstruction

CNN
リンク
読み書きのできないDALL-Eが作曲を学ぶ
arxiv_reader 2022/03/16
DALL-Eは、画像生成における構成ベースの体系的な一般化の優れた能力を示していますが、テキストと画像のペアのデータセットが必要であり、構成性はテキストによって提供されます。対照的に、Slot Att

arXiv reaDer

arXiv

dataset

attention

OOD

zero-shot

representation

learning
リンク
類似性に基づく知識蒸留による自己監視ビデオ表現のための補助学習
arxiv_reader 2022/03/16
ビデオ表現学習のための自己監視型事前トレーニング方法の目覚ましい成功にもかかわらず、事前トレーニング用のラベルなしデータセットが小さい場合、またはソースタスク（事前トレーニング）のラベルなしデータとタ

domain

arXiv reaDer

arXiv

dataset

self-supervised

representation learning

knowledge distillation

video
リンク
RC-MVSNet：ニューラルレンダリングを使用した教師なしマルチビューステレオ
arxiv_reader 2022/03/16
異なるビュー間の正確な対応を見つけることは、教師なしマルチビューステレオ（MVS）のアキレス腱です。既存の方法は、対応するピクセルが同様の測光機能を共有するという仮定に基づいて構築されています。ただし

occlusion

arXiv reaDer

arXiv

stereo

unsupervised

benchmark

synthesis
リンク
乳がんki-67増殖指数スコアリングのための深層学習パイプライン
A deep learning pipeline for breast cancer ki-67 proliferation index scoring Ki-67増殖指数は、病理学者が適切な治療法を診断および選択するのに役立つ重要なバイオマーカーです。ただし、Ki-67の自動評価は、核の重なりや特性の複雑な変化のために困難です。この論文は、核分離技術の影響が強調されている、Ki-67の正確な自動カウントのための統合パイプラインを提案します。まず、セマンティックセグメンテーションは、SqueezおよびExcitation ResnetおよびUnetアルゴリズムを組み合わせて、バックグラウンドから核を抽出することによって実行されます。次に、抽出された核は、8つの幾何学的および統計的特徴に基づいて、重複領域と非重複領域に分割されます。続いて、マーカーベースの流域アルゴリズムが提案され、核を分離
arxiv_reader 2022/03/16
Ki-67増殖指数は、病理学者が適切な治療法を診断および選択するのに役立つ重要なバイオマーカーです。ただし、Ki-67の自動評価は、核の重なりや特性の複雑な変化のために困難です。この論文は、核分離技術

arXiv reaDer

arXiv

dataset

semantic segmentation

learning
リンク
GlideNet：マルチカテゴリ属性予測のためのグローバル、ローカル、および本質ベースの高密度埋め込みネットワーク
GlideNet：マルチカテゴリ属性予測のためのグローバル、ローカル、および本質ベースの高密度埋め込みネットワーク GlideNet: Global, Local and Intrinsic based Dense Embedding NETwork for Multi-category Attributes Prediction オブジェクトカテゴリに属性（色、形、状態、アクションなど）を付けることは、コンピュータビジョンの重要な問題です。属性予測は最近エキサイティングな進歩を遂げており、マルチラベル分類問題として定式化されることがよくあります。ただし、重要な課題は次のとおりです。1）複数のカテゴリにわたる多様な属性の予測、2）属性のモデリング-カテゴリの依存関係、3）グローバルシーンとローカルシーンの両方のコンテキストのキャプチャ、4）ピクセル数の少ないオブジェクトの属性の予測。これら
arxiv_reader 2022/03/16
オブジェクトカテゴリに属性（色、形、状態、アクションなど）を付けることは、コンピュータビジョンの重要な問題です。属性予測は最近エキサイティングな進歩を遂げており、マルチラベル分類問題として定式化される

embedding

classification

convolutional

arXiv reaDer

arXiv

dataset

metric

computer vision

action
リンク
変分オートエンコーダを介したローマの陶器の教師なしクラスタリング
arxiv_reader 2022/03/16
この論文では、ローマの一般的な陶器の陶器の分類タスクで考古学者をサポートするための人工知能イメージングソリューションを提案します。通常、各陶器は、その断面プロファイルによって2次元の白黒画像として表さ

classification

convolutional

arXiv reaDer

arXiv

unsupervised

clustering
リンク
パノプティックアニマルポーズ推定器はゼロショットパフォーマーです
動物のポーズ推定は、ライフサイエンス研究、農業、獣医学に至るまでのアプリケーションで重要です。人間のポーズ推定と比較して、動物のポーズ推定のパフォーマンスは、利用可能なデータセットのサイズとデータセット全体のモデルの一般化によって制限されます。通常、種が同じであるかどうかに関係なく、異なるキーポイントにラベルが付けられ、動物のポーズデータセットに互いに素なキーポイントまたは部分的に重複するキーポイントが残ります。結果として、モデルをデータセット全体のプラグアンドプレイソリューションとして使用することはできません。この現実は、すべてのデータセットで定義されたキーポイントを予測できるパノラマ動物ポーズ推定モデルを開発する動機になります。この作業では、差別的にラベル付けされたデータセットをマージして、最大の四足動物および実験用マウスのポーズデータセットを取得するためのシンプルで効果的な方法を提案
arxiv_reader 2022/03/16
動物のポーズ推定は、ライフサイエンス研究、農業、獣医学に至るまでのアプリケーションで重要です。人間のポーズ推定と比較して、動物のポーズ推定のパフォーマンスは、利用可能なデータセットのサイズとデータセッ

arXiv reaDer

arXiv

dataset

zero-shot

keypoint

human pose estimation

pose estimation

gradient
リンク
密な自己教師あり表現学習のための集合の類似性の調査
arxiv_reader 2022/03/16
空間的対応を考慮することにより、密な自己教師あり表現学習は、さまざまな密な予測タスクで優れたパフォーマンスを実現しました。ただし、ピクセルレベルの対応は、背景など、類似した誤解を招くピクセルが多数ある

arXiv reaDer

arXiv

self-supervised

detection

semantic segmentation

keypoint

representation learning
リンク
CRIS：CLIP駆動の参照画像セグメンテーション
arxiv_reader 2022/03/16
参照画像のセグメンテーションは、自然な言語表現を介して指示対象をセグメント化することを目的としています。テキストと画像の間のデータプロパティが異なるため、ネットワークがテキストとピクセルレベルの機能を

contrastive learning

segmentation

arXiv reaDer

arXiv

dataset

benchmark

representation
リンク
StereOBJ-1M：6Dオブジェクトポーズ推定用の大規模ステレオ画像データセット
arxiv_reader 2022/03/16
StereOBJ-1Mデータセットという名前の大規模なステレオRGB画像オブジェクトポーズ推定データセットを提示します。データセットは、オブジェクトの透明度、半透明度、鏡面反射などの困難なケースに加え

6D

occlusion

arXiv reaDer

arXiv

dataset

stereo

keypoint

benchmark

pose estimation

learning
リンク
違いは何ですか?テンプレートの減算を行わない畳み込みニューラルネットワークのトランジェント検出の可能性
arxiv_reader 2022/03/16
画像アーティファクトから天体物理学的トランジェントを分離するための畳み込みニューラルネットワーク（CNN）モデルを提示します。これは、「実偽」分類として知られるタスクであり、画像を含む計算コストの高い

classification

arXiv reaDer

arXiv

saliency

detection

CNN
リンク
ニューラルRGB-D表面再構成
arxiv_reader 2022/03/16
部屋規模のシーンの高品質な3D再構成を取得することは、ARまたはVRの今後のアプリケーションにとって最も重要です。これらは、電話会議、仮想測定、仮想部屋のプレーニングのための複合現実アプリケーションか

arXiv reaDer

arXiv

robot

3D

pose

reconstruction

representation

RGB-D

synthesis
リンク
テクスチャ合成のための一般化された整流器ウェーブレット共分散モデル
Generalized Rectifier Wavelet Covariance Models For Texture Synthesis テクスチャ合成の最先端の最大エントロピーモデルは、畳み込みニューラルネットワーク（CNN）によって定義された画像表現に依存する統計から構築されます。このような表現は、テクスチャ画像の豊富な構造をキャプチャし、この点でウェーブレットベースの表現よりも優れています。ただし、ニューラルネットワークとは逆に、ウェーブレットは画像内の複数のスケール（エッジなど）で構造を検出することが知られているため、意味のある表現を提供します。この作業では、一般化された整流器の非線形性を使用して、1層CNNの特定のインスタンスと見なすことができる非線形ウェーブレットベースの表現に基づいて構築された統計のファミリーを提案します。これらの統計は、以前の古典的なウェーブレットベースの
arxiv_reader 2022/03/16
テクスチャ合成の最先端の最大エントロピーモデルは、畳み込みニューラルネットワーク（CNN）によって定義された画像表現に依存する統計から構築されます。このような表現は、テクスチャ画像の豊富な構造をキャプ

arXiv reaDer

arXiv

CNN

representation

synthesis
リンク
https://arxiv-check-250201.firebaseapp.com/each/2203.07861v2
arxiv_reader 2022/03/16
ディープラーニングモデルの正しい解釈と理解は、多くのアプリケーションで不可欠です。画像および自然言語処理の説明的な視覚的解釈アプローチにより、ドメインの専門家は、ほぼすべての深層学習モデルを検証および

reasoning

classification

domain

segmentation

arXiv reaDer

arXiv

dataset

regularization

metric
リンク
センサーベースの人間活動認識のためのグラフニューラルネットワークによる深部伝達学習
Deep Transfer Learning with Graph Neural Network for Sensor-Based Human Activity Recognition モバイルアプリケーションシナリオでのセンサーベースの人間活動認識（HAR）は、センサーモダリティの変動と注釈付きデータの不足に直面することがよくあります。この観察結果を踏まえて、センサーベースのHARタスクに向けたグラフに触発された深層学習アプローチを考案しました。これをさらに使用して、これら2つの困難な問題の暫定的な解決策を提供するための深層伝達学習モデルを構築しました。具体的には、センサーベースのHARタスク、つまりHAR-ResGCNNアプローチに向けたグラフ畳み込みニューラルネットワーク（ResGCNN）を含む多層残差構造を提示します。 PAMAP2およびmHealthデータセットの実験結果は、Re
arxiv_reader 2022/03/16
モバイルアプリケーションシナリオでのセンサーベースの人間活動認識（HAR）は、センサーモダリティの変動と注釈付きデータの不足に直面することがよくあります。この観察結果を踏まえて、センサーベースのHAR

arXiv reaDer

arXiv

transfer learning

activity

human

residual

few-shot

CNN

action
リンク
教師なし学習ベースの焦点スタックカメラ深度推定
arxiv_reader 2022/03/16
焦点スタックカメラ画像から深度を推定するための教師なし深層学習ベースの方法を提案します。 NYU-v2データセットでは、私たちの方法は、単一画像ベースの方法と比較して、はるかに優れた深度推定精度を実現

arXiv reaDer

arXiv

dataset

unsupervised

estimation

learning
リンク
SATr：ユニバーサル病変検出のためのトランスによるスライス注意
SATr: Slice Attention with Transf ormer for Universal Lesion Detection コンピュータ断層撮影におけるユニバーサル病変検出（ULD）は、コンピュータ支援診断において重要な役割を果たします。有望なULDの結果は、複数の隣接するCTスライスから3Dコンテキストをモデル化するマルチスライス入力検出アプローチによって報告されていますが、このような方法では、畳み込みベースのみを使用するため、異なるスライス間および個々のスライス内でグローバル表現を取得するのが困難です。融合操作。この論文では、畳み込みベースのULDバックボーンに簡単に接続してハイブリッドネットワーク構造を形成できる新しいSlice Attention Transf ormer（SATr）ブロックを提案します。このような新しく形成されたハイブリッドバックボーンは、元のバック
arxiv_reader 2022/03/16
コンピュータ断層撮影におけるユニバーサル病変検出（ULD）は、コンピュータ支援診断において重要な役割を果たします。有望なULDの結果は、複数の隣接するCTスライスから3Dコンテキストをモデル化するマル

transformer

convolutional

arXiv reaDer

arXiv

CT

attention

detection

3D

representation
リンク
粗いスキャンされたMR画像を使用した肩関節の再帰的3Dセグメンテーション
arxiv_reader 2022/03/16
肩甲骨の診断には、磁気共鳴（MR）画像から取得した医用画像から肩甲骨と上腕骨の形態偏差を調べることが不可欠です。ただし、高解像度のMR画像の撮影は、画像スライス間の物理的な距離が短くなるとスキャン時間

segmentation

arXiv reaDer

MRI

arXiv

dataset

human

3D

learning
リンク
さまざまな空間的および時間的粒度での群集フロー予測の強化
arxiv_reader 2022/03/16
モノのインターネットの普及のおかげで、今日では、従来とは異なる方法（たとえば、自転車ステーションの自転車の数）を使用して、ほぼリアルタイムで人間の移動を感知することが可能になっています。このような技術

learning

spatio-temporal

arXiv

human

real time

GCN

arXiv reaDer
リンク
非剛体3D登録の調査
arxiv_reader 2022/03/16
非剛体レジストレーションは、非剛体の方法でソースサーフェスとターゲットサーフェスの間のアライメントを計算します。過去10年間で、時変表面を測定できる3Dセンシング技術の進歩により、非剛体レジストレーシ

benchmark

arXiv

reconstruction

dataset

3D

arXiv reaDer
リンク
ビデオカモフラージュオブジェクト検出のための暗黙のモーション処理
arxiv_reader 2022/03/16
ビデオフレームからカモフラージュされたオブジェクトを検出するために、短期的なダイナミクスと長期的な時間的一貫性の両方を活用できる新しいビデオカモフラージュされたオブジェクト検出（VCOD）フレームワー

transformer

segmentation

arXiv reaDer

arXiv

spatio-temporal

detection

benchmark

estimation

optical flow
リンク
堅牢な画像分類器に向けた敵対的な振幅スワップ
arxiv_reader 2022/03/16
畳み込みニューラルネットワーク（CNN）の、一般的な破損や敵対的な摂動などの画像の摂動に対する脆弱性が、周波数の観点から最近調査されました。この研究では、CNN分類器のロバスト性に対する敵対的な画像の

arXiv reaDer

adversarial

arXiv

CNN
リンク
Blind2Unblind：目に見える死角を伴う自己監視画像ノイズ除去
arxiv_reader 2022/03/16
大規模な実際のノイズの多いクリーンなペアは、コストがかかり、入手が困難です。一方、合成データでトレーニングされた監視対象のデノイザーは、実際にはパフォーマンスが低くなります。単一のノイズの多い画像から

arXiv reaDer

arXiv

dataset

self-supervised

synthesis

denoising

loss function
リンク
水中居住地における魚の分類のためのコンピュータビジョンと深層学習：調査
arxiv_reader 2022/03/16
海洋科学者は、リモートの水中ビデオ録画を使用して、自然の生息地に生息する魚種を調査します。これは、魚が気候変動、生息地の劣化、漁獲圧にどのように反応するかを理解し、予測するのに役立ちます。この情報は、

classification

domain

arXiv reaDer

arXiv

human

computer vision

video

learning
リンク
XYLayoutLM：視覚的に豊富なドキュメント理解のためのレイアウト対応マルチモーダルネットワークに向けて
arxiv_reader 2022/03/16
最近、視覚的に豊富なドキュメント理解（VRDU）のためのさまざまなマルチモーダルネットワークが提案され、視覚およびレイアウト情報をテキスト埋め込みと統合することによってトランスフォーマーの促進を示して

embedding

transformer

arXiv reaDer

arXiv

augmentation
リンク
関節配向スケール空間表現の相似同変線形変換
arxiv_reader 2022/03/16
畳み込みは、従来、シフトで転流する1つ以上の変数の関数に対する線形演算として定義されています。グループ畳み込みは、より一般的な幾何学的変換を表し、それらの変換と交換するグループ要素の関数に対する線形演

arXiv reaDer

representation

convolutional

arXiv
リンク
医療指導ビデオにおける視覚的で迅速な時間的応答の根拠に向けて
arxiv_reader 2022/03/16
ビデオの時間的応答グラウンディング（TAGV）は、ビデオ（TSGV）の時間的文グラウンディングから自然に派生する新しいタスクです。トリミングされていないビデオとテキストの質問がある場合、このタスクは、

localization

pre-training

arXiv reaDer

arXiv

dataset

attention

video
リンク
トーキングヘッドビデオ生成のための深さを意識した生成的敵対的ネットワーク
arxiv_reader 2022/03/16
トーキングヘッドビデオの生成は、特定のソース画像とドライビングビデオからそれぞれアイデンティティとポーズ情報を含む合成人間の顔のビデオを生成することを目的としています。このタスクの既存の作品は、入力か

sparse

GAN

arXiv reaDer

arXiv

attention

self-supervised

3D

pose

representation

synthesis
リンク
デュアルリバースディストーションでローリングシャッター画像を生き生きとさせる
arxiv_reader 2022/03/16
ローリングシャッター（RS）の歪みは、RSカメラの露出中にインスタントグローバルシャッター（GS）フレームからピクセルの行を選択した結果として解釈できます。これは、各インスタントGSフレームの情報が、

arXiv reaDer

arXiv

dataset

learning

optical flow

synthesis
リンク
PillarGrid：オンボードロードサイドLiDARからの3Dオブジェクト検出のためのディープラーニングベースの協調認識
arxiv_reader 2022/03/16
3Dオブジェクト検出は、自動運転を可能にする上で基本的な役割を果たします。自動運転は、安全性、機動性、持続可能性の観点から、現代の輸送システムのボトルネックを解消するための重要な鍵と見なされています。

occlusion

arXiv reaDer

arXiv

augmentation

point cloud

detection

LiDAR

3D

CNN

autonomous driving
リンク
ディープオートオーグメント
arxiv_reader 2022/03/16
最近の自動化されたデータ拡張方法は最先端の結果をもたらしますが、それらの設計スペースと派生データ拡張戦略には、依然として強力な人間の先例が組み込まれています。この作業では、検索されたデータ拡張と一緒に

arXiv reaDer

arXiv

augmentation

human

gradient
リンク
顔のなりすまし防止のためのシャッフルスタイルアセンブリによるドメインの一般化
arxiv_reader 2022/03/16
多様なプレゼンテーション攻撃が絶えず出現しているため、一般化可能な顔のなりすまし防止（FAS）がますます注目を集めています。ほとんどの既存のメソッドは、完全な表現にドメイン一般化（DG）を実装します。

domain

contrastive learning

arXiv reaDer

arXiv

attention

face

benchmark

representation
リンク
現実に戻る：形状誘導ラベル拡張による弱教師あり3Dオブジェクト検出
arxiv_reader 2022/03/16
この論文では、3Dオブジェクト検出のための弱教師ありアプローチを提案します。これにより、位置レベルの注釈（つまりオブジェクト中心の注釈）を使用して強力な3D検出器をトレーニングできます。ボックスの注釈

arXiv reaDer

arXiv

dataset

domain adaptation

weakly-supervised

detection

3D

synthesis
リンク
意味的類似性に対する周波数駆動の知覚できない敵対的攻撃
arxiv_reader 2022/03/16
現在の敵対的攻撃の研究は、注意深く作成された摂動に対する学習ベースの分類器の脆弱性を明らかにしています。ただし、ほとんどの既存の攻撃方法は、カテゴリの閉じたセットを持つ分類レイヤーに依存しているため、

classification

arXiv reaDer

arXiv

dataset

human

metric

representation

adversarial
リンク
不確実性に基づく自己相互監視による半教師ありセマンティックセグメンテーション
Semi-supervision semantic segmentation with uncertainty-guided self cross supervision 半教師ありセグメンテーションを実現する強力な方法として、相互監視法は、豊富なラベルなし画像を使用して、独立したアンサンブルモデルに基づいて相互整合性を学習します。ただし、相互監視によって生成された誤った疑似ラベリング情報は、トレーニングプロセスを混乱させ、セグメンテーションモデルの有効性に悪影響を及ぼします。さらに、このような方法でのアンサンブルモデルのトレーニングプロセスは、計算リソースのコストを増大させ、トレーニング効率を低下させます。これらの問題を解決するために、我々は新しい交差監視方法、すなわち不確実性誘導自己交差監視（USCS）を提案します。アンサンブルモデルに加えて、最初に、共有モデルで複数の出力を生成できる
arxiv_reader 2022/03/16
半教師ありセグメンテーションを実現する強力な方法として、相互監視法は、豊富なラベルなし画像を使用して、独立したアンサンブルモデルに基づいて相互整合性を学習します。ただし、相互監視によって生成された誤っ

arXiv

semi-supervised

semantic segmentation

arXiv reaDer
リンク
ハイパースペクトル画像分類のためのセンターマスク事前トレーニングを備えたマルチスケール畳み込みトランス
arxiv_reader 2022/03/16
ハイパースペクトル画像（HSI）は、巨視的な視野が広いだけでなく、豊富なスペクトル情報を含んでおり、ハイパースペクトル画像関連の研究の主な用途の1つであるスペクトル情報から表面オブジェクトの種類を特定

domain

arXiv reaDer

embedding

transformer

pre-training

reconstruction

arXiv

self-supervised

CNN

classification
リンク
- 2022年3月17日
- 2022年3月16日
- 2022年3月15日

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx