arxiv_readerのブックマーク / 2021年12月1日 - はてなブックマーク

arxiv_reader id:arxiv_reader

2021年12月1日のブックマーク (172件)

教師なしドメイン適応：現実のチェック
arxiv_reader 2021/12/01
教師なしドメイン適応（UDA）への関心は近年急上昇しており、その結果、多数の新しいアルゴリズムが生まれています。ただし、動きの速いフィールドでよくあることですが、ベースラインアルゴリズムは、本来あるべ

unsupervised

arXiv reaDer

attention

arXiv

domain adaptation
リンク
360MonoDepth：高解像度360°単眼深度推定
arxiv_reader 2021/12/01
360°カメラは1回のショットで完全な環境をキャプチャできるため、360°画像は多くのコンピュータビジョンタスクで魅力的です。ただし、単眼深度の推定は、360°データ、特に新規ビュー合成やバーチャルリ

computer vision

single-shot

arXiv reaDer

monocular

estimation

synthesis

arXiv
リンク
AdaViT：効率的な画像認識のためのアダプティブビジョントランスフォーマー
arxiv_reader 2021/12/01
自己注意メカニズムの上に構築されたビジョントランスフォーマーは、最近、さまざまなビジョンタスクで優れたパフォーマンスを発揮しています。優れたパフォーマンスを実現する一方で、パッチ、セルフアテンションヘ

arXiv reaDer

arXiv

transformer
リンク
効率的なビジョントランスフォーマーのための適応逆変換サンプリング
arxiv_reader 2021/12/01
最先端のビジョントランスフォーマーモデルは、画像分類に関して有望な結果を達成しますが、計算コストが非常に高く、多くのGFLOPを必要とします。ビジョントランスフォーマーのGFLOPは、ネットワーク内の

dataset

differentiable

arXiv reaDer

classification

arXiv

transformer
リンク
HyperStyle：実像編集のためのHyperNetworksによるStyleGAN反転
arxiv_reader 2021/12/01
StyleGANの潜在空間への実像の反転はよく研究された問題です。それにもかかわらず、再構成と編集可能性の間の固有のトレードオフのために、既存のアプローチを現実世界のシナリオに適用することは未解決の課

arXiv reaDer

real time

arXiv

reconstruction
リンク
GAN の低ランクのサブスペース
arxiv_reader 2021/12/01
敵対的生成ネットワーク (GAN) の潜在空間は、いくつかのサブスペース内で豊富なセマンティクスをエンコードすることが示されています。これらのサブスペースを識別するために、研究者は通常、合成データのコ

dataset

arXiv reaDer

manifold

representation

GAN

face

arXiv
リンク
ソースフリーの教師なしドメイン適応3Dオブジェクト検出のための注意深いプロトタイプ
arxiv_reader 2021/12/01
3Dオブジェクト検出ネットワークは、トレーニングされたデータに偏る傾向があります。トレーニング（ソース）データとは異なる場所、条件、またはセンサーでキャプチャされたデータセットを評価すると、テスト（ま

domain adaptation

dataset

unsupervised

arXiv reaDer

detection

LiDAR

3D

arXiv

transformer
リンク
ディープニューラルネットワークにおける学習のトポロジー的一貫性の活用
arxiv_reader 2021/12/01
最近、基礎となるトポロジー構造の統計を前提として、特定のタスクでのディープニューラルネットワーク（DNN）のテストパフォーマンスを正確に予測する方法が開発されました。ただし、この新しく発見された洞察を

arXiv reaDer

DNN

arXiv

learning
リンク
変分オートエンコーダの指数関数的に傾斜したガウス事前分布
arxiv_reader 2021/12/01
ディープニューラルネットワークが持つ重要な特性は、これまでに見られなかったデータに対してロバストな分布外検出（OOD）を実行する機能です。このプロパティは、実際のアプリケーションにモデルを展開する際の

OOD

generative

arXiv reaDer

detection

arXiv
リンク
拡散オートエンコーダ：意味のあるデコード可能な表現に向けて
arxiv_reader 2021/12/01
拡散確率モデル（DPM）は、GANに匹敵する優れた品質の画像生成を実現しました。ただし、GANとは異なり、DPMは意味的な意味を欠き、他のタスクの有用な表現として機能できない潜在変数のセットを使用しま

denoising

arXiv reaDer

representation learning

GAN

few-shot

reconstruction

arXiv
リンク
GridDehazeNet +：単一画像の曇り除去のためのタスク内知識転送を備えた拡張マルチスケールネットワーク
arxiv_reader 2021/12/01
単一画像の曇り除去のために、GridDehazeNet +と呼ばれる拡張マルチスケールネットワークを提案します。提案された曇り除去方法は、大気散乱モデル（ASM）に依存せず、このモデルによって提供され

dataset

learning

arXiv reaDer

estimation

attention

domain

synthesis

arXiv
リンク
LiDARスキャン処理のための半局所畳み込み
arxiv_reader 2021/12/01
移動ロボットや自動運転車などの多くのアプリケーションは、LiDARセンサーを使用して、3次元環境に関する詳細情報を取得します。多くの方法では、画像のような投影法を使用してこれらのLiDAR測定値を効率

robot

arXiv reaDer

CNN

vehicle

LiDAR

segmentation

arXiv
リンク
オブジェクト検出およびインスタンスセグメンテーションタスク用のMISチェックダムデータセット
The MIS Check-Dam Dataset for Object Detection and Instance Segmentation Tasks ディープラーニングは、他のコンピュータービジョンタスクの中でも、オブジェクト検出とインスタンスセグメンテーションの多くの最近の進歩につながりました。これらの進歩により、衛星画像のオブジェクト検出タスクでディープラーニングベースの方法と関連する方法論が広く適用されるようになりました。本稿では、農業に使用される灌漑構造の重要性に焦点を当て、砂防堰の検出とマッピングのための自動システムを構築するための衛星画像からの砂防堰の新しいデータセットであるMISCheck-Damを紹介します。最新のオブジェクト検出およびインスタンスセグメンテーション方法のいくつかを確認し、新しいデータセットでのパフォーマンスを評価します。さまざまなネットワーク構成と
arxiv_reader 2021/12/01
ディープラーニングは、他のコンピュータービジョンタスクの中でも、オブジェクト検出とインスタンスセグメンテーションの多くの最近の進歩につながりました。これらの進歩により、衛星画像のオブジェクト検出タスク

dataset

computer vision

arXiv reaDer

pre-training

attention

detection

segmentation

arXiv

satellite
リンク
フルレンジでのロバストな部分から部分への点群登録
Robust Partial-to-Partial Point Cloud Registration in a Full Range 3Dオブジェクトの点群登録は、測定値がまばらでノイズが多く、観測が不完全で、変換が大きいため、非常に困難です。この作業では、グラフマッチングコンセンサスネットワーク（GMCNet）を提案します。これは、フルレンジ1の部分から部分への点群登録（PPR）のポーズ不変の対応を推定します。ロバストなポイント記述子をエンコードするために、1）まず、さまざまな幾何学的特徴の変換ロバスト性とノイズ耐性を包括的に調査します。 2）次に、新しい変換ロバストポイントトランスフォーマー（TPT）モジュールを使用して、構造関係に関するローカルフィーチャを適応的に集約します。これは、手作りの回転不変（RI）フィーチャとノイズ耐性のある空間座標の両方を利用します。 3）階層グラフネット
arxiv_reader 2021/12/01
3Dオブジェクトの点群登録は、測定値がまばらでノイズが多く、観測が不完全で、変換が大きいため、非常に困難です。この作業では、グラフマッチングコンセンサスネットワーク（GMCNet）を提案します。これは

dataset

arXiv reaDer

3D

sparse

arXiv

transformer

point cloud
リンク
公平性を向上させるための人間の知覚できない攻撃とアプリケーション
Human Imperceptible Attacks and Applications to Improve Fairness 現代のニューラルネットワークは、オブジェクトの分類と画像の生成を含む多くのタスクで、少なくとも人間と同じように実行できます。ただし、人間が認識できない小さな摂動は、十分に訓練されたディープニューラルネットワークのパフォーマンスを大幅に低下させる可能性があります。人間ベースの画質評価方法を統合して、人間には知覚できないが深いニューラルネットワークに重大な損傷を与える最適な攻撃を設計するDRO（Distributionly Robust Optimization）フレームワークを提供します。広範な実験を通じて、私たちの攻撃アルゴリズムは、他の最先端の人間の知覚できない攻撃方法よりも高品質の（人間には知覚されにくい）攻撃を生成することを示しています。さらに、最適に設計
arxiv_reader 2021/12/01
現代のニューラルネットワークは、オブジェクトの分類と画像の生成を含む多くのタスクで、少なくとも人間と同じように実行できます。ただし、人間が認識できない小さな摂動は、十分に訓練されたディープニューラルネ

arXiv reaDer

human

arXiv

classification
リンク
MapReader：大規模なマップのセマンティック探索のためのコンピュータービジョンパイプライン
arxiv_reader 2021/12/01
大規模なマップコレクション（スキャンまたはボーンデジタル）を分析するためにPythonで記述された無料のオープンソースソフトウェアライブラリであるMapReaderを紹介します。このライブラリは、広範

dataset

computer vision

arXiv reaDer

python

arXiv
リンク
X線偏光測定へのディープアンサンブルアプローチ
arxiv_reader 2021/12/01
X線偏光測定は、NASAのイメージングX線偏光測定エクスプローラー（IXPE）の発売により、間もなく高エネルギー宇宙に新しいウィンドウを開きます。偏光計は現在、トラック再構成アルゴリズムによって制限さ

learning

arXiv reaDer

detection

reconstruction

arXiv
リンク
UAV画像からの送電鉄塔の自動損傷検査
arxiv_reader 2021/12/01
インフラストラクチャの検査は非常にコストのかかる作業であり、技術者は遠隔地や到達困難な場所にアクセスする必要があります。これは、まばらに配置され、訓練を受けた労働者が損傷を探すためにそれらを登る必要が

arXiv reaDer

UAV

detection

drone

arXiv
リンク
オープンワールドエンティティセグメンテーション
arxiv_reader 2021/12/01
エンティティセグメンテーション（ES）と呼ばれる新しい画像セグメンテーションタスクを紹介します。これは、セマンティックラベルを予測せずに、画像内のすべての視覚エンティティ（オブジェクトやスタッフ）をセ

dataset

arXiv reaDer

panoptic segmentation

representation

convolutional

domain

arXiv
リンク
暗闇を分解することによる低照度画像の強調
arxiv_reader 2021/12/01
暗い環境でキャプチャされた画像は、複雑な劣化に悩まされることがよくあります。光を調整するだけでは、必然的に隠れたノイズのバーストと色の歪みが発生します。劣化した入力から満足のいく照明、清潔さ、リアリズ

arXiv reaDer

dataset

arXiv

benchmark
リンク
E（2）電波天文学のための同変自己注意
arxiv_reader 2021/12/01
この作品では、天文学における説明可能な電波銀河分類の問題に対処するために、グループ同変自己注意モデルを紹介します。周期的および二面角の両方の等分散のさまざまな次数を評価し、前もって等分散を含めると、デ

explainable

arXiv reaDer

classification

human

arXiv
リンク
NeuSample：効率的なビュー合成のためのニューラルサンプルフィールド
ニューラルラディアンスフィールド（NeRF）は、3Dシーンの表現と新しいビューの合成に大きな可能性を示していますが、推論段階でのNeRFの計算オーバーヘッドは依然として重いです。負担を軽減するために、NeRFの粗いものから細かいものへの階層的なサンプリング手順を掘り下げ、粗いステージをニューラルサンプルフィールドと名付けた軽量モジュールに置き換えることができることを指摘します。提案されたサンプルフィールドは、光線をサンプル分布にマッピングします。サンプル分布は、ポイント座標に変換され、ボリュームレンダリングのために放射輝度フィールドに供給されます。全体的なフレームワークはNeuSampleという名前です。 2つの人気のある3DシーンセットであるRealisticSynthetic 360 ^∘とRealForward-Facingで実験を行い、NeuSampleがNeRFよりも優れたレンダ
arxiv_reader 2021/12/01
ニューラルラディアンスフィールド（NeRF）は、3Dシーンの表現と新しいビューの合成に大きな可能性を示していますが、推論段階でのNeRFの計算オーバーヘッドは依然として重いです。負担を軽減するために、

arXiv reaDer

arXiv

3D

synthesis
リンク
エピソード、プロトタイプネットワーク、および少数のショットの学習について
arxiv_reader 2021/12/01
エピソード学習は、数回の学習に関心のある研究者や実践者の間で人気のある実践です。これは、一連の学習問題（またはエピソード）でトレーニングを編成することで構成され、それぞれが評価中に遭遇する状況を模倣す

dataset

learning

arXiv reaDer

classification

few-shot

arXiv
リンク
RADU：ToFデータノイズ除去のためのレイアライン深度更新畳み込み
arxiv_reader 2021/12/01
飛行時間型（ToF）カメラは、マルチパス干渉（MPI）により、高レベルのノイズと歪みの影響を受けます。最近の研究では、2DニューラルネットワークがToFデータのノイズ除去に関して以前の従来の最先端（S

denoising

dataset

ToF

arXiv reaDer

convolutional

synthesis

3D

arXiv
リンク
SUPER-Net: エンコーダー/デコーダーネットワークにおける不確実性伝播を伴う信頼できる医用画像セグメンテーション
arxiv_reader 2021/12/01
ディープラーニング（DL）は、その精度、効率、および客観性を考慮して、医療システムの再構築に大きな期待を寄せています。ただし、ノイズの多い配布外の入力に対するDLモデルの脆弱性は、診療所での展開を妨げ

OOD

dataset

arXiv reaDer

Bayesian

adversarial

benchmark

estimation

segmentation

arXiv
リンク
オブジェクト領域ビデオトランスフォーマー
arxiv_reader 2021/12/01
最近、ビデオトランスフォーマーは、CNNのパフォーマンスを超えて、ビデオの理解に大きな成功を収めています。ただし、既存のビデオトランスフォーマーモデルはオブジェクトを明示的にモデル化しませんが、オブジ

dataset

arXiv reaDer

CNN

spatio-temporal

detection

trajectory

few-shot

arXiv

action recognition

transformer
リンク
ESL：イベントベースの構造化照明
arxiv_reader 2021/12/01
イベントカメラはバイオインスパイアードセンサーであり、低遅延、高時間分解能、高ダイナミックレンジなど、標準のカメラに比べて大きな利点があります。正確で高速な深度検知の問題に取り組むために、イベントカメ

arXiv reaDer

3D

reconstruction

arXiv

spatio-temporal
リンク
医療画像レジストレーションのための正規化された方向表現
arxiv_reader 2021/12/01
画像レジストレーションでは、一般的な正規化された相互情報量基準の代替案の開発に多くの努力が注がれてきました。これらの取り組みと同時に、画像自体ではなく画像の構造表現を位置合わせすることで、登録精度を大

dataset

arXiv reaDer

representation

gradient

arXiv
リンク
WeisfeilerとLemanGo Neural：高次グラフニューラルネットワーク
arxiv_reader 2021/12/01
近年、グラフニューラルネットワーク（GNN）は、教師ありエンドツーエンドの方法でノードとグラフのベクトル表現を学習するための強力なニューラルアーキテクチャとして登場しました。これまで、GNNは経験的に

arXiv reaDer

representation

classification

GNN

arXiv
リンク
高速で堅牢な加速MRI再構成のための独立して反復する推論マシンのカスケードによるデータの一貫性の評価
Assessment of Data Consistency through Cascades of Independently Recurrent Inference Machines for fast and robust accelerated MRI reconstruction 解釈可能性と堅牢性は、臨床アプリケーションで加速磁気共鳴画像法（MRI）再構成のための機械学習手法を統合するために不可欠です。そうすることで、解剖学と病理学の高速で高品質のイメージングが可能になります。データの一貫性（DC）は、マルチモーダルデータの一般化と病理の検出における堅牢性にとって非常に重要です。この作業は、独立再帰推論マシンのカスケード（CIRIM）を提案し、展開された最適化を通じて、暗黙的に最急降下法によって、明示的に設計された用語によってDCを評価します。 CIRIMを、エンドツーエンド変分
arxiv_reader 2021/12/01
解釈可能性と堅牢性は、臨床アプリケーションで加速磁気共鳴画像法（MRI）再構成のための機械学習手法を統合するために不可欠です。そうすることで、解剖学と病理学の高速で高品質のイメージングが可能になります

learning

arXiv reaDer

recurrent

gradient

MRI

3D

reconstruction

arXiv
リンク
効率的で高解像度の画像調和のための空間分離曲線レンダリングネットワーク
arxiv_reader 2021/12/01
画像の調和は、特定の背景に関して合成領域の色を変更することを目的としています。以前の作品では、このタスクをUNetファミリ構造を使用したピクセル単位の画像から画像への変換としてモデル化しています。ただ

arXiv reaDer

arXiv

embedding

edge device
リンク
PolyWorld：衛星画像のグラフニューラルネットワークを使用した多角形の建物の抽出
arxiv_reader 2021/12/01
ほとんどの最先端のインスタンスセグメンテーション方法はバイナリセグメンテーションマスクを生成しますが、地理的および地図作成アプリケーションは通常、ラスタライズされた出力ではなく、抽出されたオブジェクト

differentiable

arXiv reaDer

GNN

segmentation

arXiv

satellite
リンク
FENeRF：神経放射輝度フィールドでの顔の編集
arxiv_reader 2021/12/01
以前のポートレート画像の生成方法は、大きく2つのカテゴリに分類されます。2DGANと3D対応GANです。 2D GANは、忠実度の高いポートレートを生成できますが、ビューの一貫性は低くなります。 3D

learning

arXiv reaDer

representation

monocular

GAN

face

3D

arXiv
リンク
ST-MFNet：フレーム補間のための時空間マルチフローネットワーク
arxiv_reader 2021/12/01
ビデオフレーム補間（VFI）は現在非常に活発な研究トピックであり、アプリケーションはコンピュータービジョン、ポストプロダクション、ビデオエンコーディングにまたがっています。 VFIは、特に大きなモーシ

optical flow

dataset

computer vision

arXiv reaDer

CNN

benchmark

synthesis

3D

arXiv

spatio-temporal
リンク
シナリオにとらわれない混同による差別的視覚表現学習の強化
arxiv_reader 2021/12/01
ミックスアップは、ディープニューラルネットワークで人気のあるデータ依存の拡張手法であり、ミックスアップの生成と分類の2つのサブタスクが含まれています。コミュニティは通常、混合を教師あり学習（SL）に限

self-supervised

arXiv reaDer

manifold

classification

representation learning

attention

arXiv

augmentation
リンク
オブジェクトレベルの統合による大規模なビデオ分析
arxiv_reader 2021/12/01
インストールされているカメラの数が増えると、これらのカメラによってキャプチャされたすべての画像を処理および分析するために必要な計算リソースも増えます。ビデオ分析により、スマートシティや自動運転などの新

video

arXiv reaDer

pre-training

detection

autonomous driving

arXiv
リンク
FMD-cGAN：条件付き生成的敵対的ネットワークを使用した高速モーションブレ除去
arxiv_reader 2021/12/01
この論文では、単一画像のブラインドモーションブレ除去に役立つ高速モーションブレ除去-条件付き生成的敵対的ネットワーク（FMD-cGAN）を紹介します。 FMD-cGANは、画像のぼけを除去した後、印象

real time

dataset

arXiv reaDer

convolutional

GAN

arXiv
リンク
悪魔はマージンにあります：ネットワークキャリブレーションのためのマージンベースのラベルスムージング
arxiv_reader 2021/12/01
ディープニューラルネットワークの卓越したパフォーマンスにもかかわらず、最近の研究では、それらのキャリブレーションが不十分であり、予測に自信がないことが示されています。ミスキャリブレーションは、トレーニ

arXiv reaDer

classification

benchmark

approximation

arXiv

semantic segmentation

loss function
リンク
CycleMLP：高密度予測のためのMLPのようなアーキテクチャ
arxiv_reader 2021/12/01
このホワイトペーパーでは、単純なMLPのようなアーキテクチャであるCycleMLPを紹介します。これは、視覚的な認識と高密度の予測のための多用途のバックボーンです。 MLP-Mixer、ResMLP、

dataset

arXiv reaDer

zero-shot

transformer

detection

arXiv

semantic segmentation
リンク
最悪の場合のモーフ: 理論的および実際的なアプローチ
arxiv_reader 2021/12/01
顔認識システム（FRS）はモーフィング攻撃に対して脆弱であることが示されていますが、ほとんどの研究はランドマークベースのモーフに焦点を合わせています。モーフを生成するための2番目の方法は、生成的敵対的

face recognition

embedding

arXiv reaDer

detection

GAN

arXiv
リンク
センターからの投票：ラジアルキーポイント投票によるRGB-D画像の6自由度ポーズ推定
arxiv_reader 2021/12/01
交差する球に基づく新しいキーポイント投票スキームを提案します。これは、既存のスキームよりも正確であり、より分散したキーポイントのより小さなセットを可能にします。このスキームは、ポイント間の距離に基づい

RGB-D

dataset

keypoint

occlusion

arXiv reaDer

CNN

localization

3D

arXiv

pose estimation
リンク
コンピュータ断層撮影での膵管腺癌検出のための全自動深層学習フレームワーク
arxiv_reader 2021/12/01
早期発見は膵管腺癌（PDAC）の予後を改善しますが、病変はしばしば小さく、造影コンピュータ断層撮影スキャン（CE-CT）で明確に定義されていないため、困難です。ディープラーニングはPDAC診断を容易に

learning

arXiv reaDer

detection

segmentation

arXiv
リンク
セマンティックローカルパラメトリックモデルを使用した3D人間の形状とポーズの確率的推定
Probabilistic Estimation of 3D Human Shape and Pose with a Semantic Local Parametric Model この論文は、RGB画像からの3D人体形状と姿勢推定の問題に取り組んでいます。このタスクへのいくつかの最近のアプローチは、入力画像を条件とする人体モデルパラメータの確率分布を予測します。これは、特に体の一部が局所的に閉塞されている場合に、複数の3D再構成が画像の証拠と一致する可能性があるという問題の不適切な性質によって動機付けられています。ただし、広く使用されているボディモデル（SMPLなど）のボディ形状パラメータは、ボディ表面全体のグローバルな変形を制御します。これらのグローバルな形状パラメータの分布は、局所的に閉塞された身体部分に関連する形状推定の不確実性を有意義に捉えることができません。対照的に、（i）セマ
arxiv_reader 2021/12/01
この論文は、RGB画像からの3D人体形状と姿勢推定の問題に取り組んでいます。このタスクへのいくつかの最近のアプローチは、入力画像を条件とする人体モデルパラメータの確率分布を予測します。これは、特に体の

dataset

SMPL

arXiv reaDer

human

3D

arXiv

pose estimation
リンク
FGF-GAN：高速ガイドフィルターを介したパンシャープンのための軽量の生成的敵対的ネットワーク
arxiv_reader 2021/12/01
パンシャープンは、リモートセンシングに広く使用されている画像強調技術です。その原理は、入力された高解像度シングルチャネルパンクロマティック（PAN）画像と低解像度マルチスペクトル画像を融合し、高解像度

learning

arXiv reaDer

attention

GAN

arXiv

loss function
リンク
CTブロック：点群用の新しいローカルおよびグローバル機能抽出器
arxiv_reader 2021/12/01
ポイントクラウドでのディープラーニングはますます発展しています。ポイントを隣接するポイントとグループ化し、それらに対して畳み込みのような操作を実行すると、ポイントクラウドのローカルな特徴を学習できます

dataset

learning

arXiv reaDer

convolutional

classification

segmentation

arXiv

transformer

point cloud
リンク
生徒と教師のピラミッドマッチングに注意を払った復興生徒
arxiv_reader 2021/12/01
異常の検出とローカリゼーションは、コンピュータービジョンの重要な問題です。最近、畳み込みニューラルネットワーク（CNN）が目視検査に使用されています。特に、異常なサンプルが不足しているため、このタスク

unsupervised

computer vision

arXiv reaDer

CNN

localization

anomaly detection

attention

reconstruction

arXiv
リンク
ColibriDoc：アイインハンド自律トロカールドッキングシステム
arxiv_reader 2021/12/01
網膜手術は、卓越した専門知識と器用さを必要とする複雑な医療処置です。この目的のために、顕微手術タスクの結果を可能または改善するために、いくつかのロボットプラットフォームが現在開発されています。このよう

robot

computer vision

arXiv reaDer

pose

arXiv
リンク
Voint Cloud: 3D 理解のための多視点点群表現
arxiv_reader 2021/12/01
マルチビュー投影法は、3D分類やセグメンテーションなどの3D理解タスクで有望なパフォーマンスを示しています。ただし、このようなマルチビュー手法を広く利用可能な3D点群と組み合わせる方法は不明なままです

pooling

occlusion

arXiv reaDer

representation

convolutional

classification

3D

arXiv

semantic segmentation

point cloud
リンク
クロスデータベースのマイクロ表現認識のための顕著な顔の領域を求めて
Seeking Salient Facial Regions for Cross-Database Micro-Expression Recognition この論文は、トレーニングとテストのマイクロエクスプレッションサンプルが異なるマイクロエクスプレッションデータベースに属する、クロスデータベースマイクロエクスプレッション認識の研究に焦点を当てています。トレーニングとテストのマイクロエクスプレッション機能間の機能分布の不一致は、ほとんどのパフォーマンスの高いマイクロエクスプレッションメソッドのパフォーマンスを低下させます。クロスデータベースマイクロ式認識を処理するために、転送グループスパース回帰（TGSR）と呼ばれる新しいドメイン適応方法を提案します。 TGSRは、顕著な顔の局所領域を選択するためのスパース回帰行列と、トレーニングセットとテストセットの対応する関係を学習します。 CASM
arxiv_reader 2021/12/01
この論文は、トレーニングとテストのマイクロエクスプレッションサンプルが異なるマイクロエクスプレッションデータベースに属する、クロスデータベースマイクロエクスプレッション認識の研究に焦点を当てています。

arXiv reaDer

saliency

domain

face

sparse

arXiv
リンク
Medical Aegis：医療画像用の堅牢な敵対的プロテクター
arxiv_reader 2021/12/01
ディープニューラルネットワークベースの医用画像システムは、敵対的な例に対して脆弱です。多くの防御メカニズムが文献で提案されていますが、既存の防御は、防御システムについてほとんど知らず、防御に従って攻撃

arXiv reaDer

DNN

classification

adversarial

arXiv
リンク
パノプティコンセグメンテーションとリモートセンシングの出会い
arxiv_reader 2021/12/01
パノプティコンセグメンテーションは、インスタンスとセマンティックの予測を組み合わせて、「もの」と「もの」を同時に検出できるようにします。リモートセンシングデータでパノプティコンセグメンテーションに効果

dataset

arXiv reaDer

panoptic segmentation

detection

metric

arXiv
リンク
ZZ-Net：2D点群のためのユニバーサル回転同変アーキテクチャ
arxiv_reader 2021/12/01
この論文では、2D点群データの回転同変に関心があります。連続回転同変および順列不変関数を近似できる特定の関数セットについて説明します。この結果に基づいて、2D点群を処理するための新しいニューラルネット

arXiv reaDer

estimation

stereo

arXiv

point cloud
リンク
MC-SSL0.0：マルチコンセプトの自己管理学習に向けて
自己監視型の事前トレーニングは、自然言語処理モデルに最適な方法であり、多くのビジョンタスクで急速に人気が高まっています。最近、自己監視あり事前トレーニングは、多くのダウンストリームビジョンアプリケーションで教師あり事前トレーニングよりも優れていることが示され、この地域で画期的な出来事となっています。この優位性は、複数の概念を伝えるトレーニング画像の不完全なラベル付けの悪影響に起因しますが、単一の支配階級ラベルを使用して注釈が付けられます。自己監視学習（SSL）には原則としてこの制限はありませんが、SSLを促進する口実タスクの選択は、学習プロセスを単一の概念出力に向けて推進することにより、この欠点を永続させています。この研究は、ラベルを使用せずに画像に存在するすべての概念をモデル化する可能性を調査することを目的としています。この側面では、提案されたSSLフレームワークMC-SSL0.0は、マ
arxiv_reader 2021/12/01
自己監視型の事前トレーニングは、自然言語処理モデルに最適な方法であり、多くのビジョンタスクで急速に人気が高まっています。最近、自己監視あり事前トレーニングは、多くのダウンストリームビジョンアプリケーシ

self-supervised

arXiv reaDer

classification

transfer learning

arXiv
リンク
医用画像分類タスクにおける自己監視機能はどの程度転送可能ですか？
arxiv_reader 2021/12/01
転移学習は、医学的分類タスクにおけるラベル付きデータの不足を軽減するための標準的な方法になっています。教師ありImageNet事前トレーニング機能を使用してダウンストリームタスクを微調整することは簡単

embedding

self-supervised

arXiv reaDer

representation

classification

detection

transfer learning

arXiv
リンク
ViTAS：VisionTransformerアーキテクチャ検索
arxiv_reader 2021/12/01
ビジョントランスフォーマー（ViT）はNLPの成功を継承しましたが、その構造は十分に調査されておらず、視覚的なタスクに最適化されていません。最も簡単な解決策の1つは、CNNで広く使用されているニューラ

embedding

arXiv reaDer

CNN

bias

regularization

augmentation

adaptation

arXiv

transformer

NAS
リンク
Tokens-to-Token ViT：ImageNetでビジョントランスフォーマーをゼロからトレーニングする
arxiv_reader 2021/12/01
言語モデリングで人気のあるトランスフォーマーは、最近、ビジョンタスクを解決するために検討されています。たとえば、画像分類用のビジョントランスフォーマー（ViT）です。 ViTモデルは、各画像を固定長の

dataset

arXiv reaDer

CNN

classification

attention

arXiv

transformer
リンク
ガイド付き深度マップ超解像のための離散コサイン変換ネットワーク
arxiv_reader 2021/12/01
ガイド付き深度超解像（GDSR）は、マルチモーダル画像処理の重要なトピックです。これは、同じシーンのHR RGB画像を使用して、次善の条件で収集された低解像度の深度マップから高解像度（HR）深度マップ

super-resolution

arXiv reaDer

convolutional

attention

domain

arXiv
リンク
StyleVideoGAN：事前にトレーニングされたStyleGANを使用した時間生成モデル
arxiv_reader 2021/12/01
生成的敵対的モデル（GAN）は、静止画像の視覚的品質と時間的相関の学習の面で進歩を生み出し続けています。ただし、ビデオコンテンツの合成のために、これら2つの興味深い機能を組み合わせることができる作品は

dataset

video

generative

arXiv reaDer

adversarial

pre-training

GAN

domain

synthesis

arXiv
リンク
DiffSDFSim：暗黙の形状を持つ微分可能な剛体ダイナミクス
arxiv_reader 2021/12/01
微分可能な物理学は、シーンの理解と相互作用についての推論のためのコンピュータビジョンとロボット工学の強力なツールです。既存のアプローチは、単純な形状または事前にわかっている形状のオブジェクトに限定され

differentiable

computer vision

reasoning

arXiv reaDer

simulation

trajectory

synthesis

arXiv
リンク
人間のシーン理解のイクシャナ仮説
arxiv_reader 2021/12/01
近年、ディープニューラルネットワーク（DNN）は、いくつかのコンピュータービジョンタスクで最先端のパフォーマンスを実現しました。ただし、これらのDNNの典型的な欠点の1つは、大量のラベル付きデータが必

metric learning

CNN

arXiv reaDer

benchmark

arXiv

computer vision

few-shot

semantic segmentation

human

DNN
リンク
ニューラルRGB-D表面再構成
arxiv_reader 2021/12/01
部屋規模のシーンの高品質な3D再構成を取得することは、ARまたはVRの今後のアプリケーションにとって最も重要です。これらは、電話会議、仮想測定、仮想部屋のプレーニングのための複合現実アプリケーションか

RGB-D

robot

arXiv reaDer

representation

pose

synthesis

3D

reconstruction

arXiv
リンク
TridentAdapt：ソースとターゲットの対立と自己誘導型クロスドメイン拡張によるドメイン不変性の学習
TridentAdapt: Learning Domain-invariance via Source-Target Confrontation and Self-induced Cross-domain Augmentation グラウンドトゥルースラベルを取得するのは難しいため、仮想世界のデータセットから学習することは、セマンティックセグメンテーションなどの実際のアプリケーションにとって非常に重要です。ドメイン適応の観点から、重要な課題は、仮想データから利益を得るために、入力のドメインにとらわれない表現を学習することです。この論文では、共有機能エンコーダーを適用して、対立するソースとターゲットの制約を同時に満たす、ドメイン不変の機能空間を学習する、新しいトライデントのようなアーキテクチャを提案します。さらに、フォワードパス中に自己誘導クロスドメインデータ拡張を可能にする新しいトレーニン
arxiv_reader 2021/12/01
グラウンドトゥルースラベルを取得するのは難しいため、仮想世界のデータセットから学習することは、セマンティックセグメンテーションなどの実際のアプリケーションにとって非常に重要です。ドメイン適応の観点から

dataset

learning

arXiv reaDer

semantic segmentation

representation

arXiv

benchmark

pre-training

domain adaptation

augmentation
リンク
Hire-MLP：階層的再配置によるビジョンMLP
arxiv_reader 2021/12/01
MLP-MixerやResMLPなどの以前のビジョンMLPは、線形に平坦化された画像パッチを入力として受け入れるため、さまざまな入力サイズに対して柔軟性がなく、空間情報をキャプチャするのが困難です。こ

computer vision

arXiv reaDer

classification

detection

arXiv

semantic segmentation
リンク
ビデオ復元のための時間的調整の再検討
arxiv_reader 2021/12/01
長距離の時間的位置合わせは重要ですが、ビデオ復元タスクにとっては困難です。最近、いくつかの作品は、長距離アラインメントをいくつかのサブアラインメントに分割し、それらを段階的に処理しようとしています。こ

super-resolution

denoising

video

arXiv reaDer

benchmark

arXiv
リンク
Affect-DML：ディープメトリック学習を使用した人間の影響のコンテキストアウェアワンショット認識
Affect-DML: Context-Aware One-Shot Recognition of Human Affect using Deep Metric Learning 人間の感情認識は、心理的ケアなど、多くの用途を持つ確立された研究分野ですが、既存の方法では、注釈付きのトレーニング例としてすべての関心の感情が事前に与えられることを前提としています。ただし、新しい心理学理論による人間の感情スペクトルの粒度の向上と洗練、およびコンテキストでの感情の考慮の増加は、データ収集とラベル付け作業にかなりの圧力をもたらします。この論文では、文脈における感情のワンショット認識を概念化します。これは、単一のサポートサンプルからより細かい粒子レベルで人間の感情状態を認識することを目的とした新しい問題です。この困難なタスクに対処するために、ディープメトリック学習パラダイムに従い、人間の外観の補足情報
arxiv_reader 2021/12/01
人間の感情認識は、心理的ケアなど、多くの用途を持つ確立された研究分野ですが、既存の方法では、注釈付きのトレーニング例としてすべての関心の感情が事前に与えられることを前提としています。ただし、新しい心理

dataset

embedding

metric learning

arXiv reaDer

emotion

representation

benchmark

one-shot

arXiv

semantic segmentation
リンク
グラフ表現を使用したビデオベースのうつ病認識のための2段階時間モデリングフレームワーク
arxiv_reader 2021/12/01
ビデオベースの自動うつ病分析は、近年広く開発されている、高速で客観的で再現性のある自己評価ソリューションを提供します。うつ病の手がかりは、さまざまな時間スケールの人間の顔の行動に反映される可能性があり

dataset

video

arXiv reaDer

CNN

representation

human

estimation

face

arXiv
リンク
レーダーベースの物体検出のためのチャネルブースティング機能アンサンブル
arxiv_reader 2021/12/01
自動運転車は、SOTIF-ISO / PAS-21448（目的の機能の安全性）に示されている安全基準を検証することにより、安全で安全なサービスを提供するように考案されています。このコンテキストを維持す

dataset

arXiv reaDer

localization

vehicle

detection

LiDAR

metric

arXiv

transformer
リンク
EdiBERT、画像編集用の生成モデル
コンピュータビジョンの進歩により、画像操作の限界が押し上げられており、生成モデルがさまざまなタスクの詳細な画像をサンプリングしています。ただし、多くの画像編集タスクは類似点を共有していますが、特定のタスクごとに特殊なモデルが開発およびトレーニングされることがよくあります。ノイズ除去、修復、または画像合成では、常に低品質の画像からリアルな画像を生成することを目的としています。この論文では、画像編集の統一されたアプローチに向けた一歩を踏み出すことを目指しています。そのために、ベクトル量子化オートエンコーダーによって構築された離散潜在空間でトレーニングされた双方向トランスフォーマーであるEdiBERTを提案します。任意のパッチを条件付きで画像全体に再サンプリングできるため、このような双方向モデルは画像操作に適していると主張します。このユニークでわかりやすいトレーニング目標を使用して、結果のモデル
arxiv_reader 2021/12/01
コンピュータビジョンの進歩により、画像操作の限界が押し上げられており、生成モデルがさまざまなタスクの詳細な画像をサンプリングしています。ただし、多くの画像編集タスクは類似点を共有していますが、特定のタ

denoising

computer vision

generative

arXiv reaDer

arXiv

transformer
リンク
マルチモーダルテキスト認識ネットワーク：視覚的機能と意味的機能の間のインタラクティブな拡張
arxiv_reader 2021/12/01
言語知識は、文字シーケンスを洗練するためのセマンティクスを提供することにより、シーンテキスト認識に大きな利点をもたらしました。ただし、言語知識は出力シーケンスに個別に適用されているため、以前の方法では

arXiv reaDer

arXiv

benchmark
リンク
ARTSeg：熱画像のセマンティックセグメンテーションに注意を払う
arxiv_reader 2021/12/01
研究の進歩により、自動運転車に導入されたニューラルネットワークアルゴリズムが周囲を認識できるようになりました。環境の知覚に使用される標準的な外部受容センサーは、カメラとLidarです。したがって、これ

dataset

arXiv reaDer

localization

R-CNN

convolutional

recurrent

attention

LiDAR

arXiv

semantic segmentation
リンク
LDNet：ダイナミックビジョンセンサーを使用したエンドツーエンドのレーンマーキング検出アプローチ
arxiv_reader 2021/12/01
現代の車両には、意図しない車線逸脱を防ぐ自動車線維持など、さまざまな運転支援システムが装備されています。従来の車線検出方法には、手作りまたは深層学習ベースの機能と、それに続くフレームベースのRGBカメ

pooling

dataset

arXiv reaDer

localization

vehicle

convolutional

attention

autonomous driving

detection

arXiv
リンク
野生の幻覚神経放射輝度フィールド
arxiv_reader 2021/12/01
Neural Radiance Fields（NeRF）は、その印象的な斬新なビュー合成機能で最近人気を博しています。この論文では、幻覚を起こしたNeRFの問題を研究します。つまり、観光画像のグループ

occlusion

embedding

arXiv reaDer

synthesis

arXiv
リンク
ConDA：正則化されたドメイン連結によるLiDARセグメンテーションのための教師なしドメイン適応
arxiv_reader 2021/12/01
自動運転システムのスケーラブルな展開には、ラベル付きのソースドメインから学習した知識を教師なしドメイン適応（UDA）のために生のターゲットドメインに転送することが不可欠です。 UDAの最先端のアプロー

unsupervised

arXiv reaDer

arXiv

autonomous driving

LiDAR

domain adaptation

semantic segmentation
リンク
説明可能な顔認識のためのピクセルレベルの顔の画質評価
arxiv_reader 2021/12/01
顔認識システムで高性能を達成するための重要な要素は、サンプルの品質です。これらのシステムは日常生活に関与しているため、顔認識プロセスを人間が理解できるようにすることが強く求められています。この作業では

arXiv reaDer

arXiv

face recognition

explainable
リンク
NeRFReN：反射を伴うニューラル放射輝度フィールド
arxiv_reader 2021/12/01
Neural Radiance Fields（NeRF）は、座標ベースのニューラルシーン表現を使用して、前例のないビュー合成品質を実現しました。ただし、NeRFのビューの依存関係は、ハイライトなどの単

arXiv reaDer

representation

estimation

synthesis

arXiv
リンク
SSTN：自動運転のための自己監視ドメイン適応熱物体検出
arxiv_reader 2021/12/01
自動運転車の安全で確実な運用には、環境の感性と感性が決定的な役割を果たします。この周囲の知覚は、人間の視覚的表現に非常に似ています。人間の脳は、さまざまな感覚チャネルを利用して環境を認識し、ビュー不変

contrastive learning

embedding

self-supervised

arXiv reaDer

arXiv

detection

autonomous driving

LiDAR

domain adaptation

transformer
リンク
模範ガイド対照学習による歩行者検出
arxiv_reader 2021/12/01
歩行者検出の一般的な方法は、混雑した歩行者間の相互閉塞に取り組むか、さまざまな規模の歩行者に対処することに重点を置いています。さまざまな歩行者のシルエット、さまざまな視点、さまざまなドレッシングなど、

contrastive learning

occlusion

arXiv reaDer

detection

pedestrian

arXiv
リンク
空中光学セクショニングによる葉全体の追跡
arxiv_reader 2021/12/01
葉の中を移動するターゲットを検出して追跡することは困難であり、多くの場合、通常の航空写真やビデオでは不可能ですらあります。並列合成開口空中イメージングをサポートする初期の軽量でドローン操作の1Dカメラ

video

arXiv reaDer

tracking

anomaly detection

synthesis

arXiv
リンク
GANを使用して顔画像認識の敵対的例を生成する
Using a GAN to Generate Adversarial Examples to Facial Image Recognition オンラインで投稿された画像は、顔認識システムの参照例として使用される可能性があるという点でプライバシーの懸念を示しています。このような画像の乱用はプライバシー権を侵害しますが、対抗することは困難です。ディープニューラルネットワークに基づく認識システム用に敵対的なサンプル画像を作成できることは十分に確立されています。これらの敵対的な例は、参照例またはトレーニングデータとしての画像の有用性を混乱させるために使用できます。この作業では、Generative Adversarial Network（GAN）を使用して、顔認識を欺くための敵対的例を作成し、顔認識をだますことで許容可能な成功率を達成します。私たちの結果は、ディスクリミネーターコンポーネントを
arxiv_reader 2021/12/01
オンラインで投稿された画像は、顔認識システムの参照例として使用される可能性があるという点でプライバシーの懸念を示しています。このような画像の乱用はプライバシー権を侵害しますが、対抗することは困難です。

face recognition

knowledge distillation

arXiv reaDer

GAN

arXiv
リンク
半教師ありバウンディングボックスマイニングによる点群インスタンスのセグメンテーション
arxiv_reader 2021/12/01
点群インスタンスのセグメンテーションは、ディープラーニングの出現により大きな進歩を遂げました。ただし、これらの方法は通常、データを大量に消費し、費用と時間がかかる高密度の点群アノテーションがあります。

dataset

learning

self-supervised

arXiv reaDer

regularization

semi-supervised

segmentation

arXiv

point cloud
リンク
HRNET：マスク検出と社会的距離を伸ばすためのAI on Edge
arxiv_reader 2021/12/01
このペーパーの目的は、コミュニティが流行の状況と戦うための革新的な新興技術フレームワークを提供することです。この論文は、市民中心のサービスのための人工知能とエッジコンピューティングに基づく独自の発生対

YOLO

arXiv reaDer

benchmark

human

detection

arXiv

semantic segmentation
リンク
NeeDrop：ニードルドロップを使用したスパースポイントクラウドからの自己監視型形状表現
arxiv_reader 2021/12/01
最近、暗黙の形状表現に対する関心が高まっています。明示的な表現とは異なり、解像度の制限はなく、さまざまな表面トポロジを簡単に処理できます。これらの暗黙の表現を学習するために、現在のアプローチは、特定の

dataset

self-supervised

arXiv reaDer

representation

autonomous driving

LiDAR

sparse

arXiv

reconstruction

point cloud
リンク
ローカルおよびグローバル学習MRI再構成のための対照学習
arxiv_reader 2021/12/01
磁気共鳴画像法（MRI）は重要な医用画像診断法ですが、長い取得時間が必要です。取得時間を短縮するために、様々な方法が提案されてきた。ただし、これらの方法では、2つの主な理由により、明確な構造で画像を再

dataset

contrastive learning

arXiv reaDer

CNN

residual

MRI

domain

reconstruction

arXiv

transformer
リンク
ラベル伝播による半教師あり3D手の形状とポーズの推定
arxiv_reader 2021/12/01
3Dアノテーションを取得するには、制御された環境または合成データセットに制限されているため、実際のシナリオへの一般化が難しい3Dデータセットになります。半教師あり3D手の形状とポーズ推定のコンテキスト

dataset

video

arXiv reaDer

semi-supervised

synthesis

3D

arXiv

pose estimation
リンク
マルチスケールトークンアグリゲーションによるシャントされた自己注意
arxiv_reader 2021/12/01
最近のVisionTransformer〜（ViT）モデルは、自己注意を介して画像パッチまたはトークンの長距離依存性をモデル化する能力のおかげで、さまざまなコンピュータービジョンタスク全体で有望な結果

computer vision

arXiv reaDer

attention

arXiv

transformer
リンク
PlantStereo：植物表面の高密度再構築のためのステレオマッチングベンチマーク
PlantStereo: A Stereo Matching Benchmark for Plant Surface Dense Reconstruction ステレオマッチングは、コンピュータビジョンにおける重要なタスクであり、何十年にもわたって多大な研究の注目を集めてきました。視差の精度、密度、データサイズの観点からは、パブリックステレオデータセットはモデルの要件を満たすのが困難です。この論文では、データセットとモデルの間の問題に対処し、PlantStereoという名前の高精度の視差グラウンドトゥルースを備えた大規模ステレオデータセットを提案することを目指しています。半自動の方法を使用してデータセットを構築しました。カメラのキャリブレーションと画像レジストレーションの後、深度画像から高精度の視差画像を取得できます。 PlantStereoには、ほうれん草、トマト、コショウ、カボチャなど
arxiv_reader 2021/12/01
ステレオマッチングは、コンピュータビジョンにおける重要なタスクであり、何十年にもわたって多大な研究の注目を集めてきました。視差の精度、密度、データサイズの観点からは、パブリックステレオデータセットはモ

dataset

learning

computer vision

arXiv reaDer

stereo

benchmark

attention

reconstruction

arXiv
リンク
行動分析のための多様な弱い監視ソースの自動合成
arxiv_reader 2021/12/01
大規模なトレーニングセットの注釈を取得することは、特に正確な注釈のためにドメイン知識が必要とされる行動分析設定では、費用がかかります。タスクレベルのラベリング機能から弱いラベルを使用してグラウンドトゥ

dataset

arXiv reaDer

domain

synthesis

arXiv
リンク
SamplingAug：単一画像の超解像のためのパッチサンプリング増強の重要性について
arxiv_reader 2021/12/01
ディープニューラルネットワーク（DNN）の開発に伴い、DNNに基づく多くの方法が単一画像超解像（SISR）のために提案されてきました。ただし、既存の方法では、ほとんどの場合、均一にサンプリングされたL

super-resolution

arXiv reaDer

DNN

metric

arXiv

augmentation
リンク
空間およびマルチスケール対応のビジュアルクラス埋め込みによるゼロショットセマンティックセグメンテーション
arxiv_reader 2021/12/01
完全に監視されたセマンティックセグメンテーションテクノロジーは、シーンの理解にパラダイムシフトをもたらします。しかし、高額なラベリングコストの負担は依然として課題です。コストの問題を解決するために、最

learning

embedding

arXiv reaDer

zero-shot

semantic segmentation

benchmark

attention

arXiv

domain adaptation
リンク
変更されたビーム検索と変更された安定ランクを使用したディープニューラルネットワークの非常に効果的な低ランク圧縮
arxiv_reader 2021/12/01
圧縮は、特に計算能力とストレージ容量が限られているエッジデバイスにとって、重要なディープラーニング研究トピックの1つとして浮上しています。主な圧縮手法の中で、行列因数分解による低ランクの圧縮には2つの

edge device

pruning

compression

arXiv reaDer

arXiv

quantization

learning
リンク
CRIS：CLIP駆動の参照画像セグメンテーション
arxiv_reader 2021/12/01
参照画像のセグメンテーションは、自然な言語表現を介して指示対象をセグメント化することを目的としています。テキストと画像の間のデータプロパティが異なるため、ネットワークがテキストとピクセルレベルの機能を

dataset

contrastive learning

arXiv reaDer

representation

benchmark

segmentation

arXiv
リンク
画像生成のための生成畳み込み層
arxiv_reader 2021/12/01
この論文では、生成的畳み込み（GConv）と呼ばれる新しい畳み込み法を紹介します。これは、生成的敵対的ネットワーク（GAN）のパフォーマンスを向上させるためにシンプルでありながら効果的です。標準の畳み

dataset

arXiv reaDer

convolutional

GAN

arXiv
リンク
CLIP とビデオキャプションの出会い: 概念を意識した表現の学習が重要
arxiv_reader 2021/12/01
ビデオキャプションの場合、「事前トレーニングと微調整」は事実上のパラダイムになりました。通常、ImageNet事前トレーニング（INP）を使用してビデオコンテンツをエンコードし、タスク指向のネットワー

dataset

contrastive

video

arXiv reaDer

benchmark

representation learning

pre-training

captioning

arXiv
リンク
シングルビュー3D再構成ネットワークにおける再構成と認識に関するデータセット分散の視点
arxiv_reader 2021/12/01
シングルビュー3D再構成（SVR）用のニューラルネットワーク（NN）の人気が高まっています。最近の研究によると、SVRの場合、ほとんどの最先端のNNは、形状の再構築ではなく、主に認識（つまり、分類ベー

dataset

arXiv reaDer

benchmark

metric

synthesis

3D

reconstruction

arXiv
リンク
クロスドメイン表情認識：統一された評価ベンチマークと敵対的グラフ学習
arxiv_reader 2021/12/01
さまざまな表情認識（FER）データセット間のデータの不整合の問題に対処するために、近年、多くのクロスドメインFERメソッド（CD-FER）が広く考案されています。それぞれが優れたパフォーマンスを達成す

GCN

dataset

arXiv reaDer

representation

convolutional

adversarial

benchmark

face

arXiv

domain adaptation
リンク
MMPTRACK：ベンチマークを追跡する大規模な高密度注釈付きマルチカメラ複数人
arxiv_reader 2021/12/01
マルチカメラ追跡システムは、摩擦のないチェックアウトなど、高品質の追跡結果を必要とするアプリケーションで人気が高まっています。これは、単眼マルチオブジェクト追跡（MOT）システムが、閉塞のために雑然と

real time

re-id

dataset

arXiv reaDer

benchmark

monocular

domain

3D

arXiv

MOT
リンク
AirObject：オブジェクト識別のための時間的に進化するグラフ埋め込み
arxiv_reader 2021/12/01
オブジェクトのエンコードと識別は、自律的な探索、セマンティックシーンの理解、再ローカリゼーションなどのロボットタスクに不可欠です。以前のアプローチでは、オブジェクトを追跡するか、オブジェクトを識別する

robot

identification

embedding

occlusion

arXiv reaDer

representation

convolutional

3D

arXiv

keypoint
リンク
ラベル拡張を備えた自己監視型GAN
arxiv_reader 2021/12/01
最近、変換ベースの自己監視学習が生成的敵対的ネットワーク（GAN）に適用され、定常学習環境を導入することにより、弁別器の壊滅的な忘却を軽減しています。ただし、既存の自己監視GANの個別の自己監視タスク

dataset

self-supervised

arXiv reaDer

benchmark

representation learning

GAN

arXiv

augmentation
リンク
HEAT：構造化再構築のためのホリスティックエッジアテンショントランスフォーマー
arxiv_reader 2021/12/01
この論文は、構造化再構成のための新しい注意ベースのニューラルネットワークを提示します。これは、2Dラスター画像を入力として受け取り、基礎となる幾何学的構造を表す平面グラフを再構成します。このアプローチ

learning

arXiv reaDer

classification

detection

attention

reconstruction

arXiv

transformer
リンク
3D仮想試着システム用の単眼2D画像からのロバストな3D衣服のデジタル化
arxiv_reader 2021/12/01
この論文では、布のテクスチャのオクルージョンと大きな体のポーズの変化を伴う実際のファッションカタログ画像にうまく一般化できる堅牢な3D衣服デジタル化ソリューションを開発します。既知のタイプの衣服（Tシ

occlusion

arXiv reaDer

human

monocular

pose

synthesis

3D

sparse

arXiv

landmark
リンク
LossPlot：損失の状況を視覚化するためのより良い方法
arxiv_reader 2021/12/01
ディープニューラルネットワークの損失状況の調査は、多くの場合面倒です。この作業は、このプロセスを半自動化するためのプラットフォームを作成するためのユーザー主導のアプローチを文書化したものです。 Los

arXiv reaDer

arXiv

loss function
リンク
スケルトン行動認識のための匿名化
arxiv_reader 2021/12/01
スケルトンベースのアクション認識は、データセットの軽量でコンパクトな性質により、実践者や研究者を魅了します。 RGBビデオベースのアクション認識と比較して、スケルトンベースのアクション認識は、競争力の

dataset

person

arXiv reaDer

classification

estimation

trajectory

arXiv

action recognition
リンク
クリップされた双曲線分類子は超双曲線分類子です
arxiv_reader 2021/12/01
双曲空間は、階層構造を継続的に埋め込むことができます。双曲ニューラルネットワーク（HNN）は、分類のためにユークリッド特徴を双曲空間に持ち上げることによってそのような表現力を活用し、既知の階層構造を持

OOD

dataset

arXiv reaDer

adversarial

classification

benchmark

detection

arXiv
リンク
ビジョントランスフォーマー用の統一された剪定フレームワーク
最近、ビジョントランスフォーマー（ViT）とそのバリアントは、さまざまなコンピュータービジョンタスクで有望なパフォーマンスを達成しています。しかし、ViTの高い計算コストとトレーニングデータ要件は、リソースに制約のある設定でのアプリケーションを制限します。モデル圧縮は深層学習モデルを高速化するための効果的な方法ですが、ViTの圧縮に関する研究はあまり検討されていません。これまでの多くの作業は、トークンの数を減らすことに重点を置いています。ただし、この一連の攻撃はViTの空間構造を破壊し、ダウンストリームタスクに一般化するのは困難です。この論文では、ViTとそのバリアント、つまりUP-ViTの両方の構造的剪定のための統一されたフレームワークを設計します。私たちの方法は、モデル構造の一貫性を維持しながら、すべてのViTコンポーネントを枝刈りすることに焦点を当てています。豊富な実験結果は、私たち
arxiv_reader 2021/12/01
最近、ビジョントランスフォーマー（ViT）とそのバリアントは、さまざまなコンピュータービジョンタスクで有望なパフォーマンスを達成しています。しかし、ViTの高い計算コストとトレーニングデータ要件は、リ

learning

computer vision

compression

arXiv reaDer

representation

classification

detection

pruning

arXiv

transformer
リンク
目に見えないプライバシーを保護する画像ドメインからのベッド内の人間の姿勢推定
arxiv_reader 2021/12/01
医療アプリケーションは、コンピュータビジョンの急速な進歩から恩恵を受けています。特に患者のモニタリングでは、ベッド内での人間の姿勢の推定は、病状の評価において潜在的な価値を持つ重要な健康関連の指標を提

learning

computer vision

occlusion

self-supervised

arXiv reaDer

human pose estimation

domain

metric

pose estimation

arXiv
リンク
クロスモダリティ腹部多臓器セグメンテーションのためのソースフリーの教師なしドメイン適応
Source-free unsupervised domain adaptation for cross-modality abdominal multi-organ segmentation 腹部の多臓器セグメンテーションのために、ソースラベル付きCTデータセットからターゲットラベルなしMRデータセットに学習した知識を転送するためのドメイン適応を達成することは価値があります。一方、ターゲットデータセットの高い注釈コストを回避し、ソースデータセットのプライバシーを保護することが非常に望ましいです。したがって、ソースデータセットにアクセスせずにクロスモダリティ腹部多臓器セグメンテーションのための効果的なソースフリー教師なしドメイン適応方法を提案します。提案されたフレームワークのプロセスには、2つの段階があります。最初の段階では、特徴マップの統計損失を使用して、トップセグメンテーションネットワ
arxiv_reader 2021/12/01
腹部の多臓器セグメンテーションのために、ソースラベル付きCTデータセットからターゲットラベルなしMRデータセットに学習した知識を転送するためのドメイン適応を達成することは価値があります。一方、ターゲッ

CT

dataset

unsupervised

learning

arXiv reaDer

segmentation

arXiv

domain adaptation
リンク
ピラミッド敵対訓練はViTパフォーマンスを改善します
積極的なデータ拡張は、Vision Transf ormer（ViT）の強力な一般化機能の重要なコンポーネントです。そのようなデータ拡張手法の1つは、敵対的訓練です。しかし、多くの以前の研究は、これがしばしば不十分な洗浄精度をもたらすことを示しました。この作業では、ViTの全体的なパフォーマンスを向上させるためのシンプルで効果的な手法であるピラミッド敵対トレーニングを紹介します。これを「一致した」ドロップアウトと確率的深さの正則化と組み合わせます。これは、クリーンなサンプルと敵対的なサンプルに同じドロップアウトと確率的深さの構成を採用します。 AdvPropによるCNNの改善（ViTには直接適用されません）と同様に、Pyramid Adversarial Trainingは、ViTおよび関連アーキテクチャの配布内の精度と配布外の堅牢性の間のトレードオフを打ち破ります。 ImageNet-1K
arxiv_reader 2021/12/01
積極的なデータ拡張は、Vision Transformer（ViT）の強力な一般化機能の重要なコンポーネントです。そのようなデータ拡張手法の1つは、敵対的訓練です。しかし、多くの以前の研究は、これがし

OOD

arXiv reaDer

CNN

regularization

augmentation

adversarial

metric

arXiv

transformer
リンク
空中画像とクラウドソーシングの軌跡の出会い：堅牢な道路抽出への新しいアプローチ
arxiv_reader 2021/12/01
陸上リモートセンシング分析は、地球科学における重要な研究です。この作業では、土地分析の難しいタスク、つまりリモートセンシングデータからの交通道路の自動抽出に焦点を当てます。これは、都市開発と拡張推定に

arXiv reaDer

vehicle

benchmark

representation learning

trajectory

LiDAR

estimation

arXiv
リンク
TreeGAN：クラス生成を画像生成に組み込む
条件付き画像生成（CIG）は、コンピュータービジョンと機械学習で広く研究されている問題です。クラスを指定すると、CIGはこのクラスの名前を入力として受け取り、このクラスに属する一連のイメージを生成します。既存のCIG作品では、クラスごとに、クラス間の関係を考慮せずに、対応する画像が個別に生成されます。実際のアプリケーションでは、クラスは階層に編成されており、その階層関係は高忠実度の画像を生成するのに役立ちます。この論文では、条件付き画像生成のためにクラス階層を活用することを目指しています。クラス階層を組み込む2つの方法を提案します。事前制御と事後制約です。事前制御では、最初にクラス階層をエンコードし、次にそれを事前条件として条件付きジェネレーターにフィードして画像を生成します。制約後、画像が生成された後、クラス階層との整合性を測定し、整合性スコアを使用してジェネレーターのトレーニングをガイ
arxiv_reader 2021/12/01
条件付き画像生成（CIG）は、コンピュータービジョンと機械学習で広く研究されている問題です。クラスを指定すると、CIGはこのクラスの名前を入力として受け取り、このクラスに属する一連のイメージを生成し

dataset

learning

computer vision

embedding

arXiv reaDer

classification

arXiv
リンク
イジングモデルの状態変数を予測するためのビジョントランスフォーマーの微調整
arxiv_reader 2021/12/01
トランスフォーマーは、スタックされた注意と、シーケンシャルデータを処理するために設計されたポイントごとの完全に接続されたレイヤーで構成される最先端の深層学習モデルです。トランスフォーマーは、自然言語処

learning

computer vision

arXiv reaDer

CNN

attention

arXiv

transformer
リンク
ePose：EfficientPoseをより一般的に適用できるようにしましょう
arxiv_reader 2021/12/01
EfficientPoseは、印象的な3Dオブジェクト検出モデルです。特にRGB入力のみを使用することを考慮すると、高速でスケーラブルで正確であることが実証されています。このホワイトペーパーでは、Ef

dataset

arXiv reaDer

detection

3D

arXiv
リンク
LatentHuman：人体の形状とポーズの解きほぐされた潜在表現
arxiv_reader 2021/12/01
人体の3D表現と再構成は、コンピュータビジョンで長い間研究されてきました。従来の方法は、主にパラメトリック統計線形モデルに依存しており、可能なボディのスペースを線形結合に制限しています。いくつかのアプ

computer vision

arXiv reaDer

tracking

representation

human

pose

3D

reconstruction

arXiv

disentangling
リンク
ディープラーニングを使用した下顎管経路の自動トレース
arxiv_reader 2021/12/01
医療業界では、他の方法では手動で非効率的な検出とローカリゼーションのための自動システムを使用することがますます求められています。歯科では、下顎管の経路を正確に追跡することに大きな関心が寄せられています

learning

arXiv reaDer

localization

detection

3D

segmentation

arXiv

U-Net
リンク
批評家を信頼する：初期収束保証付きのジェネレータレスおよび多目的WGAN
Trust the Critics: Generatorless and Multipurpose WGANs with Initial Convergence Guarantees 最適な輸送理論からのアイデアに触発されて、生成モデリングの新しいアルゴリズムであるTrust the Critics（TTC）を紹介します。このアルゴリズムは、WassersteinGANからトレーニング可能なジェネレーターを排除します。代わりに、一連の訓練された評論家ネットワークで最急降下法を使用してソースデータを繰り返し変更します。これは、批評家の勾配によって提供される最適な輸送方向と、トレーニング可能なジェネレーターによってパラメーター化されたときにデータポイントが実際に移動する方向との間に観察された不整合によって部分的に動機付けられています。以前の研究は異なる視点から同様のアイデアに到達しましたが、最
arxiv_reader 2021/12/01
最適な輸送理論からのアイデアに触発されて、生成モデリングの新しいアルゴリズムであるTrust the Critics（TTC）を紹介します。このアルゴリズムは、WassersteinGANからトレーニ

denoising

generative

arXiv reaDer

gradient

arXiv
リンク
FBNetV5：1回の実行で複数のタスクを検索するニューラルアーキテクチャ
arxiv_reader 2021/12/01
ニューラルアーキテクチャ検索（NAS）は、正確で効率的な画像分類モデルを設計するために広く採用されています。ただし、NASを新しいコンピュータビジョンタスクに適用するには、依然として多大な労力が必要で

computer vision

arXiv reaDer

classification

human

detection

arXiv

semantic segmentation

disentangling

NAS
リンク
EAGAN：GANの効率的な2段階の進化的アーキテクチャ検索
arxiv_reader 2021/12/01
生成的敵対的ネットワーク（GAN）は、画像生成タスクで大成功を収めていることが証明されていますが、GANトレーニングには不安定性の問題があります。多くの作業により、GANアーキテクチャを手動で変更する

dataset

arXiv reaDer

human

GAN

arXiv

NAS
リンク
周波数領域を介したバックドア攻撃
arxiv_reader 2021/12/01
バックドア攻撃は、生体認証や自動運転などの深層学習システムに対する深刻な脅威であることが示されています。効果的なバックドア攻撃は、特定の事前定義された条件下、つまりトリガーの下でモデルの誤動作を強制す

dataset

learning

arXiv reaDer

domain

autonomous driving

arXiv
リンク
ビデオ理解モデルを視覚的に説明するための勾配周波数変調
arxiv_reader 2021/12/01
多くのアプリケーションでは、機械学習モデルが決定を下す理由を理解することが不可欠ですが、これは最先端のニューラルネットワークのブラックボックスの性質によって抑制されています。このため、ビデオ理解の分野

learning

video

arXiv reaDer

gradient

attention

arXiv

action recognition
リンク
GANトレーニングにおける高周波成分の影響の調査
arxiv_reader 2021/12/01
生成的敵対的ネットワーク（GAN）には、実際の画像と視覚的に区別できない画像を生成する機能があります。ただし、最近の研究では、生成された画像と実際の画像が周波数領域で大きな違いを共有していることが明ら

dataset

learning

arXiv reaDer

GAN

domain

arXiv

loss function
リンク
SketchEdit：部分スケッチによるマスクフリーのローカル画像操作
arxiv_reader 2021/12/01
スケッチベースの画像操作は、ユーザーからの入力スケッチに基づいて画像を変更するためのインタラクティブな画像編集タスクです。既存の方法では通常、このタスクを条件付き修復問題として定式化します。これには、

learning

self-supervised

arXiv reaDer

reconstruction

arXiv
リンク
個人の再識別のための教師なしドメインの一般化：ドメイン固有の適応フレームワーク
arxiv_reader 2021/12/01
ドメイン一般化（DG）は、最近、個人の再識別（ReID）で大きな注目を集めています。これは、複数のソースドメインでトレーニングされたモデルを、目に見えないターゲットドメインに一般化することを目的として

domain adaptation

arXiv reaDer

benchmark

arXiv

dataset

re-id

unsupervised

person

attention
リンク
MEGAN：時空間ビデオ超解像のためのメモリ強化グラフ注意ネットワーク
arxiv_reader 2021/12/01
時空間ビデオ超解像（STVSR）は、対応する低フレームレート、低解像度のビデオシーケンスから高時空間解像度のビデオシーケンスを構築することを目的としています。時空間超解像のための時空間情報を検討する最

super-resolution

residual

arXiv reaDer

arXiv

representation

attention

video
リンク
ホールロバストなワイヤーフレーム検出
arxiv_reader 2021/12/01
「ワイヤーフレーム」は、私たちを取り巻く規則的な構造形状の人工シーンの大規模な視覚的特性をうまくキャプチャするように設計された線分ベースの表現です。ワイヤーフレームとは異なり、従来のエッジまたはライン

occlusion

arXiv reaDer

saliency

representation

detection

GAN

attention

face

arXiv
リンク
最適化ベースのメタ学習を使用したビデオでのカメラの歪みを意識した3D人間の姿勢推定
arxiv_reader 2021/12/01
歪みのないデータセットでトレーニングされた既存の3D人間の姿勢推定アルゴリズムは、特定のカメラの歪みがある新しいシナリオに適用すると、パフォーマンスが低下します。この論文では、代表的な最適化ベースのメ

dataset

keypoint

video

arXiv reaDer

human pose estimation

synthesis

3D

arXiv

pose estimation
リンク
AssistSR：アフォーダンス中心の質問駆動型ビデオセグメント検索
AssistSR: Affordance-centric Question-driven Video Segment Retrieval 電話とARメガネのAIアシスタントが、「この時計の日付を調整する方法」などの質問に答えるのに私たちの日常生活を支援できることは、今でも夢のようなことです。と「加熱時間を設定する方法は？（オーブンを指さしながら）」。従来のタスク（つまり、ビデオの質問応答、ビデオの取得、モーメントのローカリゼーション）で使用されるクエリは、多くの場合、事実に基づいており、純粋なテキストに基づいています。対照的に、アフォーダンス中心の質問駆動型ビデオセグメント検索（AQVSR）と呼ばれる新しいタスクを提示します。私たちの質問はそれぞれ、日常生活におけるアイテムのアフォーダンスに焦点を当て、関連する回答セグメントが教育用ビデオトランスクリプトセグメントのコーパスから取得されるこ
arxiv_reader 2021/12/01
電話とARメガネのAIアシスタントが、「この時計の日付を調整する方法」などの質問に答えるのに私たちの日常生活を支援できることは、今でも夢のようなことです。と「加熱時間を設定する方法は？（オーブンを指さ

dataset

video

arXiv reaDer

localization

arXiv
リンク
単一光子3Dイメージングのための適応ゲーティング
arxiv_reader 2021/12/01
単一光子アバランシェダイオード（SPAD）は、深度検知タスクで人気が高まっています。ただし、SPADは、パイルアップの影響により、周囲光が高い場合でも苦労します。従来の手法では、固定または非同期のゲー

arXiv reaDer

reconstruction

arXiv

3D
リンク
変形テンプレートを使用した弱く教師ありのボリューム画像セグメンテーション
arxiv_reader 2021/12/01
弱い監視を使用してネットワークをトレーニングし、2D 画像をセグメント化するアプローチは数多くあります。対照的に、既存の 3D アプローチは、3D 画像ボリュームの 2D スライスのサブセットの完全な

CT

dataset

weakly-supervised

arXiv reaDer

MRI

segmentation

3D

sparse

arXiv
リンク
野生の単一画像のパノプティコン3D解析に向けて
arxiv_reader 2021/12/01
単一画像の全体的な理解と3D再構成を実行することは、コンピュータービジョンの中心的なタスクです。この論文では、単一のRGB画像から屋内および屋外のシーンの高密度シーンラベリング、オブジェクト検出、イン

computer vision

arXiv reaDer

panoptic segmentation

estimation

detection

autonomous driving

3D

reconstruction

arXiv

augmentation
リンク
多層ネットワーク上のグラフ処理に基づくハイパースペクトル画像セグメンテーション
Hyperspectral Image Segmentation based on Graph Processing over Multilayer Networks ハイパースペクトルイメージングは、環境科学、気象、地理/宇宙探査などの分野で幅広い用途と影響を与える重要なセンシング技術です。ハイパースペクトル画像（HSI）処理の重要なタスクの1つは、スペクトル空間特徴の抽出です。この作業では、多層ネットワーク（M-GSP）を介した最近開発されたグラフ信号処理を活用して、M-GSP特徴抽出に基づくHSIセグメンテーションへのいくつかのアプローチを提案します。結合スペクトル空間情報をキャプチャするには、最初にHSIのテンソルベースの多層ネットワーク（MLN）モデルをカスタマイズし、特徴抽出用のMLN特異空間を定義します。次に、MLNスペクトルクラスタリングを利用して、教師なしHSIセグメンテ
arxiv_reader 2021/12/01
ハイパースペクトルイメージングは、環境科学、気象、地理/宇宙探査などの分野で幅広い用途と影響を与える重要なセンシング技術です。ハイパースペクトル画像（HSI）処理の重要なタスクの1つは、スペクトル空間

unsupervised

arXiv reaDer

classification

semi-supervised

segmentation

arXiv

clustering
リンク
SCIDA：シングルラベルからマルチラベルの航空画像への自己修正統合ドメイン適応
arxiv_reader 2021/12/01
画像分類のために公開されているデータセットのほとんどは単一のラベルを使用していますが、画像は私たちの日常生活では本質的に複数のラベルが付けられています。このような注釈のギャップにより、事前にトレーニン

dataset

unsupervised

learning

weakly-supervised

arXiv reaDer

classification

pre-training

arXiv

domain adaptation
リンク
画像キャプションに対する神経的注意：優れた方法のレビュー
arxiv_reader 2021/12/01
画像のキャプションは、入力画像を可能な限り最良の方法で説明する文を自動的に生成するタスクです。画像キャプションを自動的に生成するための最も成功した手法は、最近、注意深い深層学習モデルを使用しています。

learning

arXiv reaDer

attention

captioning

arXiv
リンク
マルチ画像融合とレイヤー分離のためのニューラル画像表現
arxiv_reader 2021/12/01
暗黙的または座標ベースの神経表現としても知られる神経画像表現（NIR）を使用して、複数の画像を1つのビューに位置合わせおよび融合するためのフレームワークを提案します。私たちのフレームワークは、カメラの

optical flow

occlusion

arXiv reaDer

representation

arXiv
リンク
変形可能なProtoPNet：変形可能なプロトタイプを使用した解釈可能な画像分類器
arxiv_reader 2021/12/01
機械学習は、ヘルスケア、金融、刑事司法などのハイステークスアプリケーションを含む多くの分野で広く採用されています。公平性、説明責任、透明性の懸念に対処するには、これらの重要なドメインで機械学習モデルに

learning

computer vision

reasoning

arXiv reaDer

classification

domain

pose

arXiv
リンク
FloorPlanCAD：パノプティコンシンボルスポッティング用の大規模CAD図面データセット
arxiv_reader 2021/12/01
シンボルスポッティングアルゴリズムを開発するには、大規模で多様なコンピューター支援設計（CAD）図面へのアクセスが重要です。このホワイトペーパーでは、住宅から商業ビルまで、10,000を超える平面図を

GCN

dataset

arXiv reaDer

CNN

arXiv
リンク
自動運転のための天気と光のレベルの分類：データセット、ベースライン、アクティブラーニング
arxiv_reader 2021/12/01
自動運転は急速に進んでおり、レベル2の機能が標準装備になりつつあります。最も重要なハードルの1つは、精度の低下が深刻な悪天候や低照度条件で堅牢な視覚を取得することです。これらのシナリオで視覚の信頼性を

dataset

learning

video

arXiv reaDer

classification

autonomous driving

arXiv
リンク
医療画像解析における深層学習の最近の進歩と臨床応用
arxiv_reader 2021/12/01
ディープラーニングは、新しい医用画像処理アルゴリズムの開発に幅広い研究関心を集めており、ディープラーニングベースのモデルは、疾患の検出と診断をサポートするさまざまな医用画像タスクで非常に成功しています

dataset

unsupervised

learning

arXiv reaDer

classification

detection

semi-supervised

segmentation

arXiv
リンク
MultiPath ++：行動予測のための効率的な情報融合と軌道集約
arxiv_reader 2021/12/01
道路利用者の将来の行動を予測することは、自動運転における最も困難で重要な問題の1つです。この問題に深層学習を適用するには、豊富な知覚信号と地図情報の形で異種の世界状態を融合し、可能な将来にわたって高度

dataset

embedding

arXiv reaDer

representation

benchmark

trajectory

autonomous driving

domain

sparse

arXiv
リンク
マルチタスク学習による小児低悪性度神経膠腫のセグメンテーションの改善
arxiv_reader 2021/12/01
脳腫瘍のセグメンテーションは、腫瘍の体積分析とAIアルゴリズムにとって重要なタスクです。ただし、これは時間のかかるプロセスであり、神経放射線学の専門知識が必要です。成人集団における脳腫瘍のセグメンテー

learning

arXiv reaDer

MRI

segmentation

arXiv
リンク
神経膠腫脳腫瘍の弱く監視されたセグメンテーションのための局所的摂動
arxiv_reader 2021/12/01
ディープ畳み込みニューラルネットワーク（CNN）は、医用画像ベースのコンピューター支援診断パイプラインに不可欠なツールになっています。ただし、正確で信頼性の高いCNNをトレーニングするには、大規模な細

weakly-supervised

arXiv reaDer

CNN

localization

classification

3D

segmentation

arXiv

U-Net
リンク
スーパーニューロンによる画像のノイズ除去：なぜ深くなるのか？
arxiv_reader 2021/12/01
従来の画像ノイズ除去方法は、非局所的な自己相似性の原理を利用して、ノイズの多い画像から画像コンテンツを効果的に復元します。現在の最先端の方法では、深い畳み込みニューラルネットワーク（CNN）を使用して

denoising

learning

generative

arXiv reaDer

CNN

synthesis

arXiv
リンク
構造化グループのスパース性によって強化されたモーフ検出
arxiv_reader 2021/12/01
この論文では、国境警備局での使用に採用されているような顔認識システムの整合性を大幅に損なう顔モーフィング攻撃の課題について考察します。モーフ検出は、局所的な識別機能を利用して仮説を学習する、きめ細かい

face recognition

learning

arXiv reaDer

DNN

representation

detection

domain

arXiv
リンク
インタラクティブなジェネレーティブ描画ツールのための条件付きニューラルムーブメントプリミティブを備えたジェネレーティブ敵対的ネットワーク
arxiv_reader 2021/12/01
スケッチは、視覚と視覚空間構造の抽象的な表現です。この作業では、スケッチの滑らかさと一貫性を高めるために、CNMPに新たな敵対的損失を組み込んだ新しいフレームワークGAN-CNMPを提案しました。実験

generative

arXiv reaDer

representation

adversarial

arXiv
リンク
顔の特徴が静止環境で注意をどのように伝えるか
arxiv_reader 2021/12/01
認識検出テクノロジーは、さまざまな企業で注目を集めています。ドライバーの倦怠感の検出に最もよく使用される最近の研究は、オンライン教室などの環境でユーザーの注意を分析するためにコンピュータービジョンテク

computer vision

face

arXiv reaDer

CNN

SVM

convolutional

attention

detection

RNN

arXiv
リンク
社会的プロセス：非言語的社会的合図を予測するための会話グループに対する自己監視メタ学習
arxiv_reader 2021/12/01
社会的会話における人間の行動の予測におけるデフォルトのパラダイムは、関心のある特定の将来の意味イベント（例えば、話者の順番の変更、グループの離脱）を選択し、次にそれらの低レベルの非言語的手がかりとの関

learning

seq2seq

reasoning

self-supervised

arXiv reaDer

representation

human

arXiv
リンク
フローで行く: 点群の生成と再構築のための正規化フローの混合
arxiv_reader 2021/12/01
最近の正規化フロー (NF) は、推論時に任意の解像度でサンプリングできるようにしながら、3D 点群のモデリングで最先端のパフォーマンスを実証しています。ただし、これらのフローベースのモデルは、複雑な

dataset

unsupervised

arXiv reaDer

3D

reconstruction

arXiv

augmentation

point cloud
リンク
形態学的に制約された3D深層生成モデルによる反事実的増強による脳イメージングの公平なモデリング
arxiv_reader 2021/12/01
Countersynth、体積脳画像のラベル駆動、生物学的にもっともらしい変化を誘発する微分同相変形の条件付き生成モデルについて説明します。このモデルは、データの不均衡、分布の不安定性、交絡、または仕

generative

arXiv reaDer

classification

benchmark

3D

arXiv

augmentation
リンク
LightFuse: 軽量 CNN ベースの二重露光フュージョン
arxiv_reader 2021/12/01
ディープ畳み込みニューラルネットワーク（DCNN）支援のハイダイナミックレンジ（HDR）イメージングは、最近多くの注目を集めました。 DCNNで生成されたHDR画像の品質は、従来の画像を上回っています

arXiv reaDer

attention

arXiv

CNN
リンク
ロングテールオブジェクト検出とインスタンスセグメンテーションのためのモデルキャリブレーションについて
arxiv_reader 2021/12/01
オブジェクト検出とインスタンスセグメンテーションのバニラモデルは、ロングテール設定で頻繁なオブジェクトを検出することに大きな偏りがあります。既存の方法は、主にトレーニング中にこの問題に対処します。たと

dataset

arXiv reaDer

bias

detection

segmentation

arXiv
リンク
部分的に注釈が付けられたデータからの複数の密な予測タスクの学習
arxiv_reader 2021/12/01
密な予測問題のマルチタスク学習における最近の進歩にもかかわらず、ほとんどの方法は高価なラベル付きデータセットに依存しています。この論文では、ラベル効率の高いアプローチを提示し、部分的に注釈が付けられた

dataset

learning

arXiv reaDer

arXiv

benchmark

semi-supervised

multi-task
リンク
DAFormer：ドメイン適応型セマンティックセグメンテーションのためのネットワークアーキテクチャとトレーニング戦略の改善
DAFormer：ドメイン適応型セマンティックセグメンテーションのためのネットワークアーキテクチャとトレーニング戦略の改善 DAFormer: Improving Network Architectures and Training Strategies for Domain-Adaptive Semantic Segmentation セマンティックセグメンテーションのために実世界の画像のピクセル単位の注釈を取得することはコストのかかるプロセスであるため、代わりにモデルをよりアクセスしやすい合成データでトレーニングし、注釈を必要とせずに実際の画像に適合させることができます。このプロセスは、教師なしドメイン適応（UDA）で研究されています。多くの方法が新しい適応戦略を提案していますが、それらはほとんどが時代遅れのネットワークアーキテクチャに基づいています。最近のネットワークアーキテクチャの
arxiv_reader 2021/12/01
セマンティックセグメンテーションのために実世界の画像のピクセル単位の注釈を取得することはコストのかかるプロセスであるため、代わりにモデルをよりアクセスしやすい合成データでトレーニングし、注釈を必要とせ

unsupervised

learning

arXiv reaDer

bias

arXiv

benchmark

transformer

synthesis

domain adaptation

semantic segmentation
リンク
DeDUCE：反事実的説明を効率的に生成する
画像分類器が間違ったクラスラベルを出力する場合、画像のどのような変更が正しい分類につながるかを確認すると役立つ場合があります。これは、反事実的説明を生成するアルゴリズムの目的です。ただし、そのような反事実を生成するための簡単にスケーラブルな方法はありません。低計算コストでスペクトル正規化でトレーニングされた大きな画像分類器の反事実的説明を提供する新しいアルゴリズムを開発します。このアルゴリズムを文献のベースラインと経験的に比較します。私たちの新しいアルゴリズムは、元の入力にはるかに近い反事実を一貫して見つけます。同時に、これらの反事実のリアリズムはベースラインに匹敵します。すべての実験のコードは、https：//github.com/benedikthoeltgen/DeDUCEで入手できます。 When an image classifier outputs a wrong class
arxiv_reader 2021/12/01
画像分類器が間違ったクラスラベルを出力する場合、画像のどのような変更が正しい分類につながるかを確認すると役立つ場合があります。これは、反事実的説明を生成するアルゴリズムの目的です。ただし、そのような反

arXiv reaDer

arXiv

classification
リンク
Catch Me If You Hear Me: 複雑なマッピングされていない環境でのオーディオビジュアルナビゲーションと動く音
arxiv_reader 2021/12/01
視聴覚ナビゲーションは、視覚と聴覚を組み合わせて、マッピングされていない環境で音源にナビゲートします。最近のアプローチは、目標を検出して見つけるためのオーディオ入力の利点を示していますが、クリーンで静

arXiv reaDer

benchmark

reinforcement learning

3D

arXiv
リンク
ビジョントランスフォーマーによる建物の抽出
arxiv_reader 2021/12/01
高解像度のリモートセンシング画像からの建物の抽出は、都市計画、人口統計、経済評価、災害管理など、多くの地理空間アプリケーションで重要な役割を果たします。深層学習技術の進歩に伴い、深層畳み込みニューラル

dataset

computer vision

arXiv reaDer

CNN

classification

transformer

detection

domain

arXiv

semantic segmentation
リンク
位相情報と深い畳み込み特徴に基づく非線形強度水中ソナー画像マッチング法
Nonlinear Intensity Underwater Sonar Image Matching Method Based on Phase Information and Deep Convolution Features 深海探査の分野では、ソナーは現在、唯一の効率的な長距離検知装置です。ノイズ干渉、低いターゲット強度、バックグラウンドダイナミクスなどの複雑な水中環境は、ソナーイメージングに多くの悪影響をもたらしています。それらの中で、非線形強度の問題は非常に一般的です。これは、音響センサーイメージングの異方性としても知られています。つまり、自律型無人潜水機（AUV）がソナーを搭載して同じターゲットを異なる角度から検出する場合、画像ペア間の強度の変動が非常に大きくなることがあります。これにより、従来のマッチングアルゴリズムが実現します。ほとんど効果がありません。ただし、画像のマッ
arxiv_reader 2021/12/01
深海探査の分野では、ソナーは現在、唯一の効率的な長距離検知装置です。ノイズ干渉、低いターゲット強度、バックグラウンドダイナミクスなどの複雑な水中環境は、ソナーイメージングに多くの悪影響をもたらしていま

arXiv reaDer

vehicle

arXiv

convolutional
リンク
組織病理学組織テクスチャ検索のためのグラムバーコード
arxiv_reader 2021/12/01
デジタルパソロジーの最近の進歩により、生検画像のデータベースを検索して特定のクエリ画像に類似した症例を見つける組織病理学画像検索（HIR）システムが必要になっています。これらのHIRシステムにより、病

dataset

arXiv reaDer

CNN

pre-training

arXiv
リンク
スパースビューCT再構成のためのマルチドメイン統合SwinTransformerネットワーク
arxiv_reader 2021/12/01
ディープラーニングベースの断層画像再構成は、近年多くの注目を集めています。スパースビューデータの再構成は、典型的な劣決定逆問題の1つであり、数十の投影から高品質のCT画像を再構成する方法は実際には依然

CT

dataset

arXiv reaDer

residual

attention

domain

reconstruction

arXiv

transformer
リンク
ISNAS-DIP：画像固有のニューラルアーキテクチャによるディープイメージの事前検索
arxiv_reader 2021/12/01
最近の研究によると、畳み込みニューラルネットワーク（CNN）アーキテクチャには、低周波数へのスペクトルバイアスがあり、Deep Image Prior（DIP）フレームワークのさまざまな画像復元タスク

super-resolution

denoising

dataset

arXiv reaDer

CNN

bias

metric

reconstruction

arXiv

NAS
リンク
マルチタスク学習による交通予測のための転送の学習
Learning to Transfer for Traffic Forecasting via Multi-task Learning ディープニューラルネットワークは、短期間のトラフィック予測で優れたパフォーマンスを発揮しました。ただし、ほとんどの既存のトラフィック予測システムは、トレーニングデータとテストデータが同じ基礎となる分布から取得されることを前提としているため、実際の適用性が制限されます。 NeurIPS 2021 Traffic4castチャレンジは、空間と時間のドメインシフトに対するトラフィック予測モデルの堅牢性のベンチマークに特化した最初のチャレンジです。このテクニカルレポートでは、この課題に対するソリューションについて説明します。特に、トラフィック予測モデルの時間的および時空間ドメイン適応のためのマルチタスク学習フレームワークを提示します。実験結果は、私たちのマルチタ
arxiv_reader 2021/12/01
ディープニューラルネットワークは、短期間のトラフィック予測で優れたパフォーマンスを発揮しました。ただし、ほとんどの既存のトラフィック予測システムは、トレーニングデータとテストデータが同じ基礎となる分布

multi-task

domain adaptation

arXiv reaDer

arXiv

spatio-temporal

learning
リンク
AIに基づく自然なシーンのテキスト編集
記録された状況では、テキスト情報はシーンの解釈と意思決定に不可欠です。画像上でテキストを直接編集する機能には、エラー訂正、テキストの復元、画像の再利用性など、多くの利点があります。この調査は、文字と数字のレベルで画像テキストを変更する方法を示しています。私は、デジタル画像をエンコードおよびデコードし、ソース文字のフォントスタイルを学習してターゲット文字に転送するために、2部構成の文字と数字のネットワーク（LDN）を考案しました。この方法では、画像の大文字、小文字、数字を更新できます。 In a recorded situation, textual information is crucial for scene interpretation and decision making. The ability to edit text directly on images has a num
arxiv_reader 2021/12/01
記録された状況では、テキスト情報はシーンの解釈と意思決定に不可欠です。画像上でテキストを直接編集する機能には、エラー訂正、テキストの復元、画像の再利用性など、多くの利点があります。この調査は、文字と数

arXiv

interpretation

arXiv reaDer
リンク
UBoCo：一般的なイベント境界検出のための教師なし境界対照学習
arxiv_reader 2021/12/01
Generic Event Boundary Detection（GEBD）は、イベントの1レベル深いセマンティック境界を見つけることを目的とした、新しく提案されたビデオ理解タスクです。自然な人間の知

unsupervised

contrastive learning

video

arXiv reaDer

representation

benchmark

human

detection

arXiv
リンク
SAGCI-システム：サンプル効率が高く、一般化可能で、構成的で、インクリメンタルなロボット学習に向けて
arxiv_reader 2021/12/01
人間レベルで多種多様な環境で膨大な量のタスクを実行するための汎用ロボットの構築は、悪名高いほど複雑です。ロボットの学習は、サンプル効率が高く、一般化可能で、構成的で、段階的である必要があります。この作

robot

differentiable

video

learning

arXiv reaDer

human

simulation

arXiv

point cloud
リンク
野生の単眼ビデオからのヒューマンパフォーマンスキャプチャ
arxiv_reader 2021/12/01
服を着た人間の動的に変形する3D形状をキャプチャすることは、VR / AR、自動運転、人間とコンピューターの相互作用など、多くのアプリケーションにとって不可欠です。既存の方法は、高価なマルチビューイメ

dataset

video

arXiv reaDer

human

monocular

pose

autonomous driving

3D

arXiv
リンク
医用画像分類のための弱く監視された生成的敵対的ネットワーク
arxiv_reader 2021/12/01
弱教師あり学習は、近年人気のあるテクノロジーになっています。この論文では、弱教師あり生成的敵対的ネットワーク（WSGAN）と呼ばれる新しい医療画像分類アルゴリズムを提案します。これは、ラベルのない少数

dataset

contrastive learning

weakly-supervised

arXiv reaDer

classification

GAN

arXiv
リンク
自然シーンにおけるインスタンスごとのオクルージョンとデプスオーダー
arxiv_reader 2021/12/01
このホワイトペーパーでは、3D空間内のインスタンスの空間的関係を理解するために使用できるInstaOrderという名前の新しいデータセットを紹介します。データセットは、101Kの自然シーンにおけるクラ

dataset

computer vision

occlusion

arXiv reaDer

depth prediction

3D

arXiv
リンク
LiVLR：ビデオ質問応答のための軽量の視覚言語推論フレームワーク
arxiv_reader 2021/12/01
マルチモーダルビデオコンテンツの理解に基づいて特定の質問に正しく回答することを目的としたビデオ質問応答（VideoQA）は、豊富なビデオコンテンツのために困難です。ビデオ理解の観点から、優れたVide

video

reasoning

arXiv reaDer

representation

VQA

benchmark

arXiv
リンク
蒸留データによるオムニ監視の顔の表情認識
arxiv_reader 2021/12/01
本論文では、全教師あり学習を活用して、表情認識（FER）のパフォーマンスを向上させることを目標としています。現在の最先端のFERアプローチは、通常、限られた数のサンプルでモデルをトレーニングすることに

dataset

learning

arXiv reaDer

benchmark

face

arXiv

distillation
リンク
OCRを改善するための画像前処理と修正された適応しきい値
Image preprocessing and modified adaptive thresholding for improving OCR この論文では、テキスト内の主要なピクセル強度を見つけ、それに応じて画像をしきい値処理して、光学式文字認識（OCR）モデルに使用しやすくする方法を提案しました。私たちの方法では、画像全体を編集する代わりに、テキストの境界とそれらを塗りつぶす色を除く他のすべての機能を削除しています。このアプローチでは、入力画像からの文字のグレースケール強度がしきい値パラメータの1つとして使用されます。開発されたモデルのパフォーマンスは、PyTesseractによるOCRが続く画像処理の有無にかかわらず、入力画像で最終的に検証されます。得られた結果に基づいて、このアルゴリズムは、OCRの画像処理の分野で効率的に適用できることが観察できます。 In this paper
arxiv_reader 2021/12/01
この論文では、テキスト内の主要なピクセル強度を見つけ、それに応じて画像をしきい値処理して、光学式文字認識（OCR）モデルに使用しやすくする方法を提案しました。私たちの方法では、画像全体を編集する代わり

arXiv reaDer

arXiv
リンク
ディープモデルの公理的、階層的、および記号的な説明に向けて
arxiv_reader 2021/12/01
この論文では、推論のために十分に訓練された深いモデルによってエンコードされた内部ロジックを客観的に説明するために、階層的でシンボリックなAnd-Orグラフ（AOG）を提案します。まず、ゲーム理論で説明

arXiv reaDer

arXiv

representation
リンク
注意をそらす：顔の表情認識のためのマルチヘッドクロスアテンションネットワーク
arxiv_reader 2021/12/01
Distract your Attention Network（DAN）と呼ばれる新しい表情認識ネットワークを紹介します。私たちの方法は、2つの重要な観察に基づいています。まず、複数のクラスが本質的に

dataset

learning

arXiv reaDer

attention

face

arXiv

clustering
リンク
教師なし異常検出のためのインペインティングX線撮影画像
arxiv_reader 2021/12/01
放射線画像（略してSQUID）から異常を修復および検出するためのスペース認識メモリキューを提案します。放射線画像プロトコルは特定の身体領域に焦点を合わせているため、非常に類似した画像を生成し、患者全体

dataset

unsupervised

arXiv reaDer

recurrent

benchmark

anomaly detection

arXiv
リンク
QMagFace：シンプルで正確な品質を意識した顔認識
arxiv_reader 2021/12/01
顔認識システムは、不正確なマッチングの決定につながる可能性のある大きな変動（さまざまなポーズ、照明、表情など）を処理する必要があります。これらの変動性は、認識のためのサンプルの有用性に対して定義される

face recognition

arXiv reaDer

benchmark

pose

arXiv
リンク
3D形状分析のための内側スペクトル座標
arxiv_reader 2021/12/01
近年、表面メッシュ、それらのボクセル化された内部、または表面点群によって表される3Dオブジェクトの形状分析に対するコミュニティへの関心が再び高まっています。部分的には、この関心は、RGBDカメラの可用

RGB-D

computer vision

arXiv reaDer

classification

autonomous driving

3D

segmentation

arXiv

point cloud
リンク
- 2021年12月2日
- 2021年12月1日
- 2021年11月30日

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx