arxiv_readerのブックマーク / 2022年1月19日 - はてなブックマーク

arxiv_reader id:arxiv_reader

2022年1月19日のブックマーク (204件)

GANトレーニング用の既成モデルのアンサンブル
arxiv_reader 2022/01/19
大規模なトレーニングの出現により、強力な視覚認識モデルの宝庫が生まれました。ただし、GANなどの生成モデルは、従来、教師なしの方法でゼロからトレーニングされてきました。事前にトレーニングされたビジョン

GAN

arXiv

unsupervised

computer vision

arXiv reaDer

generative

dataset

embedding
リンク
ゼロショットプランナーとしての言語モデル：具体化されたエージェントのための実用的な知識の抽出
arxiv_reader 2022/01/19
大規模な言語モデル（LLM）によって学習された世界の知識を使用して、インタラクティブな環境で行動することはできますか？このホワイトペーパーでは、自然言語で表現された高レベルのタスク（「朝食を作る」など

zero-shot

arXiv

action

learning

human

arXiv reaDer

pre-training
リンク
GANmouflage：テクスチャフィールドを使用した3Dオブジェクトの非検出
arxiv_reader 2022/01/19
シーン内の3Dオブジェクトをカモフラージュすることを学習する方法を提案します。オブジェクトの形状とそれが見える視点の分布を考慮して、検出を困難にするテクスチャを推定します。このタスクをうまく解決するに

3D

arXiv

learning

human

arXiv reaDer

adversarial
リンク
低アノテーション予算のためのアクティブラーニングの最適化
arxiv_reader 2022/01/19
大量の注釈付きデータを想定できない場合は、能動学習が適切な戦略です。これは、少量の注釈付きデータ（注釈バジェット）でモデルを学習し、以前のモデルを改善して一般化するために注釈を付けるのに最適なポイント

pose

transfer learning

arXiv

arXiv reaDer

classification

dataset

pre-training
リンク
MUSE-VAE：環境を意識した長期軌道予測のためのマルチスケールVAE
arxiv_reader 2022/01/19
複数のエージェント（歩行者や車両など）が相互作用し、さまざまな、多くの場合未知の目標を達成しようとしながら環境と相互作用する複雑なシーンでの正確な長期軌道予測は、困難な確率的予測の問題です。この作業で

vehicle

trajectory

arXiv

arXiv reaDer

pedestrian

synthesis

dataset

representation

benchmark

spatio-temporal
リンク
ネットワークプルーニング用の重み依存ゲート
arxiv_reader 2022/01/19
この論文では、剪定指標、剪定率、および効率の制約の問題に同時に対処するために、単純でありながら効果的なネットワーク剪定フレームワークを提案します。この論文は、剪定の決定は畳み込みの重みに依存するべきで

pruning

arXiv reaDer

convolutional

arXiv
リンク
堅牢な偽造検出のための自己監視による実際の会話の顔の活用
arxiv_reader 2022/01/19
顔を操作したビデオを検出するための最も差し迫った課題の1つは、圧縮などの一般的な破損の下で効果を維持しながら、トレーニング中には見られない偽造方法に一般化することです。この論文では、自然な顔の外観と行

detection

compression

arXiv

video

arXiv reaDer

classification

representation

face

self-supervised
リンク
病気の検出のための画像ベースのモデルにおける保護された特性のアルゴリズムによる符号化
arxiv_reader 2022/01/19
臨床的意思決定にAIを使用すると、健康格差が拡大する可能性があることが正しく強調されています。機械学習モデルは、たとえば、患者の人種的アイデンティティと臨床転帰の間の望ましくない相関関係を検出する場合

detection

arXiv

learning

arXiv reaDer

bias
リンク
SAR画像での航空機検出のための注意機能の改良と位置合わせネットワーク
arxiv_reader 2022/01/19
合成開口レーダー（SAR）画像での航空機の検出は、航空機の外観が非常に離散的で、クラス内の変動が明らかで、サイズが小さく、背景の干渉が深刻なため、SAR自動目標認識（SAR ATR）領域では困難な作業

detection

arXiv

R-CNN

convolutional

arXiv reaDer

single-shot

synthesis

attention

dataset
リンク
自動運転のための状況に応じた車線とシンボルの生成
arxiv_reader 2022/01/19
この論文では、生成モデルを使用した車線検出とセグメンテーションの新しいアプローチを紹介します。従来、道路上のピクセルを意味的に分類するために識別モデルが採用されてきました。生成的敵対的ネットワークをト

quantization

detection

GAN

arXiv

segmentation

arXiv reaDer

classification

autonomous driving

dataset
リンク
解剖学的構造のセグメンテーションにおける観察者間の変動を定量化するための変分推論
arxiv_reader 2022/01/19
医用画像データから見える病変や臓器の境界はあいまいであることが多く、その結果、マルチリーダーの描写に大きなばらつきが生じます。つまり、偶然性の不確実性の原因になります。特に、磁気共鳴（MR）イメージン

arXiv

segmentation

arXiv reaDer

MRI

dataset
リンク
ライトフィールドネットワーク：単一評価レンダリングによるニューラルシーン表現
arxiv_reader 2022/01/19
2D観測から3Dシーンの表現を推測することは、コンピューターグラフィックス、コンピュータービジョン、および人工知能の基本的な問題です。新たな3D構造の神経シーン表現は、3Dシーンを理解するための有望な

3D

arXiv

sparse

arXiv reaDer

computer vision

real time

reconstruction

representation
リンク
3Dオブジェクト検出のための注意ベースの提案の改良
arxiv_reader 2022/01/19
安全な自動運転技術は、予測やナビゲーションなどのセーフティクリティカルなダウンストリームタスクへの入力を生成するため、正確な3Dオブジェクト検出に大きく依存しています。この分野における最近の進歩は、精

detection

3D

arXiv

arXiv reaDer

autonomous driving

real time

synthesis

attention
リンク
RAWビデオシーケンスの共同ノイズ除去とHDR
arxiv_reader 2022/01/19
一連のRAWマルチ露光画像のノイズ除去と融合を同時に行うためのパッチベースの方法を提案します。時空間基準を使用して、シーケンスに沿って同様のパッチを選択します。加重主成分分析により、複数の露出データの

arXiv

video

arXiv reaDer

denoising

spatio-temporal
リンク
自己監視学習に対するバックドア攻撃
arxiv_reader 2022/01/19
大規模なラベルのないデータは、豊かな視覚表現を学習する自己監視学習法の最近の進歩に拍車をかけています。画像（MoCo、BYOL、MSFなど）から表現を学習するための最先端の自己監視方式では、画像のラン

arXiv

learning

arXiv reaDer

knowledge distillation

representation

bias

embedding

self-supervised
リンク
MuSCLe：弱教師ありセマンティックセグメンテーションのためのマルチ戦略対照学習フレームワーク
MuSCLe: A Multi-Strategy Contrastive Learning Framework for Weakly Supervised Semantic Segmentation 弱教師ありセグメンテーション（WSSS）は、教師ありセグメンテーション（SSS）メソッドで必要なピクセルレベルの注釈ではなく、画像レベルの注釈などの弱いラベルのみに依存するため、非常に人気があります。注釈コストが大幅に削減されたにもかかわらず、WSSSから学習した典型的な特徴表現は、オブジェクトのいくつかの顕著な部分を表すだけであり、トレーニング中のガイダンスが弱いため、SSSと比較して信頼性が低くなります。この論文では、画像、領域、ピクセル、オブジェクトの境界レベルで対照的なサンプルペアの類似性と非類似性を活用することにより、拡張された機能表現を取得し、WSSSパフォーマンスを向上させる新し
arxiv_reader 2022/01/19
弱教師ありセグメンテーション（WSSS）は、教師ありセグメンテーション（SSS）メソッドで必要なピクセルレベルの注釈ではなく、画像レベルの注釈などの弱いラベルのみに依存するため、非常に人気があります。

contrastive learning

arXiv

arXiv reaDer

saliency

weakly-supervised

semantic segmentation

dataset

representation
リンク
視覚言語事前トレーニングによる医用画像とテキストのマルチモーダル理解と生成
arxiv_reader 2022/01/19
最近、多くの研究が、マルチモーダル事前トレーニングの目的で自己注意ベースのTransformerアーキテクチャを拡張することにより、画像キャプションや視覚的な質問応答などの多様な視覚言語マルチモーダル

transformer

arXiv

captioning

arXiv reaDer

classification

attention

domain

representation learning

dataset

pre-training
リンク
ASOCEM：クライオEMにおける汚染の自動セグメンテーション
粒子ピッキングは、現在、極低温電子顕微鏡法の単粒子再構成パイプラインにおける重要なステップです。取得した顕微鏡写真の汚染は、粒子ピッカーのパフォーマンスを大幅に低下させ、その結果、収集された粒子のスタックに多くの「非粒子」が生じます。この論文では、ASOCEM（クライオEMにおける汚染の自動セグメンテーション）を紹介します。これは、おおよその粒子サイズのみを入力として必要とする、汚染を検出してセグメント化する自動方法です。特に、パラメータの調整や手動による介入は必要ありません。私たちの方法は、汚染された領域の統計的分布が他の顕微鏡写真のそれとは異なるという観察に基づいています。この非制限的な仮定により、サポートグリッドのカーボンエッジからさまざまなサイズの高コントラストのブロブまで、さまざまなタイプの汚染を自動的に検出できます。さまざまなタイプの汚染を含むさまざまな実験データセットを使用し
arxiv_reader 2022/01/19
粒子ピッキングは、現在、極低温電子顕微鏡法の単粒子再構成パイプラインにおける重要なステップです。取得した顕微鏡写真の汚染は、粒子ピッカーのパフォーマンスを大幅に低下させ、その結果、収集された粒子のスタ

reconstruction

segmentation

arXiv reaDer

arXiv
リンク
セマンティックセグメンテーションにおける継続的な粗いドメインから細かいドメインへの適応
arxiv_reader 2022/01/19
ディープニューラルネットワークは通常、特定のタスクとデータ分散のために1回のショットでトレーニングされますが、実際の設定では、タスクとアプリケーションのドメインの両方が変更される可能性があります。この

arXiv

learning

single-shot

arXiv reaDer

knowledge distillation

domain adaptation

semantic segmentation

dataset

benchmark
リンク
すべてが頭の中にある：分類子の共有による表現知識の抽出
arxiv_reader 2022/01/19
表現知識の蒸留は、あるモデルから別のモデルに豊富な情報を転送することを目的としています。表現蒸留の現在のアプローチは、主にモデルの埋め込みベクトル間の距離メトリックの直接最小化に焦点を合わせています。

metric

arXiv

arXiv reaDer

classification

knowledge distillation

dataset

representation

face

embedding
リンク
コンテキストアウェアシーン予測ネットワーク（CASPNet）
arxiv_reader 2022/01/19
周囲の道路利用者の将来の動きを予測することは、自動運転（AD）およびさまざまな先進運転支援システム（ADAS）にとって非常に重要で困難な作業です。安全な将来の軌道を計画することは、交通シーンを理解し、

trajectory

RNN

arXiv

learning

arXiv reaDer

autonomous driving

CNN

dataset

benchmark
リンク
ビデオスナップショット圧縮イメージングのディープ平衡モデル
Deep Equilibrium Models for Video Snapshot Compressive Imaging 高次元（HD）データを効率的にキャプチャするスナップショット圧縮イメージング（SCI）システムの機能は、圧縮されたノイズの多い測定からHD信号を復元するという逆問題を引き起こしました。ディープラーニングの最近の進歩により、再構築アルゴリズムは急速に成長してそれを解決しますが、正確で安定した回復の根本的な問題は残っています。この目的のために、ビデオSCIの深平衡モデル（DEQ）を提案し、データ駆動型の正則化と安定した収束を理論的に適切な方法で融合します。各平衡モデルは、非拡張演算子を暗黙的に学習し、固定小数点を分析的に計算します。これにより、トレーニングとテストで一定のメモリ要件のみで、無制限の反復ステップと無限のネットワーク深度が可能になります。具体的には、DEQを
arxiv_reader 2022/01/19
高次元（HD）データを効率的にキャプチャするスナップショット圧縮イメージング（SCI）システムの機能は、圧縮されたノイズの多い測定からHD信号を復元するという逆問題を引き起こしました。ディープラーニン

regularization

RNN

arXiv

dataset

learning

video

arXiv reaDer

reconstruction
リンク
ZeroVL：限られたリソースで視覚言語表現を調整するための強力なベースライン
arxiv_reader 2022/01/19
先駆的なデュアルエンコーダの事前トレーニング作業（CLIPやALIGNなど）により、マルチモーダル表現を対照的な学習と整合させる可能性が明らかになりました。ただし、これらの作業には膨大な量のデータと計

contrastive learning

arXiv

arXiv reaDer

dataset

representation

pre-training
リンク
コンテキストアセンブルと強力なデータ拡張による画像マットの堅牢性の向上
arxiv_reader 2022/01/19
ディープイメージマット法は、ベンチマークでますます優れた結果を達成しています（Composition-1k / alphamatting.comなど）。ただし、トライマップへの堅牢性やさまざまなドメイ

transformer

arXiv

convolutional

arXiv reaDer

augmentation

attention

domain

benchmark
リンク
敵対的なビデオ生成のためのビデオ潜在性の自動エンコード
arxiv_reader 2022/01/19
ビデオ信号の3次元の複雑さを考えると、データ空間に大きな確率論が含まれるため、堅牢で多様なGANベースのビデオ生成モデルのトレーニングは面倒です。データの解きほぐされた表現を学習することは、ロバスト性

GAN

arXiv

learning

video

arXiv reaDer

disentangling

generative

adversarial

representation
リンク
マルチスキャナー乳がんの組織病理学的画像における有糸分裂検出のためのドメイン適応技術の評価
arxiv_reader 2022/01/19
乳がんは、世界中で最も一般的に診断されているがんであり、毎年200万を超える新しい症例があります。診断腫瘍の等級付け中に、病理学者は生検または腫瘍切除標本の分裂細胞（有糸分裂像）の数を手動で数えます。

detection

arXiv

unsupervised

human

arXiv reaDer

U-Net

domain adaptation

dataset
リンク
階層的な VAE は、知らないことを知っている
arxiv_reader 2022/01/19
ディープ生成モデルは、最先端の密度推定器として実証されています。しかし、最近の研究では、トレーニング分布の外部からのデータに高い尤度を割り当てることがよくあることがわかりました。この一見逆説的な振る舞

OOD

detection

arXiv

unsupervised

arXiv reaDer

generative

benchmark
リンク
RePre：再構成的な事前トレーニングによる自己監視型ビジョントランスフォーマーの改善
arxiv_reader 2022/01/19
最近、自己監視型ビジョントランスフォーマーは、その印象的な表現学習能力で前例のない注目を集めています。ただし、主な方法である対照学習は、主に、画像のグローバルな理解を学習するインスタンス識別口実タスク

transformer

contrastive learning

arXiv

arXiv reaDer

attention

representation learning

pre-training

self-supervised
リンク
Taylor3DNet: ランドマークポイントベースの Taylor シリーズによる高速 3D 形状推論
arxiv_reader 2022/01/19
連続した表現能力の恩恵を受けて、深い陰関数は任意の解像度で形状の等値面を抽出できます。ただし、陰関数として多数のパラメータを持つニューラルネットワークを利用すると、多数のクエリポイントをネットワークに

3D

arXiv

arXiv reaDer

reconstruction

representation
リンク
イランのナンバープレートの検出と認識のためのディープラーニングベースのフレームワーク
arxiv_reader 2022/01/19
ナンバープレート認識システムは、料金管理、駐車制御、交通管理などの多くのアプリケーションで非常に重要な役割を果たします。この論文では、イランのナンバープレート認識のために、深い畳み込みニューラルネット

detection

arXiv

R-CNN

learning

arXiv reaDer

classification

CNN

YOLO

dataset
リンク
STURE：オンラインマルチオブジェクトトラッキングにおけるロバストなデータアソシエーションのための時空間相互表現学習
arxiv_reader 2022/01/19
オンラインマルチオブジェクトトラッキング（MOT）は、コンピュータービジョンとインテリジェントな車両プラットフォームの長年のタスクです。現在、主なパラダイムは検出による追跡であり、このパラダイムの主な

MOT

detection

metric

vehicle

arXiv

computer vision

arXiv reaDer

representation learning

benchmark
リンク
焦点からの形状の深さを高めるための適応加重ガイド画像フィルタリング
arxiv_reader 2022/01/19
フォーカスからの既存の形状（SFF）技術では、一連のマルチフォーカス画像から深度エッジと微細な構造の詳細を保持できません。さらに、マルチフォーカス画像のシーケンスのノイズは、深度マップの精度に影響を与

arXiv reaDer

synthesis

arXiv
リンク
ピストル: 瞳孔、虹彩、目の開き、目の動き、瞳孔と虹彩の視線ベクトル、および 2D と 3D の視線を抽出する瞳孔の見えない支援ツール
arxiv_reader 2022/01/19
このホワイトペーパーでは、将来、瞳孔見えないプロジェクトやその他の視線追跡ツールで使用できるPistolという名前の特徴抽出および視線推定ソフトウェアについて説明します。オフラインモードでは、当社のソ

detection

3D

tracking

arXiv

arXiv reaDer

gaze

estimation
リンク
事前バイアスを使用したレジスタンストレーニング：バイアスのないシーングラフ生成に向けて
arxiv_reader 2022/01/19
シーングラフ生成（SGG）は、オブジェクトとペアワイズ関係を使用してシーンの構造化された表現を構築することを目的としています。これは、ダウンストリームタスクに役立ちます。ただし、現在のSGGメソッドは

transformer

arXiv

arXiv reaDer

representation

bias

benchmark
リンク
顔の表情の認識が少数のショット学習に出会うとき：共同および代替学習フレームワーク
arxiv_reader 2022/01/19
人間の感情には、基本的な表情と複合的な表情が含まれます。ただし、現在の顔の表情認識（FER）の研究は、主に基本的な表情に焦点を当てているため、実際のシナリオでは人間の感情の多様性に対処できていません。

regularization

multi-task

emotion

few-shot

arXiv

human

arXiv reaDer

domain

dataset

face
リンク
ネットワークプルーニングのためのプルーニング対応のスパース正則化
構造的ニューラルネットワークの剪定は、最終的な出力精度にとってそれほど重要ではないフィルターを剪定することにより、深い畳み込みニューラルネットワーク（CNN）の冗長チャネルを削除することを目的としています。剪定後のパフォーマンスの低下を減らすために、多くの方法では、スパース正則化による損失を利用して、構造化されたスパース性を生成します。この論文では、これらのスパース性トレーニングベースの方法を分析し、剪定されていないチャネルの正則化が不要であることを発見しました。さらに、ネットワークの容量が制限されるため、フィッティングが不十分になります。この問題を解決するために、剪定を意識したスパース正則化を使用した、MaskSparsityという名前の新しい剪定方法を提案します。 MaskSparsityは、モデルのすべてのフィルターではなく、プルーニングマスクによって選択された特定のフィルターにきめ
arxiv_reader 2022/01/19
構造的ニューラルネットワークの剪定は、最終的な出力精度にとってそれほど重要ではないフィルターを剪定することにより、深い畳み込みニューラルネットワーク（CNN）の冗長チャネルを削除することを目的としてい

regularization

arXiv

sparse

arXiv reaDer

CNN

pruning
リンク
ルーティングと操作のための変形可能な一次元オブジェクト検出
arxiv_reader 2022/01/19
ビデオフレームのストリーム全体で変形可能な1次元オブジェクト（ケーブル、ロープ、スレッドなど）をモデル化および追跡するための多くの方法が存在します。ただし、これらの方法は、いくつかの初期条件の存在に依

detection

tracking

arXiv

video

arXiv reaDer

occlusion
リンク
スクリーニングマンモグラフィ分類器のメタリポジトリ
arxiv_reader 2022/01/19
人工知能（AI）は、臨床診断の改善に有望です。乳がんのスクリーニングでは、最近の研究により、AIが早期のがん診断を改善し、不必要な精密検査を減らす可能性があることが示されています。提案されたモデルの数

classification

arXiv reaDer

arXiv
リンク
DDU-Net：高解像度リモートセンシング画像を使用した道路抽出用のデュアルデコーダーU-Net
DDU-Net: Dual-Decoder-U-Net for Road Extraction Using High-Resolution Remote Sensing Images 高解像度リモートセンシング画像（HRSI）から道路を抽出することは、自動運転、経路計画、道路ナビゲーションなど、さまざまなアプリケーションで不可欠です。長くて細い形状と、植生や建物によって引き起こされる色合いのために、小さいサイズの道路は識別がより困難です。複数のサイズの道路がHRSIに共存する場合の小型道路抽出の信頼性と精度を向上させるために、この論文ではDual-Decoder-U-Net（DDU-Net）と呼ばれる拡張ディープニューラルネットワークモデルを提案します。 U-Netモデルに動機付けられて、より詳細な機能のためのデュアルデコーダー構造を形成するために小さなデコーダーが追加されています。さらに
arxiv_reader 2022/01/19
高解像度リモートセンシング画像（HRSI）から道路を抽出することは、自動運転、経路計画、道路ナビゲーションなど、さまざまなアプリケーションで不可欠です。長くて細い形状と、植生や建物によって引き起こされ

arXiv

convolutional

arXiv reaDer

autonomous driving

U-Net

attention

dataset

pooling
リンク
畳み込みクモの巣：2D画像からのインクリメンタル学習のモデル
arxiv_reader 2022/01/19
このペーパーでは、視覚画像のラベルを段階的に学習して予測する機能をサポートする新しい概念形成アプローチを紹介します。この作業は、コンピュータービジョン研究からの畳み込み画像処理のアイデアを、人間が概念

arXiv

learning

computer vision

arXiv reaDer

CNN
リンク
教育活動予測のためのクロスモーダル対照蒸留
Cross-modal Contrastive Distillation for Instructional Activity Anticipation この研究では、過去の観察を前提として、もっともらしい将来の行動ステップを予測し、教育活動の予測のタスクを研究することを目指しています。アクションラベルの予測を目的とした以前の予測タスクとは異なり、私たちの作業は、将来のアクションステップの解釈可能で正確な説明を提供する自然言語出力を生成することを目的としています。教育ビデオから抽出されたセマンティック情報が不足しているため、これは困難な作業です。この課題を克服するために、視覚的予測タスクを支援するために関連する外部のテキスト知識を活用するための新しい知識蒸留フレームワークを提案します。ただし、以前の知識蒸留技術は、通常、同じモダリティ内で情報を転送します。蒸留プロセス中の視覚的モダリティと
arxiv_reader 2022/01/19
この研究では、過去の観察を前提として、もっともらしい将来の行動ステップを予測し、教育活動の予測のタスクを研究することを目指しています。アクションラベルの予測を目的とした以前の予測タスクとは異なり、私た

arXiv

action

activity

video

arXiv reaDer

knowledge distillation

contrastive

dataset
リンク
ProposalCLIP：CLIPキューの活用による教師なしオープンカテゴリオブジェクト提案の生成
arxiv_reader 2022/01/19
オブジェクト提案の生成は、コンピュータビジョンにおける重要かつ基本的なタスクです。本論文では、教師なしオープンカテゴリオブジェクト提案生成に向けた方法であるProposalCLIPを提案します。多数の

detection

arXiv

unsupervised

computer vision

arXiv reaDer

contrastive

dataset

pre-training
リンク
双方向クロスモーダルマッチングによる対になっていない参照式の接地
arxiv_reader 2022/01/19
表現の根拠を参照することは、コンピュータービジョンにおいて重要で挑戦的なタスクです。従来の参照接地での面倒な注釈を回避するために、ペアになっていない参照接地が導入されました。トレーニングデータには、対

adaptation

arXiv

learning

computer vision

arXiv reaDer

attention

dataset
リンク
OmniPrint：構成可能な印刷文字シンセサイザー
機械学習の研究を対象とした、孤立した印刷文字の合成データジェネレーターであるOmniPrintを紹介します。 MNIST、SVHN、Omniglotなどの有名なデータセットからインスピレーションを得ていますが、カスタマイズされた歪みを使用して、さまざまな言語、フォント、スタイルからさまざまな印刷文字を生成する機能を提供します。 27のスクリプトからの935のフォントと、さまざまな種類の歪みが含まれています。概念実証として、今後のMetaDL NeurIPS 2021コンテスト用に設計されたメタ学習データセットの例を含む、さまざまなユースケースを示します。 OmniPrintは、https：//github.com/SunHaozhe/OmniPrintで入手できます。 We introduce OmniPrint, a synthetic data generator of isolate
arxiv_reader 2022/01/19
機械学習の研究を対象とした、孤立した印刷文字の合成データジェネレーターであるOmniPrintを紹介します。 MNIST、SVHN、Omniglotなどの有名なデータセットからインスピレーションを得て

arXiv

learning

arXiv reaDer

synthesis

dataset
リンク
HydraFusion：堅牢で効率的な自動運転車の知覚のためのコンテキストアウェア選択センサーフュージョン
arxiv_reader 2022/01/19
自動運転車（AV）は輸送に革命をもたらすと期待されていますが、幅広い運転状況での堅牢な認識は依然として重要な課題です。 AV知覚を改善するために、カメラ、レーダー、およびLIDARセンサーからのセンサ

vehicle

LiDAR

arXiv

arXiv reaDer

identification
リンク
ROIベースのビジュアルトラッキングのための適応サブサンプリング：アルゴリズムとFPGA実装
arxiv_reader 2022/01/19
イメージセンサーの設計にプログラム可能な関心領域（ROI）の読み取り値を組み込むことにより、組み込みビジョンシステムのエネルギー効率を改善するための大きな可能性があります。この作業では、ROIが将来の

detection

tracking

arXiv

arXiv reaDer

real time

YOLO

dataset
リンク
不正確な非学習を評価するには、忘却を再検討する必要があります
不正確なマシンの学習を行わない既存の作業は、削除セットを削除した後に再トレーニングされたモデルとの区別がつかないようにすることに重点を置いています。区別がつかないことは不要であり、測定することは不可能であり、その実際的な緩和は不十分である可能性があると私たちは主張します。高いユーティリティとリソースの効率を維持しながら、削除セットに固有のすべての情報を忘れることとして、学習を取り消すという目標を再定義します。モデルから誤ってラベル付けされた偏ったデータを削除するという実用的なアプリケーションに動機付けられて、クラス間混乱（IC）と呼ばれる忘却の程度を測定するための新しいテストを紹介します。これにより、忘却の2つの側面を分析できます。（i）暗記と（ii）プロパティの一般化です。ブラックボックステストであるにもかかわらず、ICは、削除セットからの情報がネットワークの初期層まで消去されたかどうか
arxiv_reader 2022/01/19
不正確なマシンの学習を行わない既存の作業は、削除セットを削除した後に再トレーニングされたモデルとの区別がつかないようにすることに重点を置いています。区別がつかないことは不要であり、測定することは不可能

arXiv reaDer

arXiv
リンク
合成データを使用したUAVベースの画像でのオブジェクト検出の検証
arxiv_reader 2022/01/19
物体検出は、さまざまなアプリケーションで無人航空機（UAV）に搭載されることがますます使用されています。ただし、UAVベースの検出用の機械学習（ML）モデルは、UAVアプリケーションに関係のないタスク

detection

pose

arXiv

learning

arXiv reaDer

UAV

synthesis

dataset

benchmark
リンク
VAQF：低ビットビジョントランスフォーマー用の全自動ソフトウェア-ハードウェア共同設計フレームワーク
arxiv_reader 2022/01/19
注意メカニズムを備えたトランスフォーマーアーキテクチャは、自然言語処理（NLP）で成功を収めており、ビジョントランスフォーマー（ViT）は、最近、アプリケーションドメインをさまざまなビジョンタスクに拡

transformer

quantization

arXiv

arXiv reaDer

real time

synthesis

attention

domain

edge device
リンク
誰が監督者を監督しますか？ワークピース検査への応用を伴う深い特徴埋め込みを使用した生産中のモデル監視
Who supervises the supervisor? Model monitoring in production using deep feature embeddings with applications to workpiece inspection 状態監視とワークピース検査の自動化は、製造プロセスの高品質と高スループットを維持する上で重要な役割を果たします。この目的のために、機械学習の最近の発展により、自律的なプロセス監視の分野で大幅な改善がもたらされました。ただし、これらのモデルが複雑で強力になるほど、一般的に透明性と説明性が低下します。主な課題の1つは、これらの機械学習システムのライブ展開を監視し、モデルのパフォーマンスに影響を与える可能性のあるイベントが発生したときにアラートを発生させることです。特に、教師あり分類器は通常、基礎となるデータ分布の定常性を前提として
arxiv_reader 2022/01/19
状態監視とワークピース検査の自動化は、製造プロセスの高品質と高スループットを維持する上で重要な役割を果たします。この目的のために、機械学習の最近の発展により、自律的なプロセス監視の分野で大幅な改善がも

tracking

arXiv

unsupervised

learning

arXiv reaDer

classification

explainable

real time

representation

embedding
リンク
機械学習を使用して、2D画像の反射対称性から回転対称性を検出する
arxiv_reader 2022/01/19
自動対称性検出は、2021年でも依然として困難な作業です。ただし、コンピュータービジョンに応用されており、芸術を理解する上でも重要な役割を果たしています。このホワイトペーパーでは、さまざまな最先端の自

detection

arXiv

learning

computer vision

arXiv reaDer

classification
リンク
コンディショニングによる崩壊：限られたデータでクラス条件付きGANをトレーニングする
Collapse by Conditioning: Training Class-conditional GANs with Limited Data クラス条件付けは、離散入力変数に基づいて生成的敵対的ネットワーク（GAN）を制御する直接的な手段を提供します。多くのアプリケーションで必要ですが、クラスラベルによって提供される追加情報は、GAN自体のトレーニングに役立つと期待することもできます。この信念に反して、クラス条件付けは限られたデータ設定でモード崩壊を引き起こし、無条件の学習が満足のいく生成能力につながることを観察します。この観察に動機付けられて、無条件の学習を活用することにより、観察されたモード崩壊を効果的に防止する条件付きGAN（cGAN）のトレーニング戦略を提案します。私たちのトレーニング戦略は、無条件のGANから始まり、条件付き情報をジェネレーターと目的関数に徐々に注入しま
arxiv_reader 2022/01/19
クラス条件付けは、離散入力変数に基づいて生成的敵対的ネットワーク（GAN）を制御する直接的な手段を提供します。多くのアプリケーションで必要ですが、クラスラベルによって提供される追加情報は、GAN自体の

GAN

arXiv

learning

arXiv reaDer

dataset
リンク
神経コンピュータ断層撮影
一連の投影の取得中の動きは、個々のビューの高速取得にもかかわらず、コンピュータ断層撮影の再構成で重大なモーションアーチファクトを引き起こす可能性があります。心臓イメージングなどの場合、動きは避けられない場合があり、動きの評価は臨床的に重要な場合があります。モーションアーチファクトが低減された画像の再構成は、通常、ガントリーの回転が速いシステムを開発するか、変位を測定および/または推定するアルゴリズムを使用することで実現されています。ただし、これらのアプローチは、物理的な制約と、非剛性、時間的に変化する、患者固有の動きを推定/測定するという課題の両方のために、限られた成功しか収めていません。モーションアーチファクトのない時間分解画像を生成するための新しい再構成フレームワーク、NeuralCTを提案します。私たちのアプローチは、神経陰的アプローチを利用しており、基礎となる動きの推定やモデリング
arxiv_reader 2022/01/19
一連の投影の取得中の動きは、個々のビューの高速取得にもかかわらず、コンピュータ断層撮影の再構成で重大なモーションアーチファクトを引き起こす可能性があります。心臓イメージングなどの場合、動きは避けられな

metric

arXiv

arXiv reaDer

estimation

reconstruction
リンク
BDA-SketRet：ゼロショットSBIRのためのバイレベルドメイン適応
arxiv_reader 2022/01/19
ゼロショットスケッチベースの画像検索（ZS-SBIR）モデルの有効性は、2つの課題によって左右されます。スケッチと画像の間の巨大な分布ギャップには、適切なドメインアライメントが必要です。さらに、タスク

loss function

zero-shot

arXiv

arXiv reaDer

domain adaptation

adversarial

dataset
リンク
街路樹の自動定量化と視覚化
arxiv_reader 2022/01/19
街路樹の数を評価することは、都市の緑を評価するために不可欠であり、自治体が樹木が不足している街路を特定するためのソリューションを採用するのに役立ちます。また、時間の経過とともにさまざまなレベルの森林破

detection

metric

arXiv

human

video

arXiv reaDer

classification

dataset
リンク
地域レベルのアクティブ検出器学習
arxiv_reader 2022/01/19
物体検出のための能動学習は、従来、個々の検出を画像レベルの選択基準に集約する方法で分類のために開発された技術を適用することによって達成されます。これは通常、ラベル付けのために選択されたすべての画像に徹

detection

arXiv

learning

arXiv reaDer

classification

dataset
リンク
SimCVD：半教師あり医療画像セグメンテーションのための単純な対照ボクセルワイズ表現蒸留
arxiv_reader 2022/01/19
医療画像分析における自動セグメンテーションは、手動でラベル付けされた大量のデータを必要とする困難な作業です。ただし、ほとんどの既存の学習ベースのアプローチは、通常、手動で注釈が付けられた限られた医療デ

pose

arXiv

semi-supervised

unsupervised

segmentation

arXiv reaDer

distillation

augmentation

representation learning
リンク
デジタルヘルスケアにおける情報融合のためのデータハーモナイゼーション：最先端の系統的レビュー、メタ分析および将来の研究の方向性
arxiv_reader 2022/01/19
多施設データの偏りと分散を取り除くことは、大規模なデジタルヘルスケア研究では常に課題でした。これには、さまざまなスキャナーやプロトコルによって取得されたデータから抽出された臨床的特徴を統合して、安定性

metric

arXiv

arXiv reaDer

dataset

bias
リンク
AugLy：堅牢性のためのデータ拡張
arxiv_reader 2022/01/19
敵対的ロバスト性に焦点を当てたデータ拡張ライブラリであるAugLyを紹介します。 AugLyは、複数のモダリティ（オーディオ、画像、テキスト、およびビデオ）用のさまざまな拡張機能を提供します。これらの

arXiv

video

arXiv reaDer

augmentation

adversarial

benchmark
リンク
AutoAlign：マルチモーダル3Dオブジェクト検出のためのピクセルインスタンス機能集約
AutoAlign: Pixel-Instance Feature Aggregation for Multi-Modal 3D Object Detection RGB画像またはLiDARポイントクラウドのいずれかによるオブジェクト検出は、自動運転で広く研究されてきました。ただし、これら2つのデータソースを相互に補完的かつ有益なものにすることは依然として困難です。本論文では、3Dオブジェクト検出のための自動特徴融合戦略であるAutoAlignを提案する。カメラの射影行列との決定論的な対応を確立する代わりに、学習可能なアライメントマップを使用して画像と点群の間のマッピング関係をモデル化します。このマップにより、モデルは、動的でデータ駆動型の方法で不均一な機能の配置を自動化できます。具体的には、各ボクセルのピクセルレベルの画像特徴を適応的に集約するために、クロスアテンション特徴アラインメント
arxiv_reader 2022/01/19
RGB画像またはLiDARポイントクラウドのいずれかによるオブジェクト検出は、自動運転で広く研究されてきました。ただし、これら2つのデータソースを相互に補完的かつ有益なものにすることは依然として困難で

detection

3D

arXiv

LiDAR

arXiv reaDer

point cloud

autonomous driving

dataset

self-supervised
リンク
自由に行動するCaenorhabditiselegansにおける全脳活動の迅速な検出と認識
arxiv_reader 2022/01/19
高度な体積イメージング法と遺伝的にコード化された活動指標により、Caenorhabditiselegansの単一ニューロン分解能での全脳活動の包括的な特性評価が可能になりました。しかし、軟体動物の神経

detection

arXiv

activity

learning

arXiv reaDer

identification
リンク
効率的なコンテンツベースの検索のためにリモートセンシング画像を共同で圧縮および索引付けするための新しいフレームワーク
A Novel Framework to Jointly Compress and Index Remote Sensing Images for Efficient Content-Based Retrieval リモートセンシング（RS）イメージは通常、アーカイブのストレージサイズを縮小するために、圧縮形式で保存されます。したがって、RSの既存のコンテンツベースの画像検索（CBIR）システムでは、CBIRを適用する前に画像をデコードする必要があります（大規模なCBIR問題の場合は計算量が多くなります）。この問題に対処するために、この論文では、RS画像の圧縮とインデックス作成を同時に学習し、CBIRを適用する前にRS画像をデコードする必要をなくす共同フレームワークを紹介します。提案されたフレームワークは、2つのモジュールで構成されています。最初のモジュールは、RS画像を効果的に圧縮するこ
arxiv_reader 2022/01/19
リモートセンシング（RS）イメージは通常、アーカイブのストレージサイズを縮小するために、圧縮形式で保存されます。したがって、RSの既存のコンテンツベースの画像検索（CBIR）システムでは、CBIRを適

loss function

compression

arXiv

learning

arXiv reaDer

classification

gradient

representation
リンク
フーリエネット：光コヒーレンストモグラフィー画像におけるヘンレの繊維層セグメンテーションのための形状保存ネットワーク
FourierNet: Shape-Preserving Network for Henle's Fiber Layer Segmentation in Optical Coherence Tomography Images 網膜のヘンレの繊維層（HFL）は、目の黄斑の状態に関する貴重な情報を運びます。ただし、一般的な方法では、この層は個別にセグメント化されるのではなく、標準的な光コヒーレンストモグラフィー（OCT）イメージングでHFLの輪郭を認識することが難しいため、外顆粒層に含まれます。イメージングビームの下での反射率が変化するため、HFLの輪郭を描くには、指向性OCTが必要であり、追加のイメージングが必要になります。このホワイトペーパーでは、指向性OCTスキャンを使用した場合に得られる目標性能を使用して、標準OCTスキャンでHFLセグメンテーションを実現する形状保存ネットワークFou
arxiv_reader 2022/01/19
網膜のヘンレの繊維層（HFL）は、目の黄斑の状態に関する貴重な情報を運びます。ただし、一般的な方法では、この層は個別にセグメント化されるのではなく、標準的な光コヒーレンストモグラフィー（OCT）イメー

arXiv

learning

segmentation

arXiv reaDer

classification
リンク
ビデオ顕著性予測のための時空間自己注意ネットワーク
arxiv_reader 2022/01/19
3D畳み込みニューラルネットワークは、このペーパーで検討するビデオ顕著性予測を含む、コンピュータービジョンのビデオタスクで有望な結果を達成しました。ただし、3D畳み込みは、カーネルサイズに応じて固定さ

3D

arXiv

computer vision

arXiv reaDer

saliency

attention

CNN

dataset

benchmark

spatio-temporal
リンク
花ドメインにおける肺液細胞注釈のゲーミフィケーションの最初のステップ
arxiv_reader 2022/01/19
特に医療分野でのデータへの注釈付けには、専門知識と多大な労力が必要です。これにより、実験に利用できる医療データセットの量や有用性が制限されます。したがって、必要なドメイン知識を減らしながら注釈の数を増

classification

arXiv reaDer

domain

arXiv
リンク
フェイスマスク付きのマスクされた顔
arxiv_reader 2022/01/19
現代の顔認識システム（FRS）は、被験者が顔面マスクを着用している場合でも不十分です。これは、呼吸器パンデミックの時代に一般的なテーマです。直感的な部分的な解決策は、マスク検出器を追加してマスクされた

detection

arXiv

face recognition

arXiv reaDer

adversarial
リンク
潜在的セグメンテーション空間へのノイズ注入によるセマンティックセグメンテーションCycleGANのパフォーマンスの改善
Improving Performance of Semantic Segmentation CycleGANs by Noise Injection into the Latent Segmentation Space 近年、セマンティックセグメンテーションはコンピュータビジョンのさまざまな研究から恩恵を受けています。非常に用途の広いCycleGANアーキテクチャに着想を得て、セマンティックセグメンテーションとサイクル整合性の概念を組み合わせて、マルチタスクトレーニングプロトコルを実現します。ただし、学習は、潜在的なセグメンテーションドメインで透かしとして表現される、いわゆるステガノグラフィ効果によって大幅に妨げられ、画像の再構成が非常に簡単な作業になります。これに対抗するために、サイクルアーキテクチャにおけるこの不利な情報フローを回避するために、量子化ノイズまたはガウスノイズ加算のいず
arxiv_reader 2022/01/19
近年、セマンティックセグメンテーションはコンピュータビジョンのさまざまな研究から恩恵を受けています。非常に用途の広いCycleGANアーキテクチャに着想を得て、セマンティックセグメンテーションとサイク

quantization

arXiv

dataset

learning

computer vision

arXiv reaDer

domain

semantic segmentation

reconstruction
リンク
胎児超音波デートスキャンにおける臨床プロトコル遵守の深層学習ベースの品質評価
Deep Learning-based Quality Assessment of Clinical Protocol Adherence in Fetal Ultrasound Dating Scans 妊娠中の胎児の健康状態を評価するために、医師は頭殿長（CRL）測定に基づく在胎週数（GA）の計算を使用して、胎児のサイズと成長軌道をチェックします。ただし、CRLに基づくGA推定では、胎児の頭頂部と尻部のビューにキャリパーを適切に配置する必要があります。これは、特に経験の浅い超音波検査技師にとって、必ずしも簡単に見つけることができる平面ではありません。真のCRLビューからわずかに斜めのビューを見つけると、CRL値が異なり、GAの推定が正しくなくなる可能性があります。この研究は、取得した平面の正確さを検証するために使用される7つの臨床スコアリング基準を検証することにより、CRLビューの品質
arxiv_reader 2022/01/19
妊娠中の胎児の健康状態を評価するために、医師は頭殿長（CRL）測定に基づく在胎週数（GA）の計算を使用して、胎児のサイズと成長軌道をチェックします。ただし、CRLに基づくGA推定では、胎児の頭頂部と尻

trajectory

arXiv

arXiv reaDer

GA

estimation
リンク
SwinUNet3D-シフトされたウィンドウトランスフォーマーを使用したディープトラフィック予測のための階層アーキテクチャ
arxiv_reader 2022/01/19
トラフィック予測は、モビリティ管理の重要な要素であり、ロジスティクス業界を動かす重要な鍵です。長年にわたり、時系列を使用した交通予測や時空間動的予測で多くの作業が行われてきました。このホワイトペーパー

transformer

arXiv reaDer

3D

arXiv
リンク
生成的機械学習モデルによる逆問題の正規化
arxiv_reader 2022/01/19
逆イメージング問題へのディープニューラルネットワークアプローチは、過去数年間で印象的な結果を生み出しました。この論文では、逆問題への変分正則化アプローチにおける生成モデルの使用を検討します。考慮される

GAN

arXiv

learning

arXiv reaDer

dataset
リンク
ESRGANを使用した単一画像超解像のための二重知覚損失
Dual Perceptual Loss for Single Image Super-Resolution Using ESRGAN 知覚損失の提案は、ピクセルごとの差損失関数が再構成された画像を過度に滑らかにするという問題を解決し、単一画像の超解像再構成の分野で大きな進歩を遂げます。さらに、生成的敵対的ネットワーク（GAN）が超解像フィールドに適用され、再構成された画像の視覚的品質を効果的に向上させます。しかし、高いアップスケーリング要因の条件下では、ネットワークの過度の異常な推論により、いくつかの歪んだ構造が生成されるため、再構成された画像とグラウンドトゥルース画像の間に一定の偏差があります。再構成画像の品質を根本的に改善するために、本論文は、単一画像超解像再構成の問題を解決するために元の知覚損失を置き換えるために使用される二重知覚損失（DP損失）と呼ばれる効果的な方法を提案した。
arxiv_reader 2022/01/19
知覚損失の提案は、ピクセルごとの差損失関数が再構成された画像を過度に滑らかにするという問題を解決し、単一画像の超解像再構成の分野で大きな進歩を遂げます。さらに、生成的敵対的ネットワーク（GAN）が超解

loss function

GAN

arXiv

dataset

learning

arXiv reaDer

reasoning

super-resolution

reconstruction

benchmark
リンク
自己蒸留とネガティブサンプリングによる自己監視異常検出
arxiv_reader 2022/01/19
例が特定の配布内に属しているのか、配布外（OOD）であるのかを検出するには、配布内に固有の機能を識別する必要があります。ラベルがない場合、これらの機能は、最も抽象的な機能が同じドメインの他の分布と比較

anomaly detection

OOD

arXiv

unsupervised

arXiv reaDer

domain

benchmark

self-supervised
リンク
UWC：迅速なネットワーク圧縮に向けたユニット単位のキャリブレーション
この論文では、高性能で高効率の畳み込みニューラルネットワーク〜（CNN）量子化を実現するトレーニング後量子化〜（PTQ）法を紹介します。以前のPTQメソッドは通常、レイヤーごとのパラメーターキャリブレーションを実行することで圧縮エラーを減らします。ただし、極端に圧縮されたパラメータの表現能力が低い場合（たとえば、ビット幅が4未満になる場合）、すべてのレイヤーごとのエラーを排除することは困難です。この作業は、ユニット単位の誤差の2次テイラー級数展開の観測に基づく単位単位の特徴再構成アルゴリズムを提案することによってこの問題に対処します。これは、隣接するレイヤーのパラメーター間の相互作用を活用することで、レイヤーごとのエラーをより適切に補正できることを示しています。この論文では、いくつかの隣接する層を基本ユニットとして定義し、量子化誤差を最小限に抑えることができるユニットごとのトレーニング後の
arxiv_reader 2022/01/19
この論文では、高性能で高効率の畳み込みニューラルネットワーク〜（CNN）量子化を実現するトレーニング後量子化〜（PTQ）法を紹介します。以前のPTQメソッドは通常、レイヤーごとのパラメーターキャリブレ

quantization

compression

arXiv

arXiv reaDer

CNN

reconstruction
リンク
RestoreFormer：劣化していないキーと値のペアからの高品質のブラインドフェイスの復元
arxiv_reader 2022/01/19
ブラインドフェイスの復元は、未知の劣化から高品質の顔画像を復元することです。顔画像にはコンテキスト情報が豊富に含まれているため、コンテキスト情報をモデル化するための完全な空間的注意を調査し、ローカル演

transformer

arXiv

arXiv reaDer

reconstruction

synthesis

dataset

face
リンク
登録支援のプロトタイプ学習を使用した、施設をまたがる男性の骨盤臓器の数ショット画像セグメンテーション
Few-shot image segmentation for cross-institution male pelvic organs using registration-assisted prototypical learning このクラスのラベル付きの例が地元の医療提供者から入手できる場合、目に見えない解剖学的または病理学的構造などの新しいクラスに医療画像セグメンテーションネットワークを適応させる機能が求められています。これは、現代の深層学習モデルを臨床診療に展開する際に広く認識されている2つの制限、専門知識と労働集約的なラベリング、および施設間の一般化に対処する可能性があります。この作品は、関心のある8つの領域を持つ前立腺癌患者からのラベル付き多施設データセットを使用して、医用画像用の最初の3D数ショットクラス間セグメンテーションネットワークを提示します。標準的なプロトタイプ学
arxiv_reader 2022/01/19
このクラスのラベル付きの例が地元の医療提供者から入手できる場合、目に見えない解剖学的または病理学的構造などの新しいクラスに医療画像セグメンテーションネットワークを適応させる機能が求められています。これ

few-shot

3D

arXiv

learning

segmentation

arXiv reaDer

dataset
リンク
解釈可能な単眼高さ推定のための解きほぐされた潜在トランス
arxiv_reader 2022/01/19
リモートセンシング画像からの単眼高さ推定（MHE）は、自然災害への迅速な対応のために3D都市モデルを効率的に生成する上で高い可能性を秘めています。ほとんどの既存の作品は、より高いパフォーマンスを追求し

transformer

3D

arXiv

unsupervised

dataset

monocular

arXiv reaDer

disentangling

semantic segmentation

estimation
リンク
深層生成ネットワークで非現実的な画像を引き起こすニューロンを見つけることができますか？
arxiv_reader 2022/01/19
Generative Adversarial Networksを使用した画像生成は、高品質の画像を生成する優れた能力を示していますが、GANは、フォトリアリスティックな画像が生成されることを常に保証す

arXiv reaDer

GAN

arXiv
リンク
H＆E-敵対的ネットワーク：ヘマトキシリン＆エオシン回帰を通じて染色不変の特徴を学習する畳み込みニューラルネットワーク
arxiv_reader 2022/01/19
計算病理学は、全スライド画像（WSI）と呼ばれる大きなデジタル化された組織病理学画像を自動的に分析するアルゴリズムを開発することを目的としたドメインです。 WSIは、特定の構造を可視化するために染色さ

arXiv

arXiv reaDer

classification

domain

CNN

dataset
リンク
ニューラルアーキテクチャの風景センサー全体の検索：センサーの違いはどれくらいですか？
Landscape of Neural Architecture Search across sensors: how much do they differ ? ニューラルアーキテクチャ検索の急速な台頭に伴い、検索アルゴリズムの観点からその複雑さを理解する能力が望まれています。最近、Traoréetal。は、ニューラルアーキテクチャの探索問題の記述と比較に役立つ、フィットネスランドスケープフットプリントのフレームワークを提案しています。これは、検索戦略がターゲットタスクで成功、苦労、または失敗する理由を説明しようとします。私たちの研究は、センサーデータの融合を含むセンサー全体の検索のコンテキストでこの方法論を活用しています。特に、ニューラルネットワークのハイパーパラメータ最適化問題に最も有益なセンサーを特定するために、So2SatLCZ42の実際の画像分類問題にFitnessLandsc
arxiv_reader 2022/01/19
ニューラルアーキテクチャ検索の急速な台頭に伴い、検索アルゴリズムの観点からその複雑さを理解する能力が望まれています。最近、Traoréetal。は、ニューラルアーキテクチャの探索問題の記述と比較に役立

classification

NAS

arXiv reaDer

arXiv
リンク
クロスカメラデータアソシエーションのためのグラフニューラルネットワーク
クロスカメラ画像データの関連付けは、マルチカメラ歩行者検出、マルチカメラマルチターゲットトラッキング、3Dポーズ推定など、多くのマルチカメラコンピュータービジョンタスクに不可欠です。この関連付けタスクは、通常、2分割グラフマッチングとして表されます。問題があり、多くの場合、最小コストのフロー手法を適用することで解決されます。これは、大きなデータでは計算効率が悪い場合があります。さらに、カメラは通常、グローバルなソリューションを一度に見つけるのではなく、ペアで処理され、ローカルなソリューションを取得します。その他の重要な問題は、親和性測定の問題です。ユークリッド距離やコサイン距離など、学習不可能な事前定義された距離が広く使用されています。この論文は、ペアでカメラを処理するのではなく、グローバルソリューションに焦点を合わせたクロスカメラデータアソシエーションのための効率的なアプローチを提案しま
arxiv_reader 2022/01/19
クロスカメラ画像データの関連付けは、マルチカメラ歩行者検出、マルチカメラマルチターゲットトラッキング、3Dポーズ推定など、多くのマルチカメラコンピュータービジョンタスクに不可欠です。この関連付けタスク

detection

affinity

3D

arXiv

tracking

pose estimation

computer vision

arXiv reaDer

pedestrian

GNN
リンク
効率的なビデオ認識のためのアクションキーポイントネットワーク
ビデオ認識モデルの効率を向上させるには、冗長性を減らすことが重要です。効果的なアプローチは、全体的なビデオから有益なコンテンツを選択し、動的なビデオ認識方法の人気のあるファミリーを生み出すことです。ただし、既存の動的な方法は、冗長性が通常は空間的および時間的であるという現実を無視しながら、時間的または空間的選択に独立して焦点を合わせています。さらに、彼らが選択したコンテンツは通常、固定された形でトリミングされますが、有益なコンテンツの現実的な配布ははるかに多様になる可能性があります。これらの2つの洞察を基に、このペーパーでは、時間的および空間的選択をアクションキーポイントネットワーク（AK-Net）に統合することを提案します。 AK-Netは、さまざまなフレームと位置から、任意の形状の領域に散在するいくつかの有益なポイントをアクションキーポイントのセットとして選択し、ビデオ認識をポイントク
arxiv_reader 2022/01/19
ビデオ認識モデルの効率を向上させるには、冗長性を減らすことが重要です。効果的なアプローチは、全体的なビデオから有益なコンテンツを選択し、動的なビデオ認識方法の人気のあるファミリーを生み出すことです。た

arXiv

action

video

convolutional

arXiv reaDer

point cloud

classification

keypoint

benchmark
リンク
ビデオ行動認識のための階層的対照運動学習
arxiv_reader 2022/01/19
ビデオアクション認識の1つの中心的な問題は、モーションのモデリング方法です。この論文では、生のビデオフレームから効果的なモーション表現を抽出するための新しい自己教師付き学習フレームワークである階層的

contrastive learning

action recognition

arXiv

video

arXiv reaDer

representation

benchmark

self-supervised
リンク
二重拡散ベースの神経放射輝度フィールドからの陰的身体表現の学習
arxiv_reader 2022/01/19
この論文では、DD-NeRFと呼ばれる、新しい二重拡散ベースのニューラルラディアンスフィールドを提示して、人体のジオメトリを再構築し、まばらな画像セットから新しいビューで人体の外観をレンダリングします

pose

3D

arXiv

dataset

human

sparse

arXiv reaDer

synthesis

reconstruction

representation
リンク
明確なベンチマーク：実世界の画像に関する継続的な学習
arxiv_reader 2022/01/19
継続学習（CL）は、生涯AIにとって重要な課題と広く見なされています。ただし、既存のCLベンチマーク（Permuted-MNISTやSplit-CIFARなど）は、人為的な時間的変動を利用しており、現

arXiv

semi-supervised

unsupervised

learning

arXiv reaDer

classification

dataset

pre-training

benchmark
リンク
Continual Transformers: オンライン推論のための冗長性のない注意
arxiv_reader 2022/01/19
トランスフォーマーは注意ベースのシーケンストランスダクションモデルであり、自然言語処理およびコンピュータービジョンアプリケーションで広く成功を収めています。それでも、現在の形式のトランスフォーマーは、

transformer

detection

arXiv

action

computer vision

arXiv reaDer

classification

attention
リンク
異種ソースを使用したリアルなビジュアルダビングに向けて
arxiv_reader 2022/01/19
数ショットの視覚的吹き替えのタスクは、唇の動きを、話しているヘッドビデオの任意の音声入力と同期させることに焦点を当てています。現在のアプローチは中程度に改善されていますが、通常、ビデオとオーディオの高

few-shot

arXiv

video

arXiv reaDer

landmark

disentangling

representation

face
リンク
ディープラーニングとロケーションプライアを使用した頸動脈内腔と血管壁のセグメンテーション
Segmentation of the Carotid Lumen and Vessel Wall using Deep Learning and Location Priors このレポートでは、頸動脈血管壁セグメンテーションチャレンジの方法と結果を紹介します。手元のセグメンテーション問題を解決するために、U-Netアーキテクチャとロケーション事前分布を利用した画像ベースのパイプラインを提案します。 In this report we want to present our method and results for the Carotid Artery Vessel Wall Segmentation Challenge. We propose an image-based pipeline utilizing the U-Net architecture and location
arxiv_reader 2022/01/19
このレポートでは、頸動脈血管壁セグメンテーションチャレンジの方法と結果を紹介します。手元のセグメンテーション問題を解決するために、U-Netアーキテクチャとロケーション事前分布を利用した画像ベースのパ

arXiv

learning

segmentation

arXiv reaDer

U-Net
リンク
頭頸部腫瘍の自動セグメンテーション：トランスフォーマーはどれほど強力ですか？
arxiv_reader 2022/01/19
癌は世界の主要な死因の1つであり、頭頸部（H＆N）癌は最も一般的な種類の1つです。陽電子放出断層撮影法とコンピューター断層撮影法は、腫瘍領域を検出してセグメント化するために使用されます。臨床的には、腫

transformer

arXiv

learning

segmentation

arXiv reaDer

CT

CNN
リンク
自動X線スキャン品質向上アルゴリズムによる臨床診断パフォーマンスの改善
arxiv_reader 2022/01/19
臨床診断では、スキャンデバイスから取得された診断画像は、質の高い医療を提供するプロセスにおけるさらなる調査の予備的な証拠として機能します。ただし、多くの場合、医用画像には、ノイズ、ぼやけ、および機器の

arXiv

human

arXiv reaDer

super-resolution

dataset
リンク
トレーニング可能なマイクロエクスプレッション（および大規模な合成データセット）を構成するアクションユニット
arxiv_reader 2022/01/19
費用のかかるデータ収集プロセスのため、マイクロエクスプレッション（MiE）データセットは一般に、他のコンピュータービジョン分野のデータセットよりも規模がはるかに小さく、大規模なトレーニングは実行不可能

arXiv

action

human

video

computer vision

arXiv reaDer

face

synthesis

dataset

pre-training
リンク
SimIPU：空間認識視覚表現のための単純な2D画像と3D点群の教師なし事前トレーニング
arxiv_reader 2022/01/19
事前トレーニングは、多くのコンピュータビジョンタスクの標準的なパラダイムになっています。ただし、ほとんどの方法は通常、RGB画像ドメインで設計されています。 2次元画像平面と3次元空間の間の不一致のた

contrastive learning

3D

arXiv

LiDAR

unsupervised

computer vision

arXiv reaDer

point cloud

domain

pre-training
リンク
複数の劣化を伴うブラインド超解像のための条件付きメタネットワーク
arxiv_reader 2022/01/19
単一画像の超解像（SISR）手法は、単一の劣化で大きな成功を収めましたが、実際のシナリオでは、複数の劣化の影響でパフォーマンスが低下します。最近、複数の劣化に対するいくつかのブラインドモデルと非ブライ

super-resolution

arXiv reaDer

contrastive

arXiv
リンク
事前の深い翻訳：フォトリアリスティックなスタイルの転送のためのテスト時間トレーニング
Deep Translation Prior: Test-time Training for Photorealistic Style Transfer 深い畳み込みニューラルネットワーク（CNN）内でのフォトリアリスティックなスタイル転送を解決する最近の手法では、一般に大規模なデータセットからの集中的なトレーニングが必要であるため、適用範囲が限られており、見えない画像やスタイルへの一般化能力が低くなっています。これを克服するために、Deep Translation Prior（DTP）と呼ばれる新しいフレームワークを提案します。これは、トレーニングされていないネットワークを使用した特定の入力画像ペアでのテスト時間トレーニングを通じてフォトリアリスティックなスタイルの転送を実現します。パフォーマンスと一般化。スタイル転送のためのそのようなテスト時間トレーニングに合わせて、対応および生成モジ
arxiv_reader 2022/01/19
深い畳み込みニューラルネットワーク（CNN）内でのフォトリアリスティックなスタイル転送を解決する最近の手法では、一般に大規模なデータセットからの集中的なトレーニングが必要であるため、適用範囲が限られて

loss function

arXiv

arXiv reaDer

contrastive

CNN

dataset
リンク
剪定とXNOR-Net：エッジデバイスでのオーディオ分類のためのディープラーニングの包括的な研究
arxiv_reader 2022/01/19
ディープラーニングは、コンピュータービジョンやマシンリスニングなど、モノのインターネット（IoT）に関連する多くのアプリケーション分野で大きな成功を収めてきました。これらのテクノロジーは、IoTのディ

quantization

compression

arXiv

learning

computer vision

arXiv reaDer

classification

edge device

benchmark

pruning
リンク
極限状態での顔検出：機械学習アプローチ
arxiv_reader 2022/01/19
さまざまな表情、明るさ、色合いのフリンジにより、制限のない状態での顔検出は長年問題となってきました。最近の研究によると、戦略に関する深層学習の知識は、さまざまなガジェットやパターンの識別の中で素晴らし

detection

pose

arXiv

learning

convolutional

arXiv reaDer

landmark

occlusion

face

identification
リンク
ビデオ段落キャプションの一貫性を評価するための談話分析
Discourse Analysis for Evaluating Coherence in Video Paragraph Captions ビデオ段落のキャプションは、ビデオ内のアクションの一貫した段落の説明を自動的に生成するタスクです。以前の言語学的研究は、自然言語テキストの一貫性がその談話構造と関係に反映されていることを示しています。ただし、既存のビデオキャプション方法は、生成された段落の一貫性を、人間の段落の注釈と比較するだけで評価し、基礎となる談話構造について推論することはできません。 UCLAでは、現在、ビデオ段落の一貫性を評価するための新しい談話ベースのフレームワークを模索しています。私たちのアプローチの中心は、ビデオの談話表現です。これは、ビデオの一貫性を条件とする段落の一貫性をモデル化するのに役立ちます。また、3000本のビデオとその段落の提案された視覚的談話注釈を含む
arxiv_reader 2022/01/19
ビデオ段落のキャプションは、ビデオ内のアクションの一貫した段落の説明を自動的に生成するタスクです。以前の言語学的研究は、自然言語テキストの一貫性がその談話構造と関係に反映されていることを示しています。

arXiv

action

captioning

human

video

arXiv reaDer

dataset

representation
リンク
特徴保存点群フィルタリングにおける均一な点分布に向けて
arxiv_reader 2022/01/19
3Dデータの一般的な表現として、点群にはノイズが含まれている可能性があり、使用する前にフィルタリングする必要があります。既存のポイントクラウドフィルタリング方法では、シャープな特徴を保持できないか、フ

3D

arXiv

arXiv reaDer

point cloud

representation
リンク
自動運転車の目を欺く：交通標識認識システムに対する強力な物理的敵対的例
arxiv_reader 2022/01/19
敵対的生成ネットワーク（AE）は、ディープニューラルネットワーク（DNN）を欺く可能性があり、最近多くの注目を集めています。ただし、AEに関する研究の大部分はデジタル領域で行われ、敵対的なパッチは静的

detection

vehicle

arXiv

arXiv reaDer

real time

adversarial

attention

YOLO

DNN

domain
リンク
LoGフィルターとそのゼロクロッシングを使用した高速で正確な虹彩セグメンテーション方法
A fast and accurate iris segmentation method using an LoG filter and its zero-crossings この論文は、ガウスのラプラシアン（LoG）フィルター、領域成長、およびLoGフィルターのゼロ交差に基づいて虹彩の局在化を達成するためのハイブリッドアプローチを提示します。提案された方法では、瞳孔領域を検出するために、領域が成長するLoGフィルターが使用されます。続いて、LoGフィルターのゼロ交差を使用して、内側と外側の円形境界を正確にマークします。 LoGベースのブロブ検出とゼロクロッシングを使用すると、内側と外側の円の検出が高速で堅牢になります。提案された方法は、MMUバージョン1.0、CASIA-IrisV1およびCASIA-IrisV3-ランプの3つの公開データベースでテストされています。実験結果は、提案された
arxiv_reader 2022/01/19
この論文は、ガウスのラプラシアン（LoG）フィルター、領域成長、およびLoGフィルターのゼロ交差に基づいて虹彩の局在化を達成するためのハイブリッドアプローチを提示します。提案された方法では、瞳孔領域を

detection

arXiv

segmentation

arXiv reaDer

localization
リンク
地震ボリュームにおける顕著な構造検出のための新しい注意モデル
arxiv_reader 2022/01/19
地震学的解釈への新しいアプローチは、視覚と人間の視覚系モデリングを活用するために提案されています。具体的には、地震データボリューム内の地下構造を識別するために、新しい注意モデルに基づく顕著性検出アルゴ

detection

one-shot

arXiv

human

video

arXiv reaDer

saliency

interpretation

attention

dataset
リンク
SunCast：静止衛星データからの太陽放射ナウキャスト
arxiv_reader 2022/01/19
雲の層が太陽光発電（PV）パネルを覆う場合、パネルが生成する電力量は急速に変動します。したがって、電力網で需要に見合うだけの十分なエネルギーを維持するために、公益事業会社は、通常は化石燃料から供給され

arXiv

learning

satellite

convolutional

arXiv reaDer
リンク
新しい先例による後方適応
arxiv_reader 2022/01/19
事後確率の直接推定と分析に基づく分類アプローチは、元のクラスの事前確率が変化し始めると低下します。独自の（スケールアップした）ソリューションが、元のクラス事後確率とデータセット事前確率からテスト例のデ

adaptation

arXiv

arXiv reaDer

classification

estimation

dataset
リンク
画像合成のための逆にロバストなネットワークの反転
arxiv_reader 2022/01/19
無条件の機能インバーターが多くの合成タスクの基盤であるにもかかわらず、それらをトレーニングするには、大きな計算オーバーヘッド、デコード能力、または追加の自己回帰事前分布が必要です。敵対的に堅牢なエンコ

anomaly detection

arXiv

arXiv reaDer

disentangling

synthesis

autoregressive

denoising
リンク
生成的敵対的ネットワークを使用した指紋の合成と再構築
Synthesis and Reconstruction of Fingerprints using Generative Adversarial Networks ディープラーニングベースのモデルは、指紋認識の精度を向上させることが示されています。これらのアルゴリズムは並外れたパフォーマンスを示しますが、トレーニングと評価には大規模な指紋データセットが必要です。この作業では、このような大規模なデータセットの取得に関連するプライバシーの問題に対処するために、StyleGan2アーキテクチャに基づく新しい指紋合成および再構築フレームワークを提案します。また、生成された指紋のIDを保持しながら、それらの属性を変更するための計算アプローチを導き出します。これにより、指ごとに複数の異なる指紋画像を合成できます。特に、100Kの画像ペアで構成されるSynFing合成指紋データセットを紹介します。各ペ
arxiv_reader 2022/01/19
ディープラーニングベースのモデルは、指紋認識の精度を向上させることが示されています。これらのアルゴリズムは並外れたパフォーマンスを示しますが、トレーニングと評価には大規模な指紋データセットが必要です。

GAN

arXiv

arXiv reaDer

reconstruction

synthesis

dataset
リンク
YOLO-あなたは10647回しか見えません
arxiv_reader 2022/01/19
この作業では、10647個の固定領域提案の並列分類として、「You Only LookOnce」（YOLO）の単一ステージオブジェクト検出アプローチについて説明します。 YOLOの各出力ピクセルが、ロ

detection

arXiv

arXiv reaDer

classification

YOLO
リンク
超音波画像のロバストな散乱体数密度セグメンテーション
arxiv_reader 2022/01/19
Quantitative UltraSound（QUS）は、臨床スキャナーからの後方散乱エコー信号を使用して、組織の微細構造に関する情報を明らかにすることを目的としています。さまざまなQUSパラメータ

multi-task

arXiv

segmentation

arXiv reaDer

classification

domain adaptation

CNN

simulation

estimation
リンク
プラグアンドプレイ事前確率と確率的勾配降下法による最大事後推定について
On Maximum-a-Posteriori estimation with Plug & Play priors and stochastic gradient descent イメージングの逆問題を解くベイズ法は、通常、明示的なデータ尤度関数と、解の期待される特性を明示的にモデル化する事前分布を組み合わせます。局所的な特性を表現する単純なものから、非局所的なスケールで画像の冗長性を利用するより複雑なものまで、多くの種類の先例が文献で調査されてきました。明示的なモデリングとは異なり、最近のいくつかの研究では、画像のノイズ除去アルゴリズムによって定義された暗黙の事前分布の使用が提案され、研究されています。プラグアンドプレイ（PnP）正則化として一般に知られているこのアプローチは、特に畳み込みニューラルネットワークに基づく最先端のノイズ除去装置と組み合わせると、非常に正確な結果を提供できま
arxiv_reader 2022/01/19
イメージングの逆問題を解くベイズ法は、通常、明示的なデータ尤度関数と、解の期待される特性を明示的にモデル化する事前分布を組み合わせます。局所的な特性を表現する単純なものから、非局所的なスケールで画像の

arXiv

arXiv reaDer

Bayesian

gradient

CNN

estimation

denoising
リンク
階層的ビジョンモデルにおけるスパースコーディングによる推論
arxiv_reader 2022/01/19
スパースコーディングは、その計算上の利点と生物学への接続のために視覚野のモデルに組み込まれています。しかし、スパース性のレベルが視覚的なタスクのパフォーマンスにどのように寄与するかはよく理解されていま

classification

arXiv reaDer

sparse

arXiv
リンク
TranSalNet：知覚的に関連する視覚的顕著性予測に向けて
arxiv_reader 2022/01/19
畳み込みニューラルネットワーク（CNN）は、顕著性予測のための非常に高度な計算モデリングを備えています。ただし、人間の皮質の視覚的注意のメカニズムを正確にシミュレートすることは、学術的な課題のままです

transformer

arXiv

human

arXiv reaDer

saliency

attention

CNN

bias

benchmark
リンク
河川の水位を検出するためのエッジマップベースのアンサンブルソリューション
arxiv_reader 2022/01/19
洪水は、今日最も危険な気象イベントの1つです。 2015年から2019年の間に、平均して、洪水は米国だけで毎年130人以上の死者を出しました。洪水の壊滅的な性質は、入ってくる洪水を検出するために川や小

metric

arXiv reaDer

arXiv
リンク
ディープラーニングモデルを使用して、脳腫瘍MRIスキャンからMGMTプロモーターのメチル化を予測することは可能ですか？
arxiv_reader 2022/01/19
膠芽腫は一般的な脳の悪性腫瘍であり、高齢者に発生する傾向があり、ほとんどの場合致命的です。ほとんどの種類の癌の標準治療である化学療法の有効性は、MGMTプロモーターとして知られる腫瘍の特定の遺伝子配列

transformer

3D

arXiv

learning

arXiv reaDer

MRI

CNN

dataset
リンク
BVMatch：鳥瞰図画像を使用したLIDARベースの場所認識
arxiv_reader 2022/01/19
点群データの性質がまばらであるため、大規模な環境でLidarを使用して場所を認識することは困難です。この論文では、2D相対ポーズを推定できるLidarベースのフレーム間場所認識フレームワークであるBV

3D

arXiv

LiDAR

pose estimation

sparse

arXiv reaDer

point cloud

dataset
リンク
ALA：自然性を意識した正則化による敵対的な明度攻撃
arxiv_reader 2022/01/19
ほとんどの研究者は、特殊な敵対的例を使用してDNNの脆弱性を明らかにし、修復することによって、ディープニューラルネットワーク（DNN）の堅牢性を強化しようとしています。攻撃の例の一部には、Lpノルムに

regularization

arXiv

dataset

human

arXiv reaDer

classification

adversarial

DNN

denoising
リンク
スパース性を介したディープニューラルネットワークの一般化の推定
arxiv_reader 2022/01/19
一般化は、ディープニューラルネットワーク（DNN）の重要な機能です。ただし、DNNの一般化能力の信頼できる尺度を、その性質のみを介して提供することは困難です。本論文では、ネットワークのスパース性に基づ

DNN

arXiv

arXiv reaDer

estimation

dataset
リンク
PETS-SWINF：2021Kaggleコンペティション「PetFinder.my」でのpawpularity予測のためにメタデータベースのニューラルネットワークを使用して画像を考慮する回帰法
PETS-SWINF：2021Kaggleコンペティション「PetFinder.my」でのpawpularity予測のためにメタデータベースのニューラルネットワークを使用して画像を考慮する回帰法 PETS-SWINF: A regression method that considers images with metadata based Neural Network for pawpularity prediction on 2021 Kaggle Competition "PetFinder.my" 何百万もの野良動物が路上で苦しんでいるか、世界中の避難所で毎日安楽死させられています。野良動物をよりよく採用するためには、野良動物の足の長さ（かわいさ）を採点することは非常に重要ですが、動物の足の長さを評価することは非常に労働集約的なことです。その結果、動物の足の長さをスコアリングするア
arxiv_reader 2022/01/19
何百万もの野良動物が路上で苦しんでいるか、世界中の避難所で毎日安楽死させられています。野良動物をよりよく採用するためには、野良動物の足の長さ（かわいさ）を採点することは非常に重要ですが、動物の足の長さ

dataset

arXiv reaDer

arXiv
リンク
自己監視とマルチタスク学習：胸部X線からの細粒度COVID-19マルチクラス分類における課題
arxiv_reader 2022/01/19
特に重症の場合、COVID-19感染の影響を軽減するために、迅速、正確、かつ自信を持って診断することの価値を損なうことはできません。胸部X線画像からCOVID-19感染を分類および検出するための深層学

arXiv

learning

arXiv reaDer

classification

dataset

COVID-19
リンク
暗黙の表現とハイパーネットワークによる3Dシーンのスタイリング
arxiv_reader 2022/01/19
この作業では、3Dシーンの定型化の問題に対処することを目的としています。つまり、任意の新しいビュー角度でシーンの定型化された画像を生成します。簡単な解決策は、既存の新しいビュー合成と画像/ビデオスタイ

3D

arXiv

human

arXiv reaDer

synthesis

representation
リンク
CISRNet：圧縮画像超解像ネットワーク
arxiv_reader 2022/01/19
近年、シングルイメージ超解像（SISR）に関する多くの研究が行われています。しかし、私たちの知る限り、これらの研究のいくつかは主に圧縮画像に焦点を当てています。複雑な圧縮アーティファクトなどの問題は、

compression

arXiv

learning

arXiv reaDer

super-resolution

residual
リンク
医療画像セグメンテーションのためのドメイン適応に向けた自己ペースの対照学習のマージン保存
arxiv_reader 2022/01/19
教師なしドメイン適応（UDA）でソースドメインとターゲットドメインの間のギャップを埋めるために、最も一般的な戦略は、敵対的学習を通じて特徴空間の周辺分布を一致させることに焦点を当てています。ただし、こ

contrastive learning

arXiv

unsupervised

arXiv reaDer

domain adaptation

adversarial

semantic segmentation

representation
リンク
ゼロショット学習された敵対的トランスフォーマーによる教師なしMRI再構成
arxiv_reader 2022/01/19
監視あり再構成モデルは、データの一貫性を確保するためのイメージングオペレーターに関する監視とともに、事前にMRIをキャプチャするために、アンダーサンプリングされたデータと完全にサンプリングされたデータ

zero-shot

reconstruction

unsupervised

arXiv reaDer

adversarial

generative

transformer

arXiv

MRI

convolutional
リンク
アフィン再構成からユークリッド再構成までの光学衛星画像による3Dシーン構造の追求
arxiv_reader 2022/01/19
複数の光学衛星画像を使用して3Dシーン構造を復元する方法は、リモートセンシング分野での挑戦的で重要な問題です。文献の既存の方法のほとんどは、少なくとも39個のGCP（地上制御点）を必要とする古典的なR

3D

arXiv

dataset

satellite

arXiv reaDer

reconstruction
リンク
DualFormer：効率的なビデオ認識のためのローカル-グローバル階層化トランスフォーマー
arxiv_reader 2022/01/19
トランスフォーマーは、長距離の依存関係をキャプチャする強力な機能を備えたビデオ認識タスクに大きな可能性を示していますが、ビデオ内の膨大な数の3Dトークンに対する自己注意操作によって引き起こされる高い計

transformer

3D

arXiv

video

arXiv reaDer

attention

benchmark
リンク
教師なし、弱監視、および地域監視の変更検出のための生成的敵対的ネットワークを備えた完全畳み込み変更検出フレームワーク
教師なし、弱監視、および地域監視の変更検出のための生成的敵対的ネットワークを備えた完全畳み込み変更検出フレームワーク Fully Convolutional Change Detection Framework with Generative Adversarial Network for Unsupervised, Weakly Supervised and Regional Supervised Change Detection 変化検出のための深層学習は、リモートセンシングの分野で現在注目されているトピックの1つです。ただし、ほとんどのエンドツーエンドネットワークは、監視あり変更検出用に提案されており、監視なし変更検出モデルは、従来の事前検出方法に依存しています。したがって、教師なし、弱教師あり、地域教師あり、および完全教師ありの変化検出タスクを1つのフレームワークにまとめるために、
arxiv_reader 2022/01/19
変化検出のための深層学習は、リモートセンシングの分野で現在注目されているトピックの1つです。ただし、ほとんどのエンドツーエンドネットワークは、監視あり変更検出用に提案されており、監視なし変更検出モデル

detection

GAN

arXiv

unsupervised

learning

convolutional

arXiv reaDer

weakly-supervised
リンク
ハードラベル攻撃の歪みを減らすための最適な接点を見つける
arxiv_reader 2022/01/19
ブラックボックスの敵対的攻撃の大きな問題の1つは、上位1つの予測ラベルのみが使用可能なハードラベル攻撃設定でのクエリの複雑さです。この論文では、接線攻撃（TA）と呼ばれる新しい幾何学ベースのアプローチ

arXiv

arXiv reaDer

adversarial

dataset

pre-training
リンク
分離されたドメインの一般化のための協調的なセマンティックアグリゲーションとキャリブレーション
arxiv_reader 2022/01/19
ドメイン一般化（DG）は、複数の既知のソースドメインから、未知のターゲットドメインに適切に一般化できるモデルを学習することを目的としています。既存のDGメソッドは通常、共有マルチソースデータの融合を利

arXiv

learning

arXiv reaDer

domain

attention

dataset
リンク
指紋と虹彩を使用したマルチモーダル生体認証のハードウェア実装
arxiv_reader 2022/01/19
この論文では、固有の並列処理を大規模に活用するマルチモーダル生体認証システムのハードウェアアーキテクチャを紹介します。提案されたシステムは、指紋と虹彩の2つの生体認証特性を使用する複数の生体認証融合に

arXiv reaDer

arXiv
リンク
FlexMatch：カリキュラム疑似ラベリングによる半教師あり学習の強化
arxiv_reader 2022/01/19
最近提案されたFixMatchは、ほとんどの半教師あり学習（SSL）ベンチマークで最先端の結果を達成しました。ただし、他の最新のSSLアルゴリズムと同様に、FixMatchは、すべてのクラスに対して事

arXiv

semi-supervised

learning

arXiv reaDer

dataset

benchmark
リンク
優れた表現学習モデルの設計について
arxiv_reader 2022/01/19
表現学習の目標は、意思決定などの機械学習の最終的な目的とは異なります。したがって、表現学習モデルをトレーニングするための明確で直接的な目的を確立することは非常に困難です。優れた表現は根本的な変動要因を

representation learning

dataset

arXiv reaDer

arXiv
リンク
ビデオトランスフォーマー：調査
arxiv_reader 2022/01/19
Transformerモデルは、長距離の相互作用のモデリングで大きな成功を収めています。それにもかかわらず、それらは入力長に比例してスケーリングし、誘導バイアスを欠いています。これらの制限は、ビデオの

transformer

3D

arXiv

arXiv reaDer

classification

contrastive

attention

CNN

benchmark

self-supervised
リンク
多重解像度ハッシュエンコーディングを使用したインスタントニューラルグラフィックスプリミティブ
arxiv_reader 2022/01/19
完全に接続されたニューラルネットワークによってパラメータ化されたニューラルグラフィックスプリミティブは、トレーニングと評価にコストがかかる可能性があります。品質を犠牲にすることなく、より小さなネットワ

augmentation

arXiv reaDer

gradient

arXiv
リンク
動的畳み込みカーネルを使用した音声駆動のトーキングフェイスビデオ生成
arxiv_reader 2022/01/19
この論文では、畳み込みニューラルネットワークのための動的畳み込みカーネル（DCK）戦略を提示します。提案されたDCKで完全畳み込みネットワークを使用すると、マルチモーダルソース（つまり、比類のないオー

arXiv

video

arXiv reaDer

real time

CNN

face
リンク
大規模なオープンセットの深いロゴ検出
arxiv_reader 2022/01/19
オープンセットロゴ検出（OSLD）システムを紹介します。このシステムは、再トレーニングなしで、見えないロゴクラスをいくつでも検出（ローカライズおよび認識）できます。各ロゴクラスに必要なのは、正規のロゴ

detection

arXiv

arXiv reaDer

dataset

localization
リンク
グラフマッチングに基づく軽量オブジェクトレベルのトポロジカルセマンティックマッピングと長期的なグローバルローカリゼーション
arxiv_reader 2022/01/19
マッピングとローカリゼーションは、実際のアプリケーションにおける移動ロボットの2つの重要なタスクです。ただし、大規模で動的なシーンは、現在のほとんどの成熟したソリューションの精度と堅牢性に挑戦します。

robot

arXiv

learning

arXiv reaDer

landmark

localization
リンク
視覚表現学習のための相互対照学習
arxiv_reader 2022/01/19
一般的な視覚表現学習のための相互対照学習（MCL）と呼ばれる共同学習方法を提示します。 MCLの中心的な考え方は、ネットワークのコホート間で相互作用と対照的な分布の転送を実行することです。 MCLの重

contrastive learning

detection

transfer learning

arXiv

arXiv reaDer

classification

representation learning

embedding

self-supervised
リンク
効率的なLiDARパノプティコンセグメンテーションのためのスパースクロススケールアテンションネットワーク
Sparse Cross-scale Attention Network for Efficient LiDAR Panoptic Segmentation 3D LiDARパノプティコンセグメンテーション（PS）の2つの主要な課題は、オブジェクトの点群が表面に集約されているため、特に大規模なインスタンスの場合、長距離の依存関係をモデル化するのが難しいことと、オブジェクトが近すぎて互いに分離できないことです。最近の文献では、デュアルクラスタリング、平均シフトオフセットなどの時間のかかるグループ化プロセスによって、またはジオメトリを軽視する鳥瞰図（BEV）の高密度重心表現によって、これらの問題に対処しています。ただし、長距離のジオメトリの関係は、上記の方法から学習した局所的な特徴によって十分にモデル化されていません。この目的のために、SCANを紹介します。これは、マルチスケールのスパース特徴
arxiv_reader 2022/01/19
3D LiDARパノプティコンセグメンテーション（PS）の2つの主要な課題は、オブジェクトの点群が表面に集約されているため、特に大規模なインスタンスの場合、長距離の依存関係をモデル化するのが難しいこと

3D

arXiv

LiDAR

convolutional

arXiv reaDer

sparse

point cloud

real time

attention

panoptic segmentation
リンク
糖尿病性網膜症スクリーニングにおける網膜画像ベースの滲出液のセグメンテーションのための残留エンコーダ-デコーダネットワーク
arxiv_reader 2022/01/19
糖尿病性網膜症は、糖尿病によって誘発される網膜の病状を指し、世界で予防可能な失明の主な原因の1つです。糖尿病性網膜症の早期発見は、継続的なスクリーニングと治療を通じて視力の問題を回避するために重要です

detection

arXiv

segmentation

arXiv reaDer

augmentation

CNN

benchmark

residual
リンク
顔の表情認識のためのクロスセントロイドリップルパターン
arxiv_reader 2022/01/19
本論文では、顔の表情認識のための新しい特徴記述子クロスセントロイドリップルパターン（CRIP）を提案します。 CRIPは、それぞれ半径r1とr2にある2つの波紋の間に重心間の関係を組み込むことにより、

pose

arXiv

arXiv reaDer

gradient

dataset

face
リンク
ライター識別のためのグローバルレギュラーネットワーク
ライターの識別には、偽造の検出と法医学の実用的なアプリケーションがあります。ディープニューラルネットワークに基づくほとんどのモデルは、ページ領域画像に含まれる特徴を無視して、文字画像または文字画像のサブ領域から特徴を抽出します。私たちが提案するグローバルレギュラーネットワーク（GRN）は、これらの機能に注意を払っています。 GRNネットワークは2つのブランチで構成されています。1つのブランチはグローバルな特徴を抽出するための入力としてページの手書きを取り、もう1つはローカルな特徴を抽出するための入力として単語の手書きを取ります。グローバル機能とローカル機能は、グローバルな残余の方法でマージされ、手書きの全体的な機能を形成します。提案されたGRNには2つの属性があります。1つはページに含まれる特徴を抽出するためのブランチを追加することです。もう1つは、残余注意ネットワークを使用して局所的な特
arxiv_reader 2022/01/19
ライターの識別には、偽造の検出と法医学の実用的なアプリケーションがあります。ディープニューラルネットワークに基づくほとんどのモデルは、ページ領域画像に含まれる特徴を無視して、文字画像または文字画像のサ

detection

arXiv

arXiv reaDer

attention

dataset

identification

residual
リンク
GradTail：勾配ベースのサンプル重み付けを使用したロングテールデータの学習
arxiv_reader 2022/01/19
ロングテールのトレーニングデータ分布に直面して、勾配を使用してモデルのパフォーマンスをその場で改善するアルゴリズムであるGradTailを提案します。収束モデル（場合によっては過剰適合）で動作する従来

arXiv

learning

arXiv reaDer

classification

gradient

face
リンク
手首装着型センサーに基づく双極躁病状態認識のための長短アンサンブルネットワーク
arxiv_reader 2022/01/19
双極性障害の躁病エピソードは、批判的でない行動や妄想精神病につながる可能性があり、多くの場合、影響を受けた人とその周囲に破壊的な結果をもたらします。躁病エピソードの早期発見と介入は、エスカレーション、

detection

arXiv

activity

arXiv reaDer

classification
リンク
体系的な一般化のためにニューラルモジュールネットワークはどのようにモジュール化されるべきか？
arxiv_reader 2022/01/19
ニューラルモジュールネットワーク（NMN）は、サブタスクに取り組むモジュールの構成を介して視覚的な質問応答（VQA）を目的としています。 NMNは、体系的な一般化を実現するための有望な戦略です。つまり

dataset

VQA

arXiv reaDer

arXiv
リンク
ViTBIS：生物医学画像セグメンテーションのためのビジョントランスフォーマー
arxiv_reader 2022/01/19
この論文では、生物医学画像セグメンテーションのためのビジョントランスフォーマー（ViTBIS）という名前の新しいネットワークを提案します。私たちのネットワークは、入力機能マップを3つの部分に分割し、エ

transformer

arXiv

segmentation

convolutional

arXiv reaDer

MRI

attention

CNN

CT
リンク
エピソードの難しさに対する均一なサンプリング
arxiv_reader 2022/01/19
エピソードトレーニングは、ラベル付けされたデータが限られているタスクでモデルをトレーニングするための数ショット学習のコア要素です。その成功にもかかわらず、エピソードのトレーニングは大部分が研究されてい

few-shot

arXiv

learning

arXiv reaDer

dataset
リンク
マルチレベルの2次数ショット学習
arxiv_reader 2022/01/19
教師ありまたは教師なしの数ショット画像分類と数ショット行動認識のためのマルチレベル2次（MlSo）数ショット学習ネットワークを提案します。いわゆるパワー正規化された2次ベース学習者ストリームを、複数レ

few-shot

action recognition

arXiv

unsupervised

convolutional

arXiv reaDer

classification

CNN

pooling

self-supervised
リンク
ゼロショット手話認識に向けて
arxiv_reader 2022/01/19
このホワイトペーパーでは、ゼロショット手話認識（ZSSLR）の問題に取り組んでいます。この問題では、見えている手話クラスで学習したモデルを活用して、見えない手話クラスのインスタンスを認識します。この文

zero-shot

arXiv

learning

arXiv reaDer

dataset

representation

benchmark

embedding
リンク
SS-3DCapsNet：ラベルの少ないデータでの医療セグメンテーションのための自己監視型3Dカプセルネットワーク
SS-3DCapsNet: Self-supervised 3D Capsule Networks for Medical Segmentation on Less Labeled Data カプセルネットワークは、医療画像のセグメンテーションタスクに正常に適用された最近の新しいディープネットワークアーキテクチャです。この作業は、自己監視学習による体積医療画像セグメンテーションのためのカプセルネットワークを拡張します。以前のカプセルネットワークと比較して重みの初期化の問題を改善するために、カプセルネットワークの事前トレーニングに自己監視学習を活用します。この場合、プレテキストタスクは自己再構築によって最適化されます。当社のカプセルネットワークSS-3DCapsNetは、3DCapsuleエンコーダーと3DCNNsデコーダーを備えたUNetベースのアーキテクチャーを備えています。 iSeg-
arxiv_reader 2022/01/19
カプセルネットワークは、医療画像のセグメンテーションタスクに正常に適用された最近の新しいディープネットワークアーキテクチャです。この作業は、自己監視学習による体積医療画像セグメンテーションのためのカプ

3D

arXiv

learning

segmentation

arXiv reaDer

CNN

dataset

pre-training

self-supervised
リンク
マルチエージェント知覚のための蒸留コラボレーショングラフの学習
arxiv_reader 2022/01/19
マルチエージェント知覚のパフォーマンスと帯域幅のトレードオフを促進するために、エージェント間のトレーニング可能でポーズを意識した適応型コラボレーションをモデル化するための新しい蒸留コラボレーショングラ

detection

3D

arXiv

learning

arXiv reaDer

knowledge distillation

attention

dataset
リンク
Bidirectional Cross-Attention Transformerによるドメイン適応
arxiv_reader 2022/01/19
ドメインアダプテーション（DA）は、十分なラベル付きデータを持つソースドメインから学習した知識を、ラベルなしデータのみを持つターゲットドメインに活用することを目的としています。 DAに関する既存の研究

transformer

arXiv

learning

convolutional

arXiv reaDer

domain adaptation

attention

dataset

representation

benchmark
リンク
ラベル拡張を備えた自己監視型GAN
arxiv_reader 2022/01/19
最近、変換ベースの自己監視学習が生成的敵対的ネットワーク（GAN）に適用され、定常学習環境を導入することにより、弁別器の壊滅的な忘却を軽減しています。ただし、既存の自己監視GANの個別の自己監視タスク

GAN

arXiv

arXiv reaDer

augmentation

representation learning

dataset

benchmark

self-supervised
リンク
CentripetalText：シーンテキスト検出のための効率的なテキストインスタンス表現
arxiv_reader 2022/01/19
シーンテキストの検出は、テキストの曲率、向き、アスペクト比が異なるため、依然として大きな課題です。このタスクで最も難しい問題の1つは、任意の形状のテキストインスタンスをどのように表現するかです。不規則

detection

arXiv

dataset

segmentation

arXiv reaDer

CT

reconstruction

representation

benchmark
リンク
コミュニケーションに向けて-効率的でプライバシーを保護する連合表現学習
arxiv_reader 2022/01/19
この論文は、通信コストとプライバシー保護の制約の下での連合表現学習の実現可能性を調査します。既存の作品は、頻繁なコミュニケーションを必要とする注釈に基づくローカルトレーニングを実施するか、プライバシー

arXiv

arXiv reaDer

distillation

contrastive

representation learning

dataset

self-supervised
リンク
異常セグメンテーションのためのプロトタイプガイド付きネットワーク
セマンティックセグメンテーション手法では、画像内の異常なオブジェクトを直接特定することはできません。この現実的な設定からの異常セグメンテーションアルゴリズムは、分布内オブジェクトと分布外（OOD）オブジェクトを区別し、ピクセルの異常確率を出力できます。この論文では、プロトタイプガイド付き異常セグメンテーションネットワーク（PGAN）を提案して、限られた注釈付き画像から分布内トレーニングデータのセマンティックプロトタイプを抽出します。モデルでは、プロトタイプを使用して、階層カテゴリのセマンティック情報をモデル化し、OODピクセルを区別します。提案されたPGANモデルには、セマンティックセグメンテーションネットワークとプロトタイプ抽出ネットワークが含まれています。プロトタイプを最適化するために、類似性の尺度が採用されています。学習したセマンティックプロトタイプは、テスト画像から抽出された特徴と
arxiv_reader 2022/01/19
セマンティックセグメンテーション手法では、画像内の異常なオブジェクトを直接特定することはできません。この現実的な設定からの異常セグメンテーションアルゴリズムは、分布内オブジェクトと分布外（OOD）オブ

OOD

arXiv

arXiv reaDer

anomaly

semantic segmentation

dataset
リンク
バッチ依存関係を削除しながらバッチ正規化に一致するようにアクティベーションをプロキシ正規化
arxiv_reader 2022/01/19
バッチに依存しない正規化で発生するパフォーマンス低下の理由を調査します。レイヤーの正規化とインスタンスの正規化の典型的な手法は、どちらもニューラルネットワークの事前アクティブ化で障害モードの出現を誘発

arXiv reaDer

batch normalization

arXiv
リンク
テキスト画像の超解像とブレ除去を同時に行うためのSDT-DCSCN
arxiv_reader 2022/01/19
ディープ畳み込みニューラルネットワーク（Deep CNN）は、単一画像の超解像に期待できるパフォーマンスを実現しました。特に、Deep CNNスキップ接続およびネットワークネットワーク（DCSCN）ア

CNN

arXiv

arXiv reaDer

super-resolution

dataset
リンク
検索のためのオブジェクト認識ビデオ言語事前トレーニング
最近、大規模なデータセットと強力なトランスフォーマーネットワークを導入することにより、ビデオ言語の事前トレーニングは、特に検索で大きな成功を収めています。それでも、既存のビデオ言語トランスフォーマーモデルは、明示的にきめ細かいセマンティックアラインメントを行いません。この作業では、オブジェクト認識トランスフォーマーを紹介します。これは、ビデオ言語トランスフォーマーを拡張してオブジェクト表現を組み込むオブジェクト中心のアプローチです。重要なアイデアは、バウンディングボックスとオブジェクトタグを活用してトレーニングプロセスをガイドすることです。広く使用されている4つのベンチマークで、ビデオテキストマッチングの3つの標準サブタスクでモデルを評価します。また、提案された方法に関する詳細な分析と詳細なアブレーションを提供します。検討したすべてのタスクとデータセットでパフォーマンスが明らかに向上してい
arxiv_reader 2022/01/19
最近、大規模なデータセットと強力なトランスフォーマーネットワークを導入することにより、ビデオ言語の事前トレーニングは、特に検索で大きな成功を収めています。それでも、既存のビデオ言語トランスフォーマーモ

transformer

arXiv

arXiv reaDer

dataset

representation

pre-training

benchmark
リンク
セマンティックとテクスチャの手がかりの適応融合による注意誘導NIR画像の色付け
arxiv_reader 2022/01/19
近赤外線（NIR）イメージングは、低照度のイメージングシナリオで広く適用されています。ただし、人間とアルゴリズムが無色のNIRドメインで実際のシーンを認識することは困難です。 Generative A

GAN

arXiv

learning

human

arXiv reaDer

reasoning

attention

domain

residual
リンク
畳み込みニューラルネットワークを使用したかすんでいる条件下でのスマート駐車スペースの検出：新しいアプローチ
arxiv_reader 2022/01/19
都市化と組み合わされた限られた都市駐車スペースは、駐車スロットの利用可能性をエンドユーザーに伝えることができるスマート駐車システムの開発を必要としてきました。これに向けて、畳み込みニューラルネットワー

detection

arXiv

learning

arXiv reaDer

CNN

dataset
リンク
マルチラベル感情認識のための多用途なマルチモーダル学習の調整
Tailor Versatile Multi-modal Learning for Multi-label Emotion Recognition マルチモーダルマルチラベル感情認識（MMER）は、異種の視覚、音声、およびテキストのモダリティからさまざまな人間の感情を識別することを目的としています。以前の方法は、主に複数のモダリティを共通の潜在空間に投影し、すべてのラベルについて同一の表現を学習することに焦点を当てています。これは、各モダリティの多様性を無視し、異なる視点から各ラベルのより豊富なセマンティック情報をキャプチャできません。その上、モダリティとラベルの関連する関係は十分に活用されていません。本論文では、マルチモーダル表現を洗練し、各ラベルの識別能力を強化することを目的として、マルチラベル感情認識（TAILOR）のための多用途マルチモーダル学習を提案します。具体的には、さまざまな
arxiv_reader 2022/01/19
マルチモーダルマルチラベル感情認識（MMER）は、異種の視覚、音声、およびテキストのモダリティからさまざまな人間の感情を識別することを目的としています。以前の方法は、主に複数のモダリティを共通の潜在空

emotion

arXiv

learning

human

arXiv reaDer

adversarial

dataset

representation

benchmark
リンク
マルチタスクシーンでのマルチビュー表現学習
arxiv_reader 2022/01/19
ここ数十年で、マルチタスク学習とマルチビュー学習のどちらでもかなりの進歩が見られましたが、両方の学習シーンを同時に考慮する状況はあまり注目されていません。各学習タスクのパフォーマンスを向上させるために

multi-task

arXiv

semi-supervised

arXiv reaDer

classification

synthesis

attention

representation learning

clustering
リンク
トップ2分類による画像分類のための畳み込みニューラルネットワークとカプセルネットワークの一般化能力の評価
arxiv_reader 2022/01/19
画像分類は、画像内のオブジェクトのカテゴリを識別することを目的とした難しい問題です。近年、このタスクを処理するために深い畳み込みニューラルネットワーク（CNN）が適用され、目覚ましい改善が達成されまし

CNN

benchmark

dataset

arXiv reaDer

classification

arXiv
リンク
コンテキストアウェアな特徴抽出による残差3Dシーンフロー学習
arxiv_reader 2022/01/19
シーンフロー推定は、点群または画像の2つの連続するフレーム間の点ごとまたはピクセルごとの3D変位ベクトルを予測するタスクであり、サービスロボットや自動運転などの分野で重要な用途があります。これまでの多

3D

arXiv

dataset

human

convolutional

arXiv reaDer

point cloud

autonomous driving

estimation

residual
リンク
監視されていない人物の再識別のためのオフライン-オンライン関連カメラ認識プロキシ
arxiv_reader 2022/01/19
最近、教師なし個人再識別（Re-ID）は、ラベルなしのアプリケーションの可能性があるため、研究の注目を集めています。教師なしRe-IDに対処する有望な方法は、クラスタリングベースです。これは、クラスタ

contrastive learning

vehicle

arXiv

unsupervised

arXiv reaDer

re-id

attention

person

dataset

clustering
リンク
画像ベースのカメラポーズ推定技術の批判的分析
A Critical Analysis of Image-based Camera Pose Estimation Techniques カメラ、および視野内のオブジェクトに関連付けられているローカリゼーションは、自動運転、ロボットナビゲーション、拡張現実（AR）など、多くのコンピュータービジョンフィールドに役立つ可能性があります。この調査では、最初に、さまざまなサブタスク（学習ベースの2D-2Dタスク、機能ベースの2D-3Dタスク、および3D-3Dタスク）に応じたカメラローカリゼーションポーズの特定のアプリケーション領域と評価メトリックを紹介します。次に、構造ベースのカメラポーズ推定アプローチ、絶対ポーズ回帰、および相対ポーズ回帰アプローチの一般的な方法をレビューし、損失関数、ニューラルネットワーク構造などのアルゴリズムのさらなる改善を促す方法を批判的にモデル化します。さらに、カメラのロ
arxiv_reader 2022/01/19
カメラ、および視野内のオブジェクトに関連付けられているローカリゼーションは、自動運転、ロボットナビゲーション、拡張現実（AR）など、多くのコンピュータービジョンフィールドに役立つ可能性があります。この

loss function

metric

arXiv

pose estimation

computer vision

arXiv reaDer

autonomous driving

augmentation

dataset

localization
リンク
2段階で十分：柔軟なビデオ圧縮センシングのための簡潔で深く展開する再構成ネットワーク
arxiv_reader 2022/01/19
深い展開/ローリング構造の下でのビデオ圧縮センシング（VCS）の再構成問題を検討します。それでも、最小限のステージを使用して、柔軟で簡潔なモデルを構築することを目指しています。逆問題に使用される既存の

adaptation

arXiv

video

arXiv reaDer

reconstruction
リンク
表形式データ分類のための重み付けおよび剪定ベースのアンサンブルディープランダムベクトル機能リンクネットワーク
arxiv_reader 2022/01/19
このホワイトペーパーでは、最初にedRVFLネットワークにバッチ正規化を導入します。この再正規化方法は、ネットワークが隠された機能の発散を回避するのに役立ちます。次に、Ensemble Deep Ra

arXiv

batch normalization

arXiv reaDer

classification

dataset

pruning
リンク
フレーズ学習とラベル構成による人間と物体の相互作用検出の改善
arxiv_reader 2022/01/19
人間と物体の相互作用（HOI）の検出は、人間中心の高レベルのシーン理解における基本的なタスクです。言語優先を活用し、関係表現を向上させるために、HOIブランチと新規フレーズブランチを含むPhraseH

detection

arXiv

learning

human

arXiv reaDer

benchmark

embedding
リンク
OneDConv：変換不変表現のための一般化された畳み込み
OneDConv: Generalized Convolution For Transf orm-Invariant Representation 畳み込みニューラルネットワーク（CNN）は、さまざまな視覚タスクで大きな力を発揮してきました。ただし、変換不変プロパティがないため、複雑な実世界のシナリオでのさらなるアプリケーションが制限されます。この作業では、入力機能に基づいて計算上およびパラメトリックに効率的な方法で畳み込みカーネルを動的に変換する、新しい一般化された1次元畳み込み演算子（OneDConv）を提案しました。提案された演算子は、変換不変の特徴を自然に抽出できます。一般的な画像のパフォーマンスを犠牲にすることなく、畳み込みの堅牢性と一般化を向上させます。提案されたOneDConv演算子は、バニラ畳み込みを置き換えることができるため、現在人気のある畳み込みアーキテクチャに組み込んで
arxiv_reader 2022/01/19
畳み込みニューラルネットワーク（CNN）は、さまざまな視覚タスクで大きな力を発揮してきました。ただし、変換不変プロパティがないため、複雑な実世界のシナリオでのさらなるアプリケーションが制限されます。こ

arXiv

arXiv reaDer

CNN

representation

benchmark
リンク
リモートセンシング画像変化検出のための意味論的分離表現学習
Semantic decoupled representation learning for remote sensing image change detection 変化検出（CD）のデータ不足を軽減するための最新の転移学習ベースの方法は、主にImageNetの事前トレーニングに基づいています。自己監視学習（SSL）は、ドメイン内表現を学習するためのリモートセンシング（RS）に最近導入されました。ここでは、RS画像CDの意味分離表現学習を提案します。通常、関心のあるオブジェクト（建物など）は、広大な背景に比べて比較的小さいです。無関係な土地被覆によって支配される可能性のある1つの表現ベクトルに画像を表現する既存の方法とは異なり、セマンティックマスクを利用して、さまざまなセマンティック領域の表現を解きほぐします。さらに、モデルにさまざまなセマンティック表現を区別するように強制します。これ
arxiv_reader 2022/01/19
変化検出（CD）のデータ不足を軽減するための最新の転移学習ベースの方法は、主にImageNetの事前トレーニングに基づいています。自己監視学習（SSL）は、ドメイン内表現を学習するためのリモートセンシ

detection

transfer learning

arXiv

arXiv reaDer

representation learning

dataset

pre-training

self-supervised
リンク
不確実性を意識したマルチビュー表現学習
arxiv_reader 2022/01/19
さまざまなデータビューから、それらの間の基礎となる補足情報を探索することによって学習することで、表現に強力な表現力を与えることができます。ただし、高次元の特徴にはノイズが含まれる傾向があり、さらに、デ

representation learning

unsupervised

arXiv reaDer

arXiv
リンク
将来の現場でのリアルタイム惑星探査における深層学習を可能にする説明可能性ツール
arxiv_reader 2022/01/19
ディープラーニング（DL）は、効果的な機械学習とコンピュータービジョンの手法であることが証明されています。 DLベースの画像セグメンテーション、オブジェクト認識、および分類は、経路計画やアーティファク

arXiv

learning

segmentation

computer vision

arXiv reaDer

classification

explainable

real time

DNN
リンク
リモートセンシング画像検索のための非対称ハッシュコード学習
Asymmetric Hash Code Learning for Remote Sensing Image Retrieval リモートセンシング画像検索（RSIR）は、特定のクエリ画像に類似したアイテムのセットを検索することを目的としており、リモートセンシングアプリケーションでは非常に重要なタスクです。現在の主流の方法としてのディープハッシュ学習は、満足のいく検索パフォーマンスを達成しています。一方では、リモートセンシング画像の意味的特徴を抽出するために、さまざまなディープニューラルネットワークが使用されます。一方、ハッシュ手法は、高次元の深い特徴を低次元のバイナリコードにマッピングするためにその後採用されます。この種のメソッドは、クエリサンプルとデータベースサンプルの両方に対して対称的な方法で1つのハッシュ関数を学習しようとします。ただし、データベースサンプルの数が増えると、通常、大
arxiv_reader 2022/01/19
リモートセンシング画像検索（RSIR）は、特定のクエリ画像に類似したアイテムのセットを検索することを目的としており、リモートセンシングアプリケーションでは非常に重要なタスクです。現在の主流の方法として

arXiv

learning

arXiv reaDer

dataset

representation
リンク
畳み込みとコンテキストトランスフォーマーを使用したスペクトル圧縮イメージングの再構成
arxiv_reader 2022/01/19
スペクトル圧縮イメージング（SCI）は、高次元のハイパースペクトル画像を2D測定にエンコードし、アルゴリズムを使用して空間スペクトルデータキューブを再構築することができます。現在、SCIの主なボトルネ

transformer

arXiv

dataset

convolutional

arXiv reaDer

synthesis

reconstruction

face

benchmark
リンク
画像ベースの医療レポート生成における最先端のパフォーマンスとNLPメトリックの検査
arxiv_reader 2022/01/19
過去数年間、画像検査を入力として与えられた書面によるレポートを生成する問題に対処するために、いくつかの深層学習アーキテクチャが提案されてきました。ほとんどの作品は、標準の自然言語処理（NLP）メトリッ

metric

learning

arXiv reaDer

arXiv
リンク
軌道予測のための段階的な目標駆動型ネットワーク
arxiv_reader 2022/01/19
複数の時間スケールで目標を推定して使用することにより、観測されたエージェント（歩行者や車両など）の将来の軌道を予測することを提案します。移動するエージェントの目標は時間の経過とともに変化する可能性があ

vehicle

trajectory

arXiv

dataset

pedestrian

arXiv reaDer

estimation

recurrent
リンク
GAMMA：自動運転のための一般的なエージェントモーションモデル
arxiv_reader 2022/01/19
この論文では、自動運転の大規模なリアルタイムシミュレーションと計画を可能にする一般的なモーション予測モデルであるGAMMAを紹介します。 GAMMAは、異種のインタラクティブなトラフィックエージェント

arXiv

human

arXiv reaDer

autonomous driving

real time

simulation

dataset

benchmark
リンク
投影された線からの3D形状スタイルの半教師あり共同分析
arxiv_reader 2022/01/19
投影された計画線から3D形状スタイルを学習するための半教師あり共同分析方法を提示し、弱い監視のみでスタイルパッチのローカリゼーションを実現します。複数のオブジェクトカテゴリとスタイルにまたがる3D形状

3D

arXiv

semi-supervised

unsupervised

learning

convolutional

arXiv reaDer

localization

clustering
リンク
RGB-Dデータセットに関する調査
arxiv_reader 2022/01/19
RGB-Dデータは、コンピュータービジョンの多くの問題を解決するために不可欠です。屋内、屋外、空中、運転、医療など、さまざまなシーンを含む数百のパブリックRGB-Dデータセットが提案されています。これ

RGB-D

arXiv

dataset

learning

monocular

computer vision

arXiv reaDer

estimation
リンク
動的3D自発的マイクロエクスプレッションデータベース：確立と評価
arxiv_reader 2022/01/19
マイクロエクスプレッションは、人々の本当の内面の感情を示し、心理テストの関連分野で大きな可能性を秘めている、自発的で無意識の顔の動きです。顔は3D変形オブジェクトであるため、表情の発生は顔の空間変形を

emotion

3D

arXiv

action

video

arXiv reaDer

point cloud

classification

face

spatio-temporal
リンク
スマートビデオ監視における行動認識のための実世界グラフ畳み込みネットワーク（RW-GCN）
arxiv_reader 2022/01/19
アクション認識は、最新のスマートビデオ監視およびセキュリティシステムの重要なアルゴリズム部分です。スケルトンベースの行動認識は、RGBピクセルデータを使用する代わりに、人間のポーズ情報に依存して適切な

pose

action recognition

arXiv

convolutional

arXiv reaDer

classification

real time

augmentation

domain

dataset
リンク
画像操作検出のための階層グラフ表現の学習
Learning Hierarchical Graph Representation for Image Manipulation Detection 画像操作検出の目的は、画像内の操作された領域を識別して特定することです。最近のアプローチでは、主に高度な畳み込みニューラルネットワーク（CNN）を採用して、画像に残された改ざんアーティファクトをキャプチャし、操作された領域を特定します。ただし、これらのアプローチでは、操作された領域と操作されていない領域の間の特徴の相関関係、つまり特徴の不一致が無視され、検出パフォーマンスが低下します。この問題に対処するために、画像操作検出用のバックボーンネットワークブランチと階層グラフ表現学習（HGRL）ブランチの2つの並列ブランチで構成される階層グラフ畳み込みネットワーク（HGCN-Net）を提案します。具体的には、特定の画像の特徴マップがバックボーンネ
arxiv_reader 2022/01/19
画像操作検出の目的は、画像内の操作された領域を識別して特定することです。最近のアプローチでは、主に高度な畳み込みニューラルネットワーク（CNN）を採用して、画像に残された改ざんアーティファクトをキャプ

detection

arXiv

arXiv reaDer

CNN

representation learning

dataset
リンク
CLIP-TD：視覚言語タスクのためのCLIPターゲット蒸留
CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks 対照的な言語画像事前トレーニング（CLIP）は、視覚と言語モダリティを統合された埋め込みスペースにリンクし、視覚言語（VL）タスクの大きな可能性を生み出します。初期の並行作業では、タスクのサブセットでこの可能性の調査が開始されましたが、重要な質問が残っています。1）調査されていないVLタスクでのCLIPの利点は何ですか。 2）CLIPは、ローショットまたはドメインシフトのシナリオでメリットをもたらしますか？ 3）CLIPは、推論や事前トレーニングの複雑さに影響を与えることなく、既存のアプローチを改善できますか？この作業では、2つの重要な貢献を通じてこれらの質問に答えることを目指しています。最初に、さまざまなデータ可用性の制約とドメインシフトの条件にわたって、Visua
arxiv_reader 2022/01/19
対照的な言語画像事前トレーニング（CLIP）は、視覚と言語モダリティを統合された埋め込みスペースにリンクし、視覚言語（VL）タスクの大きな可能性を生み出します。初期の並行作業では、タスクのサブセットで

arXiv

arXiv reaDer

reasoning

distillation

contrastive

domain

VQA

embedding
リンク
合成オプティカルフローからの疑似監視による時間的および意味的に一貫した対になっていないビデオからビデオへの変換の学習
arxiv_reader 2022/01/19
ペアになっていないビデオからビデオへの変換は、ペアになっているトレーニングデータを必要とせずに、ソースドメインとターゲットドメインの間でビデオを変換することを目的としており、実際のアプリケーションでよ

regularization

arXiv

unsupervised

learning

video

arXiv reaDer

optical flow

synthesis

domain

estimation
リンク
パラメータフリーのオンラインテスト時間適応
最先端のビジョンモデルのトレーニングは、研究者や実務家にとって法外な費用がかかるようになりました。アクセシビリティとリソースの再利用のために、これらのモデルをさまざまなダウンストリームシナリオに適応させることに焦点を当てることが重要です。興味深く実用的なパラダイムは、オンラインのテスト時間適応です。これによれば、トレーニングデータにアクセスできず、テスト分布からのラベル付きデータは利用できず、適応はテスト時間と少数のサンプルでのみ発生します。このホワイトペーパーでは、さまざまな実世界のシナリオで事前にトレーニングされた多数のモデルに対して、テスト時の適応方法がどのように機能するかを調査し、当初の評価方法を大幅に拡張します。狭く定義された実験設定でのみ良好に機能し、テストされているのと同じシナリオでハイパーパラメータが選択されていない場合、壊滅的に失敗することがあることを示します。テスト時に
arxiv_reader 2022/01/19
最先端のビジョンモデルのトレーニングは、研究者や実務家にとって法外な費用がかかるようになりました。アクセシビリティとリソースの再利用のために、これらのモデルをさまざまなダウンストリームシナリオに適応さ

adaptation

arXiv

arXiv reaDer

estimation

pre-training
リンク
パースペクティブ変換レイヤー
観察者と物体の間の相対的な位置の変化を反映する幾何学的変換をコンピュータビジョンや深層学習モデルに組み込むことは、近年大きな注目を集めています。ただし、既存の提案は主に、視点の変化を完全に示すことができないアフィン変換に焦点を合わせています。さらに、現在のソリューションでは、ニューラルネットワークモジュールを適用して単一の変換行列を学習することがよくあります。これにより、さまざまな視点の可能性が無視され、トレーニング対象のモジュールパラメータが追加されます。本論文では、アフィン変換における幾何学をモデル化するだけでなく、視点の変化を反映する視点変換を学習するために、層（PT層）を提案した。さらに、畳み込み層などの従来の層のように最急降下法で直接訓練できるため、提案された単一のPT層は、追加のモジュールパラメーターを訓練することなく、調整可能な数の複数の視点を学習できます。実験と評価により、
arxiv_reader 2022/01/19
観察者と物体の間の相対的な位置の変化を反映する幾何学的変換をコンピュータビジョンや深層学習モデルに組み込むことは、近年大きな注目を集めています。ただし、既存の提案は主に、視点の変化を完全に示すことがで

arXiv

learning

convolutional

arXiv reaDer

computer vision

gradient

attention
リンク
マルチドメイン学習における転移と干渉の解きほぐし
arxiv_reader 2022/01/19
人間は、あるドメインから別のドメインに知識を転送するのに非常に優れており、新しいタスクの迅速な学習を可能にします。同様に、転移学習は、事前トレーニングを使用した多くのコンピュータービジョンの問題で大き

metric

transfer learning

arXiv

computer vision

arXiv reaDer

disentangling

domain

dataset
リンク
最尤ニューロン再構成のための隠れマルコフモデリング
arxiv_reader 2022/01/19
脳の除去とイメージングにおける最近の進歩により、哺乳類の脳全体をサブミクロンの解像度でイメージングすることが可能になりました。これらの画像は、ニューロンの形態の脳全体のアトラスを組み立てる可能性を提供

arXiv

computer vision

arXiv reaDer

estimation

reconstruction

python
リンク
Ptolemyを使用して低温電子顕微鏡データ収集を自動化する方法を学ぶ
arxiv_reader 2022/01/19
過去10年間で、極低温電子顕微鏡法（cryo-EM）は、生体高分子のネイティブに近い、原子に近い解像度の3D構造を決定するための主要な方法として登場しました。クライオEMの需要の高まりに対応するには、

3D

arXiv

learning

human

computer vision

arXiv reaDer

classification

U-Net

CNN

dataset
リンク
動作中のトランスフォーマー：弱く監視されたアクションセグメンテーション
arxiv_reader 2022/01/19
ビデオアクションセグメンテーションタスクは、トランスクリプト監視などの弱い形式の監視の下で定期的に調査されます。この場合、アクションのリストは、高密度のフレーム単位のラベルよりも簡単に取得できます。こ

transformer

arXiv

segmentation

arXiv reaDer

saliency

weakly-supervised

attention

benchmark

embedding
リンク
解きほぐしは、クロスドメイン海馬セグメンテーションを可能にします
Disentanglement enables cross-domain Hippocampus Segmentation ラベル付けされたトレーニングデータの量が限られていることは、医用画像処理でよくある問題です。これにより、十分に一般化されたモデルのトレーニングが困難になるため、未知のドメインでの失敗につながることがよくあります。磁気共鳴画像法（MRI）スキャンからの海馬のセグメンテーションは、神経精神障害の診断と治療に重要です。コントラストまたは形状のドメインの違いは、セグメンテーションに大きな影響を与える可能性があります。この問題に対処するには、T1強調MRI画像をコンテンツとドメインに解きほぐします。この分離により、ドメイン転送を実行して、新しいソースからのデータをトレーニングドメインに変換できます。したがって、このステップはセグメンテーションの問題を単純化し、より高品質のセグメ
arxiv_reader 2022/01/19
ラベル付けされたトレーニングデータの量が限られていることは、医用画像処理でよくある問題です。これにより、十分に一般化されたモデルのトレーニングが困難になるため、未知のドメインでの失敗につながることがよ

arXiv

segmentation

arXiv reaDer

MRI

disentangling

domain
リンク
PrintsGAN：合成指紋ジェネレーター
arxiv_reader 2022/01/19
指紋認識の分野で働く研究者にとっての主な障害は、公に利用可能な大規模な指紋データセットの欠如です。存在する公開されているデータセットには、指ごとのIDとインプレッションがほとんど含まれていません。これ

arXiv

arXiv reaDer

synthesis

dataset

embedding
リンク
TransVOD：時空間トランスフォーマーを使用したエンドツーエンドのビデオオブジェクト検出
arxiv_reader 2022/01/19
検出トランス（DETR）と変形可能なDETRは、以前の複雑な手作りの検出器として優れたパフォーマンスを示しながら、オブジェクト検出における多くの手動で設計されたコンポーネントの必要性を排除するために提

transformer

detection

arXiv

video

convolutional

arXiv reaDer

optical flow

dataset
リンク
内省的知覚による能力を意識した経路計画
arxiv_reader 2022/01/19
実世界に長期間配備されたロボットは、予期しない障害について推論し、それらを予測することを学び、将来の障害を回避するために積極的に行動を起こす必要があります。コンピテンシーを意識した計画のための既存のア

robot

arXiv

action

arXiv reaDer

reasoning

Bayesian

simulation
リンク
条件付き対物レンズを使用した柔軟なスタイルの画像超解像
arxiv_reader 2022/01/19
最近の研究では、畳み込みニューラルネットワーク（CNN）を使用して単一画像の超解像（SR）のパフォーマンスが大幅に向上しています。特定の入力に対して多くの高解像度（HR）ソリューションが存在する可能性

multi-task

CNN

arXiv

learning

arXiv reaDer

super-resolution
リンク
変化検出のための変圧器ベースのシャムネットワーク
arxiv_reader 2022/01/19
このホワイトペーパーでは、同時登録されたリモートセンシング画像のペアからの変化検出（CD）用のトランスベースのシャムネットワークアーキテクチャ（ChangeFormerと略記）を紹介します。完全畳み込

transformer

detection

arXiv

convolutional

arXiv reaDer

dataset
リンク
表現スタイルの転送と協調的一貫性学習を解きほぐすことによるクロスモダリティ網膜血管セグメンテーションのための教師なしドメイン適応
arxiv_reader 2022/01/19
医用画像から解剖学的構造をセグメント化するためにさまざまな深層学習モデルが開発されていますが、データ分布が異なる別のターゲットドメインでテストすると、通常、パフォーマンスが低下します。最近、このいわゆ

arXiv

unsupervised

learning

segmentation

arXiv reaDer

disentangling

domain adaptation

reconstruction

representation
リンク
範囲と強度のバックグラウンド減算を使用した路側ライダー車両の検出と追跡
arxiv_reader 2022/01/19
この論文では、2つの教師なし学習アルゴリズムの組み合わせを使用した路傍LiDARオブジェクト検出のソリューションを紹介します。 3D点群データは、最初に球面座標に変換され、ハッシュ関数を使用して方位角

detection

vehicle

3D

arXiv

tracking

LiDAR

unsupervised

sparse

arXiv reaDer

point cloud
リンク
ニューラル容量：エッジダイナミクスによるニューラルネットワーク選択の新しい視点
arxiv_reader 2022/01/19
ダウンストリームタスクに適した事前トレーニング済みニューラルネットワークを特定するための効率的なモデル選択は、深層学習における基本的でありながら困難なタスクです。現在の慣行では、パフォーマンス予測のた

metric

arXiv

learning

arXiv reaDer

dataset

pre-training

benchmark
リンク
HyperTransformer：教師ありおよび半教師ありの少数ショット学習のためのモデル生成
arxiv_reader 2022/01/19
この作業では、サポートサンプルから直接畳み込みニューラルネットワーク（CNN）の重みを生成する、数ショット学習用のトランスベースモデルであるHyperTransformerを提案します。生成された小さ

transformer

few-shot

arXiv

semi-supervised

learning

differentiable

arXiv reaDer

CNN

embedding
リンク
BowNetの再現：視覚的な単語の袋を予測することによる表現の学習
arxiv_reader 2022/01/19
この作品は、GidarisらによるCVPR2020論文の結果を再現することを目的としています。自己監視学習（SSL）は、ラベルのないデータセットを使用して画像の特徴表現を学習するために使用されます。こ

few-shot

arXiv

learning

convolutional

arXiv reaDer

dataset

representation

self-supervised
リンク
エッジデバイスでの視線推定の実用化のためのカメラ位置の解決
arxiv_reader 2022/01/19
ほとんどの視線推定研究は、カメラが視線を完全に捉える設定条件でのみ機能します。彼らは、人の特定の位置にカメラを正しく設定する方法を文字通り指定していません。本論文では、論理的なカメラ設定位置を用いた視

gaze

few-shot

arXiv

learning

arXiv reaDer

person

edge device

estimation
リンク
プロアクティブなサイバー脅威インテリジェンスのための生成的敵対的学習によるダークウェブテキストベースのCAPTCHAの対抗
arxiv_reader 2022/01/19
大規模なダークウェブ（DW）プラットフォームの自動監視は、プロアクティブなサイバー脅威インテリジェンス（CTI）を開発するための最初のステップです。表層ウェブからデータを収集するための効率的な方法はあ

GAN

arXiv

learning

segmentation

human

arXiv reaDer

dataset

benchmark
リンク
霧のシーンのセグメンテーションの自己監視ドメイン適応のためのスケール不変性と不確実性の組み合わせ
arxiv_reader 2022/01/19
この論文は、濃い霧のシーンのためのセマンティックセグメンテーションのドメイン適応のための新しいアプローチであるFogAdaptを提示します。セマンティックセグメンテーションのドメインシフトを減らすため

arXiv reaDer

unsupervised

domain adaptation

synthesis

loss function

augmentation

arXiv

self-supervised

semantic segmentation
リンク
ミニからミニマックス最適化までの加速されたゼロ次および一次運動量法
arxiv_reader 2022/01/19
この論文では、非凸ミニ最適化とミニマックス最適化の両方のための加速されたゼロ次および一次運動量法のクラスを提案します。具体的には、関数値のみを取得できるブラックボックスミニ最適化のための新しい加速ゼロ

arXiv reaDer

arXiv

gradient

adversarial
リンク
教師なしデュアルブランチ学習による3D頭蓋内動脈瘤の分類とセグメンテーション
arxiv_reader 2022/01/19
頭蓋内動脈瘤は今日一般的であり、それらをインテリジェントに検出する方法は、デジタルヘルスにおいて非常に重要です。ほとんどの既存の深層学習研究は、教師ありの方法で医用画像に焦点を当てていましたが、3D点

arXiv reaDer

pre-training

unsupervised

point cloud

segmentation

3D

classification

arXiv

detection
リンク
- 2022年1月20日
- 2022年1月19日
- 2022年1月17日

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx