arxiv_readerのブックマーク / 2021年10月22日 - はてなブックマーク

arxiv_reader id:arxiv_reader

2021年10月22日のブックマーク (209件)

半明確な緩和による凸ジョイントグラフのマッチングとクラスタリング
arxiv_reader 2021/10/22
この論文は、同時グラフマッチングとクラスタリングのための新しいアルゴリズムを提案します。文献で初めて、これら2つの問題は、トレーニングデータに依存することなく、共同で相乗的に解決されます。これにより、

reasoning

arXiv

arXiv reaDer

clustering

3D

embedding
リンク
一般化された分布外検出: 調査
arxiv_reader 2021/10/22
機械学習システムの信頼性と安全性を確保するには、分布外（OOD）の検出が重要です。たとえば、自動運転では、これまでに見たことのない異常なシーンや物体を検出して安全な判断ができない場合に、運転システムに

arXiv

anomaly detection

arXiv reaDer

learning

OOD

autonomous driving

attention
リンク
ラベルのない例を使用した少数ショット画像分類の強化
arxiv_reader 2021/10/22
ラベルのないインスタンスを使用して、数ショットの画像分類パフォーマンスを向上させるトランスダクティブメタ学習法を開発します。私たちのアプローチは、正則化されたマハラノビス距離ベースのソフトk-mean

arXiv

benchmark

arXiv reaDer

learning

clustering

classification

few-shot
リンク
分布シフトに関するきめ細かい分析
arxiv_reader 2021/10/22
実世界に機械学習モデルを導入するには、分散シフトに対する堅牢性が重要です。この必要性にもかかわらず、これらのシフトを引き起こす根本的なメカニズムを定義し、複数の異なる分布シフトにわたるアルゴリズムの堅

arXiv

arXiv reaDer

learning

dataset

synthesis
リンク
2D画像監視のみで3Dセマンティックセグメンテーションを学習する
arxiv_reader 2021/10/22
最近の都市地図作成と自動運転の取り組みの成長に伴い、LIDARスキャナーとカラーカメラを備えた地上プラットフォームから収集された生の3Dデータが爆発的に増加しています。ただし、ラベリングコストが高いた

LiDAR

arXiv

arXiv reaDer

learning

dataset

autonomous driving

3D

semantic segmentation
リンク
StyleAlign：整列されたStyleGANモデルの分析とアプリケーション
arxiv_reader 2021/10/22
この論文では、整列された生成モデルの特性とアプリケーションの詳細な研究を行います。 2つのモデルが同じアーキテクチャを共有し、一方（子）がもう一方（親）から別のドメインへの微調整によって取得される場合

arXiv

arXiv reaDer

zero-shot

human

domain

generative

transfer learning

face
リンク
マルチクラスベースのマンモグラフィ診断のためのタスクスペースでの深いカリキュラム学習
arxiv_reader 2021/10/22
マンモグラフィは、乳がんの潜在的な患者のための標準的なスクリーニング手順として使用されます。過去10年間で、深層学習技術は多くのタスクで人間に近いパフォーマンスに到達することに成功したことが示され、マ

arXiv

arXiv reaDer

learning

dataset

classification
リンク
CLOOB：InfoLOOBを備えた最新のホップフィールドネットワークはCLIPよりも優れています
arxiv_reader 2021/10/22
InfoNCEの目的を備えた対照学習は、さまざまな自己管理型学習タスクで非常に成功しています。最近、CLIPモデルは、InfoNCEを使用して自然言語の監視から視覚的表現を学習するときに、ゼロショット

representation

arXiv

contrastive learning

arXiv reaDer

zero-shot

dataset

self-supervised

transfer learning

embedding
リンク
継続学習のためのセンターロス正則化
arxiv_reader 2021/10/22
人工知能の開発には、さまざまなタスクを順番に学習する能力が不可欠です。一般に、ニューラルネットワークにはこの機能がなく、大きな障害は壊滅的な忘却です。これは、非定常データ分布から段階的に利用可能な情報

domain adaptation

representation

arXiv

arXiv reaDer

learning

dataset

regularization
リンク
条件付き埋め込みを使用したビデオとテキストのマッチング
arxiv_reader 2021/10/22
特定のコーパスから特定のビデオクリップに、またはその逆にテキスト文を照合する方法を示します。従来、ビデオとテキストのマッチングは、共有埋め込みスペースを学習することによって行われ、一方のモダリティのエ

representation

arXiv

arXiv reaDer

learning

pooling

dataset

video

embedding
リンク
マージンコサインロスと相対論的弁別器を備えたGANに関する実証的研究
arxiv_reader 2021/10/22
生成的敵対的ネットワーク（GAN）は、任意に複雑な次元のデータ分布を暗黙的に学習できる有用な生成モデルとして登場しました。ただし、GANのトレーニングは、非常に不安定で敏感であることで経験的によく知ら

convolutional

arXiv

arXiv reaDer

learning

loss function

GAN
リンク
弱く監視されたアクションのセグメンテーション方法の評価について
arxiv_reader 2021/10/22
アクションセグメンテーションは、トリミングされていないビデオのすべてのフレームを時間的にセグメント化するタスクです。特にトランスクリプトからの、アクションセグメンテーションへの弱く監視されたアプロー

weakly-supervised

arXiv

arXiv reaDer

action

dataset

segmentation

video

computer vision
リンク
時空記憶ネットワークによる複数オブジェクトの追跡とセグメンテーション
arxiv_reader 2021/10/22
微調整やベンチマークごとのハイパーパラメータ選択を必要としない、マルチオブジェクトの追跡とセグメンテーションの方法を提案します。提案されたトラッカーMeNToSは、特にデータの関連付けの問題に対処しま

arXiv

arXiv reaDer

benchmark

one-shot

optical flow

human

MOT

metric

segmentation
リンク
フェイスマスクの着用が顔の画質に及ぼす影響
arxiv_reader 2021/10/22
COVID-19の状況により、フェイスマスクは私たちの日常生活の主要な部分になっています。 COVID-19ウイルスの蔓延を防ぐために、多くの公共の場所で口と鼻の保護具を着用することが義務付けられてい

arXiv

arXiv reaDer

face recognition

human

COVID-19

interpretation
リンク
敵対的生成ネットワークを使用した相補的な 2D および 3D 中間構造データセットの融合
arxiv_reader 2021/10/22
材料のメソ構造がデバイスレベルのパフォーマンスに与える影響をモデル化するには、通常、シミュレーションドメインのジオメトリを定義するために、すべての関連情報を含む3D画像データにアクセスする必要がありま

simulation

convolutional

arXiv

arXiv reaDer

super-resolution

domain

reconstruction

metric

3D

GAN
リンク
自己監視単眼シーン分解と深さ推定
arxiv_reader 2021/10/22
自己監視単眼深度推定アプローチは、シーン内で独立して移動するオブジェクトを無視するか、それらを識別するために別個のセグメンテーションステップを必要とします。私たちは、MonoDepthSegを提案して

arXiv

arXiv reaDer

dataset

estimation

self-supervised

segmentation

video

monocular
リンク
MSO：RGB赤外線人物の再識別のための多機能空間共同最適化ネットワーク
arxiv_reader 2021/10/22
RGB赤外線クロスモダリティ人物再識別（ReID）タスクは、可視モダリティと赤外線モダリティの間で同じIDの画像を認識することを目的としています。既存の方法では、主に2ストリームアーキテクチャを使用し

arXiv

arXiv reaDer

person

re-id

dataset
リンク
画像コレクションからのマルチカテゴリメッシュ再構成
arxiv_reader 2021/10/22
最近、学習フレームワークは、単一のRGB画像からオブジェクトの正確な形状、ポーズ、およびテクスチャを推測する機能を示しています。ただし、現在の方法は、特定の事前確率を活用するために単一のカテゴリの画像

arXiv

arXiv reaDer

learning

dataset

reconstruction

pose

unsupervised

mesh

3D
リンク
スペクトル変換とカラートライアングルのカバレッジの観点からの色再現のためのいくつかの低パラメータモデルの特性について
arxiv_reader 2021/10/22
色順応や色空間変換などの色再現の問題を解決するための古典的なアプローチの1つは、低パラメータのスペクトルモデルの使用です。このアプローチの強みは、モデルが持つべき一連のプロパティを選択できることです。

arXiv

adaptation

arXiv reaDer
リンク
スーパーピクセルミックスによるロバストなセマンティックセグメンテーション
arxiv_reader 2021/10/22
予測パフォーマンスと実行速度に加えて、信頼性は実際のセマンティックセグメンテーションの重要な要件です。信頼性には、堅牢性、予測の不確実性、バイアスの低減が含まれます。信頼性を向上させるために、教師と生

bias

arXiv

arXiv reaDer

augmentation

OOD

dataset

semi-supervised

semantic segmentation
リンク
まばたきの速度を計算することによるドライバーの眠気の検出
arxiv_reader 2021/10/22
多くの交通事故は、ドライバーの眠気が原因です。目を閉じていることを検出する方法はありますが、ドライバーが眠くなる段階的なプロセスを検出することは簡単な作業ではありません。目のアスペクト比から導き出され

arXiv

real time

SVM

arXiv reaDer

detection

face
リンク
PlaneRecNet：単一のRGB画像からの区分的平面検出と再構成のためのクロスタスク一貫性を備えたマルチタスク学習
arxiv_reader 2021/10/22
区分的3D平面再構成は、特に屋内シナリオで、人工環境の全体的なシーン理解を提供します。最近のアプローチは、高度なネットワークアーキテクチャを導入することによってセグメンテーションと再構築の結果を改善す

arXiv

arXiv reaDer

detection

CNN

multi-task

reconstruction

loss function

segmentation

3D

attention
リンク
DAIR：データ拡張不変正則化
arxiv_reader 2021/10/22
経験的リスク最小化（ERM）による深層学習は、さまざまな複雑なタスクで人間レベルのパフォーマンスを達成することに成功しましたが、ERMは分布シフトに一般化されていません。これは、画像の背景や自然言語の

arXiv

benchmark

arXiv reaDer

learning

augmentation

domain

regularization

synthesis
リンク
ヒューマンアクション合成のための生成的敵対的グラフ畳み込みネットワーク
arxiv_reader 2021/10/22
人体骨格の空間的および時間的ダイナミクスを合成することは、生成された形状の品質だけでなく、特に特定のアクション（アクションコンディショニング）の現実的な体の動きを合成するための多様性の観点からも、依然

arXiv

arXiv reaDer

dataset

human

disentangling

metric

synthesis

GCN

action

GAN
リンク
CyTran: 非コントラストからコントラスト CT への変換のためのマルチレベルの一貫性を備えたサイクル一貫性のあるトランスフォーマー
arxiv_reader 2021/10/22
対になっていないコントラストコンピュータ断層撮影（CT）スキャンを非コントラストCTスキャンに、またはその逆に変換するための新しいアプローチを提案します。このタスクを解決するには、2つの重要なアプリケ

convolutional

arXiv

arXiv reaDer

transformer

generative

3D

CT

attention

adversarial
リンク
メタ学習の難しいエピソードについて
arxiv_reader 2021/10/22
既存のメタ学習者は、主に複数のエピソードにわたる平均タスク精度の向上に重点を置いています。ただし、エピソードが異なれば、硬さと品質が異なる可能性があり、エピソード間でメタラーナーのパフォーマンスに大き

arXiv

benchmark

arXiv reaDer

learning

few-shot

adversarial
リンク
SLURP：回帰問題のサイドラーニングの不確実性
arxiv_reader 2021/10/22
深層学習アルゴリズムでは、信頼性の制約を満たし、正確な結果を提供するために、出力の不確実性を定量化することが重要になっています。回帰の不確実性の推定は、後者のクラスのタスクのより単純な標準化された出力

arXiv

arXiv reaDer

benchmark

optical flow

dataset

estimation

classification

monocular

computer vision

attention
リンク
確率的画像モデリングの分布外一般化について
arxiv_reader 2021/10/22
分布外（OOD）検出と可逆圧縮は、最初のデータセットで確率モデルをトレーニングし、その後、データ分布が異なる2番目のデータセットで尤度評価を行うことで解決できる2つの問題を構成します。尤度の観点から確

arXiv

arXiv reaDer

detection

OOD

dataset

compression

autoregressive

unsupervised
リンク
軽量アーキテクチャを使用した自己監視型視覚表現学習
arxiv_reader 2021/10/22
自己監視学習では、注釈がマシンによって作成されるデータセットを使用して、口実タスクを解決するようにモデルがトレーニングされます。目的は、トレーニングされた重みを転送して、ターゲットドメインでダウンスト

pre-training

arXiv

arXiv reaDer

representation learning

domain

self-supervised
リンク
各属性の問題：文ベースの画像編集に対する対照的な注意
arxiv_reader 2021/10/22
文ベースの画像編集（SIE）は、自然言語を使用して画像を編集することを目的としています。高価な手動編集を削減する可能性を提供するSIEは、最近多くの関心を集めています。ただし、既存のメソッドでは正確な

arXiv

arXiv reaDer

dataset

contrastive

GAN

attention
リンク
補助識別分類器を備えた条件付きGAN
arxiv_reader 2021/10/22
条件付き生成モデルは、データとラベルの基礎となる同時分布を学習し、条件付き生成を実現することを目的としています。その中で、補助分類器生成敵対的ネットワーク（AC-GAN）が広く使用されていますが、生成

arXiv

arXiv reaDer

dataset

synthesis

GAN
リンク
HCV：インクリメンタルな暗黙的に洗練された分類のための階層整合性検証
arxiv_reader 2021/10/22
人間は生涯にわたって階層的な知識を学び、蓄積します。この知識は、統合と階層構造の以前の概念に関連付けられています。ただし、現在の増分学習方法には、新しい概念を古い概念に関連付けることによって概念階層を

arXiv

benchmark

arXiv reaDer

learning

human

classification
リンク
時空間ドメインシフトフレーム予測のためのデュアルエンコーディングU-Net
arxiv_reader 2021/10/22
市全体のモビリティ行動の状況は、過去18か月で大幅に変化しました。そのような行動について正確で信頼できる予測を行う能力も同様に、世界中の人口がモビリティのさまざまな側面とどのように相互作用するかに影響

convolutional

arXiv

arXiv reaDer

spatio-temporal

LSTM

domain

COVID-19

U-Net
リンク
半教師ありインクリメンタル少数ショット学習の強力なベースライン
arxiv_reader 2021/10/22
少数ショット学習（FSL）は、限られたトレーニングサンプルで新しいクラスに一般化するモデルを学習することを目的としています。最近の研究は、ラベルのない例も利用できるシナリオに向けてFSLを前進させ、半

arXiv

benchmark

arXiv reaDer

learning

semi-supervised

few-shot

adaptation
リンク
ラベル拡張を備えた自己監視型GAN
arxiv_reader 2021/10/22
最近、変換ベースの自己監視学習が生成的敵対的ネットワーク（GAN）に適用され、定常学習環境を導入することで、ディスクリミネーターの壊滅的な忘却を軽減しています。ただし、既存の自己監視GANの個別の自己

arXiv

representation learning

arXiv reaDer

benchmark

augmentation

dataset

self-supervised

GAN
リンク
ショートカットへの依存を減らす前に、あまりにも良いこと
arxiv_reader 2021/10/22
標準的なテスト条件下でのオブジェクト認識やその他のタスクでの優れたパフォーマンスにもかかわらず、ディープネットワークは、多くの場合、非分散 (ood) サンプルに一般化できません。この欠点の 1 つ

arXiv

arXiv reaDer

detection

OOD

dataset
リンク
一般的および顔固有の画質メトリックを使用した顔画像ユーティリティの測定に関する深い洞察
arxiv_reader 2021/10/22
品質スコアは、生体認証のための生体サンプルの有用性を評価するための尺度を提供します。生体認証システムは、最適なパフォーマンスを実現するために高品質のサンプルを必要とします。このホワイトペーパーでは、顔

arXiv

arXiv reaDer

face recognition

human

metric
リンク
放送サッカービデオからの位置プレーヤーデータの抽出
arxiv_reader 2021/10/22
コンピュータ支援のサポートと分析は、現代のスポーツの世界でますます重要になっています。潜在的な将来のプレーヤーのスカウト、パフォーマンス、試合分析、およびトレーニングプログラムの監視は、成功を確実にす

arXiv

arXiv reaDer

detection

estimation

metric

video
リンク
屋内シーンの深さ観察のための強化学習ベースの最適なカメラ配置
arxiv_reader 2021/10/22
複数のカメラを使用するタスクで、最もタスクに適したカメラ設定（最適なカメラ配置（OCP）の問題）を調査することは非常に重要です。ただし、屋内シーンの詳細な観察に特化した既存のOCPソリューションはほと

simulation

arXiv

arXiv reaDer

estimation

point cloud

reinforcement learning
リンク
白血球サブタイプの検出と分類
arxiv_reader 2021/10/22
機械学習は、ヘルスケア業界で無限の用途があります。白血球の分類は、興味深く有望な研究分野の1つです。白血球の分類は、医学的診断において重要な役割を果たします。実際には、白血球の分類は、血液学者が血液の

arXiv

arXiv reaDer

learning

detection

human

YOLO

classification

localization
リンク
ハイパースペクトル画像分類のための自動設計された畳み込みニューラルネットワーク上のグラフトトランス
arxiv_reader 2021/10/22
ハイパースペクトル画像には豊富な空間情報とスペクトル情報があり、さまざまな土地被覆オブジェクトを区別するための強力な基盤を提供するため、ハイパースペクトル画像（HSI）の分類は決定のホットトピックとな

convolutional

arXiv

arXiv reaDer

NAS

learning

transformer

dataset

classification

3D
リンク
ロバストエッジ-CNNエッジ検出とShi-Tomasiコーナー最適化に基づく直接視覚オドメトリ
arxiv_reader 2021/10/22
本論文では、CNNエッジ検出とShi-Tomasiコーナー最適化に基づくロバストなエッジ直接視覚オドメトリ（VO）を提案します。フレーム間の動き誤差を減らすために、提案された方法で画像からピラミッドの

arXiv

arXiv reaDer

benchmark

detection

CNN

odometry

pose estimation

RGB-D
リンク
視野を超えた転送：教師なしドメイン適応による高密度パノラマセマンティックセグメンテーション
arxiv_reader 2021/10/22
自動運転車は、360度センサーの拡張された視野（FoV）の恩恵を明らかに受けていますが、最新のセマンティックセグメンテーションアプローチは、パノラマ画像ではめったに利用できない注釈付きトレーニングデー

domain adaptation

arXiv

arXiv reaDer

learning

dataset

vehicle

unsupervised

semantic segmentation

attention
リンク
視覚表現の教師なし学習のための対照的な方法の再考
arxiv_reader 2021/10/22
対照的な教師あり学習は、セグメンテーションやオブジェクト検出などの多くのダウンストリームタスクで教師あり事前トレーニングを上回っています。ただし、現在の方法は、主にImageNetなどのキュレーション

representation

arXiv

arXiv reaDer

detection

dataset

contrastive

self-supervised

segmentation

unsupervised
リンク
K-Lane：都市道路と高速道路のLidarLaneデータセットとベンチマーク
arxiv_reader 2021/10/22
さまざまな道路状況での正確な車線検出は、自動運転にとって重要な機能です。一般に、フロントカメラ画像から検出された車線がモーションプランニングのために鳥瞰図（BEV）に投影されると、結果として得られる車

LiDAR

arXiv

pre-training

arXiv reaDer

detection

CNN

dataset

autonomous driving

point cloud
リンク
効率的なハイパーパラメータ分析によるリサイクル分類の展開の改善
arxiv_reader 2021/10/22
自動廃棄物分類のパラダイムは、最近、関心のある領域が従来の画像処理技術から畳み込みニューラルネットワーク（CNN）として知られる強力なコンピュータービジョンアルゴリズムにシフトしていることを示していま

arXiv

real time

arXiv reaDer

augmentation

CNN

domain

classification

computer vision
リンク
RefRec：教師なし3Dドメイン適応のための形状再構成による疑似ラベルの改良
arxiv_reader 2021/10/22
点群分類のための教師なしドメイン適応（UDA）は、関連する実際的な動機を持つ新たな研究問題です。ドメイン間で機能を調整するためのマルチタスク学習への依存は、それに取り組むための標準的な方法でした。この

domain adaptation

arXiv

arXiv reaDer

benchmark

multi-task

reconstruction

classification

point cloud

unsupervised

3D
リンク
自己監視表現学習の非効率性の解決
arxiv_reader 2021/10/22
教師なし学習（特に対照学習）は、教師なしで識別表現を学習する可能性が非常に高いため、大きな関心を集めています。認められた成功にもかかわらず、既存の対照的な学習方法は、学習効率が非常に低いという問題があ

arXiv

representation learning

contrastive learning

arXiv reaDer

benchmark

self-supervised

unsupervised
リンク
モデル圧縮のためのピアツーピア相互学習による知識蒸留の強化
arxiv_reader 2021/10/22
知識蒸留（KD）は、コンパクトな学生ネットワークが複雑で高度に訓練された教師ネットワークの動作を模倣するように教えられる効果的なモデル圧縮技術です。対照的に、相互学習（ML）は、強力で静的な教師ネット

arXiv

benchmark

arXiv reaDer

learning

detection

knowledge distillation

compression

classification
リンク
時空間的注意を伴う脳コネクトームの動的グラフ表現の学習
arxiv_reader 2021/10/22
脳の領域間の機能的結合 (FC) は、機能的神経画像モダリティで測定された時間的相関の程度によって評価できます。これらの接続性がネットワークを構築するという事実に基づいて、脳のコネクトームを分析するた

representation

arXiv

arXiv reaDer

spatio-temporal

transformer

GNN

dataset

human

interpretation

attention
リンク
CAPTRA：点群からの剛体および連結オブジェクトのカテゴリレベルのポーズ追跡
arxiv_reader 2021/10/22
この作業では、点群シーケンスからのオブジェクトのカテゴリレベルのオンラインポーズ追跡の問題に取り組みます。初めて、新しい剛体インスタンスの9DoFポーズ追跡と、既知のカテゴリの関節オブジェクトのパーツ

6D

arXiv

arXiv reaDer

benchmark

tracking

point cloud

segmentation

pose

3D
リンク
E-RAFT：イベントカメラからの高密度オプティカルフロー
arxiv_reader 2021/10/22
イベントカメラからの高密度オプティカルフロー推定に特徴相関と順次処理を組み込むことを提案します。最新のフレームベースのオプティカルフロー手法は、特徴の相関から計算されたマッチングコストに大きく依存して

convolutional

arXiv

arXiv reaDer

optical flow

dataset

estimation

U-Net
リンク
開集合認識のための空間位置制約プロトタイプ損失
arxiv_reader 2021/10/22
パターン認識の課題の1つは、オープンセット認識です。閉集合認識と比較して、開集合認識は、経験的リスクだけでなく、オープンスペースリスクも削減する必要があり、これら2つのリスクの削減は、それぞれ既知のク

arXiv

benchmark

arXiv reaDer

dataset

loss function
リンク
医用画像処理タスクの気孔の不確実性の低減に向けて
arxiv_reader 2021/10/22
医療診断などのセーフティクリティカルなアプリケーションでは、モデルの予測に関連する確実性は、その精度と同じくらい重要です。したがって、不確実性の推定と削減が重要な役割を果たします。予測の不確実性は、デ

arXiv

arXiv reaDer

benchmark

augmentation

dataset

estimation

reconstruction

self-supervised

segmentation
リンク
説明可能な顔認識のためのピクセルレベルの顔画質評価
arxiv_reader 2021/10/22
顔認識システムで高性能を達成するための重要な要素は、サンプルの品質です。これらのシステムはさまざまな日常生活に関与しているため、顔認識プロセスを人間が理解できるようにすることが強く求められています。こ

face recognition

arXiv

arXiv reaDer

explainable
リンク
ESAD：エンドツーエンドの深い半教師あり異常検出
arxiv_reader 2021/10/22
このホワイトペーパーでは、半教師あり異常検出について説明します。これは、ラベル付きサンプルの小さな追加セットが提供される異常検出のより実用的な設定です。半教師あり異常検出のための新しいKL発散ベースの

representation

arXiv

anomaly detection

benchmark

arXiv reaDer

dataset

semi-supervised
リンク
複数ドメイン学習のためのメモリ効率の良い適応的注意
arxiv_reader 2021/10/22
新しいドメインでCNNを最初からトレーニングするには、通常、多数のラベル付き画像と計算が必要ですが、これは低電力ハードウェアには適していません。これらの要件を減らす1つの方法は、CNNアーキテクチャを

pre-training

arXiv

arXiv reaDer

learning

CNN

domain

metric

attention
リンク
ワイドベースラインマルチビュー交通カメラデータを使用した単眼3Dオブジェクト検出器の弱教師ありトレーニング
arxiv_reader 2021/10/22
交差点での車両の正確な7DoF予測は、道路利用者間の潜在的な衝突を評価するための重要なタスクです。原則として、これは各車両のポーズを検出できる単一のカメラシステムによって実現できますが、これには、検出

weakly-supervised

arXiv

pre-training

arXiv reaDer

detection

dataset

pose

monocular

3D

vehicle
リンク
2020CATARACTSセマンティックセグメンテーションチャレンジ
arxiv_reader 2021/10/22
外科的シーンのセグメンテーションは、解剖学的構造と器具の位置特定に不可欠であり、外科的処置中の組織と器具の相互作用を評価するためにさらに使用できます。 2017年、cataRACT手術の自動ツール注釈

arXiv

arXiv reaDer

localization

video

semantic segmentation
リンク
Vis-TOP：VisualTransformerオーバーレイプロセッサ
arxiv_reader 2021/10/22
近年、Transformerは自然言語処理（NLP）で良好な結果を達成し、コンピュータービジョン（CV）にも拡大し始めています。 VisionTransformerやSwinTransformerなど

arXiv

real time

arXiv reaDer

transformer

quantization

computer vision
リンク
クラス認識選択的損失を使用した部分注釈によるマルチラベル分類
arxiv_reader 2021/10/22
大規模なマルチラベル分類データセットは、一般的に、そしておそらく必然的に、部分的に注釈が付けられます。つまり、サンプルごとにラベルの小さなサブセットのみに注釈が付けられます。欠落しているラベルを処理す

arXiv

arXiv reaDer

dataset

estimation

classification
リンク
MOS：顔検出、ランドマークのローカリゼーション、および頭のポーズの推定のための低遅延で軽量のフレームワーク
arxiv_reader 2021/10/22
サービスロボットや監視カメラの登場により、近年、野生の動的顔認識（DFR）が注目されています。顔検出と頭のポーズの推定は、DFRの2つの重要なステップです。多くの場合、ポーズは顔検出後に推定されます。

arXiv

arXiv reaDer

landmark

face recognition

detection

dataset

multi-task

pose estimation

localization

attention
リンク
皮肉とユーモアの検出に最適な輸送を使用したマルチモーダル学習
arxiv_reader 2021/10/22
マルチモーダル学習は、新興でありながら挑戦的な研究分野です。この論文では、会話ビデオと画像とテキストのペアからのマルチモーダルな皮肉とユーモアの検出を扱います。モダリティ全体に反映されるつかの間のアク

arXiv

benchmark

arXiv reaDer

learning

detection

dataset

video

action

attention
リンク
固有の変形場の下でのデータ多様体の変形を平坦化することによる自律的な次元削減
arxiv_reader 2021/10/22
データセットの新しい次元削減（DR）方法は、データ多様体の自律変形によって提案されます。変形は、データポイント間の2種類の仮想相互作用によって定義される、提案された変形ベクトル場によって導かれます。デ

manifold

arXiv

arXiv reaDer
リンク
CATRO: クラスアウェアトレース比率最適化によるチャネルプルーニング
arxiv_reader 2021/10/22
深い畳み込みニューラルネットワークは、多くのアプリケーションシナリオで高いパラメトリックおよび計算の冗長性を備えて過剰であることが示され、軽量で効率的なネットワークを取得するためにモデルの剪定を検討す

arXiv

arXiv reaDer

CNN

pruning

classification
リンク
非ランバートフォトメトリックステレオのフレーム間およびフレーム内表現の学習
arxiv_reader 2021/10/22
フォトメトリックステレオは、さまざまな照明方向でキャプチャされた複数の強度の画像に基づいて、忠実度の高い3D再構成を行うための重要な方法を提供します。この論文では、非ランバート物体の正確な通常推定のた

representation

arXiv

sparse

arXiv reaDer

learning

CNN

estimation

reconstruction

3D

stereo
リンク
セマンティックセグメンテーションのための教師なしドメイン適応におけるピクセル間相関の活用
arxiv_reader 2021/10/22
「自己トレーニング」は、教師なしドメイン適応（UDA）を介したセマンティックセグメンテーションの主要な方法になりました。ターゲットドメインの疑似ラベルのセットを作成して、明示的な監視を行います。ただし

domain adaptation

arXiv

sparse

arXiv reaDer

benchmark

unsupervised

semantic segmentation
リンク
視覚的な質問応答のためのシングルモーダルエントロピーベースのアクティブラーニング
arxiv_reader 2021/10/22
現実の世界で大規模なラベル付きデータセットを構築することは、特に高レベルのタスク（たとえば、視覚的な質問応答）の場合、費用と時間がかかる可能性があります。さらに、データ量とアーキテクチャの複雑さが増す

arXiv

arXiv reaDer

VQA

learning

dataset

computer vision
リンク
オブジェクト検出に基づく非常にまばらな点群のための高速位置アルゴリズム
arxiv_reader 2021/10/22
パフォーマンス要因によって制限されるため、特に単眼カメラを使用するローエンドのモバイルデバイスの拡張現実（AR）シーンで、ターゲットオブジェクトを認識し、それを見つけるのは困難です。本論文では、非常に

arXiv

sparse

arXiv reaDer

detection

augmentation

point cloud

monocular
リンク
LARNet：ヒューマンアクション合成のための潜在アクション表現
arxiv_reader 2021/10/22
人間のアクションビデオを生成するための新しいエンドツーエンドのアプローチであるLARNetを紹介します。ビデオを合成するための外観とダイナミクスの共同生成モデリングは非常に困難であるため、ビデオ合成の

representation

arXiv

recurrent

arXiv reaDer

dataset

human

generative

loss function

synthesis

action
リンク
柔軟なガイダンス入力による深い画像マット
arxiv_reader 2021/10/22
画像のマット化は、コンピュータビジョンの重要な問題です。多くの既存のマット方法では、補助情報を提供するために手作りのトライマップが必要です。これは非常に高価であり、実際の使用を制限します。最近、ユーザ

computer vision

arXiv

arXiv reaDer
リンク
ディープフォレストに基づくプライバシーを意識したIDクローニングの検出
arxiv_reader 2021/10/22
ソーシャルセンサークラウドサービスプロバイダーのIDクローニングを検出して、IDの欺瞞によって引き起こされる有害な結果を防ぐための新しい方法を提案します。このアプローチは、ソーシャルネットワークから収

arXiv

arXiv reaDer

learning

detection

dataset
リンク
ディープニューラルネットワークを使用したさまざまなオープンセット医用画像タスクの評価
arxiv_reader 2021/10/22
現世代のディープニューラルネットワークは、「閉集合」画像認識で人間に近い結果を達成しています。つまり、評価されるクラスはトレーニングクラスと重複します。最近の多くの方法は、「オープンセット」認識アルゴ

domain

arXiv

arXiv reaDer

dataset
リンク
伝達可能なニューラルプルーニング関数の進化
arxiv_reader 2021/10/22
チャネルプルーニングは、効率的な深層学習モデルの設計において大きな進歩を遂げました。従来のアプローチでは、人為的なプルーニング機能を採用して、チャネルプルーニングに対するチャネルの重要性をスコアリング

arXiv

arXiv reaDer

learning

pruning

dataset

domain

explainable

metric
リンク
潜在空間エネルギーベースモデルによる制御可能で構成的な生成
arxiv_reader 2021/10/22
制御可能な生成は、実際のアプリケーションで深層生成モデルをうまく採用するための重要な要件の1つですが、それでも大きな課題として残っています。特に、新しい概念の組み合わせを生成する構成能力は、ほとんどの

pre-training

arXiv

arXiv reaDer

zero-shot

generative
リンク
HENet：フォント認識のためにネットワークにもっと考えさせる
arxiv_reader 2021/10/22
近年、テキスト認識/ OCRで多くの進歩が見られましたが、フォント認識のタスクは依然として困難です。主な課題は、これらの類似したフォント間の微妙な違いにあり、区別するのは困難です。この論文は、フォント

arXiv

arXiv reaDer

dataset
リンク
LC3Net：顕著なオブジェクト検出のためのラダーコンテキスト相関補完ネットワーク
arxiv_reader 2021/10/22
現在、畳み込みニューラルネットワークに基づく既存の顕著なオブジェクト検出方法は、一般に、高レベルと低レベルの特徴を集約するために識別ネットワークを構築することに頼っています。ただし、コンテキスト情報は

arXiv

arXiv reaDer

detection

saliency

CNN

compression
リンク
クラス識別CNN圧縮
arxiv_reader 2021/10/22
剪定と蒸留による畳み込みニューラルネットワーク（CNN）の圧縮は、コミュニティでますます注目を集めています。特に、階級差別に基づくアプローチの設計は、CNNのトレーニング目標にシームレスに適合するため

representation

arXiv

arXiv reaDer

distillation

CNN

pruning

compression

classification
リンク
F-CAM：ガイド付きパラメトリックアップスケーリングによるフル解像度クラスアクティベーションマップ
arxiv_reader 2021/10/22
クラスアクティベーションマッピング（CAM）メソッドは、最近、弱教師ありオブジェクトローカリゼーション（WSOL）タスクで大きな注目を集めています。これらは、完全に注釈が付けられた画像データセットのト

weakly-supervised

convolutional

arXiv

arXiv reaDer

pooling

CNN

dataset

localization

interpretation

attention
リンク
同変ブリッジSO（2）-グラフ畳み込みネットワークを使用した不変表現学習
arxiv_reader 2021/10/22
回転に対してロバストになるように畳み込みニューラルネットワーク（CNN）をトレーニングすることは、ほとんどの場合、データ拡張を使用して行われました。この論文では、ネットワークの構造的な回転不変性を実現

arXiv

representation learning

arXiv reaDer

pooling

augmentation

CNN

dataset

classification

GCN
リンク
SMOF：フィルターからより多くを絞り出すと、ハードウェアに優しいCNNプルーニングが得られます
arxiv_reader 2021/10/22
長年にわたり、畳み込みニューラルネットワーク（CNN）のファミリーは、深層学習の主力製品でした。最近、多くの新しいCNN構造が、ますます困難になるタスクに対処するように設計されています。それらをエッジ

arXiv

arXiv reaDer

edge device

learning

CNN

pruning
リンク
マルチドメイン画像翻訳のためのドメインギャップを意識した生成的敵対的ネットワーク
arxiv_reader 2021/10/22
最近の画像から画像への変換モデルは、2つのドメイン間でローカルテクスチャをマッピングすることに大きな成功を収めています。既存のアプローチは、逆マッピングを学習するためにジェネレーターを監視するサイクル

arXiv

arXiv reaDer

learning

dataset

domain

GAN
リンク
HPNet：ハイブリッド表現を使用したディーププリミティブセグメンテーション
arxiv_reader 2021/10/22
このホワイトペーパーでは、点群として表される3D形状をプリミティブパッチにセグメント化するための新しいディープラーニングアプローチであるHPNetを紹介します。深いプリミティブセグメンテーションの鍵は

representation

arXiv

arXiv reaDer

benchmark

clustering

dataset

point cloud

segmentation

3D
リンク
視覚空間、言語、常識の構造をストーリーの視覚化に統合する
arxiv_reader 2021/10/22
テキストから画像への合成については多くの研究が行われていますが、入力テキストの言語構造の使用法を調査するための作業はほとんど行われていません。そのような情報は、その入力が画像シーケンス（またはビジュア

arXiv

recurrent

arXiv reaDer

dataset

human

domain

contrastive

metric

synthesis

captioning
リンク
グラフニューラルネットワークを使用した高解像度の降雨流出モデリング
arxiv_reader 2021/10/22
時系列モデリングは、LSTM（Long Short-Term Memory）などの最新の深層学習アルゴリズムを使用した最近の研究で大きな期待を示しています。これらの研究は、主に流域規模の降雨流出モデリ

arXiv

arXiv reaDer

learning

GNN

LSTM

domain
リンク
平均のアンサンブル：ドメインの一般化におけるモデル選択の改善とパフォーマンスの向上
arxiv_reader 2021/10/22
ドメイン一般化（DG）設定では、トレーニングドメインの特定のセットでトレーニングされたモデルは、分布シフトされたテストドメインで悪名高い混沌としたパフォーマンスを示し、最適化（シードなど）の確率が大き

pre-training

arXiv

benchmark

arXiv reaDer

learning

dataset

domain
リンク
CXR-Net：胸部X線画像によるCOVID-19肺炎の説明可能で正確な診断のためのエンコーダー-デコーダー-エンコーダーマルチタスクディープニューラルネットワーク
arxiv_reader 2021/10/22
COVID-19肺炎の正確で迅速な検出は、最適な患者の治療に不可欠です。胸部X線（CXR）は、高速で安価で簡単にアクセスできるため、COVID-19肺炎診断の第一線の画像検査です。コンピュータビジョン

arXiv

arXiv reaDer

learning

detection

dataset

explainable

COVID-19

classification

computer vision
リンク
リソースに制約のあるエッジコンピューティングシステムの監視された圧縮
arxiv_reader 2021/10/22
スマートフォン、ドローン、医療センサーなどの低電力デバイスにディープラーニングアルゴリズムを導入することに大きな関心が寄せられています。ただし、実物大のディープニューラルネットワークは、エネルギーとス

representation

arXiv

arXiv reaDer

learning

knowledge distillation

compression

drone
リンク
HALP：ハードウェア対応のレイテンシープルーニング
arxiv_reader 2021/10/22
構造的プルーニングは、ネットワークアーキテクチャを簡素化し、推論速度を向上させることができます。事前定義された予算の下でレイテンシーを抑制しながら精度を最大化することを目的として、グローバルなリソース

arXiv

arXiv reaDer

detection

augmentation

pruning

saliency

dataset

classification

metric
リンク
限られたデータでのテキストベースの個人検索
arxiv_reader 2021/10/22
テキストベースの人物検索（TBPS）は、説明的なテキストクエリを使用して画像ギャラリーから対象人物を取得することを目的としています。このようなきめ細かいクロスモーダル検索タスクを解決することは困難であ

arXiv

contrastive learning

arXiv reaDer

person

dataset

domain

transfer learning
リンク
DVIO：RGBDセンサー用の深度支援視覚慣性オドメトリ
arxiv_reader 2021/10/22
過去数年間で、モバイルデバイスでのRGBDセンサーの使用が増加していることがわかりました。これらのセンサーは、カメラフレームの深度マップの適切な推定値を提供します。これは、多くの拡張現実アプリケーショ

arXiv

real time

arXiv reaDer

RGB-D

augmentation

trajectory

odometry

3D
リンク
敵対的なスタイル転送によるスタイルにとらわれない3D再構築
arxiv_reader 2021/10/22
画像からオブジェクトの3Dジオメトリを再構築することは、コンピュータビジョンの主要な課題です。最近導入された微分可能なレンダラーを利用して、2D画像からオブジェクトの3Dジオメトリを学習できますが、こ

domain adaptation

arXiv

arXiv reaDer

learning

differentiable

reconstruction

3D

computer vision

adversarial
リンク
手術ビデオでの一時的にガイドされた関節式手のポーズ追跡
arxiv_reader 2021/10/22
関節式の手のポーズ追跡は、特に医療分野で、多数のアプリケーションで使用される可能性を秘めた未踏の問題です。生体内の手術ビデオの堅牢で正確な追跡システムを使用すると、手の動きのダイナミクスと動きのパター

arXiv

arXiv reaDer

detection

dataset

MOT

domain

pose estimation

video
リンク
人間支援の顕著性マップは深層学習の一般化を改善します
arxiv_reader 2021/10/22
ディープラーニングは、多くのコンピュータービジョンの問題で顕著な精度の向上をもたらしました。進行中の課題の1つは、トレーニングデータが限られている場合に最高の精度を達成する方法です。 2番目の継続的な

arXiv

arXiv reaDer

learning

detection

saliency

human

computer vision
リンク
移動する柔軟なターゲットの連続画像の閉ループフィードバック登録
arxiv_reader 2021/10/22
イメージング技術の進歩により、製造生産ラインの品質監視のために連続した画像シーケンスを取得できるようになりました。これらの画像シーケンスの登録は、インラインパターン検査および計測、たとえばフレキシブル

arXiv

arXiv reaDer
リンク
挑戦的なゲームアートデータセットを介した制御されたGANベースのクリーチャー合成-ノイズと潜在的なトレードオフへの対処
arxiv_reader 2021/10/22
最先端のStyleGAN2ネットワークは、ランダムな画像の生成、クエリに「似た」画像の検索、コンテンツやスタイルの変更など、アートを作成および編集するための強力な方法をサポートしています。さらに、最近

arXiv

arXiv reaDer

dataset

synthesis
リンク
ハードウェアベースの適応劣化モデルによる実世界の画像超解像に向けて
arxiv_reader 2021/10/22
ほとんどの単一画像超解像（SR）メソッドは、合成低解像度（LR）と高解像度（HR）の画像ペアで開発され、バイキュービックダウンサンプリングなどの所定の劣化操作によってシミュレートされます。ただし、これ

arXiv

arXiv reaDer

learning

super-resolution

dataset

synthesis
リンク
クラスインクリメンタルオンラインストリーミング学習
arxiv_reader 2021/10/22
従来の深部神経ネットワークで生涯学習を可能にするために、さまざまな方法が開発されてきました。ただし、これらの方法を成功させるには、サンプルの「バッチ」が利用可能であり、トレーニング中に複数回訪問する必

arXiv

arXiv reaDer

learning

knowledge distillation

dataset

regularization
リンク
複数人の姿勢推定のための自己監視および時空間注意に基づく損失
arxiv_reader 2021/10/22
ボトムアップベースの複数人のポーズ推定アプローチでは、補助予測を使用したヒートマップを使用して、関節の位置と所属を一度に推定します。最近、より高いパフォーマンスを得るために、補助予測とヒートマップのさ

arXiv

arXiv reaDer

affinity

dataset

keypoint

self-supervised

loss function

pose estimation

attention
リンク
キメラ：SLAMから3Dダイナミックシーングラフによる空間知覚まで
arxiv_reader 2021/10/22
人間は、移動する環境の複雑なメンタルモデルを形成できます。このメンタルモデルは、シーンの幾何学的および意味論的側面をキャプチャし、静的および動的を含む複数の抽象レベル（オブジェクト、部屋、建物など）で

SLAM

arXiv

real time

arXiv reaDer

sparse

spatio-temporal

reconstruction

pose

localization

3D
リンク
モデルベースの計画で車両の軌道を予測することを学ぶ
arxiv_reader 2021/10/22
自動運転には、オンロード車の将来の軌道を予測することが重要です。このホワイトペーパーでは、モデルベースの計画による予測の略であるPRIMEと呼ばれる新しい予測フレームワークを紹介します。ニューラルネッ

arXiv

arXiv reaDer

benchmark

learning

trajectory

tracking

autonomous driving

vehicle
リンク
イラストキャラクターのポーズ推定のための転移学習
arxiv_reader 2021/10/22
人間のポーズ情報は、アクティビティ認識やモーショントラッキングなど、多くのダウンストリーム画像処理タスクで重要なコンポーネントです。同様に、図示されたキャラクタードメインのポーズ推定器は、参照ポーズの

arXiv

arXiv reaDer

dataset

domain

tracking

classification

segmentation

transfer learning

pose estimation
リンク
解釈可能なセマンティック写真のジオロケーション
arxiv_reader 2021/10/22
惑星規模の写真のジオローカリゼーションは、視覚的なコンテンツのみに基づいて画像に描かれている場所を推定する複雑なタスクです。畳み込みニューラルネットワーク（CNN）の成功により、現在のアプローチは超人

arXiv

benchmark

arXiv reaDer

learning

CNN

dataset

classification

metric
リンク
クロスモーダルトランスフォーマーを使用したエンドツーエンドのビジョンガイド付き四足歩行運動の学習
arxiv_reader 2021/10/22
強化学習（RL）と、固有受容情報と高次元深度センサー入力の組み合わせを学習するTransformerベースのモデルを使用して、4足歩行タスクに対処することを提案します。学習ベースの移動はRLを使用して

simulation

arXiv

robot

arXiv reaDer

transformer

domain

video

reinforcement learning
リンク
OSCAR-Net：画像アトリビューションのためのオブジェクト中心のシーングラフの注意
arxiv_reader 2021/10/22
画像は強力なストーリーを伝えますが、常に信頼できるとは限りません。画像を信頼できるソース（帰属）に照合することで、ユーザーはオンラインで遭遇した画像についてより多くの情報に基づいた判断を下すことができ

representation

arXiv

contrastive learning

arXiv reaDer

transformer

saliency

dataset

domain

attention
リンク
RandCrowns：不正確にラベル付けされた樹冠描写の定量的指標
arxiv_reader 2021/10/22
リモートセンシングにおけるオブジェクト描写のための教師あり方法には、ラベル付けされたグラウンドトゥルースデータが必要です。特にターゲットが不規則な形状であるか、背景や隣接するオブジェクトと区別するのが

arXiv

metric

arXiv reaDer

adaptation
リンク
異なるV1脳モデルバリアントを組み合わせて、CNNの画像破損に対するロバスト性を向上させる
arxiv_reader 2021/10/22
一部の畳み込みニューラルネットワーク（CNN）は、オブジェクト分類において人間の視覚能力を上回っていますが、さまざまなタイプの一般的なノイズパターンで破損した画像内のオブジェクトを認識するのに苦労する

arXiv

arXiv reaDer

distillation

CNN

human

classification
リンク
OSS-Net：3D医療データのメモリ効率の高い高解像度セマンティックセグメンテーション
arxiv_reader 2021/10/22
畳み込みニューラルネットワーク（CNN）は、医療データのボリュームセグメンテーションのための現在の最先端のメタアルゴリズムです。たとえば、コンピューター断層撮影スキャンでCOVID-19感染組織を特定

arXiv

residual

arXiv reaDer

detection

CNN

COVID-19

U-Net

localization

3D

semantic segmentation
リンク
セマンティックセグメンテーションのための半教師ありドメイン適応
arxiv_reader 2021/10/22
セマンティックセグメンテーションの深層学習アプローチは、主に教師あり学習アプローチに依存しており、ピクセルレベルの注釈を作成するためにかなりの努力が必要です。さらに、そのようなアプローチは、見えない画

domain adaptation

arXiv

arXiv reaDer

benchmark

learning

augmentation

semi-supervised

unsupervised

semantic segmentation
リンク
3D空間的に変化する照明を使用した屋内逆レンダリングの学習
arxiv_reader 2021/10/22
この作業では、単一の画像からアルベド、法線、深度、および3D空間的に変化する照明を共同で推定する問題に対処します。ほとんどの既存の方法は、シーンの3Dプロパティを無視して、タスクを画像から画像への変換

representation

arXiv

arXiv reaDer

learning

differentiable

3D
リンク
MarioNette：自己管理型スプライト学習
arxiv_reader 2021/10/22
アーティストやビデオゲームデザイナーは、スプライトのライブラリ（オブジェクトやキャラクターのテクスチャパッチ）を使用して2Dアニメーションを作成することがよくあります。スプライトベースのビデオアニメー

representation

arXiv

sparse

arXiv reaDer

learning

self-supervised

disentangling

video
リンク
クロスストリームプロトタイプコントラストを使用した自己監視型ビデオ表現学習
arxiv_reader 2021/10/22
データ拡張と対照損失関数に依存するインスタンスレベルの対照学習手法は、視覚表現学習の分野で大きな成功を収めています。ただし、操作は多くの拡張インスタンスで実行されるため、ビデオの豊富な動的構造を活用す

arXiv

representation learning

contrastive learning

arXiv reaDer

action recognition

optical flow

augmentation

self-supervised

loss function

embedding
リンク
インスタンスフローアセンブリによるビデオインスタンスのセグメンテーション
arxiv_reader 2021/10/22
インスタンスのセグメンテーションは、特定のクラスのすべてのオブジェクトインスタンスを分類およびセグメント化することを目的とした難しいタスクです。 2段階のボックスベースの方法は、画像ドメインで最高のパ

arXiv

video

arXiv reaDer

dataset

domain

tracking

localization

semantic segmentation
リンク
私がしていることを見てください：教育ビデオのナレーションの自己監視空間接地
arxiv_reader 2021/10/22
ナレーション付きのインタラクションをビデオで空間的にローカライズするタスクを紹介します。私たちのアプローチの鍵は、転写されたナレーションを伴うビデオの大規模なコーパスで、自己監視との相互作用を空間的に

representation

arXiv

video

arXiv reaDer

dataset

contrastive

self-supervised

localization

attention
リンク
イメージングに適用される準等角幾何学による微分写像問題の深層学習フレームワーク
arxiv_reader 2021/10/22
画像間の意味のある対応を定義するプロセスである画像レジストレーションは、さまざまな画像分析タスク、特に医用画像処理に不可欠です。近年提案されている変形可能な画像レジストレーションのための多数の学習ベー

arXiv

arXiv reaDer

learning

approximation

CNN

unsupervised
リンク
CNN解釈のための推論グラフ
arxiv_reader 2021/10/22
畳み込みニューラルネットワーク（CNN）は、多くの視覚関連タスクで優れた精度を実現しています。ただし、中間層を介した推論プロセスは不透明であるため、そのようなネットワークを解釈したり、それらの運用に対

arXiv

arXiv reaDer

CNN

interpretation

activity
リンク
プレゼンテーション攻撃の検出が埋め込まれた指紋認識：準備はできていますか？
arxiv_reader 2021/10/22
セキュリティアプリケーション用の指紋検証システムの普及により、ソフトウェアベースのプレゼンテーション攻撃検出アルゴリズム（PAD）のそのようなシステムへの組み込みを調査することが急務となっています。企

arXiv

arXiv reaDer

learning

detection

embedding
リンク
分割との対比：ノイズの多いラベルを使用した学習のための自己管理型事前トレーニング
arxiv_reader 2021/10/22
ノイズの多いラベル（LNL）メソッドを使用した学習の成功は、完全な（ノイズの多い）トレーニングセットを使用して標準の教師ありトレーニングが実行されるウォームアップステージの成功に大きく依存します。この

pre-training

arXiv

arXiv reaDer

learning

semi-supervised

self-supervised
リンク
マルチタスクの不確実性推定を活用したスパースHDマップでのロバストな単眼ローカリゼーション
arxiv_reader 2021/10/22
低コストのセンサーセットアップとまばらなHDマップを使用した密集した都市シナリオでのロバストなローカリゼーションは、自動運転の現在の進歩に非常に関連していますが、研究では依然として挑戦的なトピックです

arXiv

sparse

arXiv reaDer

detection

multi-task

autonomous driving

pose

localization

6D

semantic segmentation
リンク
WAN：透かし攻撃ネットワーク
arxiv_reader 2021/10/22
マルチビット透かし（MW）は、信号処理操作と幾何学的歪みに対する堅牢性を向上させるために開発されました。この目的のために、透かし入りの画像にシミュレートされた攻撃を適用することによって堅牢性をテストす

arXiv

residual

benchmark

arXiv reaDer

learning
リンク
マルチソース開集合領域適応のための距離ベースの超球分類
arxiv_reader 2021/10/22
クローズドワールドシナリオでトレーニングされたビジョンシステムは、展開時に新しい環境条件、新しいデータ配布、および新しいクラスが提示されると失敗します。オープンワールド学習に向けてどのように移行するか

domain adaptation

arXiv

contrastive learning

arXiv reaDer

dataset

classification
リンク
クエリアダプティブトランスフォーマーを使用した少数ショットの時間的アクションのローカリゼーション
arxiv_reader 2021/10/22
既存の時間的アクションローカリゼーション（TAL）の動作は、徹底的なセグメントレベルのアノテーションを備えた多数のトレーニングビデオに依存しており、新しいクラスへのスケーリングを妨げています。この問題

arXiv

arXiv reaDer

benchmark

transformer

few-shot

segmentation

localization

action

video
リンク
ゴミ箱または宝物？単一画像反射分離のためのインタラクティブなデュアルストリーム戦略
arxiv_reader 2021/10/22
単一画像反射分離（SIRS）は、代表的なブラインドソース分離タスクとして、1つの混合観測から、透過と反射の2つの層を復元することを目的としています。これは、非常に不適切な性質のために困難です。既存のデ

learning

arXiv

arXiv reaDer

dataset
リンク
ASSANet：効率的な点群表現学習のための異方性分離可能セット抽象化
arxiv_reader 2021/10/22
3Dポイントクラウド表現へのアクセスは、さまざまなモバイルデバイスに組み込まれたLiDARセンサーによって広く促進されています。これにより、高速で正確な点群処理技術に対する新たなニーズが生まれています

LiDAR

arXiv

representation learning

arXiv reaDer

classification

point cloud

3D

semantic segmentation
リンク
スパース非負テンソル分解とノイズの多い観測による完了
arxiv_reader 2021/10/22
この論文では、3次テンソルの部分的でノイズの多い観測から、スパースな非負のテンソル分解と完了の問題を研究します。スパース性と非負性のために、基礎となるテンソルは、1つのスパース非負テンソルと1つの非負

arXiv

sparse

arXiv reaDer

estimation

denoising
リンク
データ拡張から学習した表現の合意によるモデルの一般化の改善
arxiv_reader 2021/10/22
データ拡張は、入力画像のさまざまな変換が与えられた場合にモデルに不変表現を学習させることにより、汎化誤差を減らします。コンピュータービジョンでは、標準の画像処理機能に加えて、CutOut、MixUp、

arXiv reaDer

augmentation

arXiv

detection

regularization

pre-training

classification

segmentation

computer vision
リンク
AniFormer：Transformerを使用したデータ駆動型3Dアニメーション
arxiv_reader 2021/10/22
新しいタスクを提示します。つまり、生の駆動シーケンスのモーションを通じてターゲットの3Dオブジェクトをアニメーション化します。以前の作品では、駆動シーケンスの動きをキャプチャするために、ソースメッシュ

arXiv

benchmark

arXiv reaDer

transformer

regularization

mesh

3D
リンク
自動運転システムへの光信号攻撃の検出と特定
arxiv_reader 2021/10/22
自動運転の場合、周囲の物体を正確に検出することが重要なタスクです。この目的のために、ほとんどの既存のシステムは、カメラや光検出および測距（LiDAR）センサーなどの光学デバイスを使用して、環境データを

LiDAR

identification

arXiv

real time

arXiv reaDer

learning

detection

autonomous driving
リンク
コード化された位相シフト3Dスキャナーの開発と精度評価
arxiv_reader 2021/10/22
この論文では、バイナリコード化パターンとコード化位相シフト技術と呼ばれる正弦波位相シフトフリンジパターンの組み合わせに基づく構造化光3Dスキャナーの開発の概要を説明します。さらに、開発したシステムの測

3D

arXiv

arXiv reaDer
リンク
Cycle-Consistent Transformer による少数ショットセグメンテーション
arxiv_reader 2021/10/22
少数ショットセグメンテーションは、見本が少ない新しいクラスにすばやく適応できるセグメンテーションモデルをトレーニングすることを目的としています。従来のトレーニングパラダイムは、サポート画像からの

bias

arXiv

arXiv reaDer

benchmark

attention

transformer

dataset

few-shot

semantic segmentation
リンク
イベントガイド付き深度センシング
arxiv_reader 2021/10/22
構造化光、LIDAR、飛行時間システムなどのアクティブ深度センサーは、固定スキャンレートでシーン全体の深度を均一にサンプリングします。これにより、冗長な静的情報がオーバーサンプリングされ、貴重なモーシ

LiDAR

arXiv

arXiv reaDer

spatio-temporal

estimation

autonomous driving

stereo

activity
リンク
STALP：補助限定ペアリングによるスタイル転送
arxiv_reader 2021/10/22
ソース画像とその定型化された対応物の単一のペアを使用する画像の例ベースの定型化へのアプローチを提示します。ソース画像と同様のコンテンツを持つターゲット画像のセットに、意味的に意味のあるリアルタイムのス

arXiv

real time

arXiv reaDer

video

3D

face
リンク
トリプレット学習によるディープポイントクラウド法線推定
arxiv_reader 2021/10/22
3D点群の法線推定は、3Dビジョンとグラフィックスの基本的な問題です。現在の方法では、鋭い特徴（エッジやコーナーなど）での法線の予測精度が制限され、ノイズに対するロバスト性が低いことがよくあります。本

representation

arXiv

arXiv reaDer

learning

estimation

loss function

point cloud

3D
リンク
3D畳み込みニューラルネットワークを使用したfMRIデータからの自閉症スペクトラム障害の分類における増強方法の評価
arxiv_reader 2021/10/22
ニューロイメージングデータを使用して被験者を健康または病気に分類することは、過去10年間で多くの注目を集めています。ここでは、安静時fMRIデータからの導関数に深層学習を適用し、さまざまな3D拡張手法

arXiv

arXiv reaDer

learning

augmentation

CNN

classification

3D

attention
リンク
統一されたスタイルの転送
arxiv_reader 2021/10/22
現在、スタイルの混沌とした定義と、スタイル転送の研究で合意された客観的な検証方法がないため、異なるスタイル転送アルゴリズムを比較および評価することは困難です。この論文では、新しいアプローチである統一ス

representation

arXiv

arXiv reaDer

human

generative
リンク
VisualSem：視覚と言語のための高品質の知識グラフ
arxiv_reader 2021/10/22
自然言語理解（NLU）と生成（NLG）のエキサイティングなフロンティアは、外部の構造化された知識リポジトリに効率的にアクセスできる（ビジョンと）言語モデルを必要としています。ただし、既存のナレッジベー

domain

augmentation

arXiv

arXiv reaDer
リンク
外部知識対応テキスト視覚的質問応答
arxiv_reader 2021/10/22
Text-VQAの自由形式の質問応答タスクでは、回答を生成するために、画像のローカルな、多くの場合以前は見られなかったシーンテキストコンテンツについて読んで推論する必要があります。この作品では、外部知

bias

reasoning

arXiv

arXiv reaDer

transformer

dataset
リンク
ASOD60K：パノラマビデオ用の音声誘導顕著な物体検出データセット
arxiv_reader 2021/10/22
動的なパノラマシーンで人間が何に注意を払うかを調べることは、小売業の拡張現実（AR）、ARを活用した求人、視覚言語ナビゲーションなど、多くの基本的なアプリケーションに役立ちます。この目標を念頭に置いて

arXiv

arXiv reaDer

benchmark

detection

augmentation

saliency

dataset

human

video

attention
リンク
オブジェクト検出のためのノイズの多い注釈の改良
arxiv_reader 2021/10/22
オブジェクト検出器の教師ありトレーニングには、注釈が付けられた大規模なデータセットが必要であり、その作成にはコストがかかります。したがって、クラウドソーシングなどの経済的な方法で注釈を取得するためにい

detection

arXiv

arXiv reaDer

dataset
リンク
モアレ攻撃（MA）：スクリーン写真の新たな潜在的リスク
arxiv_reader 2021/10/22
カメラでキャプチャされた画像は、ディープニューラルネットワーク（DNN）のトレーニングで重要な役割を果たします。通常、カメラで取得した画像は、人間の目で認識した画像と一致していると想定しています。ただ

arXiv

arXiv reaDer

human

DNN

computer vision
リンク
n次元準共形写像のための統一フレームワーク
arxiv_reader 2021/10/22
コンピュータ技術の進歩に伴い、高次元空間内のオブジェクトの効果的なマッピング方法への関心が高まっています。オブジェクト間の1対1の対応を確立するために、高次元の準共形理論を利用して、マッピングの全単射

arXiv

arXiv reaDer

landmark
リンク
本物よりも本物：合成顔の人間の視覚に関する研究
arxiv_reader 2021/10/22
ディープフェイクは、リアリズムの高まりのおかげで、ここ数年で非常に人気がありました。したがって、最先端の作成技術に直面したときに、実際の顔画像と合成顔画像を区別する人間の能力を測定する必要があります。

arXiv

arXiv reaDer

human

synthesis

GAN

face
リンク
フォトリアリスティックな画像超解像のための効率的なディープニューラルネットワーク
arxiv_reader 2021/10/22
ディープラーニングベースのモデルの最近の進歩により、写実的（または知覚的）な単一画像の超解像が大幅に改善されました。ただし、その強力なパフォーマンスにもかかわらず、多くの方法は、計算要件が重いため、実

convolutional

arXiv

arXiv reaDer

residual

benchmark

learning

super-resolution

dataset

adversarial
リンク
深さ推定のためのドメイン不変特徴の自己監視学習
arxiv_reader 2021/10/22
単一画像深度推定のための教師なし合成から実領域への適応の問題に取り組みます。単一画像の深度推定の重要な構成要素は、RGB画像を入力として受け取り、深度マップを出力として生成するエンコーダ-デコーダタス

domain adaptation

arXiv

representation learning

arXiv reaDer

dataset

estimation

self-supervised

metric

unsupervised

synthesis
リンク
畳み込みネットワーク用の学習可能な離散ウェーブレットプーリング（LDWプーリング）
arxiv_reader 2021/10/22
プーリングは、特徴の集約と抽出のための最新のディープCNNアーキテクチャのシンプルですが不可欠なレイヤーです。典型的なCNN設計は、畳み込み層と活性化関数に焦点を合わせていますが、プール層には選択肢が

convolutional

arXiv

arXiv reaDer

learning

pooling

CNN

attention
リンク
Depth360：学習可能なカメラ歪みモデルを使用した単眼深度推定のための自己監視学習
arxiv_reader 2021/10/22
RGB画像から深度画像と相対ポーズを推定するために、自己監視単眼深度推定が広く研究されてきました。このフレームワークは、グラウンドトゥルースの深度とポーズを必要とせずに、時系列画像から深度とポーズのネ

arXiv

robot

arXiv reaDer

learning

dataset

estimation

self-supervised

loss function

pose

monocular
リンク
スーパーピクセルとCNN分類を使用した結腸癌組織学における高速全スライド地図作成
arxiv_reader 2021/10/22
デジタル化された組織学的標本のさまざまな組織タイプの自動アウトラインは、フォローアップ分析の基礎を提供し、その後の医学的決定を導く可能性があります。ただし、スライド全体の画像（WSI）のサイズが非常に

arXiv

arXiv reaDer

CNN

estimation

classification

metric

segmentation

pose
リンク
ARTS：自動修正テキストスポッターを使用したテキストの検出と認識の間の不整合の排除
arxiv_reader 2021/10/22
エンドツーエンドのテキストスポッティングのための最近のアプローチは、有望な結果を達成しています。ただし、現在のスポッターのほとんどは、テキストの検出と認識の間の不整合の問題に悩まされていました。この作

detection

arXiv

differentiable

arXiv reaDer
リンク
AFTer-UNet：医療画像セグメンテーション用のAxial Fusion Transformer UNet
arxiv_reader 2021/10/22
トランスベースのモデルの最近の進歩は、特に2Dと3Dの両方の設定で、医療画像のセグメンテーションで大きな成功を収めているU-Netモデル（またはそのバリアント）と組み合わせて、医療画像のセグメンテーシ

convolutional

arXiv

arXiv reaDer

transformer

dataset

U-Net

segmentation

3D

attention
リンク
3DFaceFill：顔の完成への合成による分析アプローチ
arxiv_reader 2021/10/22
既存の顔補完ソリューションは、主に、2Dマスクされた顔の2D補完を直接生成するエンドツーエンドモデルによって駆動されます。顔の形や外観の幾何学的および測光的変化を暗黙的に考慮する必要があるため、このよ

representation

arXiv

arXiv reaDer

pose

mesh

3D

face

occlusion
リンク
HDRイメージングのためのディープラーニング：最先端および将来のトレンド
arxiv_reader 2021/10/22
ハイダイナミックレンジ（HDR）イメージングは、広範囲のダイナミックレンジの露出を可能にする技術であり、画像処理、コンピューターグラフィックス、およびコンピュータービジョンで重要です。近年、ディープラ

arXiv

arXiv reaDer

learning

dataset

metric

computer vision
リンク
データ修復は公正なモデルにつながりますか？モデルのバイアスを減らすために文脈的に公正なデータをキュレートする
arxiv_reader 2021/10/22
コンテキスト情報は、ディープニューラルネットワーク（DNN）がより良い表現を学習し、精度を向上させるための貴重な手がかりです。ただし、トレーニングデータセットの共起バイアスは、DNNモデルの現実世界の

representation

bias

arXiv

arXiv reaDer

learning

detection

dataset

classification

DNN
リンク
空中画像オブジェクト検出器に対する物理的な敵対的攻撃
arxiv_reader 2021/10/22
ディープニューラルネットワーク（DNN）は、地球観測衛星プラットフォームを使用して収集された膨大な量の航空画像を処理するために不可欠になっています。ただし、DNNは敵対的な例に対して脆弱であり、この弱

arXiv

arXiv reaDer

detection

metric

DNN

satellite

adversarial
リンク
肘骨折分類のための知識に基づくマルチビューディープカリキュラム学習
arxiv_reader 2021/10/22
肘の骨折の診断では、多くの場合、患者は肘のX線写真の正面図と側面図の両方を撮影する必要があります。本論文では、肘骨折サブタイプ分類タスクのためのマルチビュー深層学習法を提案した。私たちの戦略は、最初に

arXiv

arXiv reaDer

dataset

classification

transfer learning
リンク
X線画像からの肘骨折診断のための医学知識に基づく深いカリキュラム学習
arxiv_reader 2021/10/22
肘の骨折は、最も一般的な骨折の種類の1つです。肘の骨折の診断では、長年の訓練を受けた専門の放射線科医が放射線画像を読み取って分析する必要があることがよくあります。ディープラーニングの最近の進歩のおかげ

arXiv

arXiv reaDer

learning

human

domain

classification

metric
リンク
モデル構成：ラベルのないデータのみを使用して、複数のニューラルネットワークを単一のネットワークに結合できますか？
arxiv_reader 2021/10/22
ディープラーニングアプリケーション、データセット、ニューラルネットワークアーキテクチャの多様性により、ターゲットアプリケーションに最適なアーキテクチャとデータを慎重に選択する必要があります。このジレン

arXiv

arXiv reaDer

learning

detection

dataset

semi-supervised
リンク
ABC：クラス不均衡半教師あり学習のための補助バランス分類器
arxiv_reader 2021/10/22
多くの実世界のデータセットのクラス分布は不均衡ですが、既存の半教師あり学習（SSL）アルゴリズムは通常、クラスバランスのとれたデータセットを想定しています。一般に、クラスの不均衡なデータセットでトレー

representation

arXiv

benchmark

arXiv reaDer

learning

dataset

semi-supervised

regularization
リンク
再描画：トレーニング例の複数のインスタンスを生成することにより、ダウンストリームのビジュアルタスクの一般化を改善します
arxiv_reader 2021/10/22
視覚タスク用の畳み込みニューラルネットワーク（CNN）は、ネットワークの深さ全体にわたって、低レベルのテクスチャと高レベルのオブジェクト属性の両方を学習すると考えられています。このペーパーでは、CNN

arXiv

arXiv reaDer

detection

CNN

classification
リンク
NOD：夜間の物体検出データセットを使用した極端な低照度条件下での検出を詳しく調べる
arxiv_reader 2021/10/22
最近の研究は、知覚的に心地よい画像を生成することへの挑戦であることに加えて、低光は以前に考えられていたよりも機械認識にとってより困難であることが証明されていることを示しています。私たちの仕事では、暗い

representation

arXiv

arXiv reaDer

detection

augmentation

dataset

human

domain

attention
リンク
キャリブレーションされていないマルチビューカメラからの動的なマルチパーソンメッシュリカバリ
Dynamic Multi-Person Mesh Recovery From Uncalibrated Multi-View Cameras 動的な複数人のメッシュ回復は、最近3Dビジョンでホットなトピックになっています。ただし、キャリブレーションされていないカメラからの複数人のモーションキャプチャに焦点を当てた作品はほとんどなく、主に2つの課題に直面しています。もう1つは、密な対応の欠如を使用して、動的な複数人のシーンでまばらなカメラジオメトリを制約できることです。私たちの重要なアイデアは、モーションの事前知識を、ノイズの多い人間のセマンティクスからの外部カメラパラメータと人間のメッシュの同時最適化に組み込むことです。最初に、検出された人間のセマンティクスの低周波ノイズと高周波ノイズを低減するために、物理幾何学の一貫性を導入します。次に、わずかにノイズの多い入力からの外因性カメラパラメ
arxiv_reader 2021/10/22
動的な複数人のメッシュ回復は、最近3Dビジョンでホットなトピックになっています。ただし、キャリブレーションされていないカメラからの複数人のモーションキャプチャに焦点を当てた作品はほとんどなく、主に2つ

arXiv

sparse

arXiv reaDer

human

mesh

3D

face

occlusion
リンク
点群分類器に対するバックドア攻撃の検出
arxiv_reader 2021/10/22
バックドア攻撃（BA）は、ディープニューラルネットワーク分類器に対する新たな脅威です。攻撃されている分類子は、ソースクラスからのテストサンプルがバックドアパターン（BP）に埋め込まれている場合、攻撃者

arXiv

arXiv reaDer

benchmark

dataset

autonomous driving

point cloud

embedding
リンク
少数ショット学習のためのコンテキスト勾配スケーリング
arxiv_reader 2021/10/22
モデルにとらわれないメタ学習（MAML）は、よく知られている最適化ベースのメタ学習アルゴリズムであり、数ショットの分類など、さまざまなコンピュータービジョンタスクでうまく機能します。 MAMLは、モデ

representation

arXiv

arXiv reaDer

learning

classification

few-shot

gradient

computer vision

adaptation
リンク
GTM：ビデオ認識のための灰色の時間モデル
arxiv_reader 2021/10/22
データ入力モダリティは、ビデオアクション認識において重要な役割を果たします。通常、入力にはRGB、フローストリーム、圧縮データの3種類があります。この論文では、新しい入力モダリティであるグレーストリー

convolutional

arXiv

arXiv reaDer

action recognition

benchmark

spatio-temporal

video
リンク
EBJR：適応推論のためのエネルギーベースの共同推論
arxiv_reader 2021/10/22
最先端の深層学習モデルは、さまざまなベンチマークで重要なパフォーマンスレベルを達成しています。ただし、優れたパフォーマンスには、非効率的な計算コストが伴います。一方、軽量アーキテクチャは中程度の精度を

reasoning

pre-training

arXiv

benchmark

arXiv reaDer

learning
リンク
知覚歪み低減フレームワーク：高い知覚品質と攻撃成功率を備えた敵対的な例の生成に向けて
arxiv_reader 2021/10/22
敵対的な攻撃方法のほとんどは、攻撃の強さが比較的高い場合、目に見えるアーティファクトなどの大きな知覚の歪みに悩まされます。これらの知覚の歪みには、攻撃の成功率にあまり寄与しない特定の部分が含まれていま

arXiv

arXiv reaDer

SGD

adversarial
リンク
より簡単に行う：オブジェクトネスガイダンスを使用したセマンティックラベルの生成
arxiv_reader 2021/10/22
既存の弱教師ありまたは半教師ありセグメンテーション方法は、画像またはボックスレベルの監督を利用して、弱くラベル付けされた画像の疑似ラベルを生成します。ただし、強力な監視がないため、生成された疑似ラベル

representation

weakly-supervised

arXiv

arXiv reaDer

learning

multi-task

semi-supervised

domain

semantic segmentation
リンク
不確実性学習を使用した正確で信頼性の高い虹彩セグメンテーションに向けて
arxiv_reader 2021/10/22
虹彩認識の上流タスクとして、虹彩セグメンテーションは、ローカリゼーションやマッチングなど、後続の複数のタスクで重要な役割を果たします。虹彩のセグメンテーションにわずかな偏りがあると、虹彩認識システムの

arXiv reaDer

arXiv

bias

learning

transformer

localization

segmentation
リンク
医用画像におけるAIベースの検出、分類、予測/予後：ラジオフェノミクスに向けて
arxiv_reader 2021/10/22
人工知能（AI）技術は、微妙なパターンの識別を含む、効果的で堅牢な自動化された画像表現型を可能にする大きな可能性を秘めています。 AIベースの検出では、画像空間を検索して、パターンと特徴に基づいて関心

arXiv reaDer

identification

arXiv

detection

classification
リンク
R ^ 3Net：変更キャプションのための関係埋め込み表現再構築ネットワーク
arxiv_reader 2021/10/22
キャプションの変更は、自然言語の文を使用して、2つの類似した画像間のきめ細かい不一致を説明することです。視点の変更は、オブジェクトのスケールと場所を変更し、実際の変更の表現を圧倒するため、このタスクで

representation

arXiv

arXiv reaDer

dataset

reconstruction

captioning

localization
リンク
PERF-Net：ポーズを強化したRGB-Flow Net
arxiv_reader 2021/10/22
近年、ビデオアクション認識に関する文献の多くの研究で、最先端のパフォーマンスを実現するには、2つのストリームモデル（空間入力ストリームと時間入力ストリームを組み合わせる）が必要であることが示されていま

arXiv

arXiv reaDer

action recognition

distillation

dataset

human

pose

video
リンク
表現学習のための制約付き平均シフト
arxiv_reader 2021/10/22
ラベル付きまたはラベルなしのデータからの表現学習に関心があります。自己監視学習（SSL）の最近の成功に触発されて、追加の知識を活用できる非対照的な表現学習方法を開発します。この追加の知識は、監視対象設

arXiv

representation learning

arXiv reaDer

self-supervised

video

embedding
リンク
Momentum Contrastive Autoencoder：WAEでの潜在空間分布マッチングのための対照学習の使用
arxiv_reader 2021/10/22
ワッサースタインオートエンコーダー（WAE）は、2つの分布を一致させることは、このAEの潜在空間が事前に指定された事前分布と一致するという制約の下で、単純なオートエンコーダー（AE）の損失を最小限に抑

arXiv

representation learning

contrastive learning

arXiv reaDer

dataset

self-supervised
リンク
自己監視アンサンブルから豊富な最近傍表現を学習する
arxiv_reader 2021/10/22
自己監視を介して畳み込みニューラルネットワークを事前トレーニングし、それらを転移学習に適用することは、事実上すべての画像ドメインにわたってパフォーマンスを急速かつ反復的に改善する、信じられないほど急速

representation

arXiv

arXiv reaDer

CNN

dataset

domain

self-supervised

gradient

transfer learning
リンク
キーポイント推定タスクの座標デコードについて
arxiv_reader 2021/10/22
一連の2D（および3D）キーポイント推定タスクは、ヒートマップ座標表現、つまり、グリッド上のキーポイント座標の学習可能で空間認識可能なエンコードとデコードを可能にし、サブピクセル座標の精度を可能にする

representation

arXiv

arXiv reaDer

estimation

keypoint

reconstruction

3D
リンク
画像生成における芸術的スタイルのきめ細かい制御
arxiv_reader 2021/10/22
生成モデルと敵対的トレーニングの最近の進歩により、さまざまな芸術スタイルのアートワークを人工的に生成できるようになりました。実際には、生成されたスタイルをより細かく制御することが非常に望ましいです。た

embedding

arXiv

GAN

arXiv reaDer
リンク
今年のグラウンドトゥルースのないシーズン初期およびシーズン中の作物タイプのマッピング：トポロジーベースのアプローチを介して履歴情報からラベルを生成する
arxiv_reader 2021/10/22
リモートセンシングにおける土地被覆分類は、限られたグラウンドトゥルースの課題に直面することがよくあります。履歴情報を組み込むことで、グラウンドトゥルースの収集に関連する高額なコストを大幅に削減できる可

learning

arXiv

arXiv reaDer

classification
リンク
深部視覚モデルを使用した遠洋性結合プラスチックの定量化に向けたロボット的アプローチ
arxiv_reader 2021/10/22
積極的に浮揚する海洋プラスチックゴミの定量化は、プラスチックごみが世界中の海にどのように蓄積するかを理解するために重要であり、対象を絞った浄化活動のホットスポットを特定するためにも重要です。現在、海洋

arXiv

robot

real time

arXiv reaDer

human

computer vision
リンク
ニューラルネットワークの敵対的ロバスト性を改善するためのマージン増加（IMA）トレーニング
arxiv_reader 2021/10/22
畳み込みニューラルネットワーク（CNN）は、医用画像分類の従来の方法を上回っています。ただし、CNNは敵対的な攻撃に対して脆弱であり、医療アプリケーションに悲惨な結果をもたらす可能性があります。敵対的

arXiv

arXiv reaDer

CNN

dataset

classification

segmentation

adversarial
リンク
オーバーヘッド-MNIST：画像分類のための機械学習ベースライン
arxiv_reader 2021/10/22
23の機械学習アルゴリズムがトレーニングされ、スコアリングされて、ベースライン比較メトリックが確立され、ミッションクリティカルな衛星画像システムに組み込む価値のある画像分類アルゴリズムが選択されました

arXiv

arXiv reaDer

learning

CNN

dataset

classification

metric

gradient

satellite

embedding
リンク
領域成長と重み付けされた局所相互情報量に基づく新しい自動変化検出フレームワーク：連続MR画像における化学療法に対する乳房腫瘍反応の分析
arxiv_reader 2021/10/22
縦方向のMR画像間の微妙な変化の自動分析は、乳房の医用画像処理の範囲において依然として困難な問題であるため、重要なタスクです。この論文では、以前に使用された方法は特徴的なパワーが低い機能を備えているた

arXiv

arXiv reaDer

detection

human

MRI
リンク
画像ベースのオープンワールドセグメンテーション2021でのUVOチャレンジの1位ソリューション
arxiv_reader 2021/10/22
チャレンジで競争するために使用する2段階のインスタンスセグメンテーションフレームワークについて説明します。フレームワークの最初の段階は、バウンディングボックスの形式でオブジェクトの提案を生成するオブジ

detection

arXiv

arXiv reaDer

segmentation
リンク
摂動ロバスト性によるテスト時間の適応
arxiv_reader 2021/10/22
いくつかの実世界のプロセスによって生成されたデータサンプルは、本質的に動的です。つまり、それらの特性は時間とともに変化します。したがって、文献の多くの転移学習法を使用して、トレーニングと推論の間のすべ

domain adaptation

arXiv

arXiv reaDer

manifold

transfer learning
リンク
ラベル割り当て蒸留によるオブジェクト検出の改善
arxiv_reader 2021/10/22
オブジェクト検出でのラベル割り当ては、画像内のサンプリングされた領域に前景または背景のターゲットを割り当てることを目的としています。画像分類のラベリングとは異なり、この問題はオブジェクトのバウンディン

arXiv

arXiv reaDer

detection

distillation

classification
リンク
バイナリニューラルネットワークの包括的なレビュー
arxiv_reader 2021/10/22
バイナリニューラルネットワーク（BNN）法は、畳み込みニューラルネットワーク（CNN）パラメーターの量子化の極端なアプリケーションです。全精度の重みとアクティベーションを使用した浮動小数点計算を採用し

quantization

arXiv

arXiv reaDer

CNN
リンク
スパイキングニューラルネットワークの静止画像をエンコードするための適応サンプリングおよびエッジ検出アプローチ
arxiv_reader 2021/10/22
畳み込みニューラルネットワークを使用した画像分類の現在の最先端の方法は、多くの場合、遅延と消費電力の両方によって制約されます。これにより、これらの方法を採用できるデバイス、特に低電力エッジデバイスに制

representation

arXiv

arXiv reaDer

SNN

edge device

detection

CNN

dataset

classification

metric
リンク
データからの等分散性と部分的等分散性の学習
arxiv_reader 2021/10/22
グループ同変畳み込みニューラルネットワーク（G-CNN）は、選択された対称性を尊重するように機能を制約し、これらの対称性がデータに現れると、より良い一般化につながります。ただし、選択した対称性が存在し

arXiv

arXiv reaDer

learning

CNN

classification

pose

face
リンク
適応型多相アップサンプリングを使用した真にシフト同変の畳み込みニューラルネットワーク
arxiv_reader 2021/10/22
畳み込みニューラルネットワークは、ダウンサンプリング層が存在するため、シフト同変性を欠いています。画像分類では、CNNを完全にシフト不変にするために、適応多相ダウンサンプリング（APS-D）が最近提案

arXiv

arXiv reaDer

augmentation

CNN

reconstruction

classification

MRI

CT
リンク
SAC：テキスト条件付き画像検索のための意味的注意構成
SAC: Semantic Attention Composition for Text-Conditioned Image Retrieval 画像を効率的に検索する機能は、さまざまな製品のユーザーエクスペリエンスを向上させるために不可欠です。マルチモーダル入力を介してユーザーフィードバックを組み込んで視覚的検索をナビゲートすると、取得した結果を特定のユーザークエリに合わせて調整するのに役立ちます。参照画像と一緒にサポートテキストフィードバックを利用して、両方の入力によって課せられた制約を同時に満たす画像を取得する、テキスト条件付き画像検索のタスクに焦点を当てます。テキストフィードバックから複数のクロスグラニュラーセマンティック編集を組み込み、それを視覚的特徴に適用することによって複合画像-テキスト特徴を学習する必要があるため、このタスクは困難です。これに対処するために、「どこを見るか」
arxiv_reader 2021/10/22
画像を効率的に検索する機能は、さまざまな製品のユーザーエクスペリエンスを向上させるために不可欠です。マルチモーダル入力を介してユーザーフィードバックを組み込んで視覚的検索をナビゲートすると、取得した結

arXiv

benchmark

arXiv reaDer

learning

attention
リンク
再クエリを使用してVisiolinguisticのパフォーマンスを向上させる
arxiv_reader 2021/10/22
世界の共通認識を構築するために、人間は説明を要求して受け入れることによって誤解を解決する能力に依存しています。ただし、視覚言語モデルを評価する場合、精度などのメトリックは、単一の証拠に基づいて決定を下

arXiv

metric

arXiv reaDer
リンク
CoFi：効率的で長持ちする点群マップでのLiDARローカリゼーションのための粗いから細かいICP
arxiv_reader 2021/10/22
LiDARのオドメトリとローカリゼーションは、近年ますます研究の関心を集めています。既存の作業では、反復最接近点（ICP）が正確で効率的であるため、広く使用されています。ただし、その非凸性とローカル反

LiDAR

arXiv

arXiv reaDer

benchmark

odometry

point cloud

pose

localization

semantic segmentation
リンク
EllipsoidNet：点群の分類とセグメンテーションのための楕円体表現
arxiv_reader 2021/10/22
点群パターンは、無秩序な点の間の暗黙の局所幾何学特徴のために学ぶのが難しいです。近年、2D空間での点群表現は、2D空間での局所的な幾何学的特徴を公開するため、研究の関心が高まっています。これらの点を2

representation

arXiv

arXiv reaDer

benchmark

CNN

classification

point cloud

segmentation
リンク
StructFormer：新規オブジェクトの言語誘導意味再配置のための空間構造の学習
StructF ormer: Learning Spatial Structure for Language-Guided Semantic Rearrangement of Novel Objects オブジェクトを意味的に意味のある配置に幾何学的に編成することは、構築された世界に浸透します。そのため、倉庫、オフィス、および家庭で動作する支援ロボットは、オブジェクトを認識してこれらの意味的に意味のある構造に再配置する機能から大きな恩恵を受けるでしょう。有用であるためには、これらのロボットは、以前は見られなかったオブジェクトと戦い、重要なプログラミングなしで命令を受け取る必要があります。以前の作品では、ペアワイズの意味関係とこれらの単純な関係を変更するための順次操作の認識を検討しましたが、オブジェクトを円やテーブル設定などの複雑な構造に配置する機能は示されていません。この問題に対処するために
arxiv_reader 2021/10/22
オブジェクトを意味的に意味のある配置に幾何学的に編成することは、構築された世界に浸透します。そのため、倉庫、オフィス、および家庭で動作する支援ロボットは、オブジェクトを認識してこれらの意味的に意味のあ

arXiv

robot

arXiv reaDer

learning

point cloud
リンク
カスケードクロスMLP-クロスビュー画像変換用のミキサーGAN
arxiv_reader 2021/10/22
単純なエンコーダ-デコーダまたはU-Net構造を直接採用する以前のクロスビュー画像変換方法では、特に大幅に異なるビューや激しい変形の場合に、ターゲットビューで画像を適切に生成することは困難です。この問

arXiv

arXiv reaDer

dataset

U-Net

regularization

GAN
リンク
モーションベースの疑似ラベリングとガイド付きプログレッシブラベル修正による手と物体の接触予測
Hand-Object Contact Prediction via Motion-Based Pseudo-Labeling and Guided Progressive Label Correction すべての手と物体の相互作用は、接触から始まります。手と物体の間の接触状態を予測することは、手と物体の相互作用を理解するのに役立ちますが、手と物体の分析に関する以前の方法は、相互作用する手と物体が既知であると想定しており、詳細には研究されていません。この研究では、手と物体の接触を予測するためのビデオベースの方法を紹介します。具体的には、ビデオと1組の手とオブジェクトのトラックが与えられた場合、各フレームのバイナリ接触状態（接触または非接触）を予測します。ただし、多数のハンドオブジェクトトラックと連絡先ラベルに注釈を付けるにはコストがかかります。この困難を克服するために、（i）モーションベ
arxiv_reader 2021/10/22
すべての手と物体の相互作用は、接触から始まります。手と物体の間の接触状態を予測することは、手と物体の相互作用を理解するのに役立ちますが、手と物体の分析に関する以前の方法は、相互作用する手と物体が既知で

arXiv

benchmark

arXiv reaDer

dataset

semi-supervised

video
リンク
Cross-Sim-NGF：正規化された勾配フィールドを使用した画像ボリュームのFFTベースのグローバルリジッドマルチモーダルアラインメント
arxiv_reader 2021/10/22
マルチモーダル画像アラインメントには、外観と構造が異なるボリューム間の空間的対応を見つけることが含まれます。自動化された位置合わせ方法は、多くの場合、初期化に非常に敏感なローカル最適化に基づいています

arXiv reaDer

CT

arXiv

domain

gradient

3D

dataset
リンク
正確な3D顔の形状のための3DMMと3Dランドマーク間の相乗効果
arxiv_reader 2021/10/22
この作業では、3Dモーファブルモデル（3DMM）と3D顔のランドマークの相乗効果プロセスから学習して、3Dアライメント、顔の向き、3D顔モデリングなどの完全な3D顔のジオメトリを予測します。私たちの相

representation

arXiv

sparse

arXiv reaDer

landmark

learning

mesh

3D

face
リンク
LoveDA：ドメイン適応セマンティックセグメンテーションのためのリモートセンシング土地被覆データセット
arxiv_reader 2021/10/22
ディープラーニングアプローチは、リモートセンシングの高空間分解能（HSR）土地被覆マッピングで有望な結果を示しています。ただし、都市と地方のシーンは完全に異なる地理的景観を示す可能性があり、これらのア

domain adaptation

representation

arXiv

arXiv reaDer

learning

dataset

unsupervised

semantic segmentation
リンク
スペクトル変動性は、ハイパースペクトル画像のスパースアンミキシングを強化しました
arxiv_reader 2021/10/22
スペクトルアンミキシング（SU）は、ハイパースペクトル画像に存在する混合ピクセルを、端成分と存在量の積として表現します。これは、ハイパースペクトル画像分析で広く使用されています。ただし、光、取得条件、

arXiv

sparse

arXiv reaDer

augmentation

reconstruction

synthesis
リンク
内部特徴融合による自己監視単眼深度推定
arxiv_reader 2021/10/22
深度推定のための自己監視学習は、監視のために画像シーケンスのジオメトリを使用し、有望な結果を示します。多くのコンピュータビジョンタスクと同様に、深度ネットワークのパフォーマンスは、画像から正確な空間的

representation

arXiv

arXiv reaDer

benchmark

estimation

self-supervised

semantic segmentation

monocular

computer vision

attention
リンク
HRFormer：高密度予測用の高解像度トランス
arxiv_reader 2021/10/22
低解像度の表現を生成し、メモリと計算コストが高い元のVision Transformerとは対照的に、高密度の予測タスクの高解像度の表現を学習するHigh-Resolution Transformer

representation

arXiv

convolutional

arXiv reaDer

transformer

human pose estimation

pose estimation

semantic segmentation
リンク
異なるサイズの半規則的メッシュ用のメッシュ畳み込みオートエンコーダ
arxiv_reader 2021/10/22
低次元の埋め込みを使用して基礎となるダイナミクスを視覚化できるため、変形する3D表面メッシュの分析はオートエンコーダによって加速されます。ただし、最先端のメッシュ畳み込みオートエンコーダーには、オート

convolutional

arXiv

arXiv reaDer

pooling

dataset

reconstruction

mesh

3D

embedding
リンク
顔のプレゼンテーション攻撃検出のための非対称モダリティ変換
arxiv_reader 2021/10/22
顔提示攻撃検出（PAD）は、顔認識システムが悪意のあるユーザーになりすまされるのを防ぐために不可欠な手段であり、学界と産業界の両方から大きな注目を集めています。既存の方法のほとんどはある程度望ましいパ

representation

arXiv

arXiv reaDer

face recognition

detection

dataset

attention
リンク
視覚オブジェクトトラッキングを敵対的にぼかすことを学ぶ
arxiv_reader 2021/10/22
露出中のオブジェクトまたはカメラの移動によって引き起こされるモーションブラーは、視覚的なオブジェクトトラッキングにとって重要な課題であり、トラッキングの精度に大きく影響します。この作業では、新しい角度

arXiv

real time

arXiv reaDer

learning

dataset

tracking

synthesis

adversarial
リンク
顔の検出と認識に対するSelfie美化フィルターの効果について
arxiv_reader 2021/10/22
美化と拡張現実フィルターは、スマートフォンや個人用デバイスでキャプチャされたセルフィー画像を使用するアプリケーションで非常に人気があります。ただし、生体認証機能を歪めたり変更したりして、個人の身元を認

identification

arXiv

arXiv reaDer

landmark

detection

augmentation

reconstruction

U-Net

segmentation
リンク
コンピュータ断層撮影スキャンにおける静脈内コントラストの深層学習ベースの検出
arxiv_reader 2021/10/22
目的：CTスキャン内での静脈内（IV）コントラストの使用を特定することは、モデルの開発とテストのためのデータキュレーションの重要な要素です。現在、IVコントラストは画像メタデータで十分に文書化されてお

arXiv

arXiv reaDer

learning

detection

CNN

dataset

CT
リンク
高速MRイメージングのためのマルチモーダルアグリゲーションネットワーク
arxiv_reader 2021/10/22
磁気共鳴（MR）イメージングは、病気の検出、診断、治療の監視に一般的に使用されるスキャン技術です。臓器や組織の詳細な画像をより良いコントラストで生成することはできますが、取得時間が長くなるため、モーシ

representation

convolutional

arXiv

arXiv reaDer

learning

detection

domain

reconstruction

MRI

attention
リンク
3Dミトコンドリアインスタンスセグメンテーションのための高度なディープネットワーク
arxiv_reader 2021/10/22
電子顕微鏡（EM）画像からのミトコンドリアインスタンスのセグメンテーションは、深層学習法の導入以来、目覚ましい進歩を遂げています。この論文では、ラットとヒトのサンプルからの3Dミトコンドリアインスタン

convolutional

arXiv

arXiv reaDer

learning

human

denoising

segmentation

3D
リンク
HUMAN4D：モーションおよび没入型メディア用の人間中心のマルチモーダルデータセット
arxiv_reader 2021/10/22
HUMAN4Dは、プロのマーカーベースのモーションキャプチャ、ボリュームキャプチャ、オーディオ録音システムによって同時にキャプチャされたさまざまな人間の活動を含む、大規模でマルチモーダルな4Dデータセ

representation

arXiv

arXiv reaDer

benchmark

dataset

human pose estimation

compression

pose estimation

3D

computer vision
リンク
敵対的にロバストなディープニューラルネットワークのアーキテクチャ要素の調査
arxiv_reader 2021/10/22
ディープニューラルネットワーク（DNN）は、敵対的な攻撃に対して脆弱であることが知られています。敵対的に頑強なDNNを訓練するために、さまざまな防御方法が提案されており、その中で敵対的な訓練は有望な結

DNN

arXiv

arXiv reaDer

adversarial
リンク
- 2021年10月24日
- 2021年10月22日
- 2021年10月20日

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx