arxiv_readerのブックマーク / 2021年12月10日 - はてなブックマーク

arxiv_reader id:arxiv_reader

2021年12月10日のブックマーク (126件)

HairCLIP：テキストと参照画像で髪をデザインする
arxiv_reader 2021/12/10
髪の編集は、コンピュータビジョンとグラフィックスにおいて興味深く挑戦的な問題です。多くの既存の方法では、編集の条件付き入力として適切に描画されたスケッチまたはマスクが必要ですが、これらの相互作用は単純

contrastive

arXiv

pre-training

arXiv reaDer

representation

computer vision

loss function

disentangling

embedding
リンク
GAN-教師あり高密度視覚調整
arxiv_reader 2021/12/10
識別モデルとそのGAN生成トレーニングデータをエンドツーエンドで共同で学習するためのフレームワークであるGAN教師あり学習を提案します。フレームワークを密な視覚的位置合わせの問題に適用します。従来の凝

self-supervised

GAN

dataset

learning

arXiv

augmentation

transformer

arXiv reaDer
リンク
統一された勾配フレームワークを介したシャムの自己教師あり学習の同等性の調査
arxiv_reader 2021/12/10
自己監視学習は、人間の注釈なしで強力な視覚的表現を抽出する大きな可能性を示しています。さまざまな視点からの自己監視学習に対処するために、さまざまな作業が提案されています。（1）対照的な学習方法（MoC

self-supervised

gradient

arXiv

arXiv reaDer

human

representation

loss function

contrastive learning
リンク
屋外シーンのリライティングのためのNeRF
arxiv_reader 2021/12/10
写真から屋外シーンをフォトリアリスティックに編集するには、画像形成プロセスを深く理解し、シーンのジオメトリ、反射率、照明を正確に推定する必要があります。次に、シーンのアルベドとジオメトリを変更せずに、

benchmark

dataset

arXiv

arXiv reaDer

estimation
リンク
CLIP-NeRF：ニューラルラディアンスフィールドのテキストと画像による操作
arxiv_reader 2021/12/10
神経放射輝度フィールド（NeRF）のマルチモーダル3Dオブジェクトマニピュレーション手法であるCLIP-NeRFを紹介します。最近の対照的な言語-画像事前トレーニング（CLIP）モデルの共同言語-画像

contrastive

arXiv

pre-training

3D

arXiv reaDer

generative

representation

synthesis

disentangling

embedding
リンク
オブジェクト検出のためのパラメータ化されたAP損失の検索
arxiv_reader 2021/12/10
損失関数は、ディープネットワークベースのオブジェクト検出器のトレーニングで重要な役割を果たします。オブジェクト検出に最も広く使用されている評価指標は、ローカリゼーションと分類のサブタスクのパフォーマン

benchmark

detection

localization

differentiable

R-CNN

classification

arXiv

arXiv reaDer

loss function

metric
リンク
モバイル-旧：MobileNetとTransformerのブリッジ
arxiv_reader 2021/12/10
MobileNetの並列設計であるMobile-Formerと、間に双方向ブリッジを備えた変圧器を紹介します。この構造は、ローカル処理でのMobileNetの利点と、グローバルな相互作用でのトランスフ

detection

attention

classification

arXiv

arXiv reaDer

transformer

representation
リンク
PTR：パーツベースの概念的、リレーショナル、および物理的推論のベンチマーク
arxiv_reader 2021/12/10
人間の視覚の重要な側面は、視覚シーンを個々のオブジェクトに解析し、さらにオブジェクトの部分に解析して、部分全体の階層を形成する機能です。このような複合構造は、意味論的概念と関係の豊富なセットを誘発する

benchmark

segmentation

interpretation

dataset

arXiv

reasoning

arXiv reaDer

synthesis

RGB-D
リンク
PixMix：夢のような写真は安全対策を包括的に改善します
arxiv_reader 2021/12/10
機械学習の実際のアプリケーションでは、信頼性が高く安全なシステムは、標準のテストセットの精度を超えるパフォーマンスの測定値を考慮する必要があります。これらの他の目標には、分布外（OOD）の堅牢性、予測

learning

OOD

arXiv

regularization

augmentation

arXiv reaDer

anomaly detection

adversarial

metric
リンク
フォトリアリスティックなドライビングシミュレータの共有表現
arxiv_reader 2021/12/10
強力なシミュレーターにより、自動運転車のトレーニングや評価を行う際の実際のテストの必要性が大幅に減少します。データ駆動型シミュレーターは、条件付き生成的敵対的ネットワーク（cGAN）の最近の進歩により

GAN

dataset

reconstruction

arXiv

reasoning

pose

arXiv reaDer

representation

semantic segmentation

synthesis
リンク
数ショットの行動認識のための時空間関係モデリング
arxiv_reader 2021/12/10
高次の時間的表現を同時に学習しながら、クラス固有の特徴の識別可能性を強化する、新しい数ショットのアクション認識フレームワーク、STRMを提案します。私たちのアプローチの焦点は、専用のローカルパッチレベ

benchmark

learning

few-shot

spatio-temporal

arXiv

classification

action recognition

arXiv reaDer

representation
リンク
プレノクセル：ニューラルネットワークのない放射輝度フィールド
arxiv_reader 2021/12/10
フォトリアリスティックなビュー合成システムであるプレノクセル（プレノプティックボクセル）を紹介します。プレノクセルは、球面調和関数を持つスパース3Dグリッドとしてシーンを表します。この表現は、勾配法と

gradient

benchmark

arXiv

regularization

3D

arXiv reaDer

representation

sparse

synthesis
リンク
専門家の製品GANを使用したマルチモーダル条件付き画像合成
arxiv_reader 2021/12/10
既存の条件付き画像合成フレームワークは、テキスト、セグメンテーション、スケッチ、スタイル参照などの単一のモダリティでのユーザー入力に基づいて画像を生成します。多くの場合、利用可能な場合はマルチモーダル

segmentation

GAN

arXiv

arXiv reaDer

synthesis
リンク
IterMVS：効率的なマルチビューステレオの反復確率推定
arxiv_reader 2021/12/10
高解像度マルチビューステレオ用の新しいデータ駆動方式であるIterMVSを紹介します。隠れた状態の深さのピクセルごとの確率分布をエンコードする新しいGRUベースの推定量を提案します。マルチスケールのマ

stereo

classification

arXiv

arXiv reaDer

estimation
リンク
ニューラル記述子フィールド：SE（3）-操作のための同変オブジェクト表現
arxiv_reader 2021/12/10
ニューラル記述子フィールド（NDF）は、カテゴリレベルの記述子を介して、オブジェクトとターゲット（ロボットグリッパーや吊り下げに使用されるラックなど）の間のポイントと相対ポーズの両方をエンコードするオ

self-supervised

keypoint

learning

arXiv

3D

pose

arXiv reaDer

robot

representation

simulation
リンク
行動ビデオにおける自己監視キーポイント発見
arxiv_reader 2021/12/10
ラベルのない行動ビデオからエージェントの姿勢と構造を学習する方法を提案します。行動エージェントが一般に行動ビデオの動きの主な原因であるという観察から始めて、私たちの方法は、ビデオフレーム間の違いを再構

self-supervised

keypoint

learning

classification

arXiv

arXiv reaDer

human

video
リンク
ディープニューラルネットワークのトレーニングにおける不変性の活用
arxiv_reader 2021/12/10
動物の視覚系の2つの基本的なメカニズムに触発されて、深いニューラルネットワークのトレーニングに不変特性を課す特徴変換手法を紹介します。結果として得られるアルゴリズムは、必要なパラメーターの調整が少なく

gradient

learning

convolutional

arXiv

arXiv reaDer

transformer

computer vision
リンク
BLT：制御可能なレイアウト生成のための双方向レイアウトトランスフォーマー
BLT: Bidirectional Layout Transf ormer for Controllable Layout Generation ビジュアルレイアウトの作成は、グラフィックデザインの重要なステップです。このようなレイアウトの自動生成は、スケーラブルで多様なビジュアルデザインを求めるために重要です。自動レイアウト生成に関するこれまでの作業は、モデルが特定の問題に対するユーザーのニーズを無視してレイアウトを生成する無条件の生成に焦点を合わせています。条件付きレイアウトの生成を進めるために、双方向レイアウトトランスフォーマーであるBLTを導入します。 BLTは、最初にユーザー入力を満たすドラフトレイアウトを生成し、次にレイアウトを繰り返し改良するという点で、自己回帰デコードとは異なります。提案されたモデルを、さまざまな忠実度メトリックを使用して複数のベンチマークで検証します。私た
arxiv_reader 2021/12/10
ビジュアルレイアウトの作成は、グラフィックデザインの重要なステップです。このようなレイアウトの自動生成は、スケーラブルで多様なビジュアルデザインを求めるために重要です。自動レイアウト生成に関するこれま

benchmark

autoregressive

arXiv

arXiv reaDer

transformer

metric
リンク
教師なし適応のためのWILDSベンチマークの拡張
arxiv_reader 2021/12/10
野生で展開されている機械学習システムは、多くの場合、ソースディストリビューションでトレーニングされていますが、別のターゲットディストリビューションで展開されています。ラベルのないデータは、ラベルの付い

self-supervised

benchmark

detection

dataset

classification

arXiv

arXiv reaDer

unsupervised

satellite

metric
リンク
初期のグローバル統合によるローカルシフトの注目
arxiv_reader 2021/12/10
最近の研究は、コンピュータビジョンアプリケーション用のトランスの可能性を示しています。画像は最初にパッチに分割され、パッチはアテンションメカニズムの入力トークンとして使用されます。アテンションメカニズ

classification

convolutional

localization

computer vision

transformer

arXiv reaDer

arXiv

attention
リンク
事前に学習した交通を介して、事故が発生しやすい有用な運転シナリオを生成する
Generating Useful Accident-Prone Driving Scenarios via a Learned Traffic Prior 自動運転車の計画を評価および改善するには、ロングテールトラフィックシナリオをスケーラブルに生成する必要があります。有用であるためには、これらのシナリオは現実的で挑戦的でなければなりませんが、安全にドライブスルーすることは不可能ではありません。この作業では、STRIVEを紹介します。これは、特定のプランナーが衝突などの望ましくない動作を生成するような、やりがいのあるシナリオを自動的に生成する方法です。シナリオの妥当性を維持するための重要なアイデアは、グラフベースの条件付きVAEの形式で学習した交通の動きのモデルを活用することです。シナリオの生成は、このトラフィックモデルの潜在空間での最適化として定式化され、最初の実世界のシーンを摂動させ
arxiv_reader 2021/12/10
自動運転車の計画を評価および改善するには、ロングテールトラフィックシナリオをスケーラブルに生成する必要があります。有用であるためには、これらのシナリオは現実的で挑戦的でなければなりませんが、安全にドラ

vehicle

arXiv

arXiv reaDer
リンク
2つの射影ビューの重要な構成、新しいアプローチ
arxiv_reader 2021/12/10
運動からの構造の問題は、一連の2次元画像からオブジェクトの3次元構造を復元することに関係しています。一般に、十分な画像と画像ポイントが提供されれば、すべての情報を一意に復元できますが、一意の復元が不可

classification

reconstruction

arXiv

arXiv reaDer
リンク
深層生成モデルを使用したベイジアン画像再構成
arxiv_reader 2021/12/10
機械学習モデルは通常、ペアの (入力、出力) データを使用して、エンドツーエンドで監視された設定でトレーニングされます。例には、(低解像度、高解像度の) 画像のペアでトレーニングする最近の超解像メ

MRI

Bayesian

face

dataset

reconstruction

arXiv

pre-training

arXiv reaDer

generative

super-resolution
リンク
深層学習を使用した診療所での3D高品質磁気共鳴画像の復元
arxiv_reader 2021/12/10
取得時間の短縮とモーションアーチファクトの低減は、磁気共鳴画像法で最も重要な2つの懸念事項です。有望なソリューションとして、ディープラーニングベースの高品質MR画像復元が調査され、追加の取得時間やパル

MRI

learning

arXiv

3D

arXiv reaDer
リンク
因数分解ベースの画像ラベリング
arxiv_reader 2021/12/10
脳の磁気共鳴画像（MRI）を解剖学的領域に分割することは、ニューロイメージングにおいて有用なタスクです。手動注釈は時間と費用がかかるため、完全に自動化された汎用の脳セグメンテーションアルゴリズムを使用

MRI

segmentation

domain

arXiv

arXiv reaDer

generative
リンク
エッジコンピューティング対応の歩行者検出のための照明および温度を意識したマルチスペクトルネットワーク
arxiv_reader 2021/12/10
正確で効率的な歩行者検出は、先進運転支援システムやスマート歩行者横断歩行システムなど、歩行者の安全性と移動性に関する高度道路交通システムにとって非常に重要です。すべての歩行者検出方法の中で、視覚ベース

real time

detection

dataset

arXiv

quantization

arXiv reaDer

edge device

pedestrian
リンク
オプティカルフローの非線形進化的PDEベースの改良
arxiv_reader 2021/12/10
この論文の目的は、オプティカルフローの非線形リファインメントのための統一されたフレームワークを提案することです。最初のモデルは2フェーズの改良プロセスであり、最初のフェーズで取得された初期推定値は、そ

optical flow

arXiv

regularization

arXiv reaDer
リンク
ISSAFE：イベントベースのデータを融合することによる事故のセマンティックセグメンテーションの改善
ISSAFE: Improving Semantic Segmentation in Accidents by Fusing Event-based Data すべての交通参加者の安全を確保することは、インテリジェント車両を実際のアプリケーションに近づけるための前提条件です。支援システムは、通常の条件下で高精度を達成するだけでなく、極端な状況に対して堅牢な知覚を得る必要があります。ただし、オブジェクトの衝突、変形、転倒などを伴う交通事故は、ほとんどのトレーニングセットでは見られませんが、既存のセマンティックセグメンテーションモデルのパフォーマンスに大きな悪影響を及ぼします。この問題に取り組むために、事故データセットDADAセグメントとともに、事故シナリオでのセマンティックセグメンテーションに関してめったに対処されないタスクを提示します。これには、それぞれ40フレームの313のさまざまな事故
arxiv_reader 2021/12/10
すべての交通参加者の安全を確保することは、インテリジェント車両を実際のアプリケーションに近づけるための前提条件です。支援システムは、通常の条件下で高精度を達成するだけでなく、極端な状況に対して堅牢な知

dataset

vehicle

arXiv

arXiv reaDer

semantic segmentation
リンク
データ拡張の下でのConvNetsとVisionTransformersによるディープQ学習の安定化
arxiv_reader 2021/12/10
強化学習（RL）によってトレーニングされたエージェントは、視覚的な観察から直接、ますます困難になるタスクを解決できますが、学習したスキルを新しい環境に一般化することは、依然として非常に困難です。データ

benchmark

arXiv

augmentation

transformer

arXiv reaDer

robot

reinforcement learning
リンク
事故シーンセグメンテーションのためのイベント駆動型動的コンテキストの調査
arxiv_reader 2021/12/10
交通シーンのエッジケースでのセマンティックセグメンテーションの堅牢性は、高度道路交通システムの安全性にとって重要な要素です。ただし、交通事故の重大なシーンのほとんどは非常に動的であり、以前は見られなか

semantic segmentation

dataset

arXiv

arXiv reaDer
リンク
相互の敵対的訓練：一緒に学ぶことは一人で行くよりも良いです
arxiv_reader 2021/12/10
最近の研究では、敵対的な攻撃に対する堅牢性をネットワーク間で転送できることが示されています。言い換えれば、強力な教師モデルの助けを借りて、弱いモデルをより堅牢にすることができます。静的な教師から学ぶ代

knowledge distillation

learning

arXiv

arXiv reaDer

adversarial
リンク
REGRAD：クラッターでの安全でオブジェクト固有のロボット把握のための大規模なリレーショナル把握データセット
arxiv_reader 2021/12/10
ロボットによる把持で目覚ましい進歩が達成されたにもかかわらず、ロボットは高度なタスクに熟練していません（たとえば、特定のターゲットを乱雑に検索して把持する）。このようなタスクには、世界の把握だけでなく

detection

dataset

learning

arXiv

arXiv reaDer

pose

3D

robot

sim-to-real

point cloud
リンク
反復スタックバック投影を使用したスパースビューCT再構成
arxiv_reader 2021/12/10
スパースビューCTの再構成は、コスト、取得時間、または線量の制限により、幅広いアプリケーションで重要です。ただし、フィルター処理された逆投影（FBP）などの従来の直接再構成方法では、サブナイキスト体制

convolutional

reconstruction

arXiv

arXiv reaDer

CT

sparse

recurrent

DNN

LSTM
リンク
FCA：マルチビューの物理的敵対者攻撃のための3Dフルカバレッジ車両カモフラージュの学習
arxiv_reader 2021/12/10
物体検出における物理的な敵対的攻撃がますます注目を集めています。ただし、これまでのほとんどの作業は、個々の敵対パッチを生成することによって検出器からオブジェクトを隠すことに焦点を当てています。これは、

detection

learning

vehicle

attention

arXiv

arXiv reaDer

3D

loss function

adversarial
リンク
多施設CT画像を使用したCOVID-19認識のためのロバストな弱教師あり学習
arxiv_reader 2021/12/10
世界は現在、重症急性呼吸器症候群コロナウイルス2（SARS-CoV-2）によって引き起こされる、コロナウイルス病2019（すなわち、COVID-19）と呼ばれる感染症の継続的なパンデミックを経験してい

COVID-19

learning

arXiv

3D

arXiv reaDer

CT

weakly-supervised
リンク
PE-former：ポーズ推定トランスフォーマー
arxiv_reader 2021/12/10
ビジョントランスアーキテクチャは、画像分類タスクで非常に効果的に機能することが実証されています。トランスを使用してより困難なビジョンタスクを解決するための取り組みは、特徴抽出のための畳み込みバックボー

CNN

dataset

convolutional

classification

arXiv

pose estimation

arXiv reaDer

transformer
リンク
自動目視検査のためのストリーミング機械学習とオンラインアクティブラーニング
arxiv_reader 2021/12/10
品質管理は、製品が要件と仕様に適合していることを確認するために製造会社が実行する重要な活動です。標準化された品質管理により、すべての製品が同じ基準で評価されます。センサーと接続のコストが削減されたこと

bias

learning

classification

arXiv

arXiv reaDer

activity
リンク
AdaStereo：効率的なドメイン適応ステレオマッチングアプローチ
arxiv_reader 2021/12/10
最近、ステレオマッチングベンチマークの記録は、エンドツーエンドの視差ネットワークによって絶えず破られています。ただし、これらのディープモデルのドメイン適応能力はかなり制限されています。このような問題に

self-supervised

benchmark

stereo

reconstruction

arXiv

arXiv reaDer

metric

representation

domain adaptation
リンク
CA-SSL：検出とセグメンテーションのためのクラスにとらわれない半教師あり学習
arxiv_reader 2021/12/10
インスタンスレベルの検出/セグメンテーションのパフォーマンスを向上させるために、既存の自己監視および半教師ありメソッドは、ラベルのないデータから非常にタスクに関連しない、または非常にタスク固有のトレー

self-supervised

segmentation

detection

learning

semi-supervised

arXiv

arXiv reaDer
リンク
DVHN：大規模な車両の再識別のためのディープハッシュフレームワーク
DVHN: A Deep Hashing Framework for Large-scale Vehicle Re-identification この論文では、車両の再識別とディープハッシュ学習の統合を調査する最初の試みを行います。ディープハッシュベースの車両再識別フレームワークであるDVHNを提案します。これは、メモリ使用量を大幅に削減し、最近傍探索の精度を維持しながら検索効率を向上させます。具体的には、〜DVHNは、特徴学習ネットワークとハッシュコード生成モジュールを共同で最適化することにより、各画像の個別のコンパクトなバイナリハッシュコードを直接学習します。具体的には、畳み込みニューラルネットワークからの出力を個別のバイナリコードに直接制約し、学習したバイナリコードが分類に最適であることを確認します。ディープディスクリートハッシュフレームワークを最適化するために、バイナリ類似性が保持
arxiv_reader 2021/12/10
この論文では、車両の再識別とディープハッシュ学習の統合を調査する最初の試みを行います。ディープハッシュベースの車両再識別フレームワークであるDVHNを提案します。これは、メモリ使用量を大幅に削減し、最

CNN

dataset

vehicle

learning

classification

arXiv

arXiv reaDer

re-id
リンク
FMD-cGAN：条件付き生成的敵対的ネットワークを使用した高速モーションブレ除去
arxiv_reader 2021/12/10
この論文では、単一画像のブラインドモーションブレ除去に役立つ高速モーションブレ除去-条件付き生成的敵対的ネットワーク（FMD-cGAN）を紹介します。 FMD-cGANは、画像のぼけを除去した後、印象

GAN

real time

dataset

convolutional

arXiv

arXiv reaDer
リンク
モデルドクター：CNN分類器を診断および処理するための単純な勾配集約戦略
Model Doctor: A Simple Gradient Aggregation Strategy for Diagnosing and Treating CNN Classifiers 最近、畳み込みニューラルネットワーク（CNN）は、分類タスクで優れたパフォーマンスを達成しました。 CNNは「ブラックボックス」と見なされることが広く知られています。これは、予測メカニズムを理解し、誤った予測をデバッグするのが困難です。上記の欠点を解決するために、いくつかのモデルのデバッグと説明の作業が開発されています。ただし、これらの方法は、モデル予測の考えられる原因の説明と診断に重点を置いており、これに基づいて、研究者はモデルの次の最適化を手動で処理します。この論文では、モデルドクターと呼ばれる最初の完全自動モデル診断および治療ツールを提案します。 1）各カテゴリはスパースで特定の畳み込みカーネ
arxiv_reader 2021/12/10
最近、畳み込みニューラルネットワーク（CNN）は、分類タスクで優れたパフォーマンスを達成しました。 CNNは「ブラックボックス」と見なされることが広く知られています。これは、予測メカニズムを理解し、誤

CNN

gradient

classification

arXiv

arXiv reaDer

sparse

adversarial
リンク
自己監視型の画像からテキストおよびテキストから画像への合成
arxiv_reader 2021/12/10
視覚と言語、およびそれらの相互関係を包括的に理解することは、これらのモダリティ間の根本的な類似点と相違点を認識し、より一般化された意味のある表現を学ぶために重要です。近年、テキストから画像への合成と画

self-supervised

GAN

learning

embedding

arXiv

arXiv reaDer

generative

representation

synthesis

LSTM
リンク
潜在埋め込みによるタスク適応としての少数ショットキーポイント検出
Few-Shot Keypoint Detection as Task Adaptation via Latent Embeddings 高密度オブジェクトトラッキングは、ピクセルレベルの精度で特定のオブジェクトポイントをローカライズする機能であり、ロボット工学の多数のダウンストリームアプリケーションでの重要なコンピュータービジョンタスクです。既存のアプローチは、単一のフォワードパスで高密度のキーポイント埋め込みを計算します。つまり、モデルはすべてを一度に追跡するようにトレーニングされるか、またはそれらの全容量をスパースの事前定義されたポイントのセットに割り当てて、一般性と精度を交換します。この論文では、特定の時点での関連するポイントの数が通常は比較的少ないという観察に基づいて、中間点を探ります。たとえば、ターゲットオブジェクト上のポイントを把握します。私たちの主な貢献は、スパーススタイル
arxiv_reader 2021/12/10
高密度オブジェクトトラッキングは、ピクセルレベルの精度で特定のオブジェクトポイントをローカライズする機能であり、ロボット工学の多数のダウンストリームアプリケーションでの重要なコンピュータービジョンタス

detection

localization

few-shot

arXiv

arXiv reaDer

zero-shot

sparse

computer vision

tracking

embedding
リンク
PRA-Net：3Dポイントクラウド分析のためのポイントリレーション対応ネットワーク
arxiv_reader 2021/12/10
地域内のコンテキストと地域間の関係を学習することは、点群分析の特徴表現を強化するための2つの効果的な戦略です。ただし、点群表現の2つの戦略を統合することは、既存の方法では完全には強調されていません。こ

benchmark

segmentation

classification

arXiv

3D

arXiv reaDer

representation

estimation

point cloud
リンク
介入による潜在空間の説明
arxiv_reader 2021/12/10
ディープニューラルネットの成功は、入力と出力の間の複雑な関係をエンコードする能力に大きく依存しています。このプロパティはトレーニングデータにうまく適合しますが、予測を駆動するメカニズムも不明瞭にします

bias

representation

arXiv

arXiv reaDer
リンク
CNNとTransformer間のクロスティーチングによる半教師あり医療画像セグメンテーション
arxiv_reader 2021/12/10
最近、畳み込みニューラルネットワーク（CNN）とトランスフォーマーを使用した深層学習により、完全に監視された医療画像セグメンテーションで有望な結果が示されました。ただし、トレーニング用の注釈を制限して

CNN

benchmark

segmentation

learning

semi-supervised

arXiv

regularization

arXiv reaDer

transformer
リンク
バイリンガルのOpenWorldビデオテキストデータセットとトランスフォーマーを備えたエンドツーエンドのビデオテキストスポッター
arxiv_reader 2021/12/10
ほとんどの既存のビデオテキストスポッティングベンチマークは、限られたデータで単一の言語とシナリオを評価することに焦点を合わせています。この作業では、大規模なバイリンガルのオープンワールドビデオテキスト

benchmark

dataset

arXiv

arXiv reaDer

transformer

video

tracking
リンク
さまざまな背景タイプの人工データに対する顕著性手法の評価
arxiv_reader 2021/12/10
過去数年にわたって、多くの「説明可能な人工知能」（xAI）アプローチが開発されてきましたが、これらは常に客観的に評価されているわけではありません。さまざまな顕著性手法によって生成されたヒートマップの品

MRI

arXiv

arXiv reaDer

saliency

synthesis
リンク
組み合わせ埋め込みによる開集合表現学習
arxiv_reader 2021/12/10
視覚認識タスクは、残りのクラスのラベルが使用できないという理由だけで、クラスの小さなサブセットの処理に制限されることがよくあります。ラベル付きとラベルなしの両方の例に基づく表現学習を通じてデータセット

benchmark

embedding

metric learning

representation learning

arXiv reaDer

regularization

arXiv

dataset
リンク
3D Medical Point Transformer：Medical PointCloud分析のためのアテンションネットワークへの畳み込みの導入
arxiv_reader 2021/12/10
一般的なポイントクラウドは、さまざまなタスクについてますます調査されており、最近、ポイントクラウド分析のためにTransformerベースのネットワークが提案されています。しかし、病気の検出と治療に重

segmentation

detection

convolutional

attention

arXiv

arXiv reaDer

transformer

3D

point cloud
リンク
VL-LTR：ロングテール視覚認識のためのクラスごとの視覚言語表現の学習
arxiv_reader 2021/12/10
ディープラーニングベースのモデルは、現実の世界でロングテールデータを処理するときに課題に直面します。既存のソリューションは通常、画像モダリティに基づいて、クラスの不均衡の問題に対処するために、いくつか

benchmark

arXiv

arXiv reaDer

representation

transfer learning
リンク
ScaleNet：スケール推定のための浅いアーキテクチャ
arxiv_reader 2021/12/10
この論文では、画像間のスケールファクターを推定する問題に対処します。スケール因子の確率分布の予測として、スケール推定問題を定式化します。画像間のスケールを予測するために、拡張された畳み込みと自己相関層

benchmark

dataset

convolutional

reconstruction

arXiv

pose estimation

arXiv reaDer

3D

sparse
リンク
ランク模倣および予測誘導特徴模倣による物体検出のための知識抽出
arxiv_reader 2021/12/10
知識蒸留（KD）は、面倒な教師モデルからコンパクトな生徒モデルに情報を継承するために広く使用されているテクノロジーであり、その結果、モデルの圧縮と高速化を実現します。画像分類と比較して、オブジェクト検

benchmark

detection

compression

classification

arXiv

arXiv reaDer

knowledge distillation
リンク
顔認識モデルにおけるアクティベーションマップ変動分析による教師ありおよび教師なし顔画像品質推定の意味の説明可能性
arxiv_reader 2021/12/10
教師なしまたは統計ベースの顔の画像品質評価（FIQA）手法の説明可能性を導き出すことは困難です。この作業では、さまざまなFIQA決定の理由と、それらの顔認識（FR）パフォーマンスへの影響を導き出すため

arXiv

reasoning

pose

arXiv reaDer

face recognition

occlusion

unsupervised

embedding
リンク
TransMEF：自己監視型マルチタスク学習を使用したトランスフォーマーベースの多重露光画像融合フレームワーク
arxiv_reader 2021/12/10
本論文では、自己監視マルチタスク学習を使用するトランスベースの多重露光画像融合フレームワークであるTransMEFを提案します。フレームワークはエンコーダー-デコーダーネットワークに基づいており、大規

CNN

self-supervised

benchmark

multi-task

dataset

learning

reconstruction

arXiv

arXiv reaDer

transformer
リンク
自己管理分類ネットワーク
arxiv_reader 2021/12/10
自己分類器を紹介します。これは、新しい自己監視型のエンドツーエンドの分類学習アプローチです。 Self-Classifierは、同じサンプルの2つの拡張ビューの同じクラスの予測を最適化することにより、

self-supervised

classification

arXiv

clustering

augmentation

arXiv reaDer

pre-training

representation learning

unsupervised

contrastive
リンク
脳の磁気共鳴画像における多発性硬化症病変分析：技術と臨床応用
arxiv_reader 2021/12/10
多発性硬化症（MS）は、中枢神経系の慢性炎症性および変性疾患であり、個々の患者の神経学的症状および徴候と地形的に相関する白質および灰白質の限局性病変の出現を特徴とします。磁気共鳴画像法（MRI）は、詳

MRI

segmentation

learning

arXiv

arXiv reaDer

representation

domain adaptation
リンク
OW-DETR：オープンワールド検出トランス
arxiv_reader 2021/12/10
オープンワールドオブジェクト検出（OWOD）は、コンピュータビジョンの問題であり、既知のオブジェクトカテゴリのセットを検出すると同時に、未知のオブジェクトを識別します。さらに、モデルは、次のトレーニン

benchmark

bias

detection

classification

arXiv

arXiv reaDer

transformer

pose

computer vision
リンク
iBOT：オンライントークナイザーを使用したImageBERTの事前トレーニング
arxiv_reader 2021/12/10
言語トランスフォーマーの成功は、主にマスクされた言語モデリング（MLM）の口実タスクに起因します。このタスクでは、テキストが最初に意味的に意味のある部分にトークン化されます。この作業では、マスクされた

self-supervised

detection

classification

arXiv

pre-training

arXiv reaDer

transformer

BERT

semantic segmentation
リンク
一般的なイベント境界検出のためのマルチレベル高密度差分マップへの漸進的な注意
arxiv_reader 2021/12/10
一般的なイベント境界の検出は、人間がイベント境界を自然に知覚する瞬間を検出することを目的とした、ビデオ理解における重要でありながら挑戦的なタスクです。このタスクの主な課題は、さまざまなイベント境界のさ

benchmark

detection

attention

arXiv

arXiv reaDer

video

representation
リンク
集約されたドメインの一般化のための適応方法
arxiv_reader 2021/12/10
ドメインの一般化には、トレーニングソースの異種コレクションから分類子を学習することが含まれます。これにより、大規模な学習とパーソナライズされた推論に適用され、類似した未知のターゲットドメインから抽出さ

benchmark

dataset

learning

domain

arXiv

arXiv reaDer

representation
リンク
3D-VField：3Dオブジェクト検出におけるドメイン一般化のための点群の敵対的増強
arxiv_reader 2021/12/10
点群での3Dオブジェクト検出は、ポイント間の幾何学的関係に依存しているため、非標準のオブジェクト形状は、メソッドの検出機能を妨げる可能性があります。ただし、セーフティクリティカルな設定では、損傷した車

ToF

detection

RGB-D

OOD

arXiv

arXiv reaDer

3D

adversarial

point cloud

LiDAR
リンク
HBReID：再識別のためのより難しいバッチ
arxiv_reader 2021/12/10
トリプレット損失は、ReIDタスクで広く採用されている損失関数であり、最も硬い正のペアを近づけ、最も硬い負のペアを遠ざけます。ただし、選択したサンプルは世界的に最も難しいものではなく、ミニバッチでのみ

dataset

arXiv

arXiv reaDer

re-id

representation

loss function

adversarial
リンク
AI知覚システムの冗長性は、超人による自動運転性能のテストに役立ちますか？
Does Redundancy in AI Perception Systems Help to Test for Super-Human Automated Driving Performance? 自動運転は人間よりも優れた運転性能で宣伝されることがよくありますが、この作業では、これが実際に当てはまるというシステムレベルでの直接的な統計的証拠を提供することはほぼ不可能であるとレビューしています。必要なラベル付きデータの量は、現在の技術的および経済的能力の次元を超えます。したがって、一般的に使用される戦略は、十分なサブシステムのパフォーマンスの証明とともに冗長性を使用することです。知られているように、この戦略は、特に独立して動作するサブシステムの場合に効率的です。つまり、エラーの発生は統計的な意味で独立しています。ここでは、同じコンピュータビジョンタスクを実行するニューラルネットワークの
arxiv_reader 2021/12/10
自動運転は人間よりも優れた運転性能で宣伝されることがよくありますが、この作業では、これが実際に当てはまるというシステムレベルでの直接的な統計的証拠を提供することはほぼ不可能であるとレビューしています。

arXiv

3D

arXiv reaDer

computer vision

loss function
リンク
BLPnet：ベンガルOCRを使用した自動ナンバープレート検出用の新しいDNNモデル
BLPnet: A New DNN model for Automatic License Plate Detection with Bengali OCR 画像処理とオブジェクトローカリゼーションを備えたディープニューラルネットワーク（DNN）モデルは、自動交通制御および監視システムを進歩させる可能性があります。堅牢なナンバープレート検出モデルの開発におけるいくつかの顕著な進歩にもかかわらず、研究努力は、より高い検出精度で計算の複雑さを軽減し続けています。このホワイトペーパーでは、ベンガル文字の自動ナンバープレート認識（ALPR）システムと、ベンガルライセンスプレートネットワーク（BLPnet）と呼ばれる新しいDNNモデルについて報告します。さらに、提案されたモデルでVLPの前に車両領域を検出するためのカスケードアーキテクチャは、計算コストと誤検知を大幅に削減し、システムをより高速かつ正
arxiv_reader 2021/12/10
画像処理とオブジェクトローカリゼーションを備えたディープニューラルネットワーク（DNN）モデルは、自動交通制御および監視システムを進歩させる可能性があります。堅牢なナンバープレート検出モデルの開発にお

real time

detection

localization

vehicle

arXiv

arXiv reaDer

video

DNN
リンク
ディープニューラルネットワークを使用した地震後の超高解像度画像からのスーパーピクセルベースの建物損傷検出
arxiv_reader 2021/12/10
地震などの自然災害後の建物の損傷の検出は、効果的な緊急対応アクションを開始するために重要です。リモートセンシングされた非常に高い空間分解能（VHR）の画像は、影響を受ける建物を高い幾何学的精度でマッピ

segmentation

detection

attention

arXiv

pre-training

arXiv reaDer

denoising

action

DNN
リンク
オラクルの模倣：クラス増分学習のための初期段階の無相関化アプローチ
Mimicking the Oracle: An Initial Phase Decorrelation Approach for Class Incremental Learning クラスインクリメンタル学習（CIL）は、フェーズごとにマルチクラス分類器を学習することを目的としています。各フェーズでは、クラスのサブセットのデータのみが提供されます。以前の作品は、主に最初のものの後の段階で忘却を軽減することに焦点を当てています。ただし、初期段階でCILを改善することも有望な方向であることがわかります。具体的には、初期段階でCIL学習者に、すべてのクラスで共同でトレーニングされたモデルと同様の表現を出力するように直接促すことで、CILのパフォーマンスを大幅に向上できることを実験的に示します。これに動機付けられて、私たちは素朴に訓練された初期段階モデルとオラクルモデルの違いを研究します。具体
arxiv_reader 2021/12/10
クラスインクリメンタル学習（CIL）は、フェーズごとにマルチクラス分類器を学習することを目的としています。各フェーズでは、クラスのサブセットのデータのみが提供されます。以前の作品は、主に最初のものの後

benchmark

dataset

learning

arXiv

arXiv reaDer

representation
リンク
加速MRIのための1次元の深い低ランクでスパースなネットワーク
arxiv_reader 2021/12/10
ディープラーニングは、加速磁気共鳴画像法（MRI）で驚異的なパフォーマンスを示しています。多くの磁気共鳴画像または対応するk空間が2Dであるため、ほとんどの最先端の深層学習再構成は、強力な畳み込みニュ

CNN

MRI

dataset

learning

reconstruction

arXiv

arXiv reaDer

sparse
リンク
Amicable Aid: 分類のパフォーマンスを向上させるための画像の摂動
arxiv_reader 2021/12/10
深い画像分類モデルに対する敵対的攻撃は実際には深刻なセキュリティ上の懸念を引き起こしますが、このペーパーでは、敵対的攻撃の概念が分類パフォーマンスに役立つ可能性がある新しいパラダイムを提案します。これ

manifold

classification

arXiv

pose

arXiv reaDer

human

adversarial
リンク
ビデオポートレートでのニューラルリライティングと表現転送
arxiv_reader 2021/12/10
フォトリアリスティックなビデオポートレートの再現は、仮想制作と多数のVR / AR体験に役立ちます。再現された表現はソースと一致する必要があり、照明は新しい環境に合わせて調整可能である必要があるため、

face

multi-task

segmentation

learning

arXiv

arXiv reaDer

video
リンク
ネストされたシーンモデリングと協調アーキテクチャによる学習低照度ビジョンの検索
arxiv_reader 2021/12/10
低照度のシーンからキャプチャされた画像は、視界の悪さ、色かぶり、激しいノイズなど、深刻な劣化に悩まされることがよくあります。これらの要因は、画質に影響を与えるだけでなく、ダウンストリームの低照度ビジョ

segmentation

differentiable

detection

learning

arXiv

arXiv reaDer
リンク
内側残留エンコーダ層を使用した脳腫瘍分類
arxiv_reader 2021/12/10
世界保健機関（WHO）によると、癌は世界で2番目に多い死因であり、2018年だけで950万人以上が死亡しています。脳腫瘍は、癌による死亡の4分の1に数えられます。したがって、脳腫瘍の正確でタイムリーな

MRI

dataset

learning

classification

arXiv

arXiv reaDer

residual
リンク
Auto-X3D：よりきめ細かいニューラルアーキテクチャ検索による超効率的なビデオ理解
Auto-X3D: Ultra-Efficient Video Understanding via Finer-Grained Neural Architecture Search 効率的なビデオアーキテクチャは、限られたコンピューティングリソースを備えたデバイスにビデオ認識システムを展開するための鍵です。残念ながら、既存のビデオアーキテクチャは多くの場合、計算量が多く、そのようなアプリケーションには適していません。最近のX3Dの作品は、空間、時間、幅、奥行きなどの複数の軸に沿って手作りの画像アーキテクチャを拡張することにより、効率的なビデオモデルの新しいファミリを示しています。 X3Dは、概念的に大きな空間で動作しますが、一度に1つの軸を検索し、合計30のアーキテクチャの小さなセットを探索しただけであり、空間を十分に探索できません。この論文は、既存の2Dアーキテクチャをバイパスし、ブロッ
arxiv_reader 2021/12/10
効率的なビデオアーキテクチャは、限られたコンピューティングリソースを備えたデバイスにビデオ認識システムを展開するための鍵です。残念ながら、既存のビデオアーキテクチャは多くの場合、計算量が多く、そのよう

benchmark

NAS

attention

arXiv

3D

arXiv reaDer

video
リンク
インスタンスセグメンテーションのための暗黙的な機能の改良
arxiv_reader 2021/12/10
高品質のインスタンスセグメンテーションのための新しい暗黙の特徴改良モジュールを提案します。既存の画像/ビデオインスタンスのセグメンテーション方法は、明示的にスタックされた畳み込みに依存して、最終的な予

benchmark

segmentation

convolutional

R-CNN

arXiv

arXiv reaDer

residual
リンク
ファストポイントトランス
arxiv_reader 2021/12/10
ニューラルネットワークの最近の成功により、3D点群のより良い解釈が可能になりましたが、大規模な3Dシーンの処理は依然として困難な問題です。現在のほとんどのアプローチでは、大規模なシーンを小さな領域に分

interpretation

detection

arXiv

arXiv reaDer

transformer

3D

semantic segmentation

point cloud
リンク
TransFusion：3D人間のポーズ推定のためのトランスフォーマーとのクロスビューフュージョン
arxiv_reader 2021/12/10
各ビューでの2D人間のポーズの推定は、通常、キャリブレーションされたマルチビュー3Dポーズ推定の最初のステップです。しかし、2Dポーズ検出器のパフォーマンスは、オクルージョンや斜めの視角などの困難な状

detection

arXiv

pose estimation

arXiv reaDer

transformer

3D

representation

occlusion

human pose estimation
リンク
視覚的場所認識のための教師なし補完対応マルチプロセス融合
arxiv_reader 2021/12/10
視覚的場所認識（VPR）問題への最近のアプローチは、複数の補完的なVPR技術の場所認識推定を同時に融合することでした。ただし、特定の展開環境で事前に使用する最適な手法のセットを選択することは、困難で未

unsupervised

dataset

arXiv

arXiv reaDer
リンク
視覚的推論の根底にある計算上の要求を理解する
arxiv_reader 2021/12/10
視覚的な理解には、シーン内のオブジェクト間の複雑な視覚的関係を理解する必要があります。ここでは、抽象的な視覚的推論の計算要求を特徴付けようとしています。これを行うには、現代の深層畳み込みニューラルネッ

CNN

attention

arXiv

reasoning

arXiv reaDer
リンク
TransGAN：2つの純粋なトランスフォーマーが1つの強力なGANを作成でき、それがスケールアップできます
arxiv_reader 2021/12/10
変圧器に対する最近の爆発的な関心は、分類、検出、セグメンテーションなどのコンピュータービジョンタスクの強力な「ユニバーサル」モデルになる可能性を示唆しています。これらの試みは主に識別モデルを研究します

detection

segmentation

convolutional

computer vision

transformer

arXiv reaDer

GAN

arXiv

augmentation
リンク
蒸留データによるオムニ監視の顔の表情認識
arxiv_reader 2021/12/10
顔の表情は、人間の感情を理解する上で重要な役割を果たします。最近では、深層学習ベースの方法が顔の表情の認識に有望であることが示されています。ただし、現在の最先端の顔の表情認識（FER）アプローチのパフ

benchmark

distillation

face

dataset

learning

arXiv

emotion

arXiv reaDer

human
リンク
機能が豊富なオブジェクト検出器の蒸留
arxiv_reader 2021/12/10
近年、大規模なディープモデルは大きな成功を収めていますが、計算の複雑さとストレージ要件が非常に大きいため、リソースが限られたデバイスにモデルを展開することは大きな課題となっています。モデルの圧縮と加速

detection

dataset

compression

arXiv

anchor free

arXiv reaDer

knowledge distillation
リンク
不均一な地形の存在下での改善されたローカル計画のための軌道制約された深い潜在的な視覚的注意
arxiv_reader 2021/12/10
マップレスのローカルビジュアルナビゲーションタスクで使用するための、軌道に制約のある視覚的注意を特徴とする、報酬予測モデルベースの深層学習方法を紹介します。私たちの方法は、計画中の予測精度を高めるため

learning

vehicle

attention

arXiv

action

arXiv reaDer

simulation
リンク
SimIPU：空間認識視覚表現のための単純な2D画像と3D点群の教師なし事前トレーニング
arxiv_reader 2021/12/10
事前トレーニングは、多くのコンピュータビジョンタスクの標準的なパラダイムになっています。ただし、ほとんどの方法は通常、RGB画像ドメインで設計されています。 2次元画像平面と3次元空間の間の不一致のた

domain

point cloud

arXiv

arXiv reaDer

3D

pre-training

computer vision

unsupervised

contrastive learning

LiDAR
リンク
異種の顔データのための公正な連合学習
arxiv_reader 2021/12/10
データの不均一性の下で連合学習（FL）で公正な分類を達成する問題を検討します。公正な分類のために提案されたアプローチのほとんどは、関係するさまざまな人口統計グループを表す多様なデータを必要とします。対

face

dataset

learning

classification

arXiv

arXiv reaDer

metric
リンク
DualFormer: 効率的なビデオ認識のためのローカル/グローバル層化トランスフォーマー
arxiv_reader 2021/12/10
トランスフォーマーは、長距離の依存関係をキャプチャする強力な機能を備えたビデオ認識タスクで大きな可能性を示していますが、ビデオ内の膨大な数の3Dトークンに対する自己注意操作によって引き起こされる高い計

benchmark

attention

arXiv

3D

transformer

arXiv reaDer

video
リンク
新規ビューアクション合成のためのポーズ誘導生成的敵対的ネット
arxiv_reader 2021/12/10
私たちは、斬新な視点の人間の行動の統合の問題に焦点を当てています。アクションビデオを考えると、目標は目に見えない視点から同じアクションを生成することです。当然のことながら、新しいビューのビデオ合成は画

dataset

arXiv

pose

arXiv reaDer

generative

3D

human

recurrent

adversarial

synthesis
リンク
ワンショット教師なしドメイン適応セマンティックセグメンテーションのためのスタイルミキシングとパッチワイズプロトタイプマッチング
arxiv_reader 2021/12/10
この論文では、セグメンテーションのためのワンショット教師なしドメイン適応（OSUDA）の問題に取り組みます。この場合、セグメンテーションでは、トレーニング中にラベルのないターゲット画像が1つしか表示さ

one-shot

benchmark

arXiv

pre-training

arXiv reaDer

unsupervised

semantic segmentation

domain adaptation
リンク
オブジェクトの再識別のためのデュアルクラスター対照学習
arxiv_reader 2021/12/10
最近、クラスターの対照学習は、個々の機能とクラスターの記憶の間の対照的な損失を計算することにより、個人のReIDに効果的であることが証明されました。ただし、個々の機能を使用してクラスターメモリを勢いよ

benchmark

arXiv

clustering

arXiv reaDer

re-id

person

unsupervised

contrastive learning
リンク
リアルタイム自動運転のための車線検出と経路予測のエンドツーエンドのディープラーニング
arxiv_reader 2021/12/10
セマンティック画像セグメンテーションのUNetアーキテクチャに着想を得て、自動運転における車線検出と経路予測（PP）のエンドツーエンド学習のために深度分離可能畳み込み（DSUNet）を使用する軽量UN

CNN

segmentation

real time

detection

learning

arXiv

arXiv reaDer

simulation

autonomous driving
リンク
管状構造追跡のための曲率正則化による軌道グループ化
arxiv_reader 2021/12/10
管状構造の追跡は、コンピュータビジョンと医療画像分析の分野で重要なタスクです。最小パスベースのアプローチは、管状構造をトレースする強力な能力を示しています。これにより、管状構造は、適切な測地線メトリッ

trajectory

arXiv

regularization

arXiv reaDer

tracking

computer vision

synthesis

metric
リンク
脳腫瘍のセグメンテーションのためのnn-UNetの拡張
arxiv_reader 2021/12/10
脳腫瘍のセグメンテーションは、神経膠腫患者の診断と予後に不可欠です。脳腫瘍のセグメンテーションの課題は、タスクを実行するための自動アルゴリズムを開発するための優れたデータソースを提供し続けています。こ

segmentation

batch normalization

attention

arXiv

arXiv reaDer

metric
リンク
幾何学的なポーズのアフォーダンス：シーンの制約がある3D人間のポーズ
Geometric Pose Affordance: 3D Human Pose with Scene Constraints 単一の画像からの人間のポーズの完全な3D推定は、最近の多くの進歩にもかかわらず、依然として困難な作業です。この論文では、シーンのジオメトリに関する強力な事前情報を使用して、ポーズ推定の精度を向上させることができるという仮説を検討します。この質問に経験的に取り組むために、さまざまなリッチ3D環境と対話する人々のマルチビュー画像で構成される新しいGeometric PoseAffordanceデータセットを作成しました。市販のモーションキャプチャシステムを利用して、ポーズのゴールドスタンダードの推定値を収集し、シーン自体の正確な幾何学的3DCADモデルを構築しました。画像からポーズを推定するための既存のフレームワークにシーンの制約に関する事前の知識を注入するために、シ
arxiv_reader 2021/12/10
単一の画像からの人間のポーズの完全な3D推定は、最近の多くの進歩にもかかわらず、依然として困難な作業です。この論文では、シーンのジオメトリに関する強力な事前情報を使用して、ポーズ推定の精度を向上させる

differentiable

dataset

arXiv

pose estimation

3D

arXiv reaDer

human

representation

occlusion
リンク
BACON：マルチスケールシーン表現のための帯域制限された座標ネットワーク
arxiv_reader 2021/12/10
座標ベースのネットワークは、3D表現とシーン再構築のための強力なツールとして登場しました。これらのネットワークは、連続入力座標を各ポイントの信号の値にマッピングするようにトレーニングされています。それ

reconstruction

arXiv

3D

arXiv reaDer

representation

unsupervised
リンク
データアセンブル：部分的なラベルを持つ複数のデータセットの活用
arxiv_reader 2021/12/10
ディープラーニングの成功は、広範なラベルを持つ大きくて多様なデータセットに大きく依存していますが、部分的なラベルに関連付けられたいくつかの小さなデータセットにしかアクセスできないことがよくあります。こ

benchmark

segmentation

dataset

learning

domain

classification

arXiv

arXiv reaDer
リンク
Transformerで検出するためのRecurrentGlimpseベースのデコーダー
arxiv_reader 2021/12/10
Transformer（DETR）を使用した検出はますます一般的になっていますが、そのグローバルアテンションモデリングでは、有望な検出パフォーマンスを最適化して達成するために、非常に長いトレーニング期

detection

dataset

attention

arXiv

arXiv reaDer

transformer

recurrent

embedding
リンク
補助単眼コンテキストの学習は、単眼3Dオブジェクト検出に役立ちます
arxiv_reader 2021/12/10
単眼3Dオブジェクト検出は、入力された単一の2D画像内の3D境界ボックスをローカライズすることを目的としています。これは非常に困難な問題であり、特にトレーニングや推論で追加情報（深度、LIDAR、マル

benchmark

detection

localization

pedestrian

arXiv

3D

arXiv reaDer

monocular

DNN

LiDAR
リンク
高速で明示的なニューラルビューの合成
arxiv_reader 2021/12/10
3Dオブジェクトで構成されるシーンのスパースソース観測からの新しいビュー合成の問題を研究します。ビュー合成に関する最近の傾向に挑戦する、継続的でも暗黙的でもない、シンプルでありながら効果的なアプローチ

self-supervised

learning

attention

reconstruction

arXiv

3D

arXiv reaDer

representation

sparse

synthesis
リンク
シンプルで効率的なディープスキャンパス予測
arxiv_reader 2021/12/10
視覚スキャンパスは、人間の視線が画像を観察しながら移動する一連の注視点であり、その予測は、画像の視覚的注意をモデル化するのに役立ちます。この目的のために、複雑な深層学習アーキテクチャとフレームワークを

gaze

dataset

learning

convolutional

attention

arXiv

arXiv reaDer

human

metric
リンク
自動食品イメージングと栄養素摂取量追跡（AFINI-T）テクノロジーによる長期ケアにおける食品摂取量追跡の強化
arxiv_reader 2021/12/10
介護（LTC）居住者の半数は栄養失調であり、入院、死亡率、罹患率が増加し、生活の質が低下しています。現在の追跡方法は主観的で時間がかかります。このホワイトペーパーでは、LTC向けに設計された自動食品イ

dataset

convolutional

classification

arXiv

augmentation

arXiv reaDer

tracking

estimation
リンク
表現学習のための遠いが関連する近傍を使用した制約付き平均シフト
arxiv_reader 2021/12/10
自己教師あり、教師あり、または半教師ありの設定での表現学習に関心があります。自己監視学習に平均シフトのアイデアを適用する以前の作業であるMSFは、クエリ画像を他の拡張に近づけるだけでなく、他の拡張の最

self-supervised

semi-supervised

arXiv

augmentation

arXiv reaDer

representation learning
リンク
表現操作のためのセマンティックセグメンテーションと階層的生成的敵対的ネットワークの統合アーキテクチャ
A Unified Architecture of Semantic Segmentation and Hierarchical Generative Adversarial Networks for Expression Manipulation 必要なものだけを変更して顔の表情を編集することは、画像操作のためのGenerative Adversarial Networks（GAN）における長年の研究課題です。グローバルジェネレーターのみに依存する既存のメソッドのほとんどは、通常、ターゲット属性とともに不要な属性を変更することに悩まされています。最近では、画像全体を扱うグローバルネットワークと、ローカル部分を中心とした複数のローカルネットワークの両方で構成される階層型ネットワークが成功を収めています。ただし、これらの方法では、微分不可能で不正確で非現実的なまばらな顔のキーポイントを中心と
arxiv_reader 2021/12/10
必要なものだけを変更して顔の表情を編集することは、画像操作のためのGenerative Adversarial Networks（GAN）における長年の研究課題です。グローバルジェネレーターのみに依存

benchmark

face

GAN

differentiable

arXiv

arXiv reaDer

sparse

semantic segmentation

synthesis
リンク
InvGAN：反転可能なGAN
フォトリアリスティックな画像の生成、セマンティック編集、表現学習は、高解像度生成モデルの多くの潜在的なアプリケーションのいくつかです。 GANの最近の進歩により、GANはそのようなタスクの優れた選択肢として確立されています。ただし、推論モデルを提供していないため、GAN潜在空間を使用して実際の画像に対して画像編集や分類などのダウンストリームタスクを実行することはできません。推論モデルをトレーニングしたり、事前にトレーニングされたジェネレーターを反転する反復法を設計したりするための多くの努力にもかかわらず、以前の方法はデータセット（例：人間の顔画像）とアーキテクチャ（例：StyleGAN）に固有です。これらの方法は、新しいデータセットやアーキテクチャに拡張するのに簡単ではありません。アーキテクチャやデータセットにとらわれない一般的なフレームワークを提案します。私たちの重要な洞察は、推論と生成
arxiv_reader 2021/12/10
フォトリアリスティックな画像の生成、セマンティック編集、表現学習は、高解像度生成モデルの多くの潜在的なアプリケーションのいくつかです。 GANの最近の進歩により、GANはそのようなタスクの優れた選択肢

GAN

dataset

classification

arXiv

pre-training

arXiv reaDer

augmentation

generative

human

representation learning
リンク
単一画像からの複数人の再構成における体のサイズと深さの曖昧性解消
arxiv_reader 2021/12/10
単一の画像からの複数人の3D体のポーズと形状の推定の問題に対処します。この問題は、同じシーンに1人のアプローチを複数回適用することで対処できますが、最近の作品では、深さの順序などを適用することで、シー

dataset

reconstruction

arXiv

3D

pose

arXiv reaDer

estimation
リンク
網膜イメージングにおけるセグメント内誤分類に対処することを学ぶ
arxiv_reader 2021/12/10
正確なマルチクラスセグメンテーションは、特にクラスが強い類似性を共有するシナリオでは、医用画像処理における長年の課題です。網膜写真で網膜血管をセグメント化することは、そのようなシナリオの1つであり、動

gradient

segmentation

learning

arXiv

arXiv reaDer

representation

adversarial
リンク
STAF：数ショットのビデオ分類のための時空間アテンションフュージョンネットワーク
STAF: A Spatio-Temporal Attention Fusion Network for Few-shot Video Classification 数ショットのビデオ分類のための時空間アテンションフュージョンネットワークであるSTAFを提案します。 STAFはまず、3D畳み込みニューラルネットワーク埋め込みネットワークを適用することにより、ビデオの粗い空間的および時間的特徴を抽出します。次に、自己注意および相互注意ネットワークを使用して、抽出された特徴を微調整します。最後に、STAFは、軽量フュージョンネットワークと最近傍分類器を適用して、各クエリビデオを分類します。 STAFを評価するために、3つのベンチマーク（UCF101、HMDB51、およびSomething-Something-V2）で広範な実験を行います。実験結果は、STAFが最先端の精度を大幅に向上させること
arxiv_reader 2021/12/10
数ショットのビデオ分類のための時空間アテンションフュージョンネットワークであるSTAFを提案します。 STAFはまず、3D畳み込みニューラルネットワーク埋め込みネットワークを適用することにより、ビデオ

one-shot

benchmark

few-shot

convolutional

attention

spatio-temporal

arXiv

arXiv reaDer

3D

embedding
リンク
CoSSL：不均衡な半教師あり学習のための表現と分類器の共同学習
arxiv_reader 2021/12/10
本論文では、不均衡なSSLのための分離表現学習と分類器学習を備えた新しい共同学習フレームワーク（CoSSL）を提案します。データの不均衡を処理するために、分類器学習用のテールクラス機能拡張（TFE）を

benchmark

dataset

semi-supervised

arXiv

arXiv reaDer

representation learning
リンク
SoK：反顔認識技術
近年、政府機関と商業団体の両方で顔認識（FR）テクノロジーが急速に採用されているため、市民の自由とプライバシーに対する懸念が高まっています。これに対応して、ユーザーが不要な顔認識を回避できるように、いわゆる「反顔認識」（AFR）ツールの幅広いスイートが開発されました。過去数年間に提案された一連のAFRツールは、広範囲で急速に進化しているため、AFRシステムのより広い設計スペースと長期的な課題を検討するために一歩後退する必要があります。このペーパーは、そのギャップを埋めることを目的とし、AFRの研究環境の最初の包括的な分析を提供します。 FRシステムの運用段階を出発点として使用して、さまざまなAFRアプローチの利点とトレードオフを分析するための体系的なフレームワークを作成します。次に、AFRツールが直面している技術的および社会的課題の両方を検討し、この分野での将来の研究の方向性を提案します。
arxiv_reader 2021/12/10
近年、政府機関と商業団体の両方で顔認識（FR）テクノロジーが急速に採用されているため、市民の自由とプライバシーに対する懸念が高まっています。これに対応して、ユーザーが不要な顔認識を回避できるように、い

face

arXiv

arXiv reaDer
リンク
オープンワールドサンプリングによる不均衡なシードデータの対照学習の改善
arxiv_reader 2021/12/10
対照的な学習アプローチは、ターゲットクラスのラベルがほとんどない視覚的表現の学習で大きな成功を収めています。これは、キュレーションされた「シード」ベンチマークを超えて、インターネットスケールの外部ソー

benchmark

dataset

few-shot

OOD

arXiv

arXiv reaDer

representation

contrastive learning
リンク
形状精度の高い3D対応画像合成のためのシェーディングガイド付き生成陰的モデル
arxiv_reader 2021/12/10
生成ラディアンスフィールドの進歩により、3D対応の画像合成の限界が押し上げられました。これらの方法は、3Dオブジェクトが複数の視点からリアルに見える必要があるという観察に動機付けられ、2D画像から有効

dataset

reconstruction

arXiv

regularization

3D

arXiv reaDer

generative

representation

tracking

synthesis
リンク
セグメント化と完了：堅牢なパッチ検出による敵対的なパッチ攻撃に対するオブジェクト検出器の防御
Segment and Complete: Defending Object Detectors against Adversarial Patch Attacks with Robust Patch Detection オブジェクト検出は、多くのセキュリティが重要なシステムで重要な役割を果たします。物理的な世界で簡単に実装できる敵対的なパッチ攻撃は、最先端のオブジェクト検出器に深刻な脅威をもたらします。パッチ攻撃に対するオブジェクト検出器の信頼性の高い防御を開発することは重要ですが、十分に研究されていません。この論文では、敵対的なパッチを検出して削除することにより、パッチ攻撃からオブジェクト検出器を防御するための一般的なフレームワークであるセグメントおよび完全防御（SAC）を提案します。まず、敵対的なパッチのピクセルレベルのローカリゼーションを提供するパッチマスクを出力するパッチセグメン
arxiv_reader 2021/12/10
オブジェクト検出は、多くのセキュリティが重要なシステムで重要な役割を果たします。物理的な世界で簡単に実装できる敵対的なパッチ攻撃は、最先端のオブジェクト検出器に深刻な脅威をもたらします。パッチ攻撃に対

detection

localization

dataset

arXiv

pose

arXiv reaDer

adversarial
リンク
カラー眼底写真における中心窩局在化のためのマルチスケールSoftmaxクロスエントロピー
Multiscale Softmax Cross Entropy for Fovea Localization on Color Fundus Photography 中心窩の位置特定は、眼科医療画像分析で最も一般的なタスクの1つであり、黄斑の中心点、つまり中心窩の座標は、カラー眼底画像に基づいて計算する必要があります。この作業では、ローカリゼーションの問題を分類タスクとして扱います。ここでは、x軸とy軸の座標がターゲットクラスと見なされます。さらに、ソフトマックス活性化関数とクロスエントロピー損失関数の組み合わせは、予測された座標がグラウンドトゥルースの近くに配置されるように、そのマルチスケール変動に変更されます。カラー眼底写真画像に基づいて、提案されたマルチスケールソフトマックスクロスエントロピーがバニラバージョンよりも優れたパフォーマンスをもたらし、シグモイド活性化による平均二乗誤差
arxiv_reader 2021/12/10
中心窩の位置特定は、眼科医療画像分析で最も一般的なタスクの1つであり、黄斑の中心点、つまり中心窩の座標は、カラー眼底画像に基づいて計算する必要があります。この作業では、ローカリゼーションの問題を分類タ

localization

classification

arXiv

arXiv reaDer

loss function
リンク
SIRfyN：隣人からの単一画像の再照明
arxiv_reader 2021/12/10
（a）全体的な陰影が変化し、（b）結果の画像がそのシーンの自然な画像のように見えるように、単一の画像で描かれたシーンを再照明する方法を示します。このような手順のアプリケーションには、トレーニングデータ

dataset

arXiv

augmentation

arXiv reaDer

representation
リンク
動的多機能クラスガウス過程モデル
arxiv_reader 2021/12/10
モデルベースの医療画像分析では、関心のある3つの特徴は、関心のある構造の形状、それらの相対的なポーズ、およびいくつかの物理的特性を表す画像強度プロファイルです。多くの場合、これらは、主成分分析または主

learning

domain

arXiv

pose

arXiv reaDer

CT

synthesis

metric
リンク
バイナリ変更ガイド付きハイパースペクトルマルチクラス変更検出
arxiv_reader 2021/12/10
膨大なスペクトル情報を特徴とするハイパースペクトル画像は、微妙な変化を検出し、変化を検出するためにさまざまな変化クラスを区別することができます。ただし、ハイパースペクトルのバイナリ変更検出が主流の最近

bias

detection

arXiv

arXiv reaDer

unsupervised
リンク
グローバルな情報集約を再考することによる画像復元の改善
arxiv_reader 2021/12/10
空間次元全体に沿って集約されるグローバル空間統計は、最高性能の画像復元機能で広く使用されています。たとえば、HINetで採用されているインスタンス正規化（IN）の平均、分散、MPRNetに適用されてい

dataset

arXiv

arXiv reaDer

semantic segmentation

pooling
リンク
BI-RADSおよびマンモグラムの密度評価のための新しいマルチビューディープラーニングアプローチ
A novel multi-view deep learning approach for BI-RADS and density assessment of mammograms 高度な深層学習（DL）アルゴリズムは、乳房画像レポートおよびデータシステム（BI-RADS）と密度標準に基づいて、乳がんを発症する患者のリスクを予測する場合があります。最近の研究では、マルチビュー分析の組み合わせにより、乳房検査の全体的な分類が改善されたことが示唆されています。この論文では、BI-RADSとマンモグラムの密度評価のための新しいマルチビューDLアプローチを提案します。提案されたアプローチは、最初に、各ビューで個別に特徴抽出を行うための深い畳み込みネットワークを展開します。次に、抽出された特徴がスタックされ、Light Gradient Boosting Machine（LightGBM）分類器に送
arxiv_reader 2021/12/10
高度な深層学習（DL）アルゴリズムは、乳房画像レポートおよびデータシステム（BI-RADS）と密度標準に基づいて、乳がんを発症する患者のリスクを予測する場合があります。最近の研究では、マルチビュー分析

gradient

benchmark

dataset

learning

convolutional

classification

arXiv

arXiv reaDer
リンク
Learn2Reg：ディープラーニングの時代における包括的なマルチタスク医療画像レジストレーションの課題、データセット、および評価
arxiv_reader 2021/12/10
今日まで、臨床的に関連する幅広いタスクについて、医療画像レジストレーションアプローチを包括的に比較した研究はほとんどありません。これは、研究の進歩の実践への採用を制限し、競合するアプローチ全体での公正

MRI

benchmark

bias

multi-task

dataset

arXiv

3D

arXiv reaDer

CT

metric
リンク
ニューロフィードバックのパフォーマンスを予測することによるfMRIからの個人的な表現の学習
arxiv_reader 2021/12/10
機能的MRI（fMRI）によって導かれる、自己神経調節タスクを実行している個人の個人的な表現を学習するための深い神経ネットワーク法を提示します。このニューロフィードバックタスク（監視対調整）は、扁桃体

activity

learning

RNN

self-supervised

arXiv reaDer

representation

MRI

arXiv
リンク
効率的なスケルトンベースのアクション認識のためのトポロジー認識畳み込みニューラルネットワーク
arxiv_reader 2021/12/10
スケルトンベースのアクション認識のコンテキストでは、グラフ畳み込みネットワーク（GCN）が急速に開発されましたが、畳み込みニューラルネットワーク（CNN）はあまり注目されていません。 1つの理由は、C

augmentation

CNN

arXiv

dataset

GCN

attention

arXiv reaDer

action recognition
リンク
対照的な指導-視覚のための軌道学習-言語ナビゲーション
arxiv_reader 2021/12/10
視覚言語ナビゲーション（VLN）タスクでは、エージェントが自然言語の指導を受けてターゲットに到達する必要があります。以前の作品は、指示に従って段階的にナビゲートすることを学びます。ただし、これらの作業

trajectory

representation

arXiv

contrastive learning

arXiv reaDer

bias
リンク
DISN：高品質のシングルビュー3D再構成のための深陰関数曲面ネットワーク
arxiv_reader 2021/12/10
シングルビュー画像から3D形状を再構築することは、長年の研究課題でした。この論文では、基礎となる符号付き距離フィールドを予測することにより、2D画像から高品質の詳細な3Dメッシュを生成できるDeep

3D

arXiv

arXiv reaDer

mesh

reconstruction

synthesis
リンク
CMA-CLIP：画像-テキスト分類のためのクロスモダリティ注意CLIP
arxiv_reader 2021/12/10
ソーシャルメディアやeコマースなどの最新のWebシステムには、画像やテキストで表現された豊富なコンテンツが含まれています。マルチモダリティからの情報を活用することで、分類や推奨などの機械学習タスクのパ

classification

arXiv

dataset

multi-task

learning

attention

contrastive

pre-training

arXiv reaDer
リンク
ViTのブートストラップ：事前トレーニングからのビジョントランスフォーマーの解放に向けて
arxiv_reader 2021/12/10
最近、ビジョントランスフォーマー（ViT）は急速に発展しており、コンピュータービジョン（CV）の領域で畳み込みニューラルネットワーク（CNN）の支配に挑戦し始めています。畳み込みのハードコードされた誘

transformer

arXiv

dataset

computer vision

CNN

bias

pre-training

arXiv reaDer
リンク
数ショットの医療ランドマーク検出のためにラベルを付ける画像はどれですか？
arxiv_reader 2021/12/10
ディープラーニング手法の成功は、適切にラベル付けされた大規模データセットの可用性に依存しています。ただし、医用画像の場合、このような豊富なトレーニングデータに注釈を付けるには、経験豊富な放射線科医が必

arXiv

dataset

detection

self-supervised

estimation

landmark

one-shot

few-shot

pre-training

arXiv reaDer
リンク
PixelSteganalysis：視覚的な劣化が少ないピクセル単位の隠し情報の削除
arxiv_reader 2021/12/10
最近、ステガノグラフィの分野は、ディープラーニング（DL）に基づく急速な発展を遂げています。 DLベースのステガノグラフィは、カバー画像の利用可能なすべてのビットに秘密情報を配布するため、従来のステガ

metric

arXiv

learning

benchmark

arXiv reaDer
リンク
- 2021年12月13日
- 2021年12月10日
- 2021年12月9日

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx