arxiv_readerのブックマーク / 2022年3月4日 - はてなブックマーク

arxiv_reader id:arxiv_reader

2022年3月4日のブックマーク (137件)

ビューに依存する放射輝度フィールドにおける形状放射輝度のあいまいさへの対処
arxiv_reader 2022/03/04
3D再構成の収束と品質を支援するために、放射輝度フィールドでビューに依存する情報を処理する方法を示します。ビューに依存する放射輝度フィールドには、いわゆる形状放射輝度のあいまいさがあり、ビューに依存す

3D

arXiv reaDer

reconstruction

arXiv
リンク
BEVT：ビデオトランスフォーマーのBERT事前トレーニング
arxiv_reader 2022/03/04
この論文は、ビデオトランスのBERT事前トレーニングを研究しています。イメージトランスフォーマーのBERT事前トレーニングによる最近の成功を考えると、これは単純ですが、調査する価値のある拡張機能です。

video

representation learning

arXiv

transformer

BERT

dataset

benchmark

arXiv reaDer
リンク
CenterSnap：シングルショットマルチオブジェクト3D形状再構成とカテゴリ別6Dポーズおよびサイズの推定
arxiv_reader 2022/03/04
この論文は、単一ビューRGB-D観測からの同時マルチオブジェクト3D再構成、6Dポーズおよびサイズ推定の複雑なタスクを研究します。インスタンスレベルのポーズ推定とは対照的に、推論時にCADモデルが利用

3D

RGB-D

real time

reconstruction

localization

arXiv

6D

single-shot

arXiv reaDer

pose estimation
リンク
境界反発によるラベルのみのモデル反転攻撃
arxiv_reader 2022/03/04
最近の研究によると、最先端のディープニューラルネットワークはモデル反転攻撃に対して脆弱であり、モデルへのアクセスが悪用されて、特定のターゲットクラスのプライベートトレーニングデータが再構築されます。既

arXiv reaDer

face recognition

dataset

arXiv
リンク
モバイル-旧：MobileNetとTransformerのブリッジ
arxiv_reader 2022/03/04
MobileNetの並列設計であるMobile-Formerと、間に双方向ブリッジを備えた変圧器を紹介します。この構造は、ローカル処理でのMobileNetの利点と、グローバルな相互作用でのトランスフ

arXiv

detection

transformer

attention

representation

arXiv reaDer

classification
リンク
単眼画像からの3D人間メッシュの回復：調査
arxiv_reader 2022/03/04
単眼画像から人間のポーズと形状を推定することは、コンピュータビジョンにおける長年の問題です。統計的身体モデルのリリース以来、3Dヒューマンメッシュ回復はより幅広い注目を集めています。よく整列され、物理

3D

metric

pose

regularization

arXiv

monocular

attention

computer vision

benchmark

arXiv reaDer
リンク
視覚-言語インテリジェンス：タスク、表現学習、および大規模モデル
arxiv_reader 2022/03/04
この論文は、時間の観点からの視覚言語（VL）インテリジェンスの包括的な調査を提示します。この調査は、コンピュータービジョンと自然言語処理の両方における目覚ましい進歩と、単一のモダリティ処理から複数のモ

representation learning

few-shot

arXiv

computer vision

arXiv reaDer

pre-training
リンク
NUQ：不確実性の不一致の定量化による拡散MRIのノイズ測定基準
arxiv_reader 2022/03/04
拡散MRI（dMRI）は、組織のマイクロアーキテクチャに敏感な唯一の非侵襲的手法であり、組織のマイクロ構造と白質経路を再構築するために使用できます。このようなタスクの精度は、dMRIの信号対雑音比が低

metric

MRI

residual

denoising

arXiv

dataset

Bayesian

arXiv reaDer
リンク
ランデブー：内視鏡ビデオにおける外科的アクショントリプレットの認識のための注意メカニズム
arxiv_reader 2022/03/04
内視鏡ビデオでの外科的ワークフロー分析のための既存のすべてのフレームワークの中で、アクショントリプレット認識は、外科的活動に関する真にきめ細かい包括的な情報を提供することを目的とした唯一のフレームワー

video

action

activity

arXiv

transformer

attention

dataset

arXiv reaDer
リンク
深層学習ベースのSPECTノイズ除去アプローチの限られたパフォーマンスの調査：オブザーバー研究ベースの特性評価
arxiv_reader 2022/03/04
画質ベースの研究の複数の客観的評価は、いくつかの深層学習ベースのノイズ除去方法が信号検出タスクで限られたパフォーマンスを示すことを報告しています。私たちの目標は、この限られたパフォーマンスの理由を調査

arXiv reaDer

denoising

CNN

arXiv
リンク
再生可能な環境：空間と時間でのビデオ操作
arxiv_reader 2022/03/04
Playable Environmentsを紹介します。これは、空間と時間におけるインタラクティブなビデオ生成と操作の新しい表現です。推論時に単一の画像を使用する当社の新しいフレームワークにより、ユー

3D

unsupervised

action

synthesis

arXiv

monocular

dataset

representation

benchmark

arXiv reaDer
リンク
NeRF-監督：神経放射輝度フィールドからの高密度オブジェクト記述子の学習
arxiv_reader 2022/03/04
フォークや泡立て器などの薄くて反射する物体は、私たちの日常生活では一般的ですが、コモディティRGB-Dカメラやマルチビューステレオ技術を使用してそれらを再構築するのは難しいため、ロボットの知覚には特に

RGB-D

metric

stereo

synthesis

arXiv

representation

robot

arXiv reaDer

learning
リンク
実世界のミリ波展開におけるコンピュータビジョン支援の閉塞予測
arxiv_reader 2022/03/04
このホワイトペーパーでは、視覚（RGBカメラ）データと機械学習を使用して、ミリ波（mmWave）の動的リンクの閉塞が発生する前に事前に予測する最初の実際の評価を提供します。見通し内（LOS）リンクの閉

arXiv

dataset

learning

computer vision

arXiv reaDer
リンク
林業活動における自律ログ把握のためのインスタンスセグメンテーション
arxiv_reader 2022/03/04
木材の丸太の摘み取りは、自動化するのが難しい作業です。実際、ログは通常、雑然とした構成で、ランダムに方向付けられ、重複しています。ログピッキングの自動化に関する最近の研究では、通常、実際の知覚の問題を

pose

segmentation

arXiv

detection

bias

dataset

arXiv reaDer
リンク
TCTrack：空中追跡の時間的コンテキスト
arxiv_reader 2022/03/04
連続するフレーム間の時間的コンテキストは、既存のビジュアルトラッカーで完全に利用されるにはほど遠いです。この作業では、空中追跡のために時間的コンテキストを完全に活用するための包括的なフレームワークであ

benchmark

arXiv

transformer

UAV

convolutional

arXiv reaDer

tracking
リンク
ROCT-Net：網膜OCT画像から一般的な疾患を検出するための改善された空間分解能学習を備えた新しいアンサンブル深層畳み込みモデル
arxiv_reader 2022/03/04
光コヒーレンストモグラフィー（OCT）イメージングは、網膜層を視覚化するためのよく知られた技術であり、眼科医が考えられる病気を検出するのに役立ちます。一般的な網膜疾患を正確かつ早期に診断することで、患

classification

arXiv

dataset

learning

arXiv reaDer

CNN
リンク
角膜内皮の鏡面顕微鏡画像のグッテによるセグメンテーションに対するフィードバックの非局所的注意を伴うDenseUNets
arxiv_reader 2022/03/04
角膜グッタタ（フックス内皮ジストロフィー）を描いた鏡面顕微鏡画像から角膜内皮パラメーターを推定するために、フィードバック非局所注意（fNLA）と呼ばれる新しい注意メカニズムを含む新しい深層学習手法を提

segmentation

arXiv

attention

learning

arXiv reaDer
リンク
自己管理表現のより良い理解に向けて
arxiv_reader 2022/03/04
自己監視学習法は、下流の分類タスクで印象的な結果を示しています。ただし、障害モデルを理解し、これらのモデルの学習された表現を解釈する作業は限られています。この論文では、これらの問題に取り組み、下流のタ

self-supervised

regularization

gradient

arXiv

representation

arXiv reaDer

classification

learning
リンク
LatentFormer：マルチエージェントトランスフォーマーベースの相互作用モデリングと軌道予測
arxiv_reader 2022/03/04
マルチエージェントの軌道予測は、自動運転の基本的な問題です。予測における重要な課題は、周囲のエージェントの行動を正確に予測し、シーンのコンテキストを理解することです。これらの問題に対処するために、将来

vehicle

metric

arXiv reaDer

arXiv

transformer

attention

dataset

benchmark

autonomous driving

trajectory
リンク
変動の隠れた要因へのロバスト性と適応
arxiv_reader 2022/03/04
ここでは、AIの堅牢性の特定の、まだ広く取り上げられていない側面に取り組みます。これは、データの変動の隠れた要因に対するモデルパフォーマンスの不変性/非感受性を求めることで構成されます。この目的に向け

metric

unsupervised

adversarial

generative

semi-supervised

arXiv

augmentation

arXiv reaDer

adaptation
リンク
ビジュアルデータをストリーミングするためのパッチ追跡ベースのオンラインテンソルリングの完成
arxiv_reader 2022/03/04
テンソルの完了は、その低ランク構造を利用して、部分的に観測されたテンソルの欠落エントリを推定する問題です。ビデオの完成など、フレームが順番に到着するストリーミングアプリケーションでは、テンソルの欠落し

video

arXiv

arXiv reaDer

domain

tracking
リンク
自己管理学習視覚モデルにおける社会的バイアスの分布に関する研究
arxiv_reader 2022/03/04
ディープニューラルネットワークは、十分にサンプリングされている場合、データ分布の学習に効率的です。ただし、トレーニングデータに暗黙的に組み込まれている関連性のない要因によって、それらは強くバイアスされ

self-supervised

human

arXiv

bias

dataset

learning

arXiv reaDer
リンク
トラックレットクエリと提案による効率的なビデオインスタンスのセグメンテーション
arxiv_reader 2022/03/04
ビデオインスタンスセグメンテーション（VIS）は、ビデオ内の複数のオブジェクトインスタンスを同時に分類、セグメント化、および追跡することを目的としています。最近のクリップレベルのVISは、複数のフレー

video

real time

segmentation

arXiv

transformer

attention

benchmark

arXiv reaDer

classification
リンク
STUN：場所認識のための自己学習型不確実性推定
arxiv_reader 2022/03/04
場所の認識は、同時ローカリゼーションとマッピング（SLAM）と空間認識の鍵です。しかし、野生の場所認識は、視点や街路の外観の変化など、画像の変化による誤った予測に悩まされることがよくあります。不確実性

SLAM

embedding

estimation

localization

arXiv

metric learning

dataset

arXiv reaDer
リンク
LGT-Net：ジオメトリ対応トランスネットワークを使用した屋内パノラマルームレイアウトの推定
arxiv_reader 2022/03/04
ディープニューラルネットワークを使用した単一のパノラマによる3D部屋レイアウトの推定は大きな進歩を遂げました。ただし、以前のアプローチでは、境界の緯度または地平線の深さだけでは、部屋のレイアウトの効率

3D

identification

embedding

loss function

estimation

arXiv

transformer

dataset

benchmark

arXiv reaDer
リンク
強度画像ベースのLiDAR基準マーカーシステム
arxiv_reader 2022/03/04
LiDARの基準マーカーシステムは、ロボットアプリケーションにとって非常に重要ですが、現在でもまれです。この論文では、強度画像ベースのLiDAR基準マーカー（IILFM）システムが開発されています。こ

3D

real time

pose

LiDAR

arXiv

detection

robot

arXiv reaDer

point cloud
リンク
顔面アクションユニットによる自動顔面神経麻痺推定
arxiv_reader 2022/03/04
フェイシャルアクションユニット（AU）は、フェイシャルアクションコーディングシステム（FACS）によって定義された特定の顔の位置での顔の筋肉の動きのユニークなセットを指し、解剖学的に可能なほぼすべての

face

action

estimation

representation

arXiv

dataset

landmark

arXiv reaDer

learning
リンク
ビデオフレーム補間トランスフォーマー
arxiv_reader 2022/03/04
ビデオ補間の既存の方法は、深い畳み込みニューラルネットワークに大きく依存しているため、コンテンツにとらわれないカーネルの重みや制限された受容野など、固有の制限に悩まされています。これらの問題に対処する

video

benchmark

synthesis

arXiv

transformer

attention

dataset

convolutional

arXiv reaDer

domain
リンク
ノイズの多いラベルを使用した学習のための対照表現の学習について
On Learning Contrastive Representations for Learning with Noisy Labels ディープニューラルネットワークは、softmaxクロスエントロピー（CE）損失を伴う、ノイズの多いラベルを簡単に記憶することができます。以前の研究では、CE損失にノイズに強い損失関数を組み込むことに焦点を当ててこの問題に対処しようとしました。ただし、暗記の問題は軽減されますが、堅牢でないCE損失のために残ります。この問題に対処するために、CE損失の下で分類器がラベルノイズを記憶するのが難しいデータのロバストな対照表現の学習に焦点を当てます。ラベルノイズが表現学習を支配しないノイズの多いデータ上でそのような表現を学習するために、新しい対照的な正則化関数を提案します。提案された正則化関数によって誘発される表現を理論的に調査することにより、学習された表現が
arxiv_reader 2022/03/04
ディープニューラルネットワークは、softmaxクロスエントロピー（CE）損失を伴う、ノイズの多いラベルを簡単に記憶することができます。以前の研究では、CE損失にノイズに強い損失関数を組み込むことに焦

representation learning

loss function

regularization

arXiv

contrastive

dataset

benchmark

arXiv reaDer
リンク
クリックベースのインタラクティブビデオオブジェクトセグメンテーションの再検討
arxiv_reader 2022/03/04
インタラクティブビデオオブジェクトセグメンテーション（iVOS）の現在の方法は、落書きベースのインタラクションに依存して正確なオブジェクトマスクを生成しますが、クリックベースのインタラクティブビデオオ

metric

video

segmentation

arXiv

dataset

arXiv reaDer

adaptation
リンク
堅牢な学習と生成モデルの適合：プロキシ配布は敵対的堅牢性を向上させることができますか？
arxiv_reader 2022/03/04
追加のトレーニングデータは、敵対的な例に対するディープニューラルネットワークの堅牢性を向上させますが、多数の特定の実世界のサンプルをキュレートするという課題があります。高度な生成モデルによって学習され

GAN

arXiv

dataset

learning

arXiv reaDer
リンク
ノイズの多い画像認識のためのランダム量子ニューラルネットワーク（RQNN）
arxiv_reader 2022/03/04
従来のランダムニューラルネットワーク（RNN）は、意思決定、信号処理、および画像認識タスクで効果的なアプリケーションを実証してきました。ただし、それらの実装は、ランダムなスパイク信号の確率的動作の代わ

SNN

RNN

arXiv

classification

computer vision

dataset

arXiv reaDer

CNN
リンク
NeuroFluid：粒子駆動の神経放射輝度場による流体力学の接地
arxiv_reader 2022/03/04
ディープラーニングは、流体などの複雑な粒子システムの物理的ダイナミクスをモデル化するための大きな可能性を示しています（ラグランジアンの説明）。ただし、既存のアプローチでは、位置や速度などの連続する粒子

unsupervised

arXiv

learning

differentiable

arXiv reaDer
リンク
言語ベースのモーメントローカリゼーションのためのプログレッシブローカリゼーションネットワーク
arxiv_reader 2022/03/04
このペーパーは、言語ベースのビデオモーメントローカリゼーションのタスクを対象としています。このタスクの言語ベースの設定により、ターゲットアクティビティのオープンセットが可能になり、ビデオモーメントの時

video

activity

localization

arXiv

dataset

arXiv reaDer
リンク
PINA：単一のRGB-Dビデオシーケンスからパーソナライズされた暗黙のニューラルアバターを学習する
arxiv_reader 2022/03/04
短いRGB-DシーケンスからPersonalizedImplicit Neural Avatars（PINA）を学習するための新しい方法を紹介します。これにより、専門家でないユーザーは、リアルな衣服の

RGB-D

video

pose

arXiv

dataset

representation

arXiv reaDer

learning
リンク
SynthMorph：取得した画像なしでコントラスト不変の登録を学習する
arxiv_reader 2022/03/04
取得した画像データなしで画像レジストレーションを学習するための戦略を紹介し、磁気共鳴画像法（MRI）によって導入されたコントラストにとらわれない強力なネットワークを生成します。従来の登録方法は画像間の

3D

MRI

generative

synthesis

arXiv

learning

arXiv reaDer
リンク
RGB赤外線人物の再識別のためのモダリティ適応混合と不変分解
arxiv_reader 2022/03/04
RGB赤外線による人物の再識別は、新たなクロスモダリティ再識別タスクです。これは、RGB画像と赤外線画像の間に重大なモダリティの不一致があるため、非常に困難です。この作業では、モダリティ不変および識別

benchmark

re-id

arXiv

person

representation

convolutional

arXiv reaDer

manifold

reinforcement learning
リンク
3Dシャムトラッキングを超えて：ポイントクラウドでの3D単一オブジェクトトラッキングのモーションセントリックパラダイム
arxiv_reader 2022/03/04
LiDARポイントクラウドでの3D単一オブジェクト追跡（3D SOT）は、自動運転において重要な役割を果たします。現在のアプローチはすべて、外観のマッチングに基づくシャムのパラダイムに従います。ただし

3D

arXiv reaDer

LiDAR

localization

arXiv

dataset

autonomous driving

tracking

point cloud
リンク
視覚的な質問応答モデルの堅牢性の評価
arxiv_reader 2022/03/04
ディープニューラルネットワークは、視覚的質問応答（VQA）のタスクで重要な役割を果たしてきました。最近まで、それらの精度が研究の主な焦点でした。現在、VQAモデルの入力のノイズのレベルが増加する中で、

adversarial

VQA

arXiv

dataset

arXiv reaDer
リンク
生態学における自動分類のための新しいパラダイムとしてのビジョントランスフォーマーのアンサンブル
Ensem bles of Vision Transf ormers as a New Paradigm for Automated Classification in Ecology 生物多様性の監視は、特に地球規模の変化の時代に、天然資源を管理および保護するために最も重要です。大規模な時間的または空間的スケールで生物の画像を収集することは、自然生態系の生物多様性の変化を監視および研究するための有望な手法であり、環境への干渉を最小限に抑えて大量のデータを提供します。深層学習モデルは現在、生物の分類単位への分類を自動化するために使用されています。ただし、これらの分類器の不正確さは、制御が困難な測定ノイズをもたらし、データの分析と解釈を大幅に妨げる可能性があります。私たちの研究では、この制限は、以前の最先端技術（SOTA）を大幅に上回るデータ効率の高いイメージトランスフォーマー（DeiT）のアン
arxiv_reader 2022/03/04
生物多様性の監視は、特に地球規模の変化の時代に、天然資源を管理および保護するために最も重要です。大規模な時間的または空間的スケールで生物の画像を収集することは、自然生態系の生物多様性の変化を監視および

arXiv

transformer

dataset

learning

arXiv reaDer

classification

interpretation
リンク
一般化可能な個人の再識別のためのガウス過程による偏りのないバッチ正規化
arxiv_reader 2022/03/04
一般化可能な個人の再識別は、見えないドメインでうまく機能することができる、いくつかのラベル付けされたソースドメインのみを持つモデルを学習することを目的としています。見えないドメインにアクセスできない場

representation learning

estimation

re-id

batch normalization

arXiv

person

bias

arXiv reaDer

domain
リンク
ニューラルネットワークを使用した高品質のGAN生成顔画像の検出
arxiv_reader 2022/03/04
過去数十年の間に、コンピュータービジョンでの最後の世代のGAN（Generative Adversarial Networks）モデルの過度の使用により、本物の顔と視覚的に区別できない人工の顔画像の作

GAN

face

activity

synthesis

arXiv

detection

computer vision

arXiv reaDer

CNN
リンク
ドメイン適応としての弱く監視されたオブジェクトのローカリゼーション
arxiv_reader 2022/03/04
弱教師ありオブジェクトローカリゼーション（WSOL）は、画像レベルの分類マスクの監視のみでオブジェクトをローカライズすることに焦点を当てています。以前のほとんどのWSOLメソッドは、マルチインスタンス

regularization

weakly-supervised

localization

arXiv

learning

benchmark

arXiv reaDer

domain

classification
リンク
ST ++：半教師ありセマンティックセグメンテーションのためのセルフトレーニング作業を改善する
arxiv_reader 2022/03/04
疑似ラベル付けによる自己トレーニングは、ラベル付けされていないデータを活用するための従来のシンプルで一般的なパイプラインです。この作業では、最初に、ラベルのない画像に強力なデータ拡張（SDA）を注入し

semi-supervised

arXiv

learning

arXiv reaDer

semantic segmentation
リンク
海上監視のための地平線検出アルゴリズム
arxiv_reader 2022/03/04
地平線は、他の機能（海岸の角、波など）と比較して持続性が高いため、海洋環境で貴重な機能です。これは、いくつかのアプリケーション、特に海上監視で使用されます。地平線検出のタスクは人間にとっては簡単かもし

detection

arXiv reaDer

arXiv
リンク
3D再構成のためのマルチスケールトポロジカル損失項を使用した形状情報のキャプチャ
arxiv_reader 2022/03/04
2D画像から3Dオブジェクトを再構築することは、私たちの脳と機械学習アルゴリズムの両方にとって困難です。この空間推論タスクをサポートするには、オブジェクトの全体的な形状に関するコンテキスト情報が重要で

3D

reconstruction

arXiv

reasoning

dataset

learning

differentiable

arXiv reaDer
リンク
ワンショットランドマーク検出では相対距離が重要
arxiv_reader 2022/03/04
カスケード比較検出（CC2D）などの対照的な学習ベースの方法は、ワンショット医療ランドマーク検出の大きな可能性を示しています。ただし、ランドマーク間の相対距離の重要な手がかりは、CC2Dでは無視されま

embedding

contrastive learning

one-shot

arXiv

detection

bias

landmark

dataset

arXiv reaDer
リンク
中間ドメインを使用したクロスドメインの個人の再識別のためのソースからターゲットへのギャップの橋渡し
arxiv_reader 2022/03/04
教師なしドメイン適応（UDA）再IDなどのクロスドメイン個人再識別（re-ID）は、ID識別知識をソースドメインからターゲットドメインに転送することを目的としています。既存の方法では、通常、ソースドメ

unsupervised

re-id

arXiv

person

arXiv reaDer

domain
リンク
M5Product：E-コマーシャルマルチモーダル事前トレーニングのための自己調和対照学習
arxiv_reader 2022/03/04
補完的なデータモダリティから高度に識別可能な特徴表現を学習するマルチモーダル事前トレーニングの可能性にもかかわらず、現在の進歩は、大規模なモダリティの多様なデータセットの欠如によって遅くなっています。

video

embedding

contrastive learning

arXiv

transformer

dataset

representation

benchmark

arXiv reaDer

pre-training
リンク
目に見える熱人の再識別のためのクロスモダリティアースムーバーの距離
arxiv_reader 2022/03/04
目に見える熱人の再識別（VT-ReID）は、モダリティ間の不一致とID内の変動に悩まされています。分布の調整はVT-ReIDの一般的なソリューションですが、通常はID内の変動の影響に制限されます。この

re-id

arXiv

person

attention

representation

benchmark

arXiv reaDer

learning
リンク
ビジョントランスフォーマーの敵対的伝達性の改善について
arxiv_reader 2022/03/04
ビジョントランスフォーマー（ViT）は、入力画像をパッチのシーケンスとして自己注意を介して処理します。畳み込みニューラルネットワーク（CNN）とは根本的に異なるアーキテクチャ。これにより、ViTモデル

adversarial

arXiv

transformer

representation

arXiv reaDer

CNN
リンク
制約付き教師なし異常セグメンテーション
arxiv_reader 2022/03/04
現在の教師なし異常ローカリゼーションアプローチは、生成モデルに依存して正常な画像の分布を学習します。これは、後で再構成された画像のエラーから派生した潜在的な異常領域を識別するために使用されます。ただし

unsupervised

segmentation

generative

regularization

localization

arXiv

attention

dataset

arXiv reaDer
リンク
解きほぐされた表現による並進肺画像解析
arxiv_reader 2022/03/04
新しい治療法の開発には、種間の病理学的プロセスを特徴づけるために（前）臨床イメージングを使用した翻訳動物モデルによる臨床試験が必要になることがよくあります。ディープラーニング（DL）モデルは、画像から

disentangling

representation learning

generative

arXiv

arXiv reaDer
リンク
相関を意識したディープトラッキング
arxiv_reader 2022/03/04
堅牢性と識別力は、視覚オブジェクト追跡の2つの基本的な要件です。ほとんどの追跡パラダイムでは、人気のあるシャムのようなネットワークによって抽出された特徴は、追跡されたターゲットとディストラクタオブジェ

tracking

real time

arXiv

arXiv reaDer

pre-training
リンク
テキストからビデオへの検索のための読書戦略に触発された視覚表現学習
arxiv_reader 2022/03/04
この論文は、テキストからビデオへの検索のタスクを目的としています。自然言語の文の形式でクエリが与えられると、ラベルのない多数のビデオから、与えられたクエリに意味的に関連するビデオを検索するように求めら

video

representation learning

arXiv

dataset

arXiv reaDer

pre-training
リンク
実像ノイズ除去のための選択的残差M-Net
画像の復元は、劣化した画像をノイズのない画像に復元する低レベルの視覚タスクです。ディープニューラルネットワークの成功により、畳み込みニューラルネットワークは従来の復元方法を上回り、コンピュータービジョン分野の主流になりました。ノイズ除去アルゴリズムのパフォーマンスを向上させるために、U-Netから改良された階層アーキテクチャを採用することにより、ブラインド実像ノイズ除去ネットワーク（SRMNet）を提案します。具体的には、M-Netと呼ばれる階層構造上に残余ブロックを持つ選択カーネルを使用して、マルチスケールの意味情報を強化します。さらに、SRMNetは、定量的メトリックと視覚的品質の点で、2つの合成データセットと2つの実世界のノイズの多いデータセットで競争力のあるパフォーマンス結果をもたらします。ソースコードと事前トレーニング済みモデルは、https：//github.com/Tenta
arxiv_reader 2022/03/04
画像の復元は、劣化した画像をノイズのない画像に復元する低レベルの視覚タスクです。ディープニューラルネットワークの成功により、畳み込みニューラルネットワークは従来の復元方法を上回り、コンピュータービジョ

U-Net

metric

residual

denoising

synthesis

arXiv

computer vision

dataset

arXiv reaDer

CNN
リンク
Medical Aegis：医療画像用の堅牢な敵対的プロテクター
arxiv_reader 2022/03/04
ディープニューラルネットワークベースの医用画像システムは、敵対的な例に対して脆弱です。多くの防御メカニズムが文献で提案されていますが、既存の防御は、防御システムについてほとんど知らず、防御に従って攻撃

adversarial

arXiv

DNN

arXiv reaDer

classification
リンク
スケルトンベースの行動認識のためのより強力でより高速なベースラインの構築
arxiv_reader 2022/03/04
スケルトンベースのアクション認識における1つの重要な問題は、すべてのスケルトンジョイントから識別機能を抽出する方法です。ただし、このタスクの最近の最先端（SOTA）モデルの複雑さは、非常に洗練されてお

convolutional

benchmark

arXiv reaDer

action recognition

dataset

GCN

arXiv
リンク
マルチレゾリューションセマンティックセグメンテーションのためのUAVの適応経路計画
Adaptive Path Planning for UAVs for Multi-Resolution Semantic Segmentation 効率的なデータ収集方法は、地球とその生態系をよりよく理解するのに役立つ主要な役割を果たします。多くのアプリケーションでは、監視およびリモートセンシングのための無人航空機（UAV）の使用は、その高い機動性、低コスト、および柔軟な展開により、急速に勢いを増しています。重要な課題は、飛行時間の制限を考慮して、大規模な環境で取得したデータの価値を最大化するためのミッションを計画することです。これは、たとえば、農地の監視に関連しています。この論文は、UAVを使用する正確なセマンティックセグメンテーションのための適応パス計画の問題に対処します。 UAVパスを適応させて、着信画像で検出される詳細な領域で必要な高解像度のセマンティックセグメンテーションを取得
arxiv_reader 2022/03/04
効率的なデータ収集方法は、地球とその生態系をよりよく理解するのに役立つ主要な役割を果たします。多くのアプリケーションでは、監視およびリモートセンシングのための無人航空機（UAV）の使用は、その高い機動

semantic segmentation

arXiv

UAV

arXiv reaDer

domain
リンク
テキストから画像への合成のためのベクトル量子化拡散モデル
arxiv_reader 2022/03/04
テキストから画像への生成のためのベクトル量子化拡散（VQ-Diffusion）モデルを提示します。この方法は、ベクトル量子化変分オートエンコーダー（VQ-VAE）に基づいており、その潜在空間は、最近開

autoregressive

quantization

denoising

synthesis

arXiv

bias

arXiv reaDer
リンク
条件付きGANは明示的に条件付きですか？
arxiv_reader 2022/03/04
このホワイトペーパーでは、このアーキテクチャを活用するさまざまなアプリケーションを改善するための、条件付き生成的敵対的ネットワーク（cGAN）の2つの重要な貢献を提案します。最初の主な貢献は、cGAN

metric

depth prediction

GAN

segmentation

arXiv

monocular

augmentation

dataset

arXiv reaDer
リンク
手書きの数式認識のための構文認識ネットワーク
Syntax-Aware Network for Handwritten Mathematical Expression Recognition 手書きの数式認識（HMER）は、多くの潜在的なアプリケーションがある挑戦的なタスクです。 HMERの最近の方法は、エンコーダ-デコーダアーキテクチャで卓越したパフォーマンスを実現しています。ただし、これらの方法は、予測が「ある文字から別の文字へ」行われるというパラダイムに準拠しており、数式の複雑な構造やカニのある手書きのために、必然的に予測エラーが発生します。本論文では、エンコーダ-デコーダネットワークに構文情報を組み込んだ最初のHMERの簡単で効率的な方法を提案します。具体的には、各式のLaTeXマークアップシーケンスを解析ツリーに変換するための一連の文法規則を示します。次に、マークアップシーケンス予測を、深いニューラルネットワークを使用したツ
arxiv_reader 2022/03/04
手書きの数式認識（HMER）は、多くの潜在的なアプリケーションがある挑戦的なタスクです。 HMERの最近の方法は、エンコーダ-デコーダアーキテクチャで卓越したパフォーマンスを実現しています。ただし、こ

arXiv

dataset

benchmark

arXiv reaDer

pre-training
リンク
3D事前分布に基づく非決定論的フェイスマスクの除去
arxiv_reader 2022/03/04
この論文は、フェイスマスク除去のための新しい画像修復フレームワークを提示します。現在の方法は、損傷した顔画像を回復する優れた能力を示していますが、手動でラベル付けされた欠落領域への依存と、各入力に対応

multi-task

3D

face

reconstruction

arXiv

arXiv reaDer

occlusion
リンク
GRUベースのアテンションメカニズムを使用した画像キャプション生成のためのディープニューラルフレームワーク
A Deep Neural Framework for Image Caption Generation Using GRU-Based Attention Mechanism 画像のキャプションは、画像のテキスト説明の作成を含む、コンピュータビジョンと自然言語処理の急成長している研究分野です。この研究は、事前にトレーニングされた畳み込みニューラルネットワーク（CNN）を使用して画像から特徴を抽出し、特徴を注意メカニズムと統合し、リカレントニューラルネットワーク（RNN）を使用してキャプションを作成するシステムの開発を目的としています。画像をグラフィック属性として特徴ベクトルにエンコードするために、事前にトレーニングされた複数の畳み込みニューラルネットワークを採用しました。その後、記述文を構成するデコーダーとして、GRUと呼ばれる言語モデルが選択されます。パフォーマンスを向上させるために、
arxiv_reader 2022/03/04
画像のキャプションは、画像のテキスト説明の作成を含む、コンピュータビジョンと自然言語処理の急成長している研究分野です。この研究は、事前にトレーニングされた畳み込みニューラルネットワーク（CNN）を使用

captioning

RNN

arXiv

pre-training

attention

computer vision

dataset

arXiv reaDer

CNN

learning
リンク
3D人間の動きの予測：調査
arxiv_reader 2022/03/04
与えられたシーケンスから将来のポーズを予測する3D人間の動きの予測は、コンピュータービジョンと機械知能において非常に重要で課題であり、機械が人間の行動を理解するのに役立ちます。ディープニューラルネット

3D

human

pose

representation

arXiv

DNN

computer vision

dataset

benchmark

arXiv reaDer
リンク
効率的な推論のためのマルチテールビジョントランスフォーマー
arxiv_reader 2022/03/04
最近、Vision Transformer（ViT）は画像認識で有望なパフォーマンスを達成し、さまざまなビジョンタスクの強力なバックボーンとして徐々に機能しています。 Transformerの順次入力

arXiv

transformer

representation

arXiv reaDer

pruning
リンク
CNNモデルを使用したビザページスタンプからの自動旅行パターン抽出
arxiv_reader 2022/03/04
ビザのページスタンプからの手動の旅行パターンの推測は時間のかかる作業であり、国境を越える旅行者の検査の効率における重要なボトルネックを構成します。国境検問所の情報をデジタル化してデータベースに記録する

activity

synthesis

arXiv

detection

arXiv reaDer

CNN
リンク
ユニバーサル下位互換性のある表現学習に向けて
Towards Universal Backward-Compatible Representation Learning ビジュアル検索システムの従来のモデルアップグレードでは、ギャラリー画像を新しいモデル（「埋め戻し」と呼ばれる）にフィードしてギャラリー機能をオフラインで更新する必要があります。これは、特に大規模なアプリケーションでは、時間と費用がかかります。したがって、下位互換性のある表現学習のタスクは、新しいクエリ機能が古いギャラリー機能と相互運用可能な、埋め戻しのないモデルのアップグレードをサポートするために導入されました。成功したにもかかわらず、以前の作業では、クローズセットのトレーニングシナリオのみを調査し（つまり、新しいトレーニングセットは古いトレーニングセットと同じクラスを共有します）、より現実的でやりがいのあるオープンセットシナリオによって制限されています。この目的のた
arxiv_reader 2022/03/04
ビジュアル検索システムの従来のモデルアップグレードでは、ギャラリー画像を新しいモデル（「埋め戻し」と呼ばれる）にフィードしてギャラリー機能をオフラインで更新する必要があります。これは、特に大規模なアプ

representation learning

face recognition

arXiv

dataset

benchmark

arXiv reaDer
リンク
異常検出のための自己監視型予測畳み込み注意ブロック
arxiv_reader 2022/03/04
異常検出は通常、モデルが正常なテストサンプルと異常なテストサンプルの両方で評価されている間、通常のトレーニングサンプルからのみ学習できる1クラスの分類問題として追求されます。異常検出の成功したアプロー

self-supervised

video

reconstruction

anomaly detection

arXiv

attention

convolutional

arXiv reaDer

classification
リンク
分類-その後の接地：ビデオシーングラフを時間的2部グラフとして再定式化する
arxiv_reader 2022/03/04
今日のVidSGGモデルはすべてプロポーザルベースの方法です。つまり、最初にプロポーザルとして多数のペアの主語-目的語スニペットを生成し、次に各プロポーザルの述語分類を実行します。このホワイトペーパー

video

localization

arXiv

dataset

arXiv reaDer

classification
リンク
HOI4D：カテゴリレベルの人間とオブジェクトの相互作用のための4D自己中心性データセット
arxiv_reader 2022/03/04
カテゴリレベルの人間とオブジェクトの相互作用の研究を促進するために、豊富な注釈を備えた大規模な4D自己中心性データセットであるHOI4Dを紹介します。 HOI4Dは、610の異なる屋内部屋の20のカテ

3D

RGB-D

pose

arXiv

panoptic segmentation

dataset

arXiv reaDer

semantic segmentation

tracking

point cloud
リンク
被写界深度推定のためのオクルージョンを意識したコストコンストラクタ
arxiv_reader 2022/03/04
マッチングコストの構築は、ライトフィールド（LF）深度推定の重要なステップですが、深層学習の時代にはほとんど研究されていませんでした。最近の深層学習ベースのLF深度推定方法は、複雑で時間がかかる一連の

benchmark

estimation

arXiv

learning

convolutional

arXiv reaDer

occlusion
リンク
投影ベースのキャンセル可能な生体認証スキームに対する認証攻撃
arxiv_reader 2022/03/04
キャンセル可能な生体認証スキームは、パスワード、保存された秘密、ソルトなどのユーザー固有のトークンを生体認証データと組み合わせることにより、安全な生体認証テンプレートを生成することを目的としています。

arXiv reaDer

arXiv
リンク
数ショットの部分的なマルチビュー学習
arxiv_reader 2022/03/04
実際のアプリケーションでは、データが複数のビューを持つ場合がよくあります。各ビューの情報を完全に調査することは、データをより代表的なものにするために重要です。ただし、実際のデータは、データ収集と前処理

few-shot

arXiv

attention

representation

arXiv reaDer

classification

learning
リンク
適応型セルフトレーニングによるクロスドメインオブジェクト検出
arxiv_reader 2022/03/04
オブジェクト検出におけるドメイン適応の問題に取り組みます。この問題では、ソース（監視のあるドメイン）とターゲットドメイン（監視のない対象のドメイン）の間に大幅なドメインシフトがあります。広く採用されて

adversarial

domain adaptation

arXiv

detection

augmentation

bias

learning

arXiv reaDer
リンク
スパースから高密度の動的3D顔の表情の生成
arxiv_reader 2022/03/04
本論文では、ニュートラルな3D顔と表情ラベルから動的な3D表情を生成するタスクの解決策を提案します。これには、2つのサブ問題を解決することが含まれます。（i）式の時間的ダイナミクスをモデル化すること、

3D

mesh

GAN

face

reconstruction

arXiv

sparse

landmark

dataset

arXiv reaDer
リンク
ViTransPAD：顔のプレゼンテーション攻撃の検出に畳み込みと自己注意を使用するビデオトランスフォーマー
arxiv_reader 2022/03/04
顔のプレゼンテーション攻撃検出（PAD）は、顔の生体認証システムのなりすまし攻撃を防ぐための重要な手段です。顔PADの畳み込みニューラルネットワーク（CNN）に基づく多くの作業では、コンテキストを考慮

embedding

arXiv

spatio-temporal

transformer

detection

classification

attention

convolutional

arXiv reaDer

CNN
リンク
RGBと推定深度の多層融合に基づく自己監視自我モーション推定
arxiv_reader 2022/03/04
既存の自己監視深度および自我運動推定方法では、自我運動推定は通常、RGB情報のみを利用するように制限されています。最近、深さ、加速度、角速度などの他のモダリティからの情報を融合することにより、自己監視

self-supervised

estimation

arXiv

odometry

learning

benchmark

arXiv reaDer
リンク
視覚的注意ネットワーク
arxiv_reader 2022/03/04
もともとは自然言語処理（NLP）タスク用に設計されていましたが、最近、自己注意メカニズムがさまざまなコンピュータービジョン領域を席巻しました。ただし、画像の2Dの性質は、コンピュータビジョンに自己注意

arXiv

classification

transformer

detection

attention

computer vision

arXiv reaDer

semantic segmentation

CNN
リンク
非常に大規模な顔認識のための効率的なトレーニングアプローチ
arxiv_reader 2022/03/04
顔認識は、超大規模で適切にラベル付けされたデータセットにより、ディープラーニングの時代に大きな進歩を遂げました。ただし、特大のデータセットのトレーニングには時間がかかり、多くのハードウェアリソースを消

face recognition

arXiv

dataset

learning

benchmark

arXiv reaDer

classification
リンク
スパイキングニューラルネットワークの正規化と残余ブロックの役割を再考する
arxiv_reader 2022/03/04
生物学的に着想を得たスパイキングニューラルネットワーク（SNN）は、超低電力エネルギー消費を実現するために広く使用されています。ただし、深いSNNは、隠れ層でスパイキングニューロンが過剰に発火するため

arXiv reaDer

SNN

residual

arXiv
リンク
NVUM：堅牢な医用画像分類のための非揮発性バイアスのないメモリ
arxiv_reader 2022/03/04
実世界の大規模医療画像分析（MIA）データセットには、3つの課題があります。1）トレーニングの収束と一般化に影響を与えるノイズの多いラベル付きサンプルが含まれている、2）通常、クラスごとのサンプルの分

regularization

arXiv

dataset

learning

benchmark

arXiv reaDer

classification
リンク
SegTAD：セマンティックセグメンテーションによる正確な時間的アクションの検出
arxiv_reader 2022/03/04
時間的アクション検出（TAD）は、ビデオ分析において重要でありながら困難なタスクです。ほとんどの既存の作品は、画像オブジェクトの検出からインスピレーションを得て、それを提案の生成、つまり分類の問題とし

video

action

arXiv

detection

representation

arXiv reaDer

semantic segmentation

classification
リンク
クロスドメインリモートセンシング画像セグメンテーションのためのカリキュラムスタイルのローカルからグローバルへの適応
arxiv_reader 2022/03/04
ドメイン適応は、自然画像ベースのセグメンテーションタスクで広く研究されてきましたが、超高解像度（VHR）リモートセンシング画像（RSI）のクロスドメインセグメンテーションに関する研究はまだ未踏のままで

face

segmentation

domain adaptation

arXiv

arXiv reaDer
リンク
ロボット注入のための自己監視型透明液体セグメンテーション
arxiv_reader 2022/03/04
液体状態の推定は、注ぐなどのロボット工学のタスクにとって重要です。ただし、透明な液体の状態を推定することは困難な問題です。トレーニングのために手動の注釈や液体の加熱を必要とせずに、静的なRGB画像から

self-supervised

video

segmentation

generative

estimation

arXiv

dataset

robot

arXiv reaDer
リンク
Vision Transformer の最近の進歩: さまざまな分野の調査
arxiv_reader 2022/03/04
ビジョントランスフォーマー（ViT）は、畳み込みニューラルネットワーク（CNN）と比較して、さまざまなビジョンタスクでより一般的になり、支配的な手法になっています。コンピュータビジョンの要求の厳しい技

arXiv

transformer

computer vision

dataset

benchmark

arXiv reaDer

CNN
リンク
画像から画像への翻訳タスクにおける対照学習のためのパッチごとの意味関係の調査
arxiv_reader 2022/03/04
最近、対照的な学習ベースの画像変換方法が提案されており、これは、空間的対応を強化するために異なる空間的位置を対比する。ただし、これらのメソッドは、画像内の多様な意味関係を無視することがよくあります。こ

arXiv reaDer

compression

GAN

regularization

contrastive learning

arXiv
リンク
CAFE：機能を整列させることによってデータセットを凝縮することを学ぶ
arxiv_reader 2022/03/04
データセットの凝縮は、面倒なトレーニングセットをコンパクトな合成トレーニングセットに凝縮することにより、ネットワークトレーニングの労力を削減することを目的としています。最先端のアプローチは、実際のデー

synthesis

arXiv

dataset

learning

arXiv reaDer

classification
リンク
OPV2V：車車間通信による知覚のためのオープンベンチマークデータセットとフュージョンパイプライン
arxiv_reader 2022/03/04
自動運転技術の知覚性能を向上させるために車両間通信を採用することは、最近かなりの注目を集めています。ただし、ベンチマークアルゴリズムに適したオープンデータセットがないため、協調的知覚技術の開発と評価が

3D

vehicle

LiDAR

arXiv

detection

attention

compression

dataset

benchmark

arXiv reaDer
リンク
BatchFormer：ロバストな表現学習のためのサンプル関係を探索することを学ぶ
arxiv_reader 2022/03/04
ディープニューラルネットワークの成功にもかかわらず、データの不均衡、目に見えない分布、ドメインシフトなどのデータ不足の問題により、ディープ表現学習には依然として多くの課題があります。上記の問題に対処す

representation learning

contrastive learning

loss function

arXiv

transformer

dataset

zero-shot

arXiv reaDer

domain
リンク
HCSC：階層的対照選択的コーディング
arxiv_reader 2022/03/04
階層的なセマンティック構造は、画像データセットに自然に存在します。このデータセットでは、いくつかの意味的に関連する画像クラスターを、より粗いセマンティクスを持つより大きなクラスターにさらに統合できます

representation learning

contrastive learning

arXiv

dataset

arXiv reaDer
リンク
Ad2Attack：リアルタイムUAV追跡に対する適応型敵対攻撃
arxiv_reader 2022/03/04
視覚追跡は、広範な無人航空機（UAV）関連のアプリケーションに採用されており、UAVトラッカーの堅牢性に対する非常に厳しい要件につながります。ただし、知覚できない摂動を追加すると、トラッカーを簡単にだ

real time

adversarial

arXiv

UAV

super-resolution

benchmark

arXiv reaDer

tracking
リンク
TensorFlowオブジェクト検出APIを使用した手話認識システム
arxiv_reader 2022/03/04
コミュニケーションとは、情報、アイデア、感情を共有または交換する行為として定義されます。二人の間のコミュニケーションを確立するために、彼らは両方とも共通の言語の知識と理解を持っている必要があります。し

real time

person

arXiv

detection

transfer learning

dataset

gesture

arXiv reaDer
リンク
点群での3DインスタンスセグメンテーションのためのSoftGroup
arxiv_reader 2022/03/04
既存の最先端の3Dインスタンスセグメンテーションメソッドは、セマンティックセグメンテーションとそれに続くグループ化を実行します。各ポイントが単一のクラスに関連付けられるようにセマンティックセグメンテー

3D

metric

arXiv

dataset

learning

arXiv reaDer

semantic segmentation

point cloud
リンク
クラスの不確実性を組み込んだ異種エージェントの軌道予測
arxiv_reader 2022/03/04
他のエージェントの将来の動作について推論することは、安全なロボットナビゲーションにとって重要です。もっともらしい未来の多様性は、位置、速度、セマンティッククラスなどのデータからのエージェント状態推定に

arXiv reaDer

face

estimation

arXiv

reasoning

dataset

robot

autonomous driving

trajectory
リンク
セマンティックセグメンテーションのための完全に注意深いネットワーク
arxiv_reader 2022/03/04
最近の非局所的自己注意法は、セマンティックセグメンテーションの長距離依存関係をキャプチャするのに効果的であることが証明されています。これらの方法は通常、RC * C（空間次元の圧縮による）またはRHW

arXiv

attention

dataset

arXiv reaDer

semantic segmentation
リンク
iSegFormer：3D膝MR画像への適用を伴う変圧器を介したインタラクティブなセグメンテーション
arxiv_reader 2022/03/04
Swinトランスと軽量多層パーセプトロン（MLP）デコーダを組み合わせたメモリ効率の高いトランスであるiSegFormerを提案します。階層的な自己注意のための効率的なSwinトランスフォーマーブロッ

3D

MRI

segmentation

arXiv

transformer

attention

representation

arXiv reaDer
リンク
NeW CRF：単眼深度推定のためのニューラルウィンドウ完全接続CRF
arxiv_reader 2022/03/04
単一の画像から正確な深度を推定することは、本質的にあいまいで適切でないため、困難です。最近の作品は、深度マップを直接回帰するためにますます複雑で強力なネットワークを設計していますが、CRF最適化の道を

metric

estimation

arXiv

transformer

monocular

attention

dataset

arXiv reaDer
リンク
悪魔はマージンにあります：ネットワークキャリブレーションのためのマージンベースのラベルスムージング
arxiv_reader 2022/03/04
ディープニューラルネットワークの卓越したパフォーマンスにもかかわらず、最近の研究では、それらのキャリブレーションが不十分であり、予測に自信がないことが示されています。ミスキャリブレーションは、トレーニ

approximation

loss function

arXiv

benchmark

arXiv reaDer

semantic segmentation

classification
リンク
PetsGAN：単一画像生成の事前確率を再考する
arxiv_reader 2022/03/04
単一画像生成（SIG）は、特定の単一画像と同様の視覚的コンテンツを持つ多様なサンプルを生成するものとして説明され、単一画像の内部パッチ分布を段階的に学習するGANのピラミッドを構築するSinGANによ

arXiv reaDer

GAN

arXiv
リンク
MetaDT: 解釈可能な少数ショット学習のためのクラス階層を備えたメタデシジョンツリー
arxiv_reader 2022/03/04
Few-Shot Learning（FSL）は挑戦的なタスクであり、いくつかの例で新しいクラスを認識することを目的としています。最近、FSLのパフォーマンスを向上させるために、メタ学習と表現学習の観点

representation learning

few-shot

arXiv

arXiv reaDer

adaptation
リンク
TransVPR：マルチレベルの注意集約を備えたトランスフォーマーベースの場所認識
arxiv_reader 2022/03/04
視覚的な場所の認識は、自動運転ナビゲーションや移動ロボットの位置特定などのアプリケーションにとって困難な作業です。複雑なシーンに存在する気を散らす要素は、視覚的な場所の知覚に逸脱をもたらすことがよくあ

robot

arXiv reaDer

localization

arXiv

transformer

attention

representation

benchmark

autonomous driving
リンク
CycleMix：スクラブル監視からの医療画像セグメンテーションのための全体的な戦略
arxiv_reader 2022/03/04
完全に注釈が付けられたトレーニングデータの大規模なセットをキュレートすることは、特に医療画像のセグメンテーションのタスクでは、コストがかかる可能性があります。注釈のより弱い形式であるScribbleは

segmentation

regularization

arXiv

augmentation

dataset

arXiv reaDer

occlusion
リンク
時空間ゲーティング-人間の動きを予測するための隣接GCN
arxiv_reader 2022/03/04
過去のモーションシーケンスに基づいて将来のモーションを予測することは、コンピュータビジョンの基本的な問題であり、自動運転やロボット工学で幅広い用途があります。最近のいくつかの研究では、グラフ畳み込みネ

arXiv reaDer

human

action

arXiv

GCN

computer vision

autonomous driving
リンク
BERTは教えることを学ぶ：メタ学習による知識の抽出
arxiv_reader 2022/03/04
メタ学習による知識蒸留（MetaDistil）を紹介します。これは、トレーニング中に教師モデルが固定される従来の知識蒸留（KD）メソッドのシンプルで効果的な代替手段です。メタ学習フレームワークでの蒸留

knowledge distillation

arXiv

BERT

learning

benchmark

arXiv reaDer
リンク
曲がる現実：パノラマセマンティックセグメンテーションに適応するための歪みを意識したトランスフォーマー
arxiv_reader 2022/03/04
360度の指向性ビューを備えたパノラマ画像は、周囲の空間に関する徹底的な情報を網羅し、シーンを理解するための豊富な基盤を提供します。この可能性を堅牢なパノラマセグメンテーションモデルの形で展開するには

unsupervised

embedding

domain adaptation

arXiv

transformer

dataset

arXiv reaDer

semantic segmentation
リンク
中間レベルの視覚的表現を使用したオブジェクトポーズ推定
arxiv_reader 2022/03/04
この作品は、以前は見られなかった環境に効果的に転送できるオブジェクトカテゴリの新しいポーズ推定モデルを提案します。ポーズ推定用のディープ畳み込みネットワークモデル（CNN）は、通常、オブジェクト検出、

3D

benchmark

reconstruction

arXiv

detection

dataset

convolutional

arXiv reaDer

CNN

pose estimation
リンク
LILE：他の場所を探す前に詳細を調べる-組織病理学アーカイブでのクロスモーダル情報検索にトランスフォーマーを使用したデュアルアテンションネットワーク
arxiv_reader 2022/03/04
近年、多くのアプリケーションで利用可能なデータの量が劇的に増加しています。さらに、複数のモダリティを別々に使用していたネットワークの時代は事実上終わりました。したがって、処理可能な双方向のクロスモダリ

arXiv

transformer

attention

dataset

representation

benchmark

arXiv reaDer

domain
リンク
3Dの一般的な破損とデータ拡張
モデルのロバスト性を評価するための「破損」として使用できる一連の画像変換と、ニューラルネットワークをトレーニングするための「データ拡張」メカニズムを紹介します。提案された変換の主な違いは、Common Corruptionsなどの既存のアプローチとは異なり、シーンのジオメトリが変換に組み込まれているため、現実の世界で発生する可能性が高い破損につながることです。これらの変換は「効率的」（オンザフライで計算可能）、「拡張可能」（実際の画像のほとんどのデータセットに適用可能）であり、既存のモデルの脆弱性を明らかにし、「3Dデータ拡張」メカニズム。いくつかのタスクとデータセットで実行された評価は、3D情報を堅牢性のベンチマークとトレーニングに組み込むことで、堅牢性の研究に有望な方向性を開くことを示唆しています。 We introduce a set of image transf ormation
arxiv_reader 2022/03/04
モデルのロバスト性を評価するための「破損」として使用できる一連の画像変換と、ニューラルネットワークをトレーニングするための「データ拡張」メカニズムを紹介します。提案された変換の主な違いは、Common

3D

arXiv

augmentation

dataset

arXiv reaDer
リンク
ディープメトリック学習のための敵対的ロバストネスの強化
arxiv_reader 2022/03/04
敵対的な脆弱性のセキュリティへの影響により、ディープメトリック学習モデルの敵対的な堅牢性を改善する必要があります。過度に難しい例によるモデルの崩壊を回避するために、既存の防御は最小-最大の敵対的トレー

metric learning

arXiv reaDer

adversarial

arXiv
リンク
MUAD: Multiple Uncertainties for Autonomous Driving、複数の不確実性の種類とタスクのベンチマーク
arxiv_reader 2022/03/04
予測不確実性の推定は、実世界の自律システムにディープニューラルネットワークを展開するために不可欠です。ただし、不確実性の根拠がないため、ほとんどのデータセットでは、さまざまなタイプと不確実性の原因を解

arXiv reaDer

disentangling

estimation

arXiv

DNN

detection

OOD

benchmark

autonomous driving

semantic segmentation
リンク
翌日の山火事の広がり：リモートセンシングデータから山火事の広がりを予測するための機械学習データセット
arxiv_reader 2022/03/04
山火事の広がりを予測することは、土地管理と災害対策にとって重要です。この目的のために、米国全体の10年近くのリモートセンシングデータを集約した、厳選された大規模な多変量の歴史的な山火事のデータセットで

benchmark

arXiv reaDer

learning

arXiv
リンク
画像分類のためのラドン累積分布変換部分空間モデリング
arxiv_reader 2022/03/04
幅広いクラスの画像変形モデルに適用可能な新しい教師あり画像分類法を提示します。この方法では、画像データに前述のラドン累積分布変換（R-CDT）を使用します。この変換の数学的特性を利用して、機械学習によ

python

arXiv

OOD

learning

arXiv reaDer

classification
リンク
センサーとして人を使用するマルチエージェント変分オクルージョン推論
arxiv_reader 2022/03/04
自動運転車は、過度に注意することなく安全を確保するために、都市環境での空間的閉塞について推論する必要があります。以前の研究では、道路エージェントの観察された社会的行動からの閉塞推論を調査し、したがって

vehicle

real time

human

arXiv

representation

arXiv reaDer

occlusion
リンク
DDL-MVS：MVSネットワークの深さの不連続性学習
arxiv_reader 2022/03/04
既存の学習ベースのマルチビューステレオ（MVS）技術は、再構成の完全性の観点から効果的です。深さの連続性を学習することにより、これらの手法をさらに改善します。私たちのアイデアは、深度マップと境界マップ

stereo

regularization

reconstruction

estimation

arXiv

dataset

representation

arXiv reaDer

learning
リンク
大規模なゼロショット画像分類のための階層的グラフ表現の調査
arxiv_reader 2022/03/04
このホワイトペーパーで取り上げる主な質問は、ゼロショット学習とも呼ばれる見えないクラスの視覚認識を、ImageNet-21Kベンチマークのように数万のカテゴリにスケールアップする方法です。この規模では

few-shot

representation

arXiv

dataset

zero-shot

benchmark

arXiv reaDer

classification

learning
リンク
開集合セマンティックセグメンテーションのための条件付き再構成
arxiv_reader 2022/03/04
開集合セグメンテーションは比較的新しく、未踏のタスクであり、そのようなタスクをモデル化するために提案された方法はほんの一握りです。ピクセル単位のマスクに従って入力画像のクラス条件付き再構成を使用して問

reconstruction

arXiv

dataset

arXiv reaDer

semantic segmentation
リンク
美の数学について：美しい画像
arxiv_reader 2022/03/04
この論文では、単純な視覚パターンに見られる最も単純な種類の美しさを研究します。提案されたアプローチは、同じ量のエネルギーが使用された場合の美的魅力の少ないパターンと比較して、美的魅力のあるパターンが

arXiv reaDer

classification

arXiv
リンク
潜在的ディリクレ変分オートエンコーダーによるハイパースペクトルピクセルアンミキシング
arxiv_reader 2022/03/04
ハイパースペクトルピクセル強度は、いくつかの材料からの反射率の混合から生じます。この論文は、単一ピクセルのスペクトルが与えられた場合の混合比（存在量）とともに、各材料（以下、端成分と呼ぶ）の「純粋な」

benchmark

arXiv reaDer

synthesis

arXiv
リンク
デュアルズーム観測からの実世界の超解像のための自己監視学習
Self-Supervised Learning for Real-World Super-Resolution from Dual Zoomed Observations この論文では、参照ベースの超解像（RefSR）における2つの難しい問題、（i）適切な参照画像の選択方法、および（ii）自己監視方式で実世界のRefSRを学習する方法について検討します。特に、デュアルカメラズーム（SelfDZSR）での観測からの実世界の画像SRのための新しい自己監視学習アプローチを提示します。最初の問題では、ズームの小さい（望遠）画像のSRをガイドするための参照として、ズームの大きい（望遠）画像を自然に活用できます。 2番目の問題では、SelfDZSRは深いネットワークを学習して、望遠画像と同じ解像度で短焦点画像のSR結果を取得します。この目的のために、監視情報として追加の高解像度画像の代わりに望遠画像
arxiv_reader 2022/03/04
この論文では、参照ベースの超解像（RefSR）における2つの難しい問題、（i）適切な参照画像の選択方法、および（ii）自己監視方式で実世界のRefSRを学習する方法について検討します。特に、デュアルカ

self-supervised

arXiv

pre-training

transformer

learning

arXiv reaDer

super-resolution
リンク
医用画像の転移学習を機能させるもの：機能の再利用とその他の要因
arxiv_reader 2022/03/04
伝達学習は、あるドメインから別のドメインに知識を伝達するための標準的な手法です。医用画像のアプリケーションでは、ドメイン間のタスクと画像特性の違いにもかかわらず、ImageNetからの転送が事実上のア

arXiv

transfer learning

bias

dataset

benchmark

arXiv reaDer

domain
リンク
半教師あり医療画像セグメンテーションのための滑らかさとクラス分離の調査
Exploring Smoothness and Class-Separation for Semi-supervised Medical Image Segmentation 注釈付きの医療データの量は限られていることが多く、接着エッジまたは低コントラスト領域の近くに多くのぼやけたピクセルがあるため、半教師ありセグメンテーションは医療画像処理において依然として困難です。この問題に対処するために、まず、強い摂動がある場合とない場合のサンプルの一貫性を制約して、十分な滑らかさの正則化を適用し、モデルトレーニングにラベルのないあいまいなピクセルを利用するようにクラスレベルの分離をさらに促進することをお勧めします。特に、本論文では、ピクセルレベルの滑らかさとクラス間分離を同時に探求することにより、半教師あり医療画像セグメンテーションタスクのためのSS-Netを提案します。ピクセルレベルの滑らかさ
arxiv_reader 2022/03/04
注釈付きの医療データの量は限られていることが多く、接着エッジまたは低コントラスト領域の近くに多くのぼやけたピクセルがあるため、半教師ありセグメンテーションは医療画像処理において依然として困難です。この

adversarial

segmentation

regularization

semi-supervised

arXiv

dataset

arXiv reaDer
リンク
2要素摂動を使用した深層学習分類器のロバスト性のベンチマーク
Benchmarking Robustness of Deep Learning Classifiers Using Two-Factor Perturbation 深層学習（DL）分類器の精度は、敵対的な画像、不完全な画像、または摂動された画像で再テストすると大幅に変化する可能性があるという点で不安定なことがよくあります。このホワイトペーパーでは、欠陥のある画像に対するDL分類器の堅牢性のベンチマークに関する基本的な作業を追加します。堅牢なDL分類子を測定するために、以前の調査では単一要素の破損が報告されています。クリーンセット、単一要素摂動のセット、および2要素摂動条件のセットを含む包括的な69のベンチマーク画像セットを作成しました。最先端の2因子摂動には、（a）両方のシーケンスに適用される2つのデジタル摂動（ソルト＆ペッパーノイズとガウスノイズ）、および（b）1つのデジタル摂動（ソル
arxiv_reader 2022/03/04
深層学習（DL）分類器の精度は、敵対的な画像、不完全な画像、または摂動された画像で再テストすると大幅に変化する可能性があるという点で不安定なことがよくあります。このホワイトペーパーでは、欠陥のある画像

adversarial

arXiv reaDer

learning

arXiv
リンク
視覚的な質問応答アーキテクチャの最近の急速な進歩：レビュー
arxiv_reader 2022/03/04
視覚的な質問応答を理解することは、多くの人間の活動にとって非常に重要になります。ただし、人工知能の取り組みの中心には大きな課題があります。このペーパーでは、過去2年間に発生した画像を使用した、視覚的な

arXiv reaDer

activity

human

arXiv
リンク
確率的2段階検出器を使用した結腸核インスタンスのセグメンテーション
Colon Nuclei Instance Segmentation using a Probabilistic Two-Stage Detector 癌は、先進国における主要な死因の1つです。がんの診断は、疑わしい組織のサンプルの顕微鏡分析によって行われます。このプロセスには時間がかかり、エラーが発生しやすくなりますが、ディープラーニングモデルは癌の診断中に病理学者に役立つ可能性があります。 CenterNet2オブジェクト検出モデルを変更して、インスタンスのセグメンテーションも実行することを提案します。これをSegCenterNet2と呼びます。 CoNICチャレンジデータセットでSegCenterNet2をトレーニングし、競合指標でマスクR-CNNよりも優れたパフォーマンスを発揮することを示します。 Cancer is one of the leading causes of dea
arxiv_reader 2022/03/04
癌は、先進国における主要な死因の1つです。がんの診断は、疑わしい組織のサンプルの顕微鏡分析によって行われます。このプロセスには時間がかかり、エラーが発生しやすくなりますが、ディープラーニングモデルは癌

arXiv reaDer

R-CNN

segmentation

learning

metric

dataset

detection

arXiv
リンク
タイミングエラーの影響：ナビカムの事例研究
サイバーフィジカルシステムにおけるタイミングエラーの影響に関するより広範な問題のケーススタディとして、ナビゲーションカメラのタイミングエラーの問題に焦点を当てます。これらのシステムは、特定の事柄が同時に発生する、または特定の事柄が特定の期間Tで定期的に発生するという要件に依存しています。ただし、これらのシステムがより複雑になると、コンポーネント間でタイミングエラーが発生し、イベントが同時発生するという仮定に違反する可能性があります（または定期的）。 2台のカメラで撮影された2D画像で検出された光学マーカーを使用して3D空間でマーカーを特定する外科ナビゲーションシステムの問題を検討します。参照要素として知られるこのようなマーカーの事前定義された配列は、患者の画像上で手術器具の対応するCADモデルをナビゲートするために使用されます。カメラは、両方のカメラからの写真がまったく同時に撮影されている
arxiv_reader 2022/03/04
サイバーフィジカルシステムにおけるタイミングエラーの影響に関するより広範な問題のケーススタディとして、ナビゲーションカメラのタイミングエラーの問題に焦点を当てます。これらのシステムは、特定の事柄が同時

3D

arXiv reaDer

localization

arXiv
リンク
Identity ConsistencyTransformerで有名人を保護する
arxiv_reader 2022/03/04
この作業では、高レベルのセマンティクス、特にID情報に焦点を当て、内面と外面の領域でIDの不整合を検出することで疑わしい顔を検出する、新しい顔偽造検出方法であるIdentity Consistency

arXiv reaDer

video

deepfake

detection

face

transformer

dataset

arXiv
リンク
点群を理解するための統一されたクエリベースのパラダイム
arxiv_reader 2022/03/04
3D点群の理解は、自動運転とロボット工学の重要な要素です。この論文では、検出、セグメンテーション、分類などの3D理解タスクのための新しい埋め込みクエリパラダイム（EQ-パラダイム）を紹介します。 EQ

point cloud

arXiv reaDer

representation

detection

autonomous driving

3D

embedding

classification

arXiv

semantic segmentation
リンク
トリプル対照学習による視覚言語の事前トレーニング
arxiv_reader 2022/03/04
視覚言語表現学習は、対照的な損失（InfoNCE損失など）による画像とテキストの位置合わせから主に恩恵を受けます。この位置合わせ戦略の成功は、画像とそれに一致するテキストの間の相互情報量（MI）を最大

self-supervised

arXiv reaDer

pre-training

contrastive learning

representation learning

embedding

arXiv
リンク
シンプルで普遍的な回転同変点群ネットワーク
arxiv_reader 2022/03/04
順列と剛体運動への同変は、さまざまな3D学習問題の重要な誘導バイアスです。最近、同変テンソル場ネットワークアーキテクチャは普遍的であることが示されました-それは任意の同変関数を近似することができます。

point cloud

arXiv reaDer

3D

arXiv

bias

learning
リンク
MixSTE：ビデオでの3D人間ポーズ推定のためのSeq2seq混合時空間エンコーダ
arxiv_reader 2022/03/04
最近のトランスベースのソリューションは、時空間相関を学習するためにすべてのフレーム間の体の関節をグローバルに考慮することにより、2Dキーポイントシーケンスから3D人間のポーズを推定するために導入されま

arXiv reaDer

pose estimation

benchmark

spatio-temporal

seq2seq

3D

transformer

dataset

arXiv

human pose estimation
リンク
グループベースのサブセットスキャンによる生成モデルの創造性の特性化に向けて
arxiv_reader 2022/03/04
変分オートエンコーダー（VAE）や生成的敵対的ネットワーク（GAN）などの深層生成モデルは、計算創造性の研究で広く採用されています。ただし、このようなモデルは、偽のサンプル生成を回避するために分散型電

metric

arXiv reaDer

benchmark

OOD

human

GAN

dataset

arXiv

learning
リンク
ミニマックスレートリダクションによるLDRへの閉ループデータ転写
arxiv_reader 2022/03/04
この作業は、実世界のデータセットの構造化された生成モデルを学習するための新しい計算フレームワークを提案します。特に、複数の独立した多次元線形部分空間で構成される特徴空間における、マルチクラス多次元デー

arXiv reaDer

representation

benchmark

dataset

learning

GAN

classification

arXiv

generative
リンク
DenseTact：高密度形状再構築用の光学式触覚センサー
arxiv_reader 2022/03/04
ロボットの触覚センシングのパフォーマンスを向上させることで、多用途の手での操作が可能になります。視覚ベースの触覚センサーは、豊富な触覚フィードバックが操作タスクのパフォーマンスの向上と相関していること

robot

reconstruction

estimation

arXiv reaDer

localization

real time

3D

classification

arXiv

CNN
リンク
医療画像セグメンテーションのためのマルチスケールトランスフォーマー：アーキテクチャ、モデル効率、およびベンチマーク
arxiv_reader 2022/03/04
トランスフォーマーは、多くの自然言語処理および視覚タスクで成功するようになりましたが、この分野の独特の困難さのために、医療画像への潜在的なアプリケーションはほとんど未踏のままです。この研究では、畳み込

segmentation

benchmark

arXiv reaDer

CNN

3D

attention

arXiv

pre-training

transformer
リンク
表現コードブックを使用したマルチモーダルアライメント
arxiv_reader 2022/03/04
異なるモダリティからの信号を整列させることは、クロスモダリティ融合などの後の段階のパフォーマンスに影響を与えるため、視覚言語表現学習の重要なステップです。画像とテキストは通常、フィーチャスペースの異な

zero-shot

distillation

arXiv reaDer

arXiv

benchmark

representation learning
リンク
Meta-RangeSeg：複数の機能の集約を使用したLiDARシーケンスのセマンティックセグメンテーション
arxiv_reader 2022/03/04
LiDARセンサーは、自動運転車やインテリジェントロボットの知覚システムに不可欠です。実際のアプリケーションでリアルタイムの要件を満たすには、LiDARスキャンを効率的にセグメント化する必要があります

LiDAR

arXiv reaDer

convolutional

arXiv

3D

real time

U-Net

residual

point cloud

semantic segmentation
リンク
- 2022年3月7日
- 2022年3月4日
- 2022年3月3日

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx