arxiv_readerのブックマーク / 2022年4月12日 - はてなブックマーク

arxiv_reader id:arxiv_reader

2022年4月12日のブックマーク (199件)

BasicVSR++のビデオのブレ除去とノイズ除去への一般化について
arxiv_reader 2022/04/12
長期的な情報の悪用は、ビデオの復元において長年の問題でした。最近のBasicVSRとBasicVSR++は、長期的な伝播と効果的な位置合わせにより、ビデオの超解像度で卓越したパフォーマンスを示していま

video

arXiv reaDer

arXiv

denoising

convolutional

super-resolution
リンク
フルスペクトルの分布外検出
arxiv_reader 2022/04/12
既存の分布外（OOD）検出の文献では、セマンティックシフトをOODの兆候として明確に定義していますが、共変量シフトに関するコンセンサスはありません。共変量シフトを経験しているがセマンティックシフトを経

arXiv reaDer

OOD

arXiv

learning

detection

benchmark
リンク
単一光子構造化光
arxiv_reader 2022/04/12
単一光子アバランシェダイオード（SPAD）アレイを使用して、高フレームレートと低光レベルでの3Dスキャンを可能にする新しい構造化光技術を紹介します。「単一光子構造化光」と呼ばれるこの手法は、各露光中

3D

arXiv reaDer

arXiv
リンク
オンラインドメイン適応オブジェクト検出に向けて
arxiv_reader 2022/04/12
既存のオブジェクト検出モデルは、トレーニングデータとテストデータの両方が同じソースドメインからサンプリングされていることを前提としています。これらの検出器が新しいビジュアルドメインに遭遇する実際のアプ

arXiv reaDer

arXiv

contrastive

domain adaptation

unsupervised

detection

representation learning

benchmark
リンク
物理的に解きほぐされた表現
arxiv_reader 2022/04/12
生成表現学習の最先端の方法では、意味的な解きほぐしが得られますが、通常、ジオメトリ、アルベド、照明、カメラなどの物理的なシーンパラメータは考慮されません。レンダリングプロセスを逆にして画像からシーンパ

clustering

arXiv reaDer

OOD

arXiv

identification

representation learning

3D

generative

segmentation
リンク
MONCEトラッキングメトリクス：オブジェクトトラッキングのための包括的な定量的パフォーマンス評価方法
arxiv_reader 2022/04/12
追跡モデルのパフォーマンスの評価は、特に防衛アプリケーションで重要な非連続のマルチオブジェクトトラッカーにとっては複雑な作業です。利用可能なさまざまな優れた追跡ベンチマークがありますが、この作業はそれ

tracking

arXiv reaDer

arXiv

metric

localization

detection

re-id

benchmark
リンク
腫瘍セグメンテーションのための脳MRIデータ前処理の無視できる効果
arxiv_reader 2022/04/12
磁気共鳴画像法（MRI）データは、デバイスメーカー、スキャンプロトコル、および被験者間のばらつきの違いにより、不均一です。 MR画像の不均一性を軽減する従来の方法は、解剖学的アライメント、ボクセルリサ

MRI

DNN

arXiv reaDer

arXiv

metric

localization

denoising

dataset

segmentation
リンク
セグメンテーション-一貫性のある確率的病変カウント
arxiv_reader 2022/04/12
病変数は、疾患の重症度、患者の予後、および治療効果の重要な指標ですが、医用画像のタスクとして数えることは、セグメンテーションを支持して見過ごされがちです。この作業は、病変のセグメンテーション予測を病変

multi-task

clustering

arXiv reaDer

adversarial

arXiv

learning

differentiable

segmentation
リンク
MIME：メモリ効率の高い動的プルーニングを使用したマルチタスク推論のための単一ニューラルネットワークの適応
arxiv_reader 2022/04/12
近年、マルチタスク学習へのパラダイムシフトが見られます。これには、マルチタスクシナリオでの推論のためのメモリとエネルギー効率の高いソリューションが必要です。 MIMEと呼ばれるアルゴリズムとハードウェ

multi-task

pruning

arXiv reaDer

arXiv

learning

benchmark

dataset
リンク
カリキュラム学習：調査
arxiv_reader 2022/04/12
カリキュラム学習を使用して、簡単なサンプルから難しいサンプルまで、意味のある順序で機械学習モデルをトレーニングすると、追加の計算コストなしで、ランダムデータシャッフルに基づく標準のトレーニングアプロー

clustering

arXiv reaDer

learning

arXiv

classification
リンク
視覚的質問応答における異常検出のための注意ネットワークの正則化
arxiv_reader 2022/04/12
実際のアプリケーションの安定性と信頼性のために、単峰型タスクにおけるDNNの堅牢性が評価されています。ただし、視覚的質問応答（VQA）モデルが実際の環境に配置された後のテスト時に遭遇する可能性がある異

DNN

arXiv reaDer

attention

regularization

arXiv

reasoning

anomaly detection

VQA
リンク
外科的処置トリプレットデータセットのメソッドベンチマークのためのデータ分割とメトリクス
arxiv_reader 2022/04/12
ベンチマークデータセットの作成には、データと注釈の生成に加えて、賢明なデータ分割戦略と評価指標を考案することが不可欠です。この方法により、データの使用法に関するコンセンサス、均一な評価、およびデータセ

tracking

video

action

arXiv reaDer

metric

arXiv

learning

benchmark

dataset

activity
リンク
GDC-少数ショット学習のための一般化分布キャリブレーション
arxiv_reader 2022/04/12
大きなラベル付きデータセットを組み立てるにはかなりの時間と労力がかかるため、機械学習で重要な問題となるショット学習はほとんどありません。ほとんどの数ショット学習アルゴリズムには、2つの制限のいずれかが

domain

arXiv reaDer

loss function

arXiv

learning

classification

few-shot

dataset
リンク
座標ごとの最適化による深い対照学習の理解
arxiv_reader 2022/04/12
損失関数のファミリー（InfoNCEを含む）の下での対照学習（CL）にはゲーム理論の定式化があり、最大プレーヤーはコントラストを最大化する表現を見つけ、最小プレーヤーは同様の表現を持つサンプルのペアに

contrastive learning

arXiv reaDer

loss function

arXiv

augmentation

representation learning
リンク
CFA：一般化された少数ショットオブジェクト検出のための制約ベースの微調整アプローチ
arxiv_reader 2022/04/12
少数ショットオブジェクト検出（FSOD）は、豊富な基本データからの事前知識を活用することにより、限られたデータで新しいカテゴリを検出しようとします。一般化された数ショットオブジェクト検出（G-FSOD

arXiv reaDer

gradient

arXiv

learning

detection

few-shot

dataset
リンク
Swin Transformer V2：容量と解像度のスケールアップ
arxiv_reader 2022/04/12
大規模なNLPモデルは、飽和の兆候がなく、言語タスクのパフォーマンスを大幅に向上させることが示されています。彼らはまた、人間のような驚くべき数発の能力を示しています。この論文は、コンピュータビジョンに

arXiv reaDer

attention

arXiv

transformer

computer vision

detection

classification

few-shot

self-supervised

semantic segmentation
リンク
フォトメトリックステレオの光構成のための最適な実験計画アプローチ
arxiv_reader 2022/04/12
この論文は、異なる照明位置の下で得られた一連の画像から物体の表面法線を見つけるための技術を提示します。提示された方法は、最適実験計画法（OED）およびパラメーター推定（PE）と組み合わせたフォトメトリ

arXiv reaDer

arXiv

stereo

estimation

synthesis
リンク
病理学における機械学習モデルの評価の再考
arxiv_reader 2022/04/12
機械学習は、研究および臨床診療における病理画像に適用されており、有望な成果が得られています。ただし、標準のMLモデルには、臨床上の決定に必要な厳密な評価が欠けていることがよくあります。自然画像の機械学

learning

domain

arXiv reaDer

arXiv
リンク
CXR-FL: Federated Learning を使用した深層学習ベースの胸部 X 線画像解析
arxiv_reader 2022/04/12
連合学習により、プライバシーのためにトレーニングデータをローカルに保存しながら、多施設データから共有モデルを構築できます。この論文では、連合学習法を使用した胸部X線画像解析のための深層学習ベースのモデ

arXiv reaDer

arXiv

learning

pre-training

classification

segmentation
リンク
着色性能の人間対客観的評価
arxiv_reader 2022/04/12
グレースケール画像の自動カラー化は、以前のグレースケールからフルカラー画像を作成するプロセスです。与えられたグレースケールの事前に多くのもっともらしい色付けがあるので、それは不適切な問題です。自動色付

arXiv reaDer

CNN

arXiv

human

GAN

dataset
リンク
オブジェクト検出のための一貫性ベースの能動学習
arxiv_reader 2022/04/12
アクティブラーニングは、限られた予算で最も有益なサンプルを選択することにより、タスクモデルのパフォーマンスを向上させることを目的としています。画像分類に能動学習を適用することに焦点を当てた最近の研究と

arXiv reaDer

arXiv

metric

learning

dataset

detection

augmentation

classification

R-CNN
リンク
自然言語フィードバックによるロボット計画の修正
arxiv_reader 2022/04/12
人間がロボットのコストまたは目標の仕様を設計するとき、あいまいな、指定が不十分な、または計画者の解決能力を超える仕様を作成することがよくあります。このような場合、修正は、ヒューマンインザループロボット

robot

arXiv reaDer

real time

arXiv
リンク
スポンジ中毒によるエネルギー潜時攻撃
arxiv_reader 2022/04/12
スポンジの例は、ハードウェアアクセラレータにデプロイされたときに、ニューラルネットワークのエネルギー消費と遅延を増やすために慎重に最適化されたテスト時間入力です。この作業では、モデルトレーニングをサー

learning

arXiv reaDer

dataset

arXiv
リンク
不確実性のある最先端の機械学習
arxiv_reader 2022/04/12
データ、ハードウェア、ソフトウェアエコシステム、および関連するスキルセットが利用できるようになったことで、機械学習コミュニティは急速な発展を遂げており、新しいアーキテクチャとアプローチが毎年頻繁に登場

arXiv reaDer

approximation

learning

arXiv

classification
リンク
https://arxiv-check-250201.firebaseapp.com/each/2204.05172v2
arxiv_reader 2022/04/12
イベントカメラは、ダイナミックレンジが高く、応答速度が速く、消費電力が少ないバイオビジョンにインスパイアされたカメラであり、最近、広大なビジョンタスクでの使用で大きな注目を集めています。一定の時間間隔

arXiv reaDer

attention

arXiv

embedding

classification

sparse

transformer

dataset
リンク
再循環養殖システムにおけるカクレクマノミの空間分布パターンとストレスの可能性の兆候
arxiv_reader 2022/04/12
魚の行動を監視および検出することは、魚の福祉に関する重要な情報を提供し、世界の水産養殖におけるインテリジェントな生産の達成に貢献します。この作業は、3つの飼育密度（1、5、および10個体/水族館）で水

video

arXiv reaDer

arXiv

optical flow

estimation

activity
リンク
SMU：平滑化最大手法を使用したディープネットワークの平滑化活性化関数
arxiv_reader 2022/04/12
深層学習の研究者は、ネットワークパフォーマンスを向上させることができる2つの新しい活性化関数を提案することに強い関心を持っています。アクティベーション機能を適切に選択すると、ネットワークパフォーマンス

arXiv reaDer

approximation

learning

arXiv

dataset
リンク
レンダリングと比較による焦点距離とオブジェクトポーズの推定
arxiv_reader 2022/04/12
既知のオブジェクトを表す単一のRGB入力画像が与えられた場合に、カメラオブジェクトの6Dポーズとカメラの焦点距離を共同で推定するためのニューラルレンダリングと比較の方法であるFocalPoseを紹介し

pose estimation

arXiv reaDer

loss function

arXiv

6D

disentangling

3D

benchmark

dataset
リンク
後期重みを持つニューラルネットワーク
arxiv_reader 2022/04/12
ニューラルネットワークをトレーニングする主に成功した方法は、確率的勾配降下法（SGD）のいくつかの変形を使用してそれらの重みを学習することです。ここでは、学習の後期段階で重みのサブセットをアンサンブル

arXiv reaDer

gradient

learning

SGD

arXiv

benchmark
リンク
SAR-Net：カテゴリレベルの6Dオブジェクトのポーズとサイズの推定のための形状調整および回復ネットワーク
arxiv_reader 2022/04/12
単一のシーン画像を前提として、この論文では、外部の実際のポーズ注釈付きトレーニングデータを使用せずに、ターゲットオブジェクトの点群からカテゴリレベルの6Dオブジェクトポーズおよびサイズ推定（COPSE

arXiv reaDer

robot

arXiv

pre-training

pose

6D

estimation

3D

benchmark

point cloud
リンク
M ^ 2BEV：統一された鳥の目のビュー表現によるマルチカメラジョイント3D検出とセグメンテーション
arxiv_reader 2022/04/12
この論文では、マルチカメラ画像入力を使用して、Birds Eye View〜（BEV）空間で3Dオブジェクト検出とマップセグメンテーションを共同で実行する統合フレームワークであるM^2BEVを提案しま

arXiv reaDer

arXiv

pre-training

detection

3D

representation

segmentation
リンク
XMP-Font：少数ショットのフォント生成のための自己監視型クロスモダリティ事前トレーニング
arxiv_reader 2022/04/12
新しいフォントライブラリの生成は、グリフが豊富なスクリプトにとって非常に手間と時間がかかる作業です。したがって、テスト中に微調整することなく、わずかなグリフ参照しか必要としないため、数ショットのフォン

arXiv reaDer

arXiv

pre-training

disentangling

few-shot

self-supervised

representation
リンク
衛星画像で説明可能な機械学習を使用して荒野を探索する
arxiv_reader 2022/04/12
荒野地域は重要な生態学的および社会的利益を提供するため、監視と保全が必要です。しかし、荒野の特徴はほとんど知られていないため、リモートセンシング技術による荒野地域の検出と監視は困難な作業となっています

arXiv reaDer

satellite

arXiv

learning

explainable

detection

dataset
リンク
目に見えない領域での少数ショットのオブジェクト検出
arxiv_reader 2022/04/12
数ショットオブジェクト検出（FSOD）は、豊富な基本クラスで得られた知識を転送することにより、限られたデータで新しいオブジェクトクラスを学習するために近年繁栄しています。 FSODのアプローチでは、一

arXiv reaDer

arXiv

contrastive

domain adaptation

detection

few-shot

bias

representation

dataset

zero-shot
リンク
HFT：ハイブリッド機能変換によるパースペクティブ表現のリフティング
arxiv_reader 2022/04/12
自動運転には、意思決定のための正確で詳細なBird's Eye View（BEV）セマンティックセグメンテーションが必要です。これは、高レベルのシーン認識にとって最も困難なタスクの1つです。正

autonomous driving

arXiv reaDer

arXiv

learning

3D

representation

semantic segmentation

dataset
リンク
不織布の明確な曇り指数
arxiv_reader 2022/04/12
曇りまたは形成は、不織布および紙の均質性からの逸脱に対処するために業界で日常的に使用される概念です。画像データに基づいて曇り指数を測定することは、産業品質保証の一般的なタスクです。曇りを定量化する最も

estimation

arXiv reaDer

arXiv
リンク
SAL-CNN：時間周波数情報を使用してベアリングの残りの耐用年数を推定します
arxiv_reader 2022/04/12
現代の工業生産では、ベアリングの残りの耐用年数（RUL）の予測能力は、システムの安全性と安定性に直接影響します。従来の方法では、厳密な物理モデリングが必要であり、複雑なシステムではパフォーマンスが低下

arXiv reaDer

attention

CNN

arXiv

convolutional

dataset
リンク
一段階の高解像度顕著性検出のためのピラミッドグラフトネットワーク
arxiv_reader 2022/04/12
ディープニューラルネットワークに基づく最近の顕著な物体検出（SOD）手法は、驚くべきパフォーマンスを達成しています。ただし、低解像度入力用に設計された既存のSODモデルのほとんどは、サンプリング深度と

arXiv reaDer

attention

CNN

arXiv

detection

saliency

transformer

dataset
リンク
HiPeを信じる：高速で堅牢なモデルにとらわれない顕著性マッピングのための階層的摂動
arxiv_reader 2022/04/12
ディープラーニングモデルがますます複雑でハイステークスのタスクに使用されるにつれて、人工知能（AI）システムによって行われる予測を理解することがますます重要になっています。顕著性マッピング（一般的な視

arXiv reaDer

arXiv

learning

benchmark

saliency

dataset
リンク
変形可能なアンカーモデルを使用した構造認識モーション転送
arxiv_reader 2022/04/12
ソース画像と同じオブジェクトタイプを表すドライビングビデオが与えられた場合、モーション転送タスクは、ソースイメージからの外観を維持しながら、ドライビングビデオからモーションを学習することによってビデオ

video

arXiv reaDer

arXiv

learning

unsupervised

benchmark

representation

dataset
リンク
HiMODE：ハイブリッド単眼全方向深度推定モデル
arxiv_reader 2022/04/12
単眼全方向深度推定は、360°の周囲を検知するための幅広いアプリケーションのため、かなりの研究の注目を集めています。この分野の既存のアプローチには、グラウンドトゥルースデプスマップの取得中に失われた小

residual

arXiv reaDer

attention

arXiv

estimation

monocular

transformer
リンク
BERTHA：転送で学習した人間の評価によるビデオキャプションの評価
arxiv_reader 2022/04/12
ビデオキャプションシステムの評価は、考慮すべき要素が複数あるため、困難な作業です。たとえば、キャプションの流暢さ、1つのシーンで発生する複数のアクション、重要と見なされるものに対する人間の偏見などです

video

action

arXiv reaDer

metric

arXiv

human

BERT

bias

captioning

dataset
リンク
敵対的学習を使用した虚血性脳卒中病変のセグメンテーション
arxiv_reader 2022/04/12
虚血性脳卒中は、脳に血液を供給する詰まった血管の閉塞によって発生します。脳卒中病変のセグメンテーションは、診断、転帰評価、および治療計画を改善するために不可欠です。この作業では、虚血性病変のセグメンテ

arXiv reaDer

CT

adversarial

arXiv

U-Net

learning

convolutional

segmentation
リンク
バウンディングボックスに注意を払うだけで、歩行者の行動を予測できますか？
arxiv_reader 2022/04/12
運転シナリオの複雑さに関係するのは、もはや人間の運転手だけではありません。自動運転車（AV）も同様にこのプロセスに関与するようになっています。今日、都市部でのAVの開発は、歩行者などの脆弱な道路利用者

arXiv reaDer

attention

arXiv

human

pre-training

pedestrian

classification

trajectory

transformer

dataset
リンク
Bhattacharyyaクラス分離可能性を使用した転送可能性の推定
arxiv_reader 2022/04/12
転移学習は、コンピュータービジョンで事前にトレーニングされたモデルを活用するための一般的な方法になっています。ただし、計算コストの高い微調整を実行しないと、特定のターゲットタスクに適した事前トレーニン

arXiv reaDer

arXiv

metric

pre-training

transfer learning

computer vision

estimation

classification

semantic segmentation

dataset
リンク
Transferability Metricsの評価はどの程度安定していますか？
arxiv_reader 2022/04/12
転送可能性メトリックは、関心が高まっている成熟分野であり、すべてを微調整することなく、特定のターゲットデータセットに転送するのに最適なソースモデルを選択するためのヒューリスティックを提供することを目的

arXiv reaDer

metric

arXiv

classification

semantic segmentation

dataset
リンク
DFTR：顕著な物体検出のための深度監視ありFusion Transformer
arxiv_reader 2022/04/12
自動顕著な物体検出（SOD）は、多くのコンピュータービジョンアプリケーションでますます重要な役割を果たしています。深度情報を入力ではなく監視として再定式化することにより、深度教師あり畳み込みニューラル

arXiv reaDer

CNN

arXiv

learning

computer vision

detection

RGB-D

saliency

transformer

dataset
リンク
https://arxiv-check-250201.firebaseapp.com/each/2204.04969v2
arxiv_reader 2022/04/12
最近のセグメンテーションアプローチは、ネストされた画像パーティションの階層を作成することから始まり、通常、1つの水平カットを選択することによってそこからセグメンテーションを指定します。私たちの最初の貢

arXiv reaDer

segmentation

arXiv
リンク
内視鏡検査のためのバイモーダルカメラポーズ予測
arxiv_reader 2022/04/12
画像から内視鏡シーンの3D構造を推測することは、依然として非常に困難です。変形と視界に依存する照明に加えて、結腸のような管状構造は、自己閉塞性の反復的な解剖学的構造に起因する問題を提示します。本論文で

arXiv

3D

dataset

pose estimation

synthesis

arXiv reaDer
リンク
ビデオ接地用のマルチモーダル変圧器の設計の追求について
arxiv_reader 2022/04/12
ビデオグラウンディングは、トリミングされていないビデオからのセンテンスクエリに対応する時間セグメントをローカライズすることを目的としています。ほとんどすべての既存のビデオ接地方法は、2つのフレームワー

benchmark

localization

arXiv

classification

dataset

metric

attention

embedding

arXiv reaDer

transformer
リンク
胞状奇胎水腫病変認識のための複合損失関数を備えたセグメンテーションネットワーク
arxiv_reader 2022/04/12
病理形態診断は胞状奇胎の標準的な診断方法です。悪性の可能性がある病気として、水腫病変の胞状奇胎切片は診断の重要な基礎です。病変の発達が不完全であるため、初期の胞状奇胎は区別が難しく、臨床診断の精度が低

arXiv

semantic segmentation

learning

dataset

metric

arXiv reaDer

loss function
リンク
^ natC（n、p）および^ natC（n、d）反応のエネルギー差測定のための機械学習ベースのイベント分類
arxiv_reader 2022/04/12
この論文では、中性子飛行時間からの^ natC（n、p）および^ natC（n、d）反応断面積測定のジョイントからの実験データを分類するために、機械学習技術、特にニューラルネットワークを使用することの

arXiv

learning

classification

dataset

arXiv reaDer
リンク
自然画像の共通性がGANを救済する：一般的でプライバシーのない合成データを使用してGANを事前トレーニングする
arxiv_reader 2022/04/12
GANの転移学習は、ローショットレジームでの生成パフォーマンスを向上させることに成功しています。ただし、既存の研究では、単一のベンチマークデータセットを使用して事前にトレーニングされたモデルは、さまざ

benchmark

arXiv

transfer learning

dataset

GAN

synthesis

arXiv reaDer

saliency
リンク
顕微鏡ビューでの胞状奇胎胎児水腫病変認識のためのセマンティックセグメンテーションネットワークベースのリアルタイムコンピュータ支援診断システム
arxiv_reader 2022/04/12
悪性の可能性がある病気として、胞状奇胎（HM）は最も一般的な妊娠性絨毛性疾患の1つです。病理学者にとって、水腫病変のHMセクションは診断の重要な基礎です。病理学部門では、HM病変の多様な顕微鏡症状と顕

arXiv

semantic segmentation

dataset

real time

arXiv reaDer

loss function
リンク
VAE近似誤差：ELBOおよび指数型分布族
arxiv_reader 2022/04/12
変分オートエンコーダーの重要性は、スタンドアロンの生成モデルをはるかに超えています。このアプローチは、潜在表現の学習にも使用され、半教師あり学習に一般化できます。これには、一般的に知られている欠点であ

approximation

arXiv

semi-supervised

learning

representation

arXiv reaDer

generative
リンク
半教師ありビデオインスタンスセグメンテーションのためのコンテキストガイドセグメンテーションフレームワーク
arxiv_reader 2022/04/12
このペーパーでは、3 つのパスでのビデオインスタンスセグメンテーションのためのコンテキストガイドセグメンテーション (CGS) フレームワークを提案します。最初のパス、つまりプレビューセグメ

human

arXiv

semi-supervised

re-id

dataset

segmentation

attention

arXiv reaDer

occlusion
リンク
拡張グラフ特徴集約とピラミッドデコーダーによる点群シーンのセマンティックセグメンテーション
arxiv_reader 2022/04/12
点群のセマンティックセグメンテーションは、各ポイントのカテゴリを密に予測することにより、シーンの包括的な理解を生み出します。受容野が単一であるため、点群のセマンティックセグメンテーションは、複数の受容

arXiv

semantic segmentation

representation

convolutional

arXiv reaDer

point cloud
リンク
n-CPS：半教師ありセマンティックセグメンテーションのためのnネットワークへのクロス疑似監視の一般化
arxiv_reader 2022/04/12
n-CPS-半教師ありセマンティックセグメンテーションのタスクのための最近の最先端のクロス疑似監視（CPS）アプローチの一般化を提示します。 n-CPSには、ワンホットエンコーディングの摂動と整合性の

semantic segmentation

arXiv reaDer

arXiv

semi-supervised
リンク
密な教師なしビデオセグメンテーションのためのIn-N-Out生成学習
arxiv_reader 2022/04/12
この論文では、ラベルのないビデオから視覚的な対応（つまり、ピクセルレベルの特徴間の類似性）を学習するビデオオブジェクトセグメンテーション（VOS）の教師なし学習に焦点を当てます。以前の方法は、主に対照

arXiv

unsupervised

segmentation

video

affinity

arXiv reaDer

generative

contrastive learning

transformer
リンク
効率的な次元削減のための階層的最近傍グラフ埋め込み
arxiv_reader 2022/04/12
次元削減は、機械学習のための高次元データの視覚化と前処理の両方にとって重要です。複数のレベルでデータ分布のグループ化プロパティを保持するために使用される、元の空間の1つの最も近い隣接グラフに基づいて構

arXiv

learning

unsupervised

dataset

metric

embedding

arXiv reaDer
リンク
微生物画像分析における物体検出技術の最先端の調査：古典的な方法から深層学習アプローチまで
arxiv_reader 2022/04/12
微生物は人間の生活に重要な役割を果たしています。したがって、微生物の検出は人間にとって非常に重要です。しかし、従来の手動顕微鏡検出法には、検出サイクルが長く、大量の検出精度が低く、珍しい微生物の検出が

human

arXiv

learning

arXiv reaDer

detection

transformer
リンク
複数人の3Dポーズ推定のための順列不変関係ネットワーク
arxiv_reader 2022/04/12
単一のRGB画像から複数人の3Dポーズを復元することは、固有の2D-3D深度のあいまいさだけでなく、個人間のオクルージョンや体の切り詰めのために、深刻な悪条件の問題です。最近の作品は、異なる人々を同時

arXiv

reasoning

occlusion

3D

representation

pose estimation

dataset

arXiv reaDer

detection

transformer
リンク
人間と物体の相互作用をより適切に検出するためのカテゴリ対応トランスフォーマーネットワーク
arxiv_reader 2022/04/12
静止画像を理解するには、人間と関連するオブジェクトの相互作用を認識しながらローカライズすることを目的とした、人間とオブジェクトの相互作用（HOI）の検出が不可欠です。最近、トランスベースのモデルは、H

localization

human

arXiv

representation

attention

arXiv reaDer

detection

transformer
リンク
トークンが残されていない：説明性を利用した画像の分類と生成
arxiv_reader 2022/04/12
コンピュータビジョンにおけるゼロショット学習のアプリケーションは、画像とテキストのマッチングモデルの使用によって革命を起こしました。最も注目すべき例であるCLIPは、ゼロショット分類とテキストプロンプ

arXiv

computer vision

learning

zero-shot

classification

one-shot

arXiv reaDer

generative
リンク
ピクセルからの深層強化学習のためのVisionTransformerメソッドの評価
arxiv_reader 2022/04/12
ビジョントランスフォーマー（ViT）は最近、コンピュータービジョン用のトランスフォーマーアーキテクチャの重要な可能性を実証しました。標準の畳み込みニューラルネットワーク（CNN）アーキテクチャと比較し

arXiv

computer vision

reinforcement learning

self-supervised

CNN

arXiv reaDer

contrastive learning

transformer
リンク
紛らわしい画質評価：より良い拡張現実体験に向けて
arxiv_reader 2022/04/12
マルチメディア技術の開発により、拡張現実（AR）は有望な次世代モバイルプラットフォームになりました。 ARの主な価値は、デジタルコンテンツと実世界の環境の融合を促進することですが、この融合がこれら2つ

arXiv reaDer

augmentation

metric

arXiv
リンク
弱教師ありセマンティックセグメンテーションとオブジェクトローカリゼーションのための反敵対的に操作された帰属
arxiv_reader 2022/04/12
クラスラベルから正確なピクセルレベルのローカリゼーションを取得することは、弱く監視されたセマンティックセグメンテーションとオブジェクトのローカリゼーションにおける重要なプロセスです。訓練された分類器か

adversarial

localization

arXiv

semi-supervised

semantic segmentation

classification

dataset

regularization

arXiv reaDer

weakly-supervised
リンク
ディープセンサーフュージョンモデルの敵対的ロバスト性
arxiv_reader 2022/04/12
自動運転における2Dオブジェクト検出のためのディープカメラ-LiDARフュージョンアーキテクチャの堅牢性を実験的に研究します。まず、融合モデルは通常、単一センサーのディープニューラルネットワークよりも

adversarial

arXiv

autonomous driving

arXiv reaDer

detection
リンク
屋内家具レイアウト生成のための構造化グラフ変分オートエンコーダ
arxiv_reader 2022/04/12
屋内3Dシーンのレイアウトを生成するための構造化グラフ変分オートエンコーダーを紹介します。部屋のタイプ（たとえば、リビングルームやライブラリ）と部屋のレイアウト（たとえば、床や壁などの部屋の要素）を考

arXiv

learning

3D

dataset

pose

arXiv reaDer

generative
リンク
堅牢性と固定されていない視差検索範囲を備えた新しいステレオマッチングパイプライン
arxiv_reader 2022/04/12
ステレオマッチングはさまざまなアプリケーションにとって不可欠な基盤ですが、ほとんどのステレオマッチング方法は一般化のパフォーマンスが低く、固定された視差検索範囲を必要とします。さらに、現在のステレオマ

monocular

arXiv

3D

synthesis

arXiv reaDer

stereo
リンク
SUMD：画像ノイズ除去のためのスーパーU字型行列分解畳み込みニューラルネットワーク
arxiv_reader 2022/04/12
この論文では、画像のノイズ除去のためにローカルおよびグローバルなコンテキスト情報を活用する、斬新で効率的なCNNベースのフレームワークを提案します。畳み込み自体の制限により、CNNベースの方法では、一

denoising

arXiv

representation

dataset

synthesis

CNN

arXiv reaDer

transformer
リンク
SphereFace2：深部顔認識に必要なのは二項分類だけです
arxiv_reader 2022/04/12
最先端の深顔認識方法は、ほとんどがソフトマックスベースのマルチクラス分類フレームワークでトレーニングされています。人気があり効果的であるにもかかわらず、これらの方法には、経験的なパフォーマンスを制限す

benchmark

arXiv

representation

classification

face recognition

arXiv reaDer

loss function
リンク
PAEDID：ピクセルレベルの欠陥領域セグメンテーションのためのパッチオートエンコーダベースの深い画像分解
arxiv_reader 2022/04/12
教師なしピクセルレベルの欠陥領域のセグメンテーションは、さまざまな産業用アプリケーションの画像ベースの異常検出における重要なタスクです。最先端の方法には、独自の利点と制限があります。行列分解ベースの方

localization

anomaly detection

simulation

arXiv

unsupervised

dataset

segmentation

arXiv reaDer
リンク
Arch-Net：アーキテクチャにとらわれないモデル展開のためのモデル蒸留
arxiv_reader 2022/04/12
ディープニューラルネットワークの計算能力に対する膨大な要件は、実際のアプリケーションにとって大きなハードルです。最近の多くの特定用途向け集積回路（ASIC）チップは、ニューラルネットワークアクセラレー

arXiv

classification

distillation

quantization

embedding

arXiv reaDer

transformer
リンク
可視赤外線人物の再識別のための均質モダリティ学習とマルチグラニュラリティ情報探索に向けて
arxiv_reader 2022/04/12
可視赤外線人物の再識別（VI-ReID）は、可視および赤外線カメラビューで一連の人物画像を取得することを目的とした、やりがいのある重要なタスクです。異種画像に存在する大きなモダリティの不一致の影響を軽

person

arXiv

learning

representation

domain

re-id

dataset

GAN

arXiv reaDer
リンク
人間の物体の相互作用検出におけるトランスフォーマーのデコードパス拡張による一貫性学習
arxiv_reader 2022/04/12
人間とオブジェクトの相互作用の検出は、オブジェクトの検出と相互作用の分類を伴う全体的な視覚認識タスクです。 HOI検出の以前の作業は、サブセット予測のさまざまな構成によって対処されてきました。たとえば

human

arXiv

learning

representation

classification

augmentation

arXiv reaDer

detection

transformer
リンク
欠落したピクセルを使用した背景/前景分離のためのスムーズでロバストなテンソル完了：収束保証を備えた新しいアルゴリズム
arxiv_reader 2022/04/12
この研究の目的は、ビデオ取得、ビデオ回復、背景/前景分離を単一のフレームワークに組み合わせることにより、ピクセルが欠落している背景/前景分離の問題に対処することです。これを達成するために、データを回復

arXiv reaDer

regularization

arXiv

video
リンク
OutfitTransformer：ファッション推奨のための服装表現の学習
arxiv_reader 2022/04/12
効果的な衣装レベルの表現を学習することは、衣装内のアイテムの互換性を予測し、部分的な衣装の補完的なアイテムを取得するために重要です。提案されたタスク固有のトークンを使用し、自己注意メカニズムを活用して

arXiv

learning

representation

classification

embedding

arXiv reaDer

pre-training
リンク
DualPrompt：リハーサルのない継続的な学習のための補完的なプロンプト
arxiv_reader 2022/04/12
継続学習は、単一のモデルが壊滅的な忘却なしに一連のタスクを学習できるようにすることを目的としています。最高のパフォーマンスを発揮する方法では、通常、経験を再生するために過去の手付かずの例を保存するため

benchmark

arXiv

learning

arXiv reaDer

pre-training
リンク
SOS！自己中心的行動認識における処理されたオブジェクトのセットに対する自己監視学習
arxiv_reader 2022/04/12
ビデオデータから自己中心的な行動認識モデルを学習することは、バックグラウンドに気を散らすもの（たとえば、無関係なオブジェクト）があるために困難です。したがって、オブジェクト情報をアクションモデルにさら

arXiv

self-supervised

representation

domain

classification

dataset

action recognition

arXiv reaDer

spatio-temporal

detection
リンク
FabricFlowNet：フローベースのポリシーを使用した両手での布の操作
arxiv_reader 2022/04/12
布の変形能のために困難な作業である、目標指向の布操作の問題に対処します。私たちの洞察は、オプティカルフローは、ビデオの動きの推定に通常使用される手法であり、観察画像と目標画像全体で対応する布のポーズを

action

optical flow

arXiv

estimation

representation

pose

video

arXiv reaDer

sim-to-real
リンク
サブクラスが残されていない：粗粒度の分類問題における細粒度の堅牢性
arxiv_reader 2022/04/12
実際の分類タスクでは、各クラスは多くの場合、複数のよりきめ細かい「サブクラス」で構成されます。サブクラスラベルは頻繁に使用できないため、より粗いクラスラベルのみを使用してトレーニングされたモデルは、さ

benchmark

arXiv

classification

clustering

dataset

arXiv reaDer
リンク
DILEMMA：トランスフォーマーを使用した自己監視型の形状とテクスチャの学習
DILEMMA: Self-Supervised Shape and Texture Learning with Transf ormers 形状はオブジェクトカテゴリのより信頼性の高い指標であるため、形状バイアスのあるディープニューラルネットワークは、テクスチャバイアスのあるモデルよりも優れた一般化機能を示す可能性があるという考えが高まっています。ただし、形状バイアスの既存の測定値は一般化の安定した予測子ではないことを実験的に示し、形状の識別はテクスチャの識別を犠牲にして行われるべきではないと主張します。したがって、自己監視学習を介してトレーニングされたモデルで、形状とテクスチャの両方の識別可能性を明示的に高める疑似タスクを提案します。この目的のために、ViTをトレーニングして、どの入力トークンが誤った位置埋め込みと組み合わされているかを検出します。テクスチャの識別を維持するために、ViT
arxiv_reader 2022/04/12
形状はオブジェクトカテゴリのより信頼性の高い指標であるため、形状バイアスのあるディープニューラルネットワークは、テクスチャバイアスのあるモデルよりも優れた一般化機能を示す可能性があるという考えが高まっ

contrastive

arXiv

self-supervised

dataset

pose

pre-training

embedding

arXiv reaDer

detection

transformer
リンク
クロスビュー画像検索を超えて：衛星画像を使用した高精度の車両位置特定
Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization Using Satellite Image この論文は、地上レベルの画像を俯瞰衛星地図と照合することにより、車載カメラの位置特定の問題に対処します。既存の方法では、この問題をクロスビュー画像検索として扱い、学習した詳細な機能を使用して、地上レベルのクエリ画像を衛星地図のパーティション（小さなパッチなど）に一致させることがよくあります。これらの方法では、位置特定の精度は衛星地図の分割密度によって制限されます（多くの場合、数十メートルのオーダー）。画像検索の従来の知識から離れて、この論文は、高精度のローカリゼーションを達成することができる新しい解決策を提示します。重要なアイデアは、ポーズ推定としてタスクを定式化し、ニューラルネットベースの最適化によって
arxiv_reader 2022/04/12
この論文は、地上レベルの画像を俯瞰衛星地図と照合することにより、車載カメラの位置特定の問題に対処します。既存の方法では、この問題をクロスビュー画像検索として扱い、学習した詳細な機能を使用して、地上レベ

localization

arXiv

differentiable

domain

pose estimation

dataset

CNN

satellite

arXiv reaDer

vehicle
リンク
SingleSketch2Mesh：Sketchから3Dメッシュモデルを生成する
arxiv_reader 2022/04/12
スケッチは、あらゆる設計プロセスにおいて重要な活動です。デザイナーと利害関係者は、手描きのスケッチを通じてアイデアを共有します。これらのスケッチは、3Dモデルを作成するためにさらに使用されます。スケッ

arXiv

mesh

3D

arXiv reaDer

activity

generative
リンク
CholecTriplet2021：外科的アクショントリプレット認識のベンチマークチャレンジ
arxiv_reader 2022/04/12
手術室での状況に応じた意思決定支援は、手術ワークフロー分析からのリアルタイムのフィードバックを活用することにより、手術の安全性と効率を高めることができます。ほとんどの既存の作品は、フェーズ、ステップ、

benchmark

action

arXiv

learning

dataset

real time

video

arXiv reaDer

activity
リンク
堅牢な偽造検出のための自己監視による実際の会話の顔の活用
arxiv_reader 2022/04/12
顔を操作したビデオを検出するための最も差し迫った課題の1つは、圧縮などの一般的な破損の下で効果を維持しながら、トレーニング中には見られない偽造方法に一般化することです。この論文では、自然な顔の外観と行

compression

arXiv

self-supervised

representation

face

classification

video

arXiv reaDer

detection
リンク
マルチモーダルドライバーの行動を理解するための意思決定レベルの融合の比較分析
arxiv_reader 2022/04/12
車室内の視覚認識は、より安全な運転とより直感的な人と車の相互作用につながりますが、そのようなシステムは、非常に限られた身体の視界と変化する照明に対処しながら、ドライバーの行動のさまざまな粒度をキャプチ

benchmark

arXiv

face

arXiv reaDer

vehicle
リンク
監視による画像ピクセルとセマンティクス間のギャップの橋渡し：調査
arxiv_reader 2022/04/12
低レベルの機能と画像のセマンティックな意味の間にセマンティックギャップと呼ばれるギャップが存在するという事実は、何十年も前から知られています。セマンティックギャップの解決は、長年の問題です。セマンティ

arXiv

metric learning

domain

dataset

arXiv reaDer

detection
リンク
https://arxiv-check-250201.firebaseapp.com/each/2204.04730v2
arxiv_reader 2022/04/12
個々の2Dフレームから非剛体の形状とカメラのポーズを直接回帰することは、非剛体の運動からの構造（NRSfM）の問題には適していません。このフレームごとの3D再構成パイプラインは、NRSfMに固有の時空

arXiv

3D

reconstruction

dataset

pose

attention

arXiv reaDer

seq2seq
リンク
TOV：自己監視学習による光学リモートセンシング画像理解のためのオリジナルビジョンモデル
arxiv_reader 2022/04/12
ラベルフリーでタスクに依存しない方法で人間の視覚を使用するのではなく、教師ありデータに依存する方法とタスクに依存する方法でモデルをトレーニングすることにより、リモートセンシング画像理解（RSIU）を正

benchmark

human

arXiv

semantic segmentation

self-supervised

learning

classification

arXiv reaDer

detection
リンク
地域の参照を一致させることによる画像の調和
arxiv_reader 2022/04/12
合成画像の視覚的な一貫性を実現するために、最近の画像調和方法は通常、グローバルな背景の外観パターンを要約し、場所の不一致なしにグローバルな前景に適用します。ただし、実際の画像の場合、さまざまな領域の外

arXiv reaDer

reconstruction

residual

arXiv
リンク
RNNPose：ロバストな対応フィールド推定とポーズ最適化による反復6DoFオブジェクトポーズの改良
arxiv_reader 2022/04/12
単眼画像からの6-DoFオブジェクトのポーズ推定は困難であり、高精度の推定には一般に後精密化手順が必要です。本論文では、オブジェクトポーズの改良のためのリカレントニューラルネットワーク（RNN）に基づ

monocular

arXiv

differentiable

RNN

3D

pose estimation

dataset

arXiv reaDer

occlusion
リンク
農業における画像拡張のための生成的敵対的ネットワーク：系統的レビュー
arxiv_reader 2022/04/12
農業画像分析では、生物学的変動性と非構造化環境の課題が存在する場合に、視覚認識タスク（画像分類、セグメンテーション、オブジェクト検出、ローカリゼーションなど）をより適切に実行するために、最適なモデルパ

localization

arXiv

computer vision

classification

GAN

segmentation

augmentation

arXiv reaDer

detection
リンク
グレイウルフ最適化（GWO）を使用した効率的なパターンマイニング畳み込みニューラルネットワーク（CNN）アルゴリズム
An Efficient Pattern Mining Convolution Neural Network (CNN) algorithm with Grey Wolf Optimization (GWO) 動的画像フレームデータセットの特徴分析の自動化は、正常クラスと異常クラスの強度マッピングの複雑さに対処します。しきい値ベースのデータクラスタリングと特徴分析では、さまざまな画像フレームデータタイプのマルチパターンで画像フレームのコンポーネントを学習するための反復モデルが必要です。この論文は、グレイウルフ最適化（ＧＷＯ）アルゴリズムによって最適化されたウェーブレット変換の畳み込みパターン（ＣＰＷＴ）特徴ベクトルに基づくＣＮＮを用いた特徴分析法の新しいモデルを提案した。最初に、画像フレームは、ノイズを低減し、それに平滑化を適用するメディアンフィルターを画像フレームに適用することによって正
arxiv_reader 2022/04/12
動的画像フレームデータセットの特徴分析の自動化は、正常クラスと異常クラスの強度マッピングの複雑さに対処します。しきい値ベースのデータクラスタリングと特徴分析では、さまざまな画像フレームデータタイプのマ

action

arXiv

learning

classification

clustering

dataset

CNN

arXiv reaDer
リンク
高速MRI用のSwinTransformer
arxiv_reader 2022/04/12
磁気共鳴画像法（MRI）は、高解像度で再現性のある画像を生成できる重要な非侵襲的臨床ツールです。しかし、高品質のMR画像には長いスキャン時間が必要であり、患者の倦怠感や不快感を引き起こし、患者の自発的

benchmark

arXiv

reconstruction

convolutional

segmentation

MRI

arXiv reaDer

residual

transformer
リンク
小型量子コンピューター上のハイパースペクトル画像のコアセット
arxiv_reader 2022/04/12
機械学習（ML）手法は、大きなリモートセンシング（RS）データを分析および処理するために使用され、よく知られているML手法の1つは、サポートベクターマシン（SVM）です。 SVMは二次計画法（QP）の

arXiv

learning

dataset

SVM

arXiv reaDer
リンク
ゼロショット学習のための意味論的に接地された視覚的埋め込み
arxiv_reader 2022/04/12
ゼロショット学習方法は、独立した視覚モデルと言語モデルから抽出された固定の視覚的および意味的埋め込みに依存しており、どちらも他の大規模なタスク用に事前にトレーニングされています。これは、現在のゼロショ

benchmark

arXiv

learning

zero-shot

representation

dataset

embedding

arXiv reaDer

pre-training
リンク
差別化可能なアーキテクチャ検索の堅牢性、効率性、多様性の強化
arxiv_reader 2022/04/12
微分可能アーキテクチャ検索（DARTS）は、その単純さと効率の大幅な向上により、多くの注目を集めています。ただし、スキップ接続が過剰に蓄積されると、安定性が長期間低下し、堅牢性が低下します。多くの作品

human

arXiv

differentiable

dataset

attention

arXiv reaDer
リンク
POTHER：COVID-19検出のためのパッチ投票による深層学習ベースの胸部X線バイアス分析
arxiv_reader 2022/04/12
人々の生活に壊滅的な影響を及ぼし続けているCOVID-19との闘いにおける重要なステップは、重度のCOVID-19症状のある診療所にいる患者の効果的なスクリーニングです。胸部X線撮影は有望なスクリーニ

arXiv

learning

classification

bias

attention

explainable

arXiv reaDer

detection

pre-training

COVID-19
リンク
ビジュアルダイアログにおけるマルチストラクチャ常識知識による推論
Reasoning with Multi-Structure Commonsense Knowledge in Visual Dialog ビジュアルダイアログでは、エージェントが画像に基づいた人間と会話する必要があります。 Visual Dialogに関する多くの研究は、ダイアログの履歴や画像の内容の理解に焦点を当てていますが、常識に必要なかなりの量の質問は無視されています。これらのシナリオの処理は、常識的な事前知識を必要とする論理的推論に依存します。歴史とイメージを補完する関連する常識的な知識をどのように取り込むかは、依然として重要な課題です。本論文では、多構造常識知識（RMK）による推論による新しいモデルを提案する。私たちのモデルでは、外部の知識は文レベルのファクトとグラフレベルのファクトで表され、ダイアログの履歴と画像の合成のシナリオに適切に適合します。これらのマルチ構造表現に加え
arxiv_reader 2022/04/12
ビジュアルダイアログでは、エージェントが画像に基づいた人間と会話する必要があります。 Visual Dialogに関する多くの研究は、ダイアログの履歴や画像の内容の理解に焦点を当てていますが、常識に必

reasoning

dataset

arXiv reaDer

arXiv

representation
リンク
RGB-Dフュージョンによるスケール不変のセマンティックセグメンテーション
arxiv_reader 2022/04/12
本論文では、RGB-D画像を使用したスケール不変のセマンティックセグメンテーションのためのニューラルネットワークアーキテクチャを提案します。カラー画像のみとは別に、深度情報を追加のモダリティとして利用

semantic segmentation

RGB-D

synthesis

vehicle

dataset

arXiv reaDer

arXiv

simulation
リンク
FedCorr：ラベルノイズ補正のための多段階連合学習
arxiv_reader 2022/04/12
連合学習（FL）は、プライバシーを保護する分散学習パラダイムであり、クライアントがグローバルモデルを共同でトレーニングできるようにします。実際のFL実装では、クライアントデータにラベルノイズが含まれる

regularization

synthesis

dataset

arXiv reaDer

arXiv

learning
リンク
画像復元の簡単なベースライン
arxiv_reader 2022/04/12
最近、画像復元の分野で大きな進歩がありましたが、最先端の（SOTA）手法のシステムの複雑さも増しており、手法の便利な分析と比較を妨げる可能性があります。この論文では、SOTA法を超え、計算効率の高い単

benchmark

arXiv reaDer

denoising

arXiv
リンク
私のドライバー観察モデルは自信過剰ですか？信頼性が高く解釈可能な信頼性推定のための入力ガイド付きキャリブレーションネットワーク
私のドライバー観察モデルは自信過剰ですか？信頼性が高く解釈可能な信頼性推定のための入力ガイド付きキャリブレーションネットワーク Is my Driver Observation Model Overconfident? Input-guided Calibration Networks for Reliable and Interpretable Confidence Estimates ドライバー観察モデルが完璧な条件下で展開されることはめったにありません。実際には、照明、カメラの配置、およびタイプは、トレーニング中に存在するものとは異なり、予期しない動作がいつでも発生する可能性があります。ハンドルの後ろにいる人間を観察することは、より直感的な人間と車両の相互作用とより安全な運転につながりますが、正しいドライバーの状態を予測するだけでなく、現実的で解釈可能な信頼性測定を通じて予測品質を決
arxiv_reader 2022/04/12
ドライバー観察モデルが完璧な条件下で展開されることはめったにありません。実際には、照明、カメラの配置、およびタイプは、トレーニング中に存在するものとは異なり、予期しない動作がいつでも発生する可能性があ

human

action recognition

activity

dataset

arXiv reaDer

classification

arXiv

representation

video
リンク
NAN：バーストノイズ除去のためのノイズ認識NeRF
arxiv_reader 2022/04/12
計算写真は携帯電話や小型カメラに固有の感度の問題を克服するのに役立つため、バーストノイズ除去はこれまで以上に重要になっています。バーストノイズ除去の主な課題は、ピクセルのミスアラインメントに対処するこ

occlusion

arXiv reaDer

denoising

arXiv
リンク
線形複雑度ランダム化自己注意メカニズム
arxiv_reader 2022/04/12
最近、指数カーネルを線形化することにより、線形時間と空間の複雑さにおけるソフトマックス注意を近似するために、ランダム特徴注意（RFA）が提案されています。この論文では、最初に、RFAを自己正規化された

arXiv

approximation

domain

bias

arXiv reaDer

attention
リンク
PEDCC損失に基づく分類器での効果的な分布外検出
arxiv_reader 2022/04/12
ディープニューラルネットワークは、オープンワールドでの自信過剰の問題に悩まされています。つまり、分類器は、分布外（OOD）サンプルに対して自信を持って誤った予測を行う可能性があります。したがって、人工

detection

arXiv reaDer

OOD

arXiv
リンク
FOSTER：クラス増分学習のための機能のブースティングと圧縮
FOSTER: Feature Boosting and Compression for Class-Incremental Learning この絶え間なく変化する世界では、新しい概念を継続的に学ぶ能力が必要です。ただし、深いニューラルネットワークは、新しいカテゴリを学習するときに壊滅的な忘却に悩まされます。この現象を緩和するために多くの研究が提案されていますが、それらのほとんどは安定性と可塑性のジレンマに陥るか、計算やストレージのオーバーヘッドが多すぎます。ターゲットと現在の近似関数の間の残余を徐々に適合させる勾配ブースティングアルゴリズムに触発されて、新しい2段階学習パラダイムFOSTERを提案し、モデルが新しいカテゴリを適応的に学習できるようにします。具体的には、最初に新しいモジュールを動的に拡張して、ターゲットと元のモデルの残差に合わせます。次に、単一のバックボーンモデルを維持す
arxiv_reader 2022/04/12
この絶え間なく変化する世界では、新しい概念を継続的に学ぶ能力が必要です。ただし、深いニューラルネットワークは、新しいカテゴリを学習するときに壊滅的な忘却に悩まされます。この現象を緩和するために多くの研

approximation

distillation

compression

gradient

arXiv reaDer

arXiv

learning
リンク
ビデオ K-Net: ビデオセグメンテーションのためのシンプルで強力な統合ベースライン
arxiv_reader 2022/04/12
このホワイトペーパーでは、完全にエンドツーエンドのビデオパノラマセグメンテーションのためのシンプルで強力な統合フレームワークであるVideoK-Netを紹介します。この方法は、学習可能なカーネルのグル

semantic segmentation

dataset

panoptic segmentation

arXiv reaDer

arXiv

video
リンク
Panoptic-PartFormer：Panopticパーツセグメンテーションの統合モデルの学習
Panoptic-PartFormer: Learning a Unified Model for Panoptic Part Segmentation パノプティコンパーツセグメンテーション（PPS）は、パノプティコンセグメンテーションとパーツセグメンテーションを1つのタスクに統合することを目的としています。以前の作業では、主に分離されたアプローチを使用して、共有の計算やタスクの関連付けを実行せずに、物、物、部品の予測を個別に処理していました。この作業では、これらのタスクをアーキテクチャレベルで統合し、Panoptic-PartFormerという名前の最初のエンドツーエンドの統合メソッドを設計することを目指しています。特に、Vision Transf ormerの最近の進歩に動機付けられて、オブジェクトクエリとして物、もの、およびパーツをモデル化し、統一されたマスク予測および分類問題として
arxiv_reader 2022/04/12
パノプティコンパーツセグメンテーション（PPS）は、パノプティコンセグメンテーションとパーツセグメンテーションを1つのタスクに統合することを目的としています。以前の作業では、主に分離されたアプローチを

reasoning

transformer

panoptic segmentation

arXiv reaDer

classification

arXiv

dataset

learning
リンク
Fashionformer：人間のファッションのセグメンテーションと認識のためのシンプルで効果的で統一されたベースライン
arxiv_reader 2022/04/12
人間のファッションの理解は、実際のアプリケーションに使用できる包括的な情報を持っているため、重要なコンピュータービジョンのタスクの1つです。この作業では、人間のファッションの共同セグメンテーションと属

segmentation

computer vision

human

metric

transformer

dataset

arXiv reaDer

arXiv

representation
リンク
2020年代のカウント：深層群集カウントアプローチのためのビン化された表現と包括的パフォーマンス測定
arxiv_reader 2022/04/12
人気のある群集カウントデータセットのデータ分布は、通常、裾が重い、不連続です。このスキューは、ディープクラウドカウントアプローチのパイプライン内のすべてのステージに影響します。具体的には、これらのアプ

Bayesian

dataset

arXiv reaDer

arXiv

representation
リンク
ブロック疎構造に基づくハイパースペクトル画像のスペクトル分離
arxiv_reader 2022/04/12
ハイパースペクトル画像（HSI）のスペクトルアンミキシング（SU）は、さまざまなRSアプリケーションで注意深く対処する必要があるリモートセンシング（RS）の重要な領域の1つです。ハイパースペクトルデー

sparse

synthesis

Bayesian

arXiv reaDer

arXiv

learning
リンク
ConsInstancy：コンクリート骨材粒子の半教師ありパノプティコンセグメンテーションのための学習インスタンス表現
arxiv_reader 2022/04/12
半教師あり学習の新しい戦略であるConsInstancy正則化に基づく、半教師ありセグメンテーションの方法を紹介します。セグメンテーションのパフォーマンスを向上させるために、トレーニング中に予測インス

semantic segmentation

semi-supervised

convolutional

panoptic segmentation

arXiv reaDer

arXiv

learning

representation
リンク
スタイル転送モデルで宝くじをプレイする
arxiv_reader 2022/04/12
スタイル転送は、その柔軟なアプリケーションシナリオにより、大きな成功を収め、学術界と産業界の両方から幅広い注目を集めています。ただし、かなり大きなVGGベースのオートエンコーダに依存しているため、パラ

arXiv

sparse

pruning

compression

arXiv reaDer

attention
リンク
事前トレーニングオブジェクト検出器のための深く教師なしパッチの再識別
arxiv_reader 2022/04/12
教師なし事前トレーニングは、ダウンストリームタスクに有益な転送可能な機能を学習することを目的としています。ただし、ほとんどの最先端の教師なし手法は、識別可能なローカル領域表現ではなく、画像レベルの分類

representation learning

re-id

unsupervised

pre-training

detection

arXiv reaDer

classification

arXiv
リンク
可能な進行方向の詳細な検出による単一の360°画像からの交差点予測
arxiv_reader 2022/04/12
シミュレートされた歩行体験にユーザーを引き込むインタラクティブな一人称視点マップであるMovie-Mapは、視聴者の進行方向に応じてシームレスに接続された交差点で区切られた短い360°ビデオセグメント

segmentation

human

identification

detection

dataset

arXiv reaDer

classification

arXiv

video
リンク
InfoNeRF：少数ショットのニューラルボリュームレンダリングのためのレイエントロピー最小化
arxiv_reader 2022/04/12
ニューラル暗黙表現に基づく数ショットの新規ビュー合成のための情報理論的正則化手法を提示します。提案されたアプローチは、各光線の密度のエントロピー制約を課すことにより、不十分な視点によって発生する可能性

reconstruction

regularization

synthesis

few-shot

benchmark

arXiv reaDer

arXiv

representation
リンク
Stripformer：高速画像ぼけ除去のためのStrip Transformer
arxiv_reader 2022/04/12
動的なシーンで撮影された画像には、不要なモーションブラーが含まれている可能性があり、これにより視覚品質が大幅に低下します。このようなぼけは、短距離および長距離の領域固有の平滑化アーティファクトを引き起

arXiv

computer vision

transformer

arXiv reaDer

attention
リンク
顔体および時空間関連クラスタリングによる教師なしマンガキャラクターの再識別
arxiv_reader 2022/04/12
ここ数年、e-マンガ（電子漫画）が劇的に成長しました。マンガ研究に対する需要の高まりと大量のラベルなしマンガデータに直面して、教師なしマンガキャラクターの再識別と呼ばれる新しいタスクを提起しました。し

re-id

unsupervised

pose

clustering

dataset

arXiv reaDer

arXiv
リンク
時系列における主要な曲線ベースの分類器と類似性ベースの選択的サンプリングについて
arxiv_reader 2022/04/12
時間の遅れの概念を考えると、再発性神経構造にはいくつかの大きな問題があります。入力データポイント間の時間スパンの変動は、リカレントニューラルネットワークアーキテクチャのパフォーマンスの減衰を引き起こし

arXiv reaDer

RNN

arXiv
リンク
ビデオハイライト検出のためのピクセルレベルの区別の学習
arxiv_reader 2022/04/12
ビデオハイライト検出の目的は、長いビデオから最も魅力的なセグメントを選択して、ビデオの最も興味深い部分を描写することです。既存の方法は通常、これらのセグメントにハイライトスコアを割り当てることができる

saliency

CNN

detection

benchmark

arXiv reaDer

arXiv

learning

3D

video
リンク
動きと対照的な知覚による自己監視ビデオ表現学習
arxiv_reader 2022/04/12
視覚のみの自己監視学習は、ビデオ表現学習の大幅な改善を達成しました。既存の関連する方法は、対照的な学習を利用するか、特定の口実タスクを設計することによって、モデルがビデオ表現を学習することを奨励します

representation learning

contrastive learning

benchmark

arXiv reaDer

residual

arXiv

dataset

self-supervised

video
リンク
潜在的視覚意味フィルター注意による深い畳み込みニューラルネットワークの説明
arxiv_reader 2022/04/12
解釈可能性は、研究者やユーザーが複雑なモデルの内部メカニズムを理解するのに役立つため、視覚モデルにとって重要な特性です。ただし、学習した表現に関する意味論的説明を生成することは、そのような説明を生成す

arXiv

unsupervised

domain

bias

CNN

dataset

arXiv reaDer

attention

representation
リンク
GEB +：一般的なイベント境界のキャプション、グラウンディング、テキストベースの検索のベンチマーク
arxiv_reader 2022/04/12
認知科学は、人間が支配的な主題の状態変化によって分離されたイベントの観点からビデオを知覚することを示しています。状態の変化は新しいイベントをトリガーし、認識される大量の冗長な情報の中で最も有用なものの

localization

benchmark

arXiv reaDer

dataset

arXiv

captioning

representation

video
リンク
LTD：堅牢な敵対的訓練のための低温蒸留
arxiv_reader 2022/04/12
敵対的トレーニングは、敵対的攻撃に対するニューラルネットワークモデルの堅牢性を強化するために広く使用されています。ただし、自然の精度と堅牢な精度の間には、依然として顕著なギャップがあります。その理由の

dataset

adversarial

arXiv reaDer

arXiv

knowledge distillation

learning
リンク
形状とランドマークを使用した機能データのデータ駆動型のソフトアラインメント
arxiv_reader 2022/04/12
関数の位置合わせまたは登録は、関数と形状の統計分析における基本的な問題です。利用可能なアプローチはいくつかありますが、Fisher-Raoメトリックおよび平方根速度関数（SRVF）に基づく最近のアプロ

landmark

metric

arXiv reaDer

arXiv
リンク
プログレッシブ自己蒸留によるロバストなクロスモーダル表現学習
arxiv_reader 2022/04/12
CLIPの視覚言語アプローチの学習目標は、Webで収集された画像キャプションデータセットに見られるノイズの多い多対多の対応を効果的に説明しておらず、計算とデータの非効率性に寄与しています。この課題に対

representation learning

contrastive learning

zero-shot

benchmark

arXiv reaDer

classification

arXiv

dataset

captioning
リンク
同時分布の問題：少数ショット分類のためのディープブラウン距離共分散
arxiv_reader 2022/04/12
新しいタスクごとに提供されるトレーニング例はごくわずかであるため、少数のショットの分類は困難な問題です。この課題に対処するための効果的な研究ラインの1つは、クエリ画像といくつかのクラスのいくつかのサポ

metric

embedding

few-shot

benchmark

arXiv reaDer

classification

arXiv

learning

representation
リンク
看護活動認識のためのマルチモーダルトランスフォーマー
arxiv_reader 2022/04/12
高齢化社会では、高齢者の患者の安全が病院やナーシングホームの主な関心事であり、看護師のケアを強化する必要があります。看護師の活動認識を行うことで、すべての患者が平等に希望するケアを受けられるようにする

transformer

activity

dataset

benchmark

arXiv reaDer

arXiv
リンク
高速モーションエスティメーションのための適応検索エリア
この論文は、ブロックマッチングに基づく動き推定アルゴリズムの探索領域を決定するための新しい方法を提案した。探索領域は、フレームブロックごとに提案された方法で適応的に見つけられます。この検索領域は、完全検索（FS）アルゴリズムの検索領域と似ていますが、フレームのほとんどのブロックで小さくなっています。したがって、提案されたアルゴリズムは、規則性の点でFSに類似していますが、計算の複雑さははるかに少なくなります。ブロックのモーションベクトル間の時間的および空間的相関は、検索領域を見つけるために使用されます。一致したブロックは、予測ベクトルが設定した長方形の領域から選択されます。シミュレーション結果は、提案されたアルゴリズムの速度がFSアルゴリズムより少なくとも7倍優れていることを示しています。 This paper suggests a new method for determining t
arxiv_reader 2022/04/12
この論文は、ブロックマッチングに基づく動き推定アルゴリズムの探索領域を決定するための新しい方法を提案した。探索領域は、フレームブロックごとに提案された方法で適応的に見つけられます。この検索領域は、完全

estimation

arXiv reaDer

simulation

arXiv
リンク
独自の潜在性をブートストラップすることによるロバストな表現学習のための自己ラベリングの改良
arxiv_reader 2022/04/12
この作業では、2つの主要な目標に向けて取り組んできました。まず、Bootstrap Your Own Latent（BYOL）と呼ばれる非対照表現学習フレームワークにおけるバッチ正規化（BN）レイヤー

representation learning

loss function

dataset

arXiv reaDer

arXiv
リンク
CNNフィルターDB：トレーニングされた畳み込みフィルターの経験的調査
arxiv_reader 2022/04/12
現在、畳み込みニューラルネットワーク（CNN）の転送可能性と堅牢性に関する多くの理論的および実際的に関連する質問は未解決のままです。進行中の研究努力はさまざまな角度からこれらの問題に取り組んでいますが

computer vision

pre-training

CNN

dataset

arXiv reaDer

arXiv
リンク
離散コサイン変換に基づく調和畳み込みネットワーク
arxiv_reader 2022/04/12
畳み込みニューラルネットワーク（CNN）は、特徴空間の局所的な相関パターンをキャプチャするためにフィルターを学習します。これらのフィルターを、離散コサイン変換（DCT）によって定義されたプリセットスペ

semantic segmentation

domain

CNN

detection

arXiv reaDer

classification

arXiv
リンク
画像分類ニューラルネットワークのための知識のないブラックボックス透かしと所有権の証明
arxiv_reader 2022/04/12
透かしは、ディープニューラルネットワークの所有権検証と知的財産保護の有望な候補になりました。画像分類ニューラルネットワークに関しては、現在の透かし方式は一律にバックドアトリガーに頼っています。ただし、

distillation

dataset

arXiv reaDer

classification

arXiv
リンク
不確実性に基づく深層学習モデルにより、デジタル組織病理学の信頼性の高い予測が可能になります
arxiv_reader 2022/04/12
独自の予測の不確実性を表現するモデルの能力は、計算バイオマーカーが実際の医療環境に展開されるときに、臨床ユーザーの信頼を維持するための重要な属性です。癌のデジタル組織病理学の領域では、スライド全体の画

arXiv

unsupervised

domain

dataset

arXiv reaDer

OOD

learning
リンク
ディープフェイクモデル認識の活用について
arxiv_reader 2022/04/12
生成的敵対的ネットワーク（GAN）の最近の進歩にもかかわらず、ディープフェイク現象に特に焦点を当てると、説明可能性や関連モデルの認識の観点からも明確な理解はありません。特に、同じ生成アーキテクチャ（S

deepfake

metric

GAN

identification

arXiv reaDer

classification

arXiv
リンク
DeepLIIF：臨床病理学スライドの定量化のためのオンラインプラットフォーム
DeepLIIF: An Online Platform for Quantification of Clinical Pathology Slides クリニックでは、切除された組織サンプルがヘマトキシリン・エオジン（H＆E）および/または免疫組織化学（IHC）染色で染色され、スライドガラス上または疾患の進行の診断と評価のためのデジタルスキャンとして病理学者に提示されます。 IHCタンパク質発現スコアリングなどの細胞レベルの定量化は、非常に非効率的で主観的なものになる可能性があります。効率的で再現性のあるIHCスコアリングのための最初の無料オンラインプラットフォームであるDeepLIIF（https://deepliif.org）を紹介します。 DeepLIIFは、より有益な多重免疫蛍光染色で臨床IHCスライドを仮想的に再染色することにより、現在の最先端のアプローチ（手動のエラーが発生し
arxiv_reader 2022/04/12
クリニックでは、切除された組織サンプルがヘマトキシリン・エオジン（H＆E）および/または免疫組織化学（IHC）染色で染色され、スライドガラス上または疾患の進行の診断と評価のためのデジタルスキャンとして

arXiv reaDer

arXiv
リンク
S4OD：単一ステージのオブジェクト検出のための半教師あり学習
S4OD: Semi-Supervised learning for Single-Stage Object Detection 一段式検出器は前景と背景のクラスの極端な不均衡に悩まされますが、二段式検出器はそうではありません。したがって、半教師あり物体検出では、分類スコアに基づいて高品質の疑似ラベルを選択するだけで、2段階の検出器が優れたパフォーマンスを発揮します。ただし、この戦略を単段検出器に直接適用すると、正のサンプルが少なくなり、クラスの不均衡が悪化します。したがって、単段検出器は、疑似ラベルの質と量の両方を同時に考慮する必要があります。この論文では、分類ブランチで動的自己適応しきい値（DSAT）戦略を設計します。これにより、疑似ラベルを自動的に選択して、品質と量の間の最適なトレードオフを実現できます。さらに、単段検出器の疑似ラベルの回帰品質を評価するために、非最大抑制に基づいてボ
arxiv_reader 2022/04/12
一段式検出器は前景と背景のクラスの極端な不均衡に悩まされますが、二段式検出器はそうではありません。したがって、半教師あり物体検出では、分類スコアに基づいて高品質の疑似ラベルを選択するだけで、2段階の検

semi-supervised

detection

arXiv reaDer

classification

arXiv

anchor free

learning
リンク
https://arxiv-check-250201.firebaseapp.com/each/2204.04466v2
arxiv_reader 2022/04/12
医用超音波イメージングは、信頼性が高く解釈可能な画像再構成を提供するために、高品質の信号処理アルゴリズムに大きく依存しています。多くの場合、基礎となる測定モデルの近似に基づく手作りの再構成法は、実際に

approximation

reconstruction

domain

arXiv reaDer

arXiv

learning
リンク
A3CLNN：マルチソースリモートセンシングデータ分類のための空間、スペクトル、マルチスケール注意ConvLSTMニューラルネットワーク
A3CLNN：マルチソースリモートセンシングデータ分類のための空間、スペクトル、マルチスケール注意ConvLSTMニューラルネットワーク A3CLNN: Spatial, Spectral and Multiscale Attention ConvLSTM Neural Network for Multisource Remote Sensing Data Classification 複数のデータソースの情報を効果的に活用するという問題は、リモートセンシングにおいて、関連性はあるものの挑戦的な研究トピックになっています。この論文では、ハイパースペクトル画像（HSI）と光検出および測距（LiDAR）データという2つのデータソースの相補性を活用するための新しいアプローチを提案します。具体的には、マルチソースリモートセンシングデータの特徴抽出と分類のために、新しいデュアルチャネル空間、スペクト
arxiv_reader 2022/04/12
複数のデータソースの情報を効果的に活用するという問題は、リモートセンシングにおいて、関連性はあるものの挑戦的な研究トピックになっています。この論文では、ハイパースペクトル画像（HSI）と光検出および測

arXiv

transfer learning

convolutional

detection

LiDAR

arXiv reaDer

classification

attention

representation
リンク
時空間トラフィック図の改良：多重線形回帰モデル
arxiv_reader 2022/04/12
時空間セルのトラフィック状態を色で表示する時空間トラフィック（TS）ダイアグラムは、最も重要なトラフィック分析および視覚化ツールの1つです。輸送の研究とエンジニアリングにとって重要であるにもかかわらず

arXiv reaDer

arXiv
リンク
中心窩レンダリングのためのノイズベースの拡張
arxiv_reader 2022/04/12
空間の詳細に対する人間の視覚的感度は、周辺に向かって低下します。新しい画像合成技術、いわゆる中心窩レンダリングは、この観察結果を活用し、周辺の合成画像の空間分解能を低下させ、生成にコストがかかるが視聴

human

real time

synthesis

arXiv reaDer

arXiv
リンク
PredRNN：時空間予測学習のためのリカレントニューラルネットワーク
arxiv_reader 2022/04/12
時空間シーケンスの予測学習は、視覚的ダイナミクスが構成サブシステムで学習できるモジュール構造を持っていると考えられている歴史的文脈から学習することによって、将来の画像を生成することを目的としています。

seq2seq

LSTM

dataset

arXiv reaDer

arXiv

learning

representation

RNN
リンク
サブアパーチャ分解によるガイド付きディープラーニング：SAR画像からの海洋パターン
arxiv_reader 2022/04/12
宇宙搭載合成開口レーダーは、ほぼすべての気象条件で、昼夜を問わず海面の粗さのメートルスケールの画像を提供できます。これにより、多くの地球物理学アプリケーションにとってユニークな資産になります。 Sen

arXiv

segmentation

synthesis

arXiv reaDer

unsupervised

learning
リンク
HSTR-Net：広域監視のための高時空間分解能ビデオ生成
arxiv_reader 2022/04/12
広域監視には多くの用途があり、観測対象の追跡は重要なタスクであり、精度を高めるために高時空間分解能（HSTR）ビデオが必要になることがよくあります。このペーパーでは、参照ベースの超解像（RefSR）の

reconstruction

estimation

metric

tracking

spatio-temporal

arXiv reaDer

optical flow

arXiv

video
リンク
クリーンな注釈付きのMSR-ビデオからテキストへのデータセット
arxiv_reader 2022/04/12
ビデオキャプションは、ビデオコンテンツの簡単な説明を、通常は1つの文の形式で自動的に生成します。この課題を解決するために多くの方法が提案されてきた。 MSR Video to Text（MSR-VTT

human

metric

pose

benchmark

arXiv reaDer

dataset

arXiv

learning

captioning

video
リンク
ManiTrans：トークンごとのセマンティックアラインメントと生成によるエンティティレベルのテキストガイド付き画像操作
arxiv_reader 2022/04/12
既存のテキストガイド付き画像操作方法は、画像の外観を変更したり、仮想または単純なシナリオでいくつかのオブジェクトを編集したりすることを目的としていますが、これは実際のアプリケーションにはほど遠いもので

synthesis

dataset

arXiv reaDer

arXiv
リンク
高速で通信効率の高い連合学習のための適応型差動フィルター
arxiv_reader 2022/04/12
連合学習（FL）シナリオは、クライアントとサーバー間でニューラルネットワークの更新を頻繁に送信することにより、本質的に大きな通信オーバーヘッドを生成します。通信コストを最小限に抑えるために、差分更新と

sparse

computer vision

compression

domain

convolutional

arXiv reaDer

arXiv

learning
リンク
オブジェクトナビゲーションのための偏りのない有向オブジェクト注意グラフ
Unbiased Directed Object Attention Graph for Object Navigation オブジェクトナビゲーションタスクでは、エージェントが視覚情報に基づいて未知の環境で特定のオブジェクトを見つける必要があります。以前は、グラフの畳み込みを使用して、オブジェクト間の関係を暗黙的に調査していました。ただし、オブジェクト間の可視性の違いにより、オブジェクトの注意にバイアスが発生しやすくなります。したがって、この論文では、オブジェクト間の注意関係を明示的に学習する際にエージェントをガイドするための有向オブジェクト注意（DOA）グラフを提案し、それによってオブジェクトの注意バイアスを低減します。特に、DOAグラフを使用して、オブジェクトの特徴に対してバイアスのない適応オブジェクト注意（UAOA）を実行し、生の画像に対してバイアスのない適応画像注意（UAIA）を
arxiv_reader 2022/04/12
オブジェクトナビゲーションタスクでは、エージェントが視覚情報に基づいて未知の環境で特定のオブジェクトを見つける必要があります。以前は、グラフの畳み込みを使用して、オブジェクト間の関係を暗黙的に調査して

arXiv

action

bias

convolutional

dataset

arXiv reaDer

attention

learning
リンク
半教師ありアプローチを使用した衛星画像からの一時的なスラムのマッピング
arxiv_reader 2022/04/12
世界中で10億人がスラムに住んでいると推定されており、これらの地域の文書化と分析は困難な作業です。通常のスラム街と比較して;一時的なスラムの小さく、散在し、一時的な性質により、データの収集とラベル付け

representation learning

semantic segmentation

semi-supervised

embedding

detection

dataset

arXiv reaDer

arXiv

satellite
リンク
E ^ 2TAD：エネルギー効率の高い追跡ベースのアクション検出器
ビデオアクション検出（時空間アクションローカリゼーション）は、通常、今日のビデオの人間中心のインテリジェント分析の開始点です。 Faster R-CNNの2段階のパラダイムは、オブジェクト検出におけるビデオアクション検出の標準パラダイムを刺激します。つまり、最初に人物の提案を生成し、次にアクションを分類します。。ただし、既存のソリューションはどれも、「誰が、いつ、どこで、何を」レベルまで、きめ細かいアクション検出を提供できませんでした。このホワイトペーパーでは、事前定義されたキーアクションを空間的（関連するターゲットIDと場所を予測することにより）および時間的（正確なフレームインデックスで時間を予測することにより）に正確かつ効率的にローカライズするための追跡ベースのソリューションを紹介します。このソリューションは、2021年の低電力コンピュータビジョンチャレンジ（LPCVC）のUAVビデ
arxiv_reader 2022/04/12
ビデオアクション検出（時空間アクションローカリゼーション）は、通常、今日のビデオの人間中心のインテリジェント分析の開始点です。 Faster R-CNNの2段階のパラダイムは、オブジェクト検出における

computer vision

action

localization

detection

spatio-temporal

arXiv reaDer

person

arXiv

video

R-CNN
リンク
mc-BEiT：画像BERT事前トレーニングのための複数選択の離散化
arxiv_reader 2022/04/12
マスクされた画像モデリング（MIM）を使用したImage BERTの事前トレーニングは、自己監視表現学習に対処するための一般的な方法になります。独創的な作品であるBEiTは、MIMを視覚的な語彙を使用

representation learning

semantic segmentation

pre-training

BERT

detection

arXiv reaDer

classification

arXiv

self-supervised
リンク
低コストで効率的なマラリア検出に向けて
arxiv_reader 2022/04/12
致命的であるが治癒可能な病気であるマラリアは、毎年数十万人の命を奪っています。健康の複雑さを回避するには、早期かつ正確な診断が不可欠ですが、血液塗抹標本のスライドを分析するための高価な顕微鏡と訓練を受

arXiv

localization

detection

dataset

arXiv reaDer

classification

domain adaptation
リンク
ラベルからプロトタイプへの学習によるオープンセットテキスト認識に向けて
arxiv_reader 2022/04/12
シーンテキスト認識は人気のあるトピックであり、業界で広く使用されています。多くの方法は、クローズセットのテキスト認識の課題に対して十分なパフォーマンスを達成していますが、これらの方法は、データの収集や

arXiv

zero-shot

dataset

arXiv reaDer

learning
リンク
ハイパースペクトル画像の超解像に向けたデュアルステージアプローチ
arxiv_reader 2022/04/12
ハイパースペクトル画像は、空間分解能を犠牲にして高いスペクトル分解能を生成します。スペクトル分解能を下げることなく、空間領域の分解能を向上させることは非常に難しい問題です。ハイパースペクトル画像が広い

reconstruction

action

domain

arXiv reaDer

arXiv

super-resolution
リンク
発散を意識した連合自己監視学習
arxiv_reader 2022/04/12
自己監視学習（SSL）は、一元的に利用可能なデータから注目に値する表現を学習することができます。最近の研究では、SSLを使用した連合学習をさらに実装して、プライバシーの制約から生じることが多い、急速に

arXiv

arXiv reaDer

attention

learning

representation

self-supervised
リンク
最悪の場合のトレーニングの2つの側面とドメイン外の一般化のための統合効果
arxiv_reader 2022/04/12
データの「習得が難しい」コンポーネントに重点を置いたトレーニングは、特に堅牢性（たとえば、分布全体の一般化）が重視される設定で、機械学習モデルの一般化を改善する効果的な方法として証明されています。この

learning

benchmark

arXiv reaDer

arXiv
リンク
顔認識のためのフェデレーション教師なしドメイン適応
arxiv_reader 2022/04/12
ソースドメインのラベル付きデータを考えると、教師なしドメインの適応は、データ分布が異なるターゲットドメインのラベルなしデータのモデルを一般化するために広く採用されています。ただし、既存の作品は、ドメイ

unsupervised

metric

face recognition

clustering

benchmark

arXiv reaDer

domain adaptation

arXiv

learning
リンク
社会的クラスター行動研究のための屋内および屋外シーンにおけるアリのコロニーの運動軌跡のデータセット
arxiv_reader 2022/04/12
社会性昆虫（アリなど）の動きと相互作用は、クラスター化のメカニズムを理解するために多くの研究者によって研究されてきました。アリの行動の分野でのほとんどの研究は、屋内環境にのみ焦点を当てていますが、屋外

identification

clustering

dataset

arXiv reaDer

arXiv

video
リンク
3DMMを超えて：忠実度の高い3D顔の形をキャプチャする方法を学ぶ
arxiv_reader 2022/04/12
3D Morphable Model（3DMM）フィッティングは、その強力な3Dアプリオリにより、顔の分析に広くメリットをもたらしています。ただし、以前に再構築された3D面は、不十分なグラウンドトゥル

augmentation

reconstruction

RGB-D

pose

representation

arXiv reaDer

person

arXiv

face

3D
リンク
3Dシーンストリーミングと手の相互作用を備えたARを介したロボット手術リモートメンタリング
arxiv_reader 2022/04/12
ロボット手術の人気が高まるにつれ、教育はますます重要になり、患者の安全のために緊急に必要とされています。しかし、経験豊富な外科医は、忙しい臨床スケジュールや遠方の都市で働くためにアクセスが制限されてい

augmentation

stereo

gesture

robot

arXiv reaDer

arXiv

3D

video
リンク
量子化を意識したトレーニングにおけるチャネル剪定：適応射影勾配降下収縮分割法
arxiv_reader 2022/04/12
ペナルティベースのチャネル剪定を量子化認識トレーニング（QAT）に統合するために、適応型投影勾配降下収縮分割法（APGDSSM）を提案します。 APGDSSMは、量子化された部分空間とスパースな部分空

sparse

pruning

compression

arXiv reaDer

arXiv

quantization
リンク
セマンティックセグメンテーションのための注意誘導グローバルエンハンスメントとローカルリファインメントネットワーク
arxiv_reader 2022/04/12
エンコーダ-デコーダアーキテクチャは、軽量のセマンティックセグメンテーションネットワークとして広く使用されています。ただし、2つの主要な問題について、適切に設計されたDilated-FCNモデルと比較

arXiv

semantic segmentation

dataset

arXiv reaDer

attention
リンク
場所を超えたセグメンテーション：衛星画像を使用した公正な転送学習の必要性
arxiv_reader 2022/04/12
高解像度の衛星画像の利用可能性が高まったことで、機械学習を使用して土地被覆の測定をサポートし、政策立案に情報を提供できるようになりました。ただし、衛星画像のラベル付けは費用がかかり、一部の場所でしか利

segmentation

unsupervised

metric

transfer learning

benchmark

arXiv reaDer

domain adaptation

arXiv

satellite
リンク
MMChat：ソーシャルメディア上のマルチモーダルチャットデータセット
arxiv_reader 2022/04/12
マルチモーダルコンテキストを会話に組み込むことは、より魅力的な対話システムを開発するための重要なステップです。この作業では、MMChatを紹介することにより、この方向性を探ります。大規模な中国語のマル

arXiv

dataset

benchmark

arXiv reaDer

attention
リンク
医療画像解析における深層学習の最近の進歩と臨床応用
arxiv_reader 2022/04/12
ディープラーニングは、新しい医用画像処理アルゴリズムの開発に幅広い研究関心を集めており、ディープラーニングベースのモデルは、疾患の検出と診断をサポートするさまざまな医用画像タスクで非常に成功しています

segmentation

unsupervised

semi-supervised

detection

dataset

arXiv reaDer

classification

arXiv

learning
リンク
視覚障害者からの視覚的質問に対する根拠となる回答
arxiv_reader 2022/04/12
視覚的な質問応答は、画像に関する質問に答えるタスクです。 VizWiz-VQA-Groundingデータセットを紹介します。これは、視覚障害を持つ人々からの視覚的な質問への回答を視覚的に根拠付ける最初

dataset

arXiv reaDer

VQA

arXiv
リンク
NODEO：変形可能な画像レジストレーションのためのニューラル常微分方程式ベースの最適化フレームワーク
arxiv_reader 2022/04/12
画像間の空間的対応を見つけることを目的とした変形可能画像レジストレーション（DIR）は、医療画像分析の分野で最も重大な問題の1つです。この論文では、ニューラル常微分方程式（NODE）を利用する、新規で

metric

domain

benchmark

arXiv reaDer

arXiv

trajectory

3D
リンク
https://arxiv-check-250201.firebaseapp.com/each/2204.04297v2
arxiv_reader 2022/04/12
ニューラルネットワークは、継続的なオンライン学習中にデータ分布が非定常である場合、壊滅的な忘却に対して脆弱です。後のタスクを学ぶと、前のタスクを忘れてしまうことがよくあります。 1つのソリューションア

arXiv

real time

arXiv reaDer

learning

attention
リンク
数値標高モデル（DEM）融合の系統的レビューとメタ分析：前処理、方法、およびアプリケーション
A systematic review and meta-analysis of Digital Elevation Model (DEM) fusion: pre-processing, methods and applications リモートセンシングコミュニティは、データ融合を21世紀の重要な挑戦的なトピックの1つとして特定しました。 2次元（2D）空間での画像融合の主題は、いくつかの公開されたレビューで取り上げられています。ただし、2.5D / 3D数値標高モデル（DEM）フュージョンの特殊なケースは、これまで対処されていません。 DEM融合は、リモートセンシングにおけるデータ融合の重要なアプリケーションです。マルチソースDEMの補完的な特性を利用して、より完全で正確で信頼性の高い標高データセットを提供します。 DEMを融合するためのいくつかの方法が開発されていますが、包括的なレ
arxiv_reader 2022/04/12
リモートセンシングコミュニティは、データ融合を21世紀の重要な挑戦的なトピックの1つとして特定しました。 2次元（2D）空間での画像融合の主題は、いくつかの公開されたレビューで取り上げられています。た

dataset

arXiv reaDer

arXiv
リンク
インテリジェントな個人指導システムにおける行動予測のための感情伝達学習の活用
arxiv_reader 2022/04/12
この作業では、インテリジェントな個人指導システム（ITS）を使用して作業している学生の問題の結果を予測するためのビデオベースの転送学習アプローチを提案します。学生の顔とジェスチャーを分析することにより

reasoning

human

gesture

transfer learning

domain

dataset

arXiv reaDer

arXiv

representation

RNN
リンク
SSHA：半教師ありハードアテンションモデルを使用したビデオ暴力の認識とローカリゼーション
SSHA: Video Violence Recognition and Localization Using a Semi-Supervised Hard Attention Model 現在の人間ベースの監視システムは、可用性と信頼性が不十分になる傾向があります。人工知能ベースのソリューションは、監視システムの適応の増加に直面した場合の信頼性と精度を考慮すると、説得力があります。大量の高解像度監視画像を効果的に利用するには、非常に効率的で正確な機械学習モデルが必要です。この研究は、自動監視システムで使用される方法とモデルの精度を向上させて、ビデオ映像内の人間の暴力を認識して特定することに焦点を当てています。提案されたモデルは、Kineticsデータセットで事前トレーニングされたI3Dバックボーンを使用し、RWFおよびHockeyデータセットでそれぞれ90.4％および98.7％の最先端の
arxiv_reader 2022/04/12
現在の人間ベースの監視システムは、可用性と信頼性が不十分になる傾向があります。人工知能ベースのソリューションは、監視システムの適応の増加に直面した場合の信頼性と精度を考慮すると、説得力があります。大量

arXiv

human

semi-supervised

localization

dataset

arXiv reaDer

face

attention

learning

video
リンク
顔認識モデルのシミュレートされた敵対的テスト
arxiv_reader 2022/04/12
ほとんどの機械学習モデルは、固定データセットで検証およびテストされています。これにより、モデルの機能と弱点の全体像が不完全になる可能性があります。このような弱点は、実世界でのテスト時に明らかになる可能

manifold

synthesis

face recognition

adversarial

arXiv reaDer

dataset

arXiv

learning
リンク
ディープフェイク検出器のデータセット間一般化の改善について
arxiv_reader 2022/04/12
ディープフェイクによる顔の操作は、重大なセキュリティリスクを引き起こし、深刻な社会的懸念を引き起こしました。対策として、最近、多くのディープフェイク検出方法が提案されています。それらのほとんどは、タス

reinforcement learning

deepfake

CNN

detection

dataset

arXiv reaDer

classification

arXiv

face
リンク
潜在相関ベースのマルチビュー学習と自己監視の理解：識別可能性の観点
arxiv_reader 2022/04/12
自然に取得されたデータ（画像や音声など）と人工的に生成されたデータ（データサンプルに異なるノイズを追加するなど）の両方のデータの複数のビューは、表現学習の強化に役立つことが証明されています。自然なビュ

representation learning

regularization

generative

embedding

identification

disentangling

arXiv reaDer

arXiv

self-supervised
リンク
PatchCleanser：あらゆる画像分類器の敵対的なパッチに対する確実に堅牢な防御
arxiv_reader 2022/04/12
画像分類モデルに対する敵対的なパッチ攻撃は、モデルの誤分類を誘発するために、制限された画像領域（つまりパッチ）内に敵対的に細工されたピクセルを注入することを目的としています。この攻撃は、パッチを印刷し

computer vision

adversarial

arXiv reaDer

classification

arXiv

dataset
リンク
ニューラルネットワーク誘導TEM画像解析における受容野とネットワークの複雑さの影響を理解する
arxiv_reader 2022/04/12
訓練されたニューラルネットワークは、増え続ける科学画像データを分析するための有望なツールですが、透過型電子顕微鏡写真の独自の機能に合わせてこれらのネットワークを最適にカスタマイズする方法は不明です。こ

dataset

segmentation

arXiv reaDer

arXiv
リンク
2次ソボレフメトリックを使用した表面の弾性形状分析：包括的な数値フレームワーク
arxiv_reader 2022/04/12
この論文では、不変（弾性）二次ソボレフ計量の設定内での3D表面のリーマン形状解析のための一連の数値手法を紹介します。より具体的には、3Dメッシュとして表されるパラメータ化またはパラメータ化されていない

mesh

metric

synthesis

arXiv reaDer

arXiv

3D
リンク
オーバーサンプリングされたデータのプログレッシブサブサンプリング-定量的MRIへの適用
arxiv_reader 2022/04/12
PROSUB：プログレッシブサブサンプリングを紹介します。これは、情報の損失を最小限に抑えて、オーバーサンプリングされたデータセット（マルチチャネル3D画像など）をサブサンプリングする、深層学習ベース

MRI

NAS

arXiv reaDer

arXiv

learning

3D
リンク
少数ショットセグメンテーションのための自己蒸留組み込み教師付きアフィニティ注意モデル
arxiv_reader 2022/04/12
数ショットのセマンティックセグメンテーションは、注釈付きのサンプルが少ないピクセル単位でオブジェクトカテゴリを予測するという難しい作業です。ただし、既存のアプローチは依然として2つの主要な課題に直面し

arXiv

semantic segmentation

few-shot

affinity

arXiv reaDer

benchmark

attention

dataset

face
リンク
ChildCIフレームワーク：年齢検出のための子供とコンピューターの相互作用における運動と認知発達の分析
ChildCI Framework: Analysis of Motor and Cognitive Development in Children-Computer Interaction for Age Detection この記事では、最近のChildCIフレームワークで提案されたさまざまなテストの包括的な分析を紹介し、時間の経過に伴う子供の神経運動と認知発達の理解を深める可能性と、e-Healthやe-Healthなどの他の研究分野での応用の可能性を証明します。 eラーニング。特に、モバイルデバイスとの子供の相互作用の運動および認知の側面に関連する100以上のグローバルな機能のセットを提案します。それらのいくつかは、文献から収集および適合されています。さらに、我々は、運動および認知行動に基づく子供の年齢層検出のタスクの実験結果を含む、提案された機能セットのロバスト性および識別力を分
arxiv_reader 2022/04/12
この記事では、最近のChildCIフレームワークで提案されたさまざまなテストの包括的な分析を紹介し、時間の経過に伴う子供の神経運動と認知発達の理解を深める可能性と、e-Healthやe-Healthな

detection

arXiv reaDer

arXiv
リンク
ディープラーニングによる視覚ベースのアメリカ手話分類アプローチ
Vision-Based American Sign Language Classification Approach via Deep Learning 聴覚障害は、社会の他の人々とのコミュニケーションに重大な問題を引き起こす部分的または全体的な難聴の障害です。アメリカ手話（ASL）は、聴覚障害のあるコミュニティが相互に通信するために使用する最も一般的に使用される手話の1つです。この論文では、障害に関連するコミュニケーションの障壁を取り除くための道のりとして、アメリカ手話の文字を分類することを目的とした単純な深層学習モデルを提案しました。 Hearing-impaired is the disability of partial or total hearing loss that causes a significant probl em for communication with o
arxiv_reader 2022/04/12
聴覚障害は、社会の他の人々とのコミュニケーションに重大な問題を引き起こす部分的または全体的な難聴の障害です。アメリカ手話（ASL）は、聴覚障害のあるコミュニティが相互に通信するために使用する最も一般的

learning

arXiv reaDer

classification

arXiv
リンク
固形肺結節診断のための信頼性が高く説明可能なAIモデルに向けて
arxiv_reader 2022/04/12
肺がんは、世界で致命的ながんの死亡率が最も高いです。肺がんの治療には早期発見が不可欠です。ただし、肺結節の検出と正確な診断は、放射線科医の経験に大きく依存しており、放射線科医にとって大きな負担になる可

multi-task

identification

detection

dataset

arXiv reaDer

classification

arXiv

explainable

learning
リンク
医用画像の超解像のためのさまざまなカーネルサイズを使用したマルチモーダルマルチヘッド畳み込み注意
arxiv_reader 2022/04/12
超高解像度の医用画像は、医師がより正確な診断を提供するのに役立ちます。多くの場合、コンピューター断層撮影（CT）または磁気共鳴画像法（MRI）技術は、1回の調査中に複数のスキャン（モード）を出力します

arXiv

MRI

convolutional

arXiv reaDer

attention

CT

super-resolution
リンク
肺塞栓症注釈のための機能強化された敵対的半教師ありセマンティックセグメンテーションネットワーク
Feature-enhanced Adversarial Semi-supervised Semantic Segmentation Network for Pulmonary Embolism Annotation この研究は、コンピューター断層撮影肺血管造影（CTPA）画像の肺塞栓症病変領域に自動的に注釈を付けるための機能強化された敵対的半監視セマンティックセグメンテーションモデルを確立しました。現在の研究では、すべてのPE CTPA画像セグメンテーション方法は、教師あり学習によってトレーニングされています。ただし、CTPA画像がさまざまな病院からのものである場合は、教師あり学習モデルを再トレーニングし、画像のラベルを変更する必要があります。この研究では、ラベルのない画像を少量追加することで、モデルをさまざまなデータセットに適用できるようにする半教師あり学習方法を提案しました。ラベル付
arxiv_reader 2022/04/12
この研究は、コンピューター断層撮影肺血管造影（CTPA）画像の肺塞栓症病変領域に自動的に注釈を付けるための機能強化された敵対的半監視セマンティックセグメンテーションモデルを確立しました。現在の研究では

semantic segmentation

semi-supervised

convolutional

adversarial

arXiv reaDer

dataset

arXiv

learning
リンク
ビデオ超解像のための軌道認識トランスフォーマーの学習
arxiv_reader 2022/04/12
ビデオ超解像（VSR）は、低解像度（LR）の対応するフレームから高解像度（HR）フレームのシーケンスを復元することを目的としています。ある程度の進歩はありましたが、ビデオシーケンス全体で時間依存性を効

transformer

pre-training

spatio-temporal

benchmark

arXiv reaDer

arXiv

learning

super-resolution

video
リンク
正確なアクティベーションクリッピングと適応バッチ正規化によるデータフリー量子化
Data-Free Quantization with Accurate Activation Clipping and Adaptive Batch Normalization データフリー量子化は、元のトレーニングデータにアクセスせずにニューラルネットワークを低ビット幅に圧縮するタスクです。ほとんどの既存のデータフリー量子化方法は、特に低ビット幅の場合、不正確なアクティベーションクリッピング範囲と量子化誤差のために深刻なパフォーマンスの低下を引き起こします。この論文では、正確なアクティベーションクリッピングと適応バッチ正規化を備えたシンプルで効果的なデータフリー量子化手法を紹介します。正確なアクティベーションクリッピング（AAC）は、完全精度モデルからの正確なアクティベーション情報を活用することにより、モデルの精度を向上させます。適応バッチ正規化は、最初に、バッチ正規化層を適応的に更新
arxiv_reader 2022/04/12
データフリー量子化は、元のトレーニングデータにアクセスせずにニューラルネットワークを低ビット幅に圧縮するタスクです。ほとんどの既存のデータフリー量子化方法は、特に低ビット幅の場合、不正確なアクティベー

batch normalization

dataset

arXiv reaDer

arXiv

quantization
リンク
インテリジェントな視覚と音：慢性がん性疼痛データセット
癌患者は、治療プロセス全体を通して高率の慢性疼痛を経験します。この患者集団の痛みを評価することは、生活の質を急速に低下させる可能性があるため、心理的および機能的な幸福の重要な要素です。顔面痛の検出における既存の研究では、多くの場合、それらが臨床的に関連することを妨げるラベル付けまたは方法論に欠陥があります。このペーパーでは、Intelligent Sight and Sound（ISS）臨床試験の一部として収集された最初の慢性がん性疼痛データセットを紹介します。これは、モデルの結果が臨床的に適切な結果をもたらすことを保証するために臨床医によって導かれます。これまでに収集されたデータは、29人の患者、509個のスマートフォンビデオ、189,999フレーム、およびBrief Pain Inventory（BPI）から採用された自己申告による感情および活動の痛みのスコアで構成されています。静止画
arxiv_reader 2022/04/12
癌患者は、治療プロセス全体を通して高率の慢性疼痛を経験します。この患者集団の痛みを評価することは、生活の質を急速に低下させる可能性があるため、心理的および機能的な幸福の重要な要素です。顔面痛の検出にお

detection

activity

dataset

arXiv reaDer

face

arXiv

video
リンク
FastMapSVM：FastMapアルゴリズムとサポートベクターマシンを使用した複雑なオブジェクトの分類
FastMapSVM: Classifying Complex Objects Using the FastMap Algorithm and Support-Vector Machines ニューラルネットワークと関連するディープラーニング手法は、現在、オブジェクトの分類に使用されるテクノロジーの最先端にあります。ただし、通常、モデルのトレーニングには大量の時間とデータが必要です。そして、彼らが学んだモデルは、解釈が難しい場合があります。この論文では、複雑なオブジェクトを分類するための新しい解釈可能な機械学習フレームワークであるFastMapSVMを紹介します。 FastMapSVMは、FastMapとサポートベクターマシンの長所を組み合わせたものです。 FastMapは、複雑なオブジェクトをユークリッド空間内のポイントにマッピングすると同時に、それらの間のペアワイズ非ユークリッド距離を
arxiv_reader 2022/04/12
ニューラルネットワークと関連するディープラーニング手法は、現在、オブジェクトの分類に使用されるテクノロジーの最先端にあります。ただし、通常、モデルのトレーニングには大量の時間とデータが必要です。そして

arXiv

domain

arXiv reaDer

classification

learning
リンク
PetroGAN：現実的でラベルのない岩石学的データセットを生成するための新しいGANベースのアプローチ
arxiv_reader 2022/04/12
ディープラーニングアーキテクチャは、地球科学におけるデータ分析を強化し、地質学的問題への従来のアプローチを補完します。地球科学の深層学習アプリケーションは有望な兆候を示していますが、実際の可能性は未開

GAN

synthesis

dataset

arXiv reaDer

arXiv

learning
リンク
高密度物体検出におけるミスアライメント問題の再考
arxiv_reader 2022/04/12
オブジェクト検出は、特定の画像内のオブジェクトをローカライズおよび分類することを目的としており、これら2つのタスクは異なるオブジェクト領域に敏感です。したがって、一部の場所では高品質のバウンディングボ

disentangling

detection

arXiv reaDer

localization

dataset

arXiv

classification
リンク
DAD-3DHeads：単一の画像からの3Dヘッドアライメントのための大規模で高密度で正確かつ多様なデータセット
arxiv_reader 2022/04/12
DAD-3DHeads、高密度で多様な大規模データセット、および野生の3D高密度ヘッドアライメントの堅牢なモデルを紹介します。これには、グラウンドトゥルーススキャンと比較して3Dの頭の形状を正確に表す

arXiv reaDer

benchmark

face

pose estimation

reconstruction

3D

landmark

dataset

arXiv

occlusion
リンク
正則化とデータ拡張の効果はクラスに依存します
arxiv_reader 2022/04/12
正則化は、モデルの複雑さを制限することにより、過剰適合を防ぎ、一般化のパフォーマンスを向上させるための基本的な手法です。現在のDeepNetworksは、データ拡張（DA）や重み減衰などの正則化に大き

pre-training

augmentation

arXiv reaDer

bias

arXiv

classification

regularization
リンク
クラスインクリメンタル学習のための事前トレーニングされた表現によるインクリメンタルプロトタイププロンプトチューニング
arxiv_reader 2022/04/12
クラスの漸進的学習は多くの注目を集めていますが、ほとんどの既存の作品は依然として表現モデルを継続的に微調整しており、多くの壊滅的な忘却をもたらしています。既存のほとんどの方法のように再生や蒸留によって

pre-training

arXiv reaDer

benchmark

distillation

bias

learning

attention

arXiv

representation

classification
リンク
非線形表現学習のダイナミクスとその応用を理解する
arxiv_reader 2022/04/12
世界環境の表現は、人工知能において重要な役割を果たします。画像のピクセル値などの生の感覚表現の空間で直接推論と推論を行うことは、多くの場合非効率的です。表現学習により、生の感覚データから適切な表現を自

arXiv reaDer

benchmark

convolutional

unsupervised

reasoning

batch normalization

arXiv

classification

representation learning

residual
リンク
DSGN ++：ステレオベースの3D検出器の視覚空間関係の活用
arxiv_reader 2022/04/12
カメラベースの3Dオブジェクト検出器は、LiDARセンサーよりも展開が広く、価格が安いため、歓迎されています。 3Dジオメトリとセマンティクスの両方を表現するためのステレオボリューム構造について、以前

stereo

LiDAR

detection

3D

arXiv reaDer

benchmark

arXiv
リンク
Transform2Act：効率的なエージェント設計のための変換および制御ポリシーの学習
arxiv_reader 2022/04/12
エージェントの機能は、主にその設計、つまり骨格構造と関節の属性（長さ、サイズ、強度など）によって決まります。ただし、問題は本質的に組み合わせであり、設計スペースが非常に大きいため、特定の機能に最適なエ

video

action

arXiv reaDer

learning

arXiv

gradient
リンク
- 2022年4月13日
- 2022年4月12日
- 2022年4月11日

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx