arxiv_readerのブックマーク / 2021年12月16日 - はてなブックマーク

arxiv_reader id:arxiv_reader

2021年12月16日のブックマーク (99件)

3D 質問応答
arxiv_reader 2021/12/16
視覚的な質問応答（VQA）は、近年、目覚ましい進歩を遂げています。ただし、ほとんどの取り組みは、2D画像の質問応答タスクにのみ焦点を当てています。このホワイトペーパーでは、VQAを3Dドメインに拡張す

VQA

point cloud

arXiv reaDer

3D

domain

BERT

arXiv

dataset
リンク
信頼性の低い検出が存在する場合の信頼性の高いマルチオブジェクト追跡
arxiv_reader 2021/12/16
最近のマルチオブジェクト追跡（MOT）システムは、非常に正確なオブジェクト検出器を活用しています。ただし、このような検出器のトレーニングには、大量のラベル付きデータが必要です。このようなデータは人間や

detection

vehicle

arXiv reaDer

MOT

arXiv

dataset
リンク
共同MRI再構成と超解像のためのタスクトランスフォーマーネットワーク
arxiv_reader 2021/12/16
磁気共鳴画像法（MRI）の中心的な問題は、加速と画質の間のトレードオフです。画像の再構成と超解像は、磁気共鳴画像法（MRI）の2つの重要な手法です。現在のメソッドは、これらのタスク間の相関関係を無視し

multi-task

super-resolution

MRI

CNN

representation

transformer

learning

arXiv reaDer

reconstruction

arXiv
リンク
ForgeryNet-Face Forgery Analysis Challenge 2021：方法と結果
arxiv_reader 2021/12/16
フォトリアリスティックな合成技術の急速な進歩は、実際の画像と操作された画像の境界がぼやけ始める臨界点に達しています。最近、290万枚の画像と221,247本の動画で構成されるメガスケールの深顔偽造デー

arXiv reaDer

synthesis

face

video

classification

arXiv

benchmark

dataset
リンク
オブジェクトの状態の検出とオブジェクトの検出：新しいデータセットと定量的実験研究
arxiv_reader 2021/12/16
画像内のオブジェクトの状態の検出（状態検出-SD）は、理論的にも実際的にも重要な問題であり、アクション認識やアフォーダンス検出などの他の重要なコンピュータービジョンの問題と緊密に絡み合っています。また

detection

computer vision

learning

arXiv reaDer

action recognition

domain

robot

arXiv

dataset
リンク
SeqFormer：ビデオインスタンスセグメンテーション用のシーケンシャルトランスフォーマー
arxiv_reader 2021/12/16
この作業では、ビデオインスタンスのセグメンテーションのためのイライラするほど単純なモデルであるSeqFormerを紹介します。 SeqFormerは、ビデオフレーム間のインスタンス関係をモデル化するビ

pre-training

attention

representation

transformer

arXiv reaDer

tracking

arXiv

dataset

segmentation
リンク
人々をその場に置く：3D人々の深さの単眼回帰
arxiv_reader 2021/12/16
複数の人がいるイメージを考えると、私たちの目標は、すべての人のポーズと形、およびそれらの相対的な深さを直接回帰することです。ただし、画像内の人物の奥行きを推測することは、人物の身長を知らなくても基本的

estimation

representation

single-shot

arXiv reaDer

3D

reasoning

monocular

pose

arXiv

dataset
リンク
メタ学習による増分オブジェクト検出
arxiv_reader 2021/12/16
実際の設定では、新しいクラスのオブジェクトインスタンスは、オブジェクト検出器によって継続的に検出されます。既存のオブジェクト検出器がこのようなシナリオに適用されると、古いクラスでのそれらのパフォーマ

detection

gradient

learning

arXiv reaDer

knowledge distillation

arXiv

dataset
リンク
機能属性メソッドは機能を正しく属性付けしていますか？
arxiv_reader 2021/12/16
特徴帰属法は、解釈可能な機械学習で人気があります。これらの方法は、各入力特徴の帰属を計算してその重要性を表しますが、「帰属」の定義に関するコンセンサスがないため、体系的な評価がほとんどなく、特にグラウ

saliency

learning

arXiv reaDer

arXiv

dataset
リンク
RA V-Net：自動肝臓セグメンテーションのためのディープラーニングネットワーク
arxiv_reader 2021/12/16
肝臓の正確なセグメンテーションは、病気の診断の前提条件です。自動セグメンテーションは、コンピューター支援による肝疾患の検出と診断の重要なアプリケーションです。近年、医用画像の自動処理は飛躍的な進歩を遂

U-Net

detection

attention

LSTM

arXiv reaDer

convolutional

arXiv

residual

segmentation
リンク
畳み込みニューラルネットワークの剪定に対する事前トレーニングの影響の実験的研究
arxiv_reader 2021/12/16
近年、ディープニューラルネットワークはさまざまなアプリケーションドメインで幅広い成功を収めています。ただし、重要な計算リソースとメモリリソースが必要であるため、特にモバイルデバイスやリアルタイムアプリ

pre-training

CNN

arXiv reaDer

domain

real time

pruning

arXiv

dataset
リンク
COVID-19コンテキストでのサイン要素の視覚的表現の定量分析
arxiv_reader 2021/12/16
表現とは、人間が外部と内部の両方で起こっていることの現実を表現する方法です。したがって、コミュニケーションの手段としての視覚的表現は、話し言葉や書き言葉と同じように、要素を使用して物語を構築します。

representation

COVID-19

human

learning

arXiv reaDer

arXiv
リンク
ノイズの多いニューラルネットワークのノイズ除去：補償を伴うベイズアプローチ
arxiv_reader 2021/12/16
ノイズのある重みを持つディープニューラルネットワーク（DNN）は、ノイズのあるニューラルネットワーク（NoisyNN）と呼ばれ、ノイズが存在する場合のDNNのトレーニングと推論から発生します。 Noi

quantization

DNN

estimation

Bayesian

learning

arXiv reaDer

denoising

BERT

arXiv
リンク
シングルビュー深度確率とマルチビュージオメトリの融合によるマルチビュー深度推定
Multi-View Depth Estimation by Fusing Single-View Depth Probability with Multi-View Geometry マルチビュー深度推定方法では、通常、マルチビューコストボリュームの計算が必要になります。これにより、大量のメモリが消費され、推論が遅くなります。さらに、マルチビューマッチングは、テクスチャのないサーフェス、反射サーフェス、および移動するオブジェクトでは失敗する可能性があります。このような故障モードの場合、シングルビュー深度推定方法の方が信頼性が高いことがよくあります。この目的のために、マルチビュー深度推定の精度、堅牢性、および効率を向上させるために、シングルビュー深度確率をマルチビュージオメトリと融合するための新しいフレームワークであるMaGNetを提案します。各フレームについて、MaGNetは、ピクセル単
arxiv_reader 2021/12/16
マルチビュー深度推定方法では、通常、マルチビューコストボリュームの計算が必要になります。これにより、大量のメモリが消費され、推論が遅くなります。さらに、マルチビューマッチングは、テクスチャのないサーフ

arXiv

estimation

arXiv reaDer
リンク
SUPER-ADAM：適応勾配のより高速で普遍的なフレームワーク
arxiv_reader 2021/12/16
適応勾配法は、多くの機械学習の問題を解決するための優れたパフォーマンスを示しています。最近、複数のアダプティブラーニングが研究されましたが、それらは主に経験的または理論的側面に焦点を当てており、特定の

arXiv

gradient

learning

arXiv reaDer
リンク
コンピュータビジョン指向の画像信号処理パイプライン設計のための生のベイヤーパターン画像合成
arxiv_reader 2021/12/16
本論文では、生成的敵対的ネットワーク（GAN）ベースの任意サイズのRAWベイヤー画像生成では定式化できない制約を追加する方法を提案します。理論的には、GANトレーニングで変換されたデータを使用すること

detection

computer vision

learning

arXiv reaDer

synthesis

domain

differentiable

arXiv

dataset

GAN
リンク
TNT：少数ショットのビデオ分類のためのトランスダクティブ推論を備えたテキスト条件付きネットワーク
arxiv_reader 2021/12/16
最近、数ショットのビデオ分類がますます関心を集めています。現在のアプローチは主に、ビデオの時間的側面を効果的に活用して、低データレジームでの学習を改善することに焦点を当てています。ただし、ほとんどの作

video

few-shot

benchmark

arXiv

arXiv reaDer

learning

action

classification
リンク
微分可能な光学モデルによる望遠鏡の機器応答のモデリングの再考
arxiv_reader 2021/12/16
望遠鏡の機器応答フィールドのデータ駆動型モデリングにおけるパラダイムシフトを提案します。微分可能な光学フォワードモデルをモデリングフレームワークに追加することにより、データ駆動型モデリング空間をピクセ

super-resolution

arXiv reaDer

reconstruction

differentiable

arXiv
リンク
自動化された教師なし外れ値アービトレーションによる自己監視学習の改善
arxiv_reader 2021/12/16
私たちの仕事は、既存の主流の自己監視学習方法の構造化された欠点を明らかにします。自己監視型学習フレームワークは通常、一般的な完全なインスタンスレベルの不変性仮説を当然のことと見なしますが、背後にある落

unsupervised

augmentation

learning

arXiv reaDer

OOD

bias

arXiv

contrastive

self-supervised
リンク
内視鏡検査における自己監視単眼深度と自我運動推定：救助への外観の流れ
arxiv_reader 2021/12/16
最近、自動運転学習技術が単眼ビデオから深度と自我運動を計算するために適用され、自動運転シナリオで驚くべきパフォーマンスを達成しています。奥行きと自我運動の自己教師あり学習の広く採用されている仮定の1つ

estimation

learning

arXiv reaDer

autonomous driving

video

monocular

arXiv

dataset

self-supervised
リンク
偽のビデオのソースを追跡するための Vision Transformer ベースのビデオハッシング検索
arxiv_reader 2021/12/16
従来の偽のビデオ検出方法は、改ざんされた画像の可能性の値または疑わしいマスクを出力します。しかし、そのような説明のつかない結果は、説得力のある証拠として使用することはできません。したがって、偽のビデオ

detection

transformer

person

arXiv reaDer

video

localization

arXiv

dataset
リンク
シングルビュー深度の教師あり学習のためのベイズディープニューラルネットワーク
arxiv_reader 2021/12/16
不確実性の定量化は、ロボットの知覚に不可欠です。自信過剰または点推定器は、衝突や環境およびロボットへの損傷につながる可能性があるためです。この論文では、単一ビューの教師あり深さ学習、特にMCドロップア

Bayesian

learning

arXiv reaDer

robot

arXiv
リンク
悪天候下での物体検出のための画像適応型YOLO
arxiv_reader 2021/12/16
ディープラーニングベースのオブジェクト検出方法は、従来のデータセットで有望な結果を達成しましたが、悪天候でキャプチャされた低品質の画像からオブジェクトを見つけることは依然として困難です。既存の方法は、

detection

arXiv reaDer

convolutional

weakly-supervised

YOLO

differentiable

arXiv

dataset
リンク
メタ敵対的摂動
arxiv_reader 2021/12/16
敵対的な例を生成するために多数の攻撃方法が提案されており、その中で反復法は強力な攻撃を見つける能力が実証されています。ただし、新しいデータポイントの敵対的摂動を計算するには、時間のかかる最適化問題を最

arXiv

gradient

adversarial

arXiv reaDer
リンク
ステレオ再構成を改善するための深さの調整
arxiv_reader 2021/12/16
深度推定は、ロボット工学、拡張現実、自動運転など、環境の3D評価を必要とする膨大な数のアプリケーションの基礎です。深度推定の優れた手法の1つはステレオマッチングです。これにはいくつかの利点があります。

augmentation

estimation

arXiv reaDer

autonomous driving

3D

metric

real time

reconstruction

arXiv

benchmark
リンク
単一画像からの教師なし新規ビュー合成
arxiv_reader 2021/12/16
トレーニング時に何らかの形の3D、ポーズ、またはマルチビューの監視が必要なため、実際のシナリオでの展開が制限されますが、単一の画像からの新しいビューの合成は最近注目に値する結果を達成しました。この作業

unsupervised

arXiv reaDer

3D

synthesis

generative

pose

arXiv

dataset

GAN
リンク
時系列生成のための画像ベースの生成的敵対的ネットワークの活用
Leveraging Image-based Generative Adversarial Networks for Time Series Generation 生成モデルは、サンプリング品質、多様性、および機能の解きほぐしに関して大きな成功を収めて画像データを合成します。時系列の生成モデルは、時間的ダイナミクスをキャプチャし、サンプリングの反転を可能にする表現が欠落しているため、これらの利点がありません。この論文は、時系列生成のための画像ベースの生成的敵対的ネットワークの使用を容易にするために、異時点間リターンプロット（IRP）表現を提案します。この表現は、時系列の特性をキャプチャするのに効果的であり、代替の表現と比較して、可逆性とスケール不変性の恩恵を受けます。経験的ベンチマークはこれらの機能を確認し、IRPが勾配ペナルティを備えた既製のWasserstein GANを使用して、特殊
arxiv_reader 2021/12/16
生成モデルは、サンプリング品質、多様性、および機能の解きほぐしに関して大きな成功を収めて画像データを合成します。時系列の生成モデルは、時間的ダイナミクスをキャプチャし、サンプリングの反転を可能にする表

representation

gradient

disentangling

arXiv reaDer

arXiv

benchmark

GAN
リンク
GANで生成された顔画像の周波数スペクトルの非同期性の調査
arxiv_reader 2021/12/16
Generative Adversarial Networks（GAN）の急速な進歩により、悪意のある目的、特に偽の顔画像の作成におけるそれらの誤用の懸念が生じています。提案された多くの方法はGANベ

learning

arXiv reaDer

synthesis

domain

GAN

face

arXiv

dataset

unsupervised
リンク
LookinGood ^π：高品質の人間のパフォーマンスキャプチャのためのリアルタイムの人に依存しないニューラルリレンダリング
arxiv_reader 2021/12/16
LookinGood ^πを提案します。これは、（1）人間のパフォーマンスキャプチャシステムからの低品質の再構成結果のレンダリング品質をリアルタイムで改善することを目的とした新しいニューラル再レンダリ

human

arXiv

real time

arXiv reaDer
リンク
セグメンテーション-再構成-ガイド付き顔画像のオクルージョン解除
arxiv_reader 2021/12/16
閉塞は、実際の顔画像では非常に一般的であり、顔関連のタスクのパフォーマンスが低下します。顔画像からオクルージョンを削除することに多くの努力が注がれていますが、オクルージョンのさまざまな形状とテクスチャ

occlusion

arXiv reaDer

3D

synthesis

reconstruction

face

arXiv

dataset

segmentation
リンク
MissMarple：画像スプライシング検出のための新しい社会に触発された機能転送学習ディープネットワーク
arxiv_reader 2021/12/16
この論文では、画像スプライシング検出のための新しい社会に触発された畳み込みニューラルネットワーク（CNN）深層学習モデルを提案します。粗くスプライスされた画像領域の検出から学習することで、視覚的に知覚

transfer learning

detection

CNN

arXiv reaDer

arXiv

benchmark

dataset
リンク
拡張クロスアテンションを使用したさまざまな照明下での一貫した深さ予測
arxiv_reader 2021/12/16
本論文では、様々な照明条件下での複雑なシーンにおける一貫した深度予測の問題を解決することを目指しています。 RGB-Dセンサーまたは仮想レンダリングに基づく既存の屋内データセットには、2つの重大な制限

pre-training

attention

arXiv reaDer

3D

convolutional

sparse

arXiv

RGB-D

depth prediction

dataset
リンク
進化する循環ドメインカバレッジに基づくコピー移動画像偽造検出
arxiv_reader 2021/12/16
この論文の目的は、新しいスキームを提案することにより、画像フォレンジックにおけるコピームーブ偽造検出（CMFD）の精度を向上させることであり、主な貢献は、進化する循環ドメインカバレッジ（ECDC）アル

detection

arXiv reaDer

domain

localization

arXiv
リンク
オートエンコーダベースのバックグラウンド再構成とバックグラウンドノイズ推定によるフォアグラウンドセグメンテーション
arxiv_reader 2021/12/16
何十年にもわたる研究の後でも、動的なシーンの背景の再構築と前景のオブジェクトのセグメンテーションは、照明の変化、カメラの動き、乱気流や木々の移動によって引き起こされる背景ノイズなどのさまざまな課題によ

unsupervised

estimation

arXiv reaDer

manifold

video

reconstruction

arXiv

dataset

segmentation
リンク
クロスドメインセマンティックセグメンテーションのための自己集合 GAN
arxiv_reader 2021/12/16
ディープニューラルネットワーク（DNN）は、セマンティックセグメンテーションのパフォーマンス向上に大きく貢献しています。それにもかかわらず、DNNのトレーニングには通常、大量のピクセルレベルのラベル付

DNN

semantic segmentation

arXiv reaDer

arXiv

GAN
リンク
VDSM：状態空間モデリングと専門家の深い混合による教師なしビデオの解きほぐし
arxiv_reader 2021/12/16
解きほぐされた表現は、因果推論、生成モデリング、公正な機械学習など、さまざまなダウンストリームタスクをサポートします。残念ながら、解きほぐしは、監督または誘導バイアスを組み込むことなしには不可能である

classification

representation

arXiv reaDer

disentangling

reasoning

adversarial

bias

generative

arXiv

unsupervised
リンク
バックグラウンド制約のある時間的アクション提案の生成
arxiv_reader 2021/12/16
時間的アクション提案の生成（TAPG）は、時間的境界のあるトリミングされていないビデオ内のアクションインスタンスを見つけることを目的とした挑戦的なタスクです。提案の信頼性を評価するために、既存の作業は

action

attention

arXiv reaDer

video

localization

arXiv

benchmark
リンク
マルチソース属性が注入された詳細を意識した深みのある服のアニメーション
arxiv_reader 2021/12/16
この論文は、さまざまなアニメーションでさまざまな形状の体が着用する衣服の豊かで合理的な詳細な変形を生成するための、新しい学習ベースの衣服変形方法を提示します。さまざまな衣服のトポロジーやポーズに対して

learning

arXiv reaDer

reconstruction

pose

arXiv
リンク
メディアの記憶力の予測：視覚的、テキスト的、聴覚的特徴の比較
arxiv_reader 2021/12/16
このホワイトペーパーでは、MediaEval 2021でのメディアの記憶力の予測タスクへのアプローチについて説明します。これは、ビデオの記憶力を自動的に予測するタスクを設定することにより、メディアの記

CNN

Bayesian

arXiv reaDer

video

arXiv

dataset
リンク
ゼロショットスケッチベースの画像検索のためのモダリティ対応トリプレットハードマイニング
arxiv_reader 2021/12/16
この論文は、クロスモダリティメトリック学習の観点からゼロショットスケッチベースの画像検索（ZS-SBIR）問題に取り組んでいます。％ディープメトリック学習の最近のグッドプラクティス。このタスクには2

metric learning

arXiv reaDer

zero-shot

classification

arXiv

dataset
リンク
一般的かつ効率的なアクティブラーニングに向けて
arxiv_reader 2021/12/16
アクティブラーニングは、限られた注釈予算を活用するために最も有益なサンプルを選択することを目的としています。ほとんどの既存の作業は、時間のかかるモデルトレーニングとバッチデータ選択を各データセットで個

detection

pre-training

estimation

semantic segmentation

learning

arXiv reaDer

classification

arXiv

dataset
リンク
工学的形状の特徴認識への学習ベースのアプローチ
arxiv_reader 2021/12/16
本論文では、CADメッシュモデルの穴やスロットなどの工学的形状の特徴を認識するための機械学習アプローチを提案します。デジタルアーカイブ、3D印刷、コンポーネントのスキャン、リバースエンジニアリングなど

CNN

representation

learning

arXiv reaDer

3D

mesh

arXiv

benchmark
リンク
恐怖：高速、効率的、正確で堅牢なビジュアルトラッカー
arxiv_reader 2021/12/16
斬新で、速く、効率的で、正確で、堅牢なシャムのビジュアルトラッカーであるFEARを紹介します。デュアルテンプレート表現と呼ばれるオブジェクトモデル適応用のアーキテクチャブロックと、モデルの柔軟性と効率

pre-training

representation

arXiv reaDer

tracking

arXiv

benchmark
リンク
オブジェクトの追跡：識別可能な重みの生成によるオブジェクトのスペースの構築
arxiv_reader 2021/12/16
視覚的な学習と理解のために、オブジェクト中心の表現を継続的に学習するためのフレームワークを提案します。既存のオブジェクト中心の表現は、シーン内のオブジェクトを個別化する監視に依存するか、現実世界の複雑

representation

learning

arXiv reaDer

re-id

disentangling

convolutional

arXiv

unsupervised
リンク
HumanNeRF：スパース入力から効率的に生成された人間の放射輝度フィールド
arxiv_reader 2021/12/16
最近のニューラルヒューマン表現は、高品質のマルチビューレンダリングを生成できますが、高密度のマルチビュー入力とコストのかかるトレーニングを使用する必要があります。したがって、各フレームのトレーニングは

representation

human

arXiv reaDer

synthesis

sparse

video

pose

arXiv

dataset
リンク
否定的なサンプル事項：時間的接地のための計量学習のルネッサンス
arxiv_reader 2021/12/16
時間的グラウンディングは、特定の自然言語クエリと意味的に一致するビデオモーメントをローカライズすることを目的としています。既存の方法は通常、複雑な予測ヘッドまたは融合戦略の設計に焦点を当てた研究で、融

detection

metric learning

arXiv reaDer

representation learning

embedding

video

localization

arXiv

benchmark
リンク
時間的空間補助ネットワークによるトランスコードされたビデオの復元
arxiv_reader 2021/12/16
YoutubeやTikTokなどのほとんどのビデオプラットフォームでは、再生されるビデオは通常、録画デバイスによるハードウェアエンコーディング、ビデオ編集アプリによるソフトウェアエンコーディング、ビデ

video

self-supervised

arXiv

compression

arXiv reaDer

attention
リンク
効率的なジオメトリ対応の3D生成的敵対的ネットワーク
arxiv_reader 2021/12/16
シングルビュー2D写真のコレクションのみを使用して、高品質のマルチビュー整合性のある画像と3D形状を教師なしで生成することは、長年の課題でした。既存の3DGANは、計算集約型であるか、3D整合性のない

unsupervised

CNN

arXiv reaDer

approximation

3D

synthesis

real time

arXiv

GAN
リンク
CAT：視覚的対応のためのコスト集計トランスフォーマー
arxiv_reader 2021/12/16
コスト集約トランスフォーマー（CAT）と呼ばれる新しいコスト集約ネットワークを提案し、クラス内の大きな外観と幾何学的な変化によってもたらされる追加の課題を伴う意味的に類似した画像間の密な対応を見つけま

CNN

representation

transformer

affinity

learning

arXiv reaDer

arXiv

residual
リンク
ノイズから特徴へ：指静脈認識のための新しいソフト生体認証特性としての強度分布の活用
arxiv_reader 2021/12/16
ほとんどの指静脈特徴抽出アルゴリズムは、指組織によって形成される強度分布を同時に無視し、場合によってはそれをバックグラウンドノイズとして処理するにもかかわらず、テクスチャ表現能力により満足のいくパフォ

representation

arXiv

arXiv reaDer
リンク
推論による想像：長い尾の分類のための推論ベースの暗黙の意味データ拡張
arxiv_reader 2021/12/16
実際のデータはロングテール分布に従うことが多く、既存の分類アルゴリズムのパフォーマンスが大幅に低下します。重要な問題は、テールカテゴリのサンプルがクラス内の多様性を表現できないことです。人間は、このカ

augmentation

arXiv reaDer

classification

pose

arXiv
リンク
敵対的攻撃からディープアクション認識モデルを防御するための時間的シャッフル
arxiv_reader 2021/12/16
最近、畳み込みニューラルネットワーク（CNN）を使用したビデオベースのアクション認識方法により、優れた認識パフォーマンスが実現されています。ただし、アクション認識モデルの一般化メカニズムについてはまだ

CNN

arXiv reaDer

action recognition

adversarial

video

arXiv
リンク
RetinaFaceMask：COVID-19パンデミックの制御を支援するためのシングルステージフェイスマスク検出器
arxiv_reader 2021/12/16
コロナウイルス2019は世界に大きな影響を与えました。人々の感染を防ぐための効果的な戦略の1つは、公共の場所でマスクを着用することです。特定の公共サービスプロバイダーは、クライアントが適切にマスクを着

detection

attention

COVID-19

learning

arXiv reaDer

face

arXiv

dataset
リンク
TSI：ビデオアクション認識のための時間的顕著性統合
arxiv_reader 2021/12/16
効率的な時空間モデリングは、ビデオアクション認識にとって重要でありながら挑戦的な問題です。既存の最先端の方法は、隣接する機能の違いを利用して、単純な畳み込みによる短期間の時間モデリングのモーションの手

saliency

attention

arXiv reaDer

action recognition

convolutional

video

arXiv

benchmark
リンク
M-FasterSeg：ニューラルアーキテクチャ検索に基づく効率的なセマンティックセグメンテーションネットワーク
arxiv_reader 2021/12/16
画像セマンティックセグメンテーション技術は、インテリジェントシステムが自然のシーンを理解するための重要な技術の1つです。ビジュアルインテリジェンスの分野における重要な研究の方向性の1つとして、このテク

NAS

semantic segmentation

learning

arXiv reaDer

real time

drone

robot

arXiv

dataset
リンク
SPTS：シングルポイントテキストスポッティング
arxiv_reader 2021/12/16
ほとんどすべてのシーンテキストスポッティング（検出および認識）方法は、コストのかかるボックス注釈（たとえば、テキスト行ボックス、単語レベルボックス、および文字レベルボックス）に依存しています。初めて、

detection

transformer

arXiv reaDer

arXiv

benchmark
リンク
COVID-19中の自動フェイスマスク検出のための機械学習アプローチの比較分析
arxiv_reader 2021/12/16
世界保健機関（WHO）は、COVID-19感染を防ぐための最も効果的な対策の1つとして、フェイスマスクの着用を推奨しています。多くの国では、特に公共の場所でフェイスマスクを着用することが義務付けられて

transfer learning

detection

pre-training

COVID-19

arXiv reaDer

face

arXiv

benchmark

dataset
リンク
ゼロショットセマンティックセグメンテーションのデカップリング
arxiv_reader 2021/12/16
ゼロショットセマンティックセグメンテーション（ZS3）は、トレーニングで見られなかった新しいカテゴリをセグメント化することを目的としています。既存の作品は、ZS3をピクセルレベルのゼロショット分類問題

pre-training

semantic segmentation

arXiv reaDer

zero-shot

classification

arXiv

benchmark
リンク
平面オブジェクト追跡のためのホモグラフィ分解ネットワーク
arxiv_reader 2021/12/16
平面オブジェクトトラッキングは、ロボット工学、ビジュアルサーボ、ビジュアルSLAMなどのAIアプリケーションで重要な役割を果たします。以前の平面トラッカーはほとんどのシナリオでうまく機能しますが、2つ

SLAM

estimation

semi-supervised

arXiv reaDer

convolutional

dataset

tracking

arXiv

residual
リンク
補助コーデックネットワークに基づく拡張標準互換画像圧縮フレームワーク
arxiv_reader 2021/12/16
画像圧縮のパフォーマンスを向上させるために、最近のディープニューラルネットワークベースの研究は、学習可能なコーデック、後処理ネットワーク、およびコンパクトな表現ネットワークの3つのカテゴリに分類できま

compression

representation

learning

arXiv reaDer

video

arXiv
リンク
深い視覚表現学習のための変分構造化注意ネットワーク
arxiv_reader 2021/12/16
畳み込みニューラルネットワークは、視覚表現学習の強力な機能の恩恵を受けて、セマンティックセグメンテーション、深度推定、表面法線予測などのピクセルレベルの予測タスクに対処する上で大きな進歩を可能にしまし

CNN

attention

estimation

semantic segmentation

arXiv reaDer

representation learning

arXiv

dataset
リンク
不確実性に起因する損失関数を使用したロバストな深さの完了
arxiv_reader 2021/12/16
疎なLiDARスキャンから高密度の深度画像を復元することは困難な作業です。スパースからデンスまでの深度を完了するためのカラーガイド方式の人気にもかかわらず、スパース深度マップの不均一な分布特性と合成さ

LiDAR

loss function

arXiv reaDer

metric

sparse

arXiv

benchmark

residual
リンク
フェイスマスクは私のプライバシーを保護しますか？：マスクされた顔の画像から保護された属性を予測するためのディープラーニング
arxiv_reader 2021/12/16
非接触で効率的なシステムは、COVID-19パンデミックとの闘いにおける予防方法を提唱するために迅速に実装されています。このようなシステムにはプラスのメリットがありますが、ユーザーのプライバシーを侵害

CNN

COVID-19

learning

arXiv reaDer

synthesis

face

arXiv
リンク
眼球領域セグメンテーションと自己監視マルチストリーム学習による視線推定
arxiv_reader 2021/12/16
視線推定のためのロバストな目の表現を学習する新しいマルチストリームネットワークを提示します。まず、シミュレータを使用して、目に見える眼球と虹彩の詳細を示す眼球領域マスクを含む合成データセットを作成しま

U-Net

saliency

estimation

arXiv reaDer

contrastive learning

arXiv

benchmark

self-supervised

segmentation
リンク
ローカル相互情報量の最大化によるマルチモーダル表現学習
arxiv_reader 2021/12/16
画像とテキストの局所的な特徴間の相互情報量を最大化することにより、表現学習アプローチを提案し、実証します。このアプローチの目標は、画像内の調査結果を説明するフリーテキストに含まれる豊富な情報を利用して

estimation

arXiv reaDer

representation learning

classification

arXiv
リンク
ディープラーニングベースのドキュメント画像強化に関する調査
arxiv_reader 2021/12/16
科学論文、納税申告書、請求書、契約書、歴史的文書などのデジタル化された文書は、今日広く使用されています。これらのドキュメント画像は、照明条件の悪さ、影、ノイズやブラーなどの歪み、経年変化、インクの染み

attention

learning

arXiv reaDer

denoising

metric

arXiv

dataset
リンク
深い畳み込み特徴に基づく非線形強度ソナー画像マッチング
arxiv_reader 2021/12/16
水中ビジョン技術の継続的な開発により、ますます多くのリモートセンシング画像を取得できるようになりました。水中シーンでは、ソナーセンサーが現在最も効果的な遠隔知覚デバイスであり、それらによってキャプチャ

arXiv

vehicle

CNN

arXiv reaDer
リンク
不確実性の見積もりを伴うマイノリティクラスの例のマイニング
arxiv_reader 2021/12/16
現実の世界では、オブジェクトの発生頻度は自然に歪んでロングテールクラス分布を形成するため、統計的にまれなクラスのパフォーマンスが低下します。有望な解決策は、トレーニングデータセットのバランスをとるため

computer vision

arXiv

dataset

arXiv reaDer
リンク
PPT Fusion：ImageFusionのケーススタディ用のピラミッドパッチトランスフォーマー
arxiv_reader 2021/12/16
Transformerアーキテクチャは、画像分類用のVision Transformers（ViT）に例示されているように、多くのコンピュータービジョンタスクでCNNアーキテクチャを上回り、近年急速な

detection

CNN

representation

transformer

computer vision

arXiv reaDer

reconstruction

classification

arXiv
リンク
フォームのようなドキュメントの任意のクエリによる値の取得
arxiv_reader 2021/12/16
フォームを処理する人的労力を削減するために、フォームのようなドキュメントに対して任意のクエリを使用した値検索を提案します。フィールドアイテムの固定セットのみをアドレス指定する以前のメソッドとは異なり、

human

arXiv

pre-training

arXiv reaDer
リンク
クラス不均衡画像での深層学習技術を使用した雑草認識
arxiv_reader 2021/12/16
ほとんどの雑草種は、高価値作物に必要な栄養素を奪い合うことにより、農業生産性に悪影響を与える可能性があります。手動による除草は、広い作付面積では実用的ではありません。農作物の自動雑草管理システムを開発

transfer learning

pre-training

augmentation

arXiv reaDer

arXiv

dataset
リンク
ホモトピーワーピングによる画像セグメンテーション
ピクセルごとの精度に加えて、トポロジーの正確さは、衛星画像や生物医学画像などの微細構造を持つ画像のセグメンテーションにも重要です。この論文では、デジタルトポロジーの理論を活用することにより、トポロジーにとって重要な画像内の場所を特定します。これらの重要な場所に焦点を当てることにより、トポロジーの精度を高めるために深い画像セグメンテーションネットワークをトレーニングするための新しいホモトピーワーピングロスを提案します。これらのトポロジー的に重要な場所を効率的に識別するために、距離変換を利用する新しいアルゴリズムを提案します。提案されたアルゴリズムと損失関数は、2Dと3Dの両方の設定で異なるトポロジー構造に自然に一般化されます。提案された損失関数は、ディープネットがトポロジ対応メトリックの観点からパフォーマンスを向上させ、最先端のトポロジ保存セグメンテーション方法よりも優れたパフォーマンスを実
arxiv_reader 2021/12/16
ピクセルごとの精度に加えて、トポロジーの正確さは、衛星画像や生物医学画像などの微細構造を持つ画像のセグメンテーションにも重要です。この論文では、デジタルトポロジーの理論を活用することにより、トポロジー

loss function

arXiv reaDer

3D

satellite

metric

arXiv

segmentation
リンク
GKNet：把握候補者検出のための把握キーポイントネットワーク
arxiv_reader 2021/12/16
現代の把握検出アプローチは、センサーとオブジェクトモデルの不確実性に対するロバスト性を実現するためにディープラーニングを採用しています。 2つの主要なアプローチは、把握品質スコアリングまたはアンカーベ

detection

representation

learning

arXiv reaDer

keypoint

arXiv

dataset
リンク
自己中心的な観点からの3Dオブジェクト検出の再検討
arxiv_reader 2021/12/16
3Dオブジェクト検出は、自動運転などのセーフティクリティカルなロボット工学アプリケーションの重要なモジュールです。これらのアプリケーションでは、検出がエゴエージェントの動作と安全性（エゴセントリックな

trajectory

detection

spatio-temporal

arXiv reaDer

autonomous driving

3D

metric

arXiv

dataset
リンク
ビジョンと言語で宝くじをプレイする
arxiv_reader 2021/12/16
大規模な事前トレーニングは、最近、視覚と言語（VL）の研究に革命をもたらしました。 LXMERTやUNITERなどのモデルは、幅広いVLタスクで最先端技術を大幅に向上させました。ただし、このようなモデ

pre-training

arXiv reaDer

reasoning

adversarial

pruning

arXiv
リンク
HR-RCNN：オブジェクト検出のための階層的リレーショナル推論
arxiv_reader 2021/12/16
オブジェクト認識のためにニューラルネットワークにリレーショナル推論を組み込むことは、未解決の問題のままです。リレーショナル推論のために多くの試みがなされてきましたが、それらは通常、単一のタイプの関係の

detection

attention

arXiv reaDer

reasoning

convolutional

arXiv

dataset

segmentation
リンク
コンピュータ断層撮影血管造影における頭蓋内動脈瘤の深層学習ベースの検出と位置特定
arxiv_reader 2021/12/16
目的：コンピューター断層撮影血管造影（CTA）から頭蓋内動脈瘤（IA）を検出および位置特定するための偽陽性低減モジュールと組み合わせた、領域提案ネットワークに基づく教師あり深層学習モデルを開発し、モデ

detection

CT

learning

arXiv reaDer

3D

localization

arXiv
リンク
同時ローカリゼーションとマッピングによる自律ナビゲーションシステム
Autonomous Navigation System from Simultaneous Localization and Mapping この論文は、同時ローカリゼーションとマッピング（SLAM）ベースの自律航法システムの開発を提示します。この研究の動機は、内部空間を自律的にナビゲートするための解決策を見つけることでした。インテリアナビゲーションは、永遠に進化する可能性があるため、困難です。この問題を解決することは、清掃、健康産業、製造業などの多くのサービスに必要です。このホワイトペーパーの焦点は、この提案された自律システム用に開発されたSLAMベースのソフトウェアアーキテクチャの説明です。スマート車椅子を対象としたこのシステムの潜在的なアプリケーションが評価されました。現在のインテリアナビゲーションソリューションには、床の黒い線など、ある種のガイドラインが必要です。この提案されたソ
arxiv_reader 2021/12/16
この論文は、同時ローカリゼーションとマッピング（SLAM）ベースの自律航法システムの開発を提示します。この研究の動機は、内部空間を自律的にナビゲートするための解決策を見つけることでした。インテリアナビ

localization

SLAM

arXiv

arXiv reaDer
リンク
ディープCNNのL1ノルム頻度ヒストグラムを使用したクラス固有のフィルターの識別
Identifying Class Specific Filters with L1 Norm Frequency Histograms in Deep CNNs ディープニューラルネットワークの解釈可能性は、主要な調査分野になっています。これらのネットワークは多くのタスクで最先端の精度を達成していますが、それらの決定を解釈して説明することは非常に困難です。この作業では、ディープ畳み込みネットワークの最後と最後から2番目の層を分析し、クラスのネットワークの決定に最も貢献する機能のサブセットを識別するための効率的な方法を提供します。クラスごとのそのような特徴の数は、最終層の次元と比較してはるかに少ないため、Deep CNNの決定面は低次元の多様体上にあり、ネットワークの深さに比例することを示します。私たちの方法では、最終層を個別の部分空間に分解できます。これは、完全なネットワークの最終層と比
arxiv_reader 2021/12/16
ディープニューラルネットワークの解釈可能性は、主要な調査分野になっています。これらのネットワークは多くのタスクで最先端の精度を達成していますが、それらの決定を解釈して説明することは非常に困難です。この

CNN

arXiv reaDer

convolutional

manifold

arXiv
リンク
深い畳み込みネットワークを使用した単一画像の自動放射歪み補正
Single Image Automatic Radial Distortion Compensation Using Deep Convolutional Network 多くのコンピュータビジョンドメインでは、入力画像はピンホールカメラモデルに準拠している必要があります。ピンホールカメラモデルでは、実世界の直線が画像の直線として投影されます。ライブスポーツ放送映像でコンピュータビジョンタスクを実行すると、アルゴリズムが特定のキャリブレーションパターンに依存できないという困難な要件が課せられます。この場合、未知のキャリブレーションされていないカメラ、複雑なテレビレンズに起因する放射状の歪み、歪みを補正するための視覚的な手がかりがほとんどありません。リアルタイムパフォーマンスの必要性。スポーツ放送のアプリケーションドメインで動作する多項式歪みモデルの2つの最高次係数を使用して、リアルタイム
arxiv_reader 2021/12/16
多くのコンピュータビジョンドメインでは、入力画像はピンホールカメラモデルに準拠している必要があります。ピンホールカメラモデルでは、実世界の直線が画像の直線として投影されます。ライブスポーツ放送映像でコ

CNN

computer vision

arXiv reaDer

domain

real time

arXiv
リンク
冠状動脈造影の2つの新しい狭窄検出方法
arxiv_reader 2021/12/16
冠動脈造影は、冠状動脈疾患（CAD）を診断するための「ゴールドスタンダード」です。現在、冠状動脈狭窄を検出および評価するための方法は、臨床的ニーズを満たすことができない。例えば、臨床診療において必要で

arXiv

detection

arXiv reaDer
リンク
テキストゲシュタルト：ストロークを意識したシーンテキスト画像超解像
arxiv_reader 2021/12/16
過去10年間で、ディープラーニングの開花により、シーンテキスト認識の急速な発展が見られました。ただし、低解像度のシーンテキスト画像の認識は依然として課題です。この問題に取り組むためにいくつかの超解像法

super-resolution

attention

learning

arXiv reaDer

arXiv

dataset
リンク
運動イメージ分類のための因数分解アプローチ
ブレイン・コンピューター・インターフェースは、脳の信号を使用して、実際の制御なしで外部デバイスと通信します。機械学習に基づいて運動イメージを分類するために、多くの研究が行われてきました。ただし、シングルアームモーターイメージなどのまばらな空間特性を持つイメージデータを分類することは、依然として課題です。本論文では、空間的特徴がまばらであっても、脳波信号を2つのグループに分解して運動イメージを分類する方法を提案した。敵対的学習に基づいて、ノイズに対してロバストなEEG信号の共通の特徴を抽出し、信号の特徴のみを抽出することに焦点を当てました。さらに、クラス分類に特化したクラス固有の特徴が抽出されました。最後に、提案された方法は、2つのグループの特徴を1つの埋め込みスペースとして表すことによってクラスを分類します。実験を通じて、特徴を2つのグループに抽出することが、疎な空間特徴を含むデータセット
arxiv_reader 2021/12/16
ブレイン・コンピューター・インターフェースは、脳の信号を使用して、実際の制御なしで外部デバイスと通信します。機械学習に基づいて運動イメージを分類するために、多くの研究が行われてきました。ただし、シング

learning

arXiv reaDer

adversarial

sparse

embedding

classification

arXiv

dataset
リンク
喫煙行動検出のための解釈可能な特徴学習フレームワーク
arxiv_reader 2021/12/16
公共の場での喫煙は非喫煙者にとってより有害であることが証明されており、当局による積極的な対策と注意の緊急の必要性を伴う大きな公衆衛生上の懸念となっています。世界が第4次産業革命に向かっている中、スマー

detection

arXiv

identification

arXiv reaDer

learning

attention

classification
リンク
氷河セグメンテーションに適用されるインタラクティブな視覚化と表現分析
arxiv_reader 2021/12/16
解釈可能性は、地球観測の問題でますます注目を集めています。インタラクティブな視覚化と表現分析を適用して、氷河セグメンテーションモデルの解釈をガイドします。 U-Netからのアクティベーションを視覚化し

representation

U-Net

interpretation

arXiv

segmentation

arXiv reaDer

attention
リンク
ST-MTL：ロボット手術で器具を追跡しながらスキャンパスを予測する時空間マルチタスク学習モデル
ST-MTL: Spatio-Temporal Multitask Learning Model to Predict Scanpath While Tracking Instruments in Robotic Surgery 追跡機器を使用したタスク指向の注意の表現学習は、画像誘導ロボット手術において大きな可能性を秘めています。カメラ制御を自動化する認知能力を組み込むことにより、外科医は手術器具の取り扱いにより集中することができます。目的は、手術時間を短縮し、外科医と患者の両方の手術を容易にすることです。リアルタイムの手術器具のセグメンテーションとタスク指向の顕著性検出のために、共有エンコーダーと時空間デコーダーを備えたエンドツーエンドのトレーニング可能な時空間マルチタスク学習（ST-MTL）モデルを提案します。共有パラメーターのMTLモデルでは、複数の損失関数を収束点に最適化すること
arxiv_reader 2021/12/16
追跡機器を使用したタスク指向の注意の表現学習は、画像誘導ロボット手術において大きな可能性を秘めています。カメラ制御を自動化する認知能力を組み込むことにより、外科医は手術器具の取り扱いにより集中すること

detection

tracking

arXiv

loss function

segmentation

real time

arXiv reaDer

attention

LSTM

representation learning
リンク
n-CPS：半教師ありセマンティックセグメンテーションのためのnネットワークへのクロス疑似監視の一般化
arxiv_reader 2021/12/16
n-CPS-半教師ありセマンティックセグメンテーションのタスクのための最近の最先端のクロス疑似監視（CPS）アプローチの一般化を提示します。 n-CPSには、ワンホットエンコーディングの摂動と整合性の

semantic segmentation

arXiv

semi-supervised

arXiv reaDer
リンク
IMアバター：ビデオからの暗黙のモーフィブルヘッドアバター
arxiv_reader 2021/12/16
従来のモーフィング可能な顔モデルは、表現をきめ細かく制御できますが、幾何学的な詳細や外観の詳細を簡単にキャプチャすることはできません。ニューラルボリューム表現はフォトリアリズムに近づきますが、アニメー

representation

gradient

learning

arXiv reaDer

face

video

monocular

pose

arXiv
リンク
ロングテール認識にはエンドツーエンドのトレーニングのみが必要です
arxiv_reader 2021/12/16
ロングテールデータセットの一般化のギャップは、主に、ほとんどのカテゴリが少数のトレーニングサンプルしか占有していないためです。分離されたトレーニングは、バックボーンと分類器を別々にトレーニングすること

learning

arXiv reaDer

classification

arXiv

benchmark
リンク
Deep Matching Prior: 密な対応のためのテスト時間の最適化
arxiv_reader 2021/12/16
視覚的または意味的に類似した画像間で密な対応を確立するための従来の手法は、モデル化が困難なタスク固有のマッチング事前の設計に焦点を当てています。これを克服するために、最近の学習ベースの方法は、大規模な

contrastive

pre-training

learning

arXiv reaDer

arXiv

benchmark

residual
リンク
カメラ画像とLiDAR点群の時空間表現を使用した共同3Dオブジェクト検出と追跡
arxiv_reader 2021/12/16
この論文では、カメラとLiDARセンサーに基づく3Dオブジェクト検出と追跡のための新しいジョイントオブジェクト検出と追跡（JoDT）フレームワークを提案します。 3D DetecTrackと呼ばれる提

detection

LiDAR

spatio-temporal

point cloud

arXiv reaDer

3D

pruning

tracking

arXiv

GNN
リンク
HVH：ダイナミックヘアパフォーマンスキャプチャのためのハイブリッドニューラルボリューム表現の学習
arxiv_reader 2021/12/16
生き生きとした髪の毛をキャプチャしてレンダリングすることは、その微細な幾何学的構造、複雑な物理的相互作用、および重要な視覚的外観のために特に困難ですが、髪は信頼できるアバターにとって重要な要素です。こ

representation

learning

arXiv reaDer

3D

synthesis

optical flow

tracking

arXiv
リンク
ランク付けの公平性を考慮した自己ペースの深い回帰フォレスト
arxiv_reader 2021/12/16
顔の年齢推定、頭の姿勢の推定、視線の推定などの問題を解決するために、最近、深い回帰フォレスト、深い神経決定フォレストなどの深い識別モデル（DDM）が広く研究されています。ノイズやバイアスのない大量の効

pose estimation

gaze

human

computer vision

learning

arXiv reaDer

bias

face

arXiv
リンク
LASOR：合成オクルージョンを意識したデータとニューラルメッシュレンダリングによる正確な3D人間のポーズと形状の学習
arxiv_reader 2021/12/16
人間のポーズと形状の推定のタスクにおける重要な課題は、自己閉塞、オブジェクトと人間の閉塞、および個人間の閉塞を含む閉塞です。多様で正確なポーズと形状のトレーニングデータの欠如は、特に野生の閉塞のあるシ

pose estimation

SMPL

human

occlusion

arXiv reaDer

3D

synthesis

keypoint

arXiv

dataset
リンク
低照度画像強調のための注意ベースの広くセルフガイドネットワーク
arxiv_reader 2021/12/16
過去数年間、ディープ畳み込みニューラルネットワークは低照度の画像強調で目覚ましい成功を収めてきました。既存のディープラーニング手法は、ネットワーク構造を積み重ねてネットワークの深さを深めることにより、

CNN

attention

learning

arXiv reaDer

arXiv

benchmark
リンク
無料でより多くの制御！セマンティック拡散ガイダンスによる画像合成
arxiv_reader 2021/12/16
制御可能な画像合成モデルにより、テキストの指示またはサンプル画像からのガイダンスに基づいて多様な画像を作成できます。最近、ノイズ除去拡散確率モデルは、以前の方法よりも現実的な画像を生成することが示され

gradient

arXiv reaDer

synthesis

denoising

arXiv

dataset
リンク
視覚言語の理解と生成のための統一されたマルチモーダル事前トレーニングとプロンプトベースのチューニング
arxiv_reader 2021/12/16
ほとんどの既存のビジョン言語の事前トレーニング方法は、タスクの理解に重点を置いており、事前トレーニング中にBERTのような目的（マスクされた言語モデリングと画像とテキストのマッチング）を使用します。そ

pre-training

autoregressive

arXiv reaDer

generative

arXiv

few-shot
リンク
オプティカルフローの非線形進化的PDEベースの改良
arxiv_reader 2021/12/16
この論文の目的は、画像シーケンスから洗練されたモーションエスティメーションを取得するための2つの非線形変分モデルを提案することです。提案された両方のモデルは、回転や流体の流れなどの物理ベースの流れ場を

estimation

arXiv reaDer

optical flow

regularization

arXiv
リンク
TransMEF：自己監視型マルチタスク学習を使用したトランスフォーマーベースの多重露光画像融合フレームワーク
arxiv_reader 2021/12/16
本論文では、自己監視マルチタスク学習を使用するトランスベースの多重露光画像融合フレームワークであるTransMEFを提案します。フレームワークはエンコーダー-デコーダーネットワークに基づいており、大規

arXiv reaDer

self-supervised

multi-task

CNN

benchmark

dataset

learning

reconstruction

transformer

arXiv
リンク
- 2021年12月17日
- 2021年12月16日
- 2021年12月15日

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx