arxiv_readerのブックマーク / 2021年11月23日 - はてなブックマーク

arxiv_reader id:arxiv_reader

2021年11月23日のブックマーク (192件)

トークン化されたヒューマンダイナミクス表現に向けて
arxiv_reader 2021/11/23
人間の行動を理解するための一般的な研究の方向性は、ジャンプや飲酒などの明確なセマンティックコンテンツを含む短いビデオクリップを分析することです。ただし、短いセマンティックアクションを理解する方法は、ダ

arXiv reaDer

pre-training

arXiv

augmentation

self-supervised

representation learning

segmentation

classification

dataset
リンク
Florence：コンピュータビジョンの新しい基盤モデル
arxiv_reader 2021/11/23
私たちの多様でオープンな世界を自動的に視覚的に理解するには、人間の視覚と同様に、特定のタスクのカスタマイズを最小限に抑えて、コンピュータビジョンモデルを適切に一般化する必要があります。多様で大規模なデ

action recognition

arXiv reaDer

transfer learning

detection

arXiv

computer vision

zero-shot

classification

benchmark

few-shot
リンク
RedCaps：人々のために、人々によって作成されたWebキュレーションされた画像テキストデータ
arxiv_reader 2021/11/23
ペアの画像とテキストの大規模なデータセットは、視覚および視覚と言語のタスクの一般的な表現を学習するためにますます人気が高まっています。このようなデータセットは、検索エンジンにクエリを実行するか、HTM

arXiv reaDer

representation

arXiv

learning

captioning

dataset
リンク
クラスにとらわれないオブジェクト検出で優れたマルチモーダルトランスフォーマー
arxiv_reader 2021/11/23
オブジェクトを構成するものは何ですか？これは、コンピュータビジョンにおける長年の質問です。この目標に向けて、客観性を評価するために、学習のない学習ベースのアプローチが数多く開発されています。ただし、通

arXiv reaDer

transformer

detection

saliency

arXiv

localization

computer vision

self-supervised

domain
リンク
ビジョントランスフォーマーを使用した検出転送学習のベンチマーク
arxiv_reader 2021/11/23
オブジェクト検出は、事前にトレーニングされたネットワークパラメータが精度やトレーニング速度の向上などの利点をもたらすかどうかをテストするために使用される中心的なダウンストリームタスクです。オブジェクト

arXiv reaDer

transfer learning

transformer

detection

pre-training

arXiv

unsupervised

self-supervised

R-CNN
リンク
ビジュアルコンピューティングおよびそれ以降のニューラルフィールド
arxiv_reader 2021/11/23
機械学習の最近の進歩により、空間と時間にわたってシーンまたはオブジェクトの物理的特性をパラメーター化する座標ベースのニューラルネットワークのクラスを使用してビジュアルコンピューティングの問題を解決する

arXiv reaDer

representation

arXiv

learning

reconstruction

human

pose estimation

3D

synthesis
リンク
FAZSeg：中心窩無血管ゾーンの定量化のための新しいユーザーフレンドリーなソフトウェア
arxiv_reader 2021/11/23
さまざまな眼疾患と高近視は、解剖学的基準点の中心窩無血管ゾーン（FAZ）の寸法に影響を与えます。したがって、FAZの次元を正確にセグメント化して定量化することが重要です。私たちの知る限り、FAZの網膜

arXiv

arXiv reaDer

segmentation
リンク
MetaFormerは実際にビジョンに必要なものです
arxiv_reader 2021/11/23
トランスフォーマーは、コンピュータービジョンタスクで大きな可能性を示しています。一般的な信念は、彼らの注意ベースのトークンミキサーモジュールが彼らの能力に最も貢献しているということです。ただし、最近の

arXiv reaDer

transformer

arXiv

computer vision

attention

pooling
リンク
自己教師ありモデルが転送されるのはなぜですか?ダウンストリームタスクに対する不変性の影響の調査
arxiv_reader 2021/11/23
自己教師あり学習は、ラベルのない画像での表現学習の強力なパラダイムです。インスタンスマッチングに基づく効果的な新しい方法の豊富さは、学習を促進するためにデータ拡張に依存しており、これらは、一般的な認識

arXiv reaDer

arXiv

augmentation

pose

computer vision

self-supervised

representation learning

contrastive

benchmark
リンク
空中画像からのマルチクラス建物セグメンテーションを使用した太陽ポテンシャル評価
arxiv_reader 2021/11/23
畳み込みニューラルネットワークのようなエンコーダーデコーダーを使用して衛星画像に存在する建物のセマンティックセグメンテーションは、比較的高いピクセル単位のメトリックスコアで実現されています。このホワイ

CNN

arXiv reaDer

regularization

arXiv

learning

metric

satellite

semantic segmentation
リンク
動いている胎児における脳fMRIの4D反復再構成
arxiv_reader 2021/11/23
安静時機能的磁気共鳴画像法（fMRI）は、子宮内の脳の機能的発達を研究するための強力な画像技術です。ただし、胎児の予測不可能で過度の動きは、機能的接続の観察されたパターンを体系的に変更する可能性のある

arXiv reaDer

representation

arXiv

reconstruction

estimation

3D
リンク
2Dおよび3D回転可能データのディープラーニング：メソッドの概要
arxiv_reader 2021/11/23
畳み込みネットワークは、並進下での同変/不変性のために成功します。ただし、画像、ボリューム、形状、点群などの回転可能なデータは、座標系の回転方向がデータの意味に影響を与えない場合（オブジェクトの分類な

arXiv reaDer

arXiv

learning

estimation

3D

classification

point cloud

convolutional
リンク
UAVでの針葉樹の苗の検出-RGB深度情報を使用した画像
arxiv_reader 2021/11/23
森林再生の監視は、現在、ドローンと画像認識アルゴリズムの使用によって大幅に合理化されています。これらは、カラー画像に効果的であることがすでに証明されています。カラー画像に加えて、標高データも利用できる

arXiv

arXiv reaDer

detection

drone
リンク
画像処理と機械学習を使用した植物病害の検出
arxiv_reader 2021/11/23
農業慣行における重要で退屈な作業の1つは、作物の病気の検出です。多大な時間と熟練した労力が必要です。この論文は、コンピュータビジョンと機械学習技術を使用する作物病害の検出のためのスマートで効率的な技術

arXiv reaDer

detection

arXiv

learning

computer vision
リンク
セグメンテーションモデルの敵対的な例は簡単に転送できます
arxiv_reader 2021/11/23
ディープニューラルネットワークベースの画像分類は、小さくて準知覚できない摂動を伴う敵対的な例によって誤解される可能性があります。さらに、ある分類モデルで作成された敵対的な例は、別の異なるモデルをだます

arXiv reaDer

arXiv

attention

classification

adversarial

semantic segmentation
リンク
FFNB：深い継続的な視覚学習のための忘却のないニューラルブロック
arxiv_reader 2021/11/23
ディープニューラルネットワーク（DNN）は、最近、コンピュータービジョンおよびいくつかの関連分野で大きな成功を収めています。そのような進歩にもかかわらず、現在の神経構造は、DNNが継続的に学習すること

arXiv reaDer

regularization

DNN

arXiv

learning

computer vision

classification

Bayesian
リンク
ShufaNet：プロレベルに達した書道家のための分類方法
arxiv_reader 2021/11/23
書道の信憑性は重要ですが、重要な問題が書道の数回の分類である芸術の分野では難しい作業です。書道を専攻する学生のレベルを超える数発の場合、計量学習に基づいて中国の書道家のスタイルを分類するための新しい方

CNN

arXiv reaDer

arXiv

metric learning

attention

classification

few-shot
リンク
パリ-CARLA-3D：3Dマッピングでの挑戦的なタスクのための実際の合成屋外点群データセット
arxiv_reader 2021/11/23
Paris-CARLA-3Dは、モバイルLiDARとカメラシステムによって構築された、屋外環境のいくつかの濃い色の点群のデータセットです。データは、オープンソースのCARLAシミュレーターからの合成デ

arXiv reaDer

LiDAR

arXiv

3D

synthesis

dataset

point cloud

semantic segmentation
リンク
DyTox：DYnamic TOkeneXpansionを使用した継続的な学習のためのトランスフォーマー
arxiv_reader 2021/11/23
ディープネットワークアーキテクチャは、前のタスクを忘れることなく、新しいタスクを継続的に学習するのに苦労しています。最近の傾向は、パラメータの拡張に基づく動的アーキテクチャが、継続的な学習における壊滅

arXiv

arXiv reaDer

learning

transformer
リンク
知覚的グループ化による輪郭誘導画像補完
arxiv_reader 2021/11/23
人間は幻想的な輪郭を知覚するのに優れています。接続された外観の壊れた断片を含む画像が提供されると、輪郭、形状、シーン、さらには見えないオブジェクトを簡単に完成させることができます。視覚科学では、この能

arXiv

arXiv reaDer

computer vision

human
リンク
ジオメトリに触発されたTop-kの敵対的摂動
arxiv_reader 2021/11/23
小さな副次的入力摂動に対する深い画像分類器の脆弱性は、過去数年間に広く研究されてきました。ただし、既存の摂動の主な目的は、主に、正しく予測されたトップ1クラスを、トップ予測を変更することを意図していな

adversarial

arXiv

arXiv reaDer
リンク
SSR: 未知のラベルノイズを学習するための効率的で堅牢なフレームワーク
arxiv_reader 2021/11/23
ニューラルネットワークによる教師あり学習の大きな進歩にもかかわらず、高品質で大規模で正確にラベル付けされたデータセットを取得するには大きな課題があります。これに関連して、この論文では、ラベルノイズ、よ

arXiv reaDer

arXiv

learning

self-supervised

bias

classification

dataset
リンク
点群の色覚恒常
arxiv_reader 2021/11/23
この論文では、点群の色覚恒常、つまりPCCC、点群を利用した照明色度推定アルゴリズムを紹介します。 RGBセンサーにしっかりと取り付けられた飛行時間（ToF）センサーによってキャプチャされた深度情報を

arXiv reaDer

RGB-D

arXiv

estimation

ToF

dataset

point cloud

benchmark

6D
リンク
不確実性の認識と遡及的臨床注釈を伴う大動脈解離のCT血管造影における自動断面図選択
arxiv_reader 2021/11/23
目的：解剖などの慢性大動脈疾患の監視イメージングは、事前定義された大動脈ランドマークでの断面直径測定値を経時的に取得して比較することに依存しています。堅牢なツールがないため、断面の方向は高度な訓練を受

CNN

landmark

arXiv reaDer

arXiv

CT
リンク
MiNet：鉱物を識別および分類するための畳み込みニューラルネットワーク
arxiv_reader 2021/11/23
現場での鉱物の特定は、多くの課題を抱えて行われている課題です。従来のアプローチでは、十分な経験と専門知識がない場合、エラーが発生しやすくなります。いくつかの既存の技術は、主に顕微鏡下で鉱物の特徴を利用

CNN

arXiv reaDer

arXiv

learning

classification

dataset

identification
リンク
ナノロボットキュー：チームメンバーのコミュニケーションと画像処理に基づく癌の共同治療
arxiv_reader 2021/11/23
ナノロボットは胃内視鏡検査などの臨床処方として使用されており、ナノロボットを制御して指定された送達ポイントにリアルタイムで薬物を送達する光音響トモグラフィー技術も提案されており、ナノロボットを介して血

arXiv reaDer

detection

arXiv

computer vision

classification

robot

real time
リンク
トレーニング中の特徴空間の飽和
arxiv_reader 2021/11/23
レイヤー飽和を提案します。これは、ニューラルネットワークの情報処理を分析するための簡単でオンラインで計算可能な方法です。まず、パフォーマンスの損失なしに、レイヤーの出力をその分散行列の固有空間に制限

arXiv

arXiv reaDer
リンク
直接ボクセルグリッド最適化：放射輝度フィールド再構成のための超高速収束
arxiv_reader 2021/11/23
既知のポーズでシーンをキャプチャする一連の画像からシーンごとの放射輝度フィールドを再構築するための超高速収束アプローチを紹介します。このタスクは、新しいビュー合成によく適用されますが、その最先端の品質

arXiv reaDer

representation

arXiv

pose

reconstruction

synthesis

benchmark
リンク
RigNet：深度完了のための反復画像ガイドネットワーク
arxiv_reader 2021/11/23
デプスコンプリーションは、スパースマップからデンスデプスマップを復元する問題を扱います。このタスクを容易にするためにカラー画像がよく使用されます。最近のアプローチは、主に画像誘導学習に焦点を当てて、密

arXiv reaDer

arXiv

learning

depth prediction

sparse

benchmark

dataset

convolutional
リンク
コンピュータ断層撮影画像からの深層学習ベースの自動COVID-19分類
arxiv_reader 2021/11/23
この論文は、画像分類のための畳み込みニューラルネットワーク（CNN）モデルを提示し、より深く、したがってより複雑な代替案を回避しながら、COVID-19診断の予測性能を向上させることを目的としています

CNN

arXiv reaDer

arXiv

learning

COVID-19

classification

dataset
リンク
PointMixer：点群を理解するためのMLP-Mixer
arxiv_reader 2021/11/23
MLP-Mixerは、CNNとトランスフォーマーの領域に対する新しいチャレンジャーとして新たに登場しました。トランスフォーマーと比較して単純であるにもかかわらず、チャネルミキシングMLPおよびトークン

CNN

arXiv reaDer

transformer

arXiv

reconstruction

3D

classification

sparse

point cloud

semantic segmentation
リンク
GB-CosFace：オープンセット分類の観点からのSoftmaxベースの顔認識の再考
arxiv_reader 2021/11/23
最先端の顔認識方法は、通常、複数分類パイプラインを使用し、最適化のためにソフトマックスベースの損失を採用します。これらの方法は大きな成功を収めていますが、ソフトマックスベースの損失には、開集合分類の観

arXiv reaDer

arXiv

classification

face recognition

benchmark
リンク
低照度画像/ビデオエンハンスメントのためのセマンティックガイドゼロショット学習
arxiv_reader 2021/11/23
低照度の画像は、人間の知覚とコンピュータビジョンアルゴリズムの両方に挑戦します。リアルタイム検出やセグメンテーションなどの計算写真やコンピュータービジョンアプリケーションの低照度画像を啓発するために、

arXiv reaDer

detection

arXiv

recurrent

unsupervised

computer vision

zero-shot

semantic segmentation

real time

convolutional
リンク
位置認識型オプティカルフローとジオメトリックバンドル調整を使用した一般化されたビジュアルオドメトリの学習
arxiv_reader 2021/11/23
この論文では、ロバストな視覚オドメトリ（VO）の本質的な問題に、幾何学ベースの方法を自己監視方式で深層学習アーキテクチャに組み込むことによってアプローチします。一般に、純粋な幾何学ベースのアルゴリズム

arXiv reaDer

arXiv

odometry

learning

estimation

self-supervised

loss function

optical flow

dataset
リンク
GNNの表現力に関する統一的な視点
arxiv_reader 2021/11/23
グラフニューラルネットワーク（GNN）は、グラフ処理のための幅広いクラスのコネクショニストモデルです。それらは、各ノードとその隣接ノードで反復メッセージパッシング操作を実行して、分類/クラスタリングタ

arXiv

arXiv reaDer

GNN

clustering
リンク
L-Verse：画像とテキスト間の双方向生成
arxiv_reader 2021/11/23
自然言語の長距離の相互作用を学ぶことをはるかに超えて、変圧器はその力と拡張性で多くの視覚タスクの事実上の標準になりつつあります。特に画像とテキスト間のクロスモーダルタスクでは、ベクトル量子化変分オート

arXiv reaDer

transformer

detection

quantization

arXiv

reconstruction

representation learning

domain
リンク
自己監視を備えたテスト時間集約多様な専門家によるテストにとらわれないロングテール認識
arxiv_reader 2021/11/23
ロングテールデータからクラスバランスモデルをトレーニングすることを目的とした既存のロングテール認識方法は、一般に、モデルが均一なテストクラス分布で評価されることを前提としています。ただし、実際のテスト

arXiv reaDer

arXiv

learning

pose

self-supervised
リンク
近視モデル-顔の提示攻撃検出モデルは近視眼的ですか？
arxiv_reader 2021/11/23
プレゼンテーション攻撃は、生体認証システムに対する繰り返しの脅威であり、詐欺師はこれらのシステムを迂回しようとします。人間はしばしば、視覚系の文脈的手がかりとして背景情報を使用します。しかし、顔ベース

arXiv reaDer

detection

arXiv

recurrent

learning

multi-task

human

face

dataset

adversarial
リンク
Mesa：トランスフォーマーのためのメモリ節約トレーニングフレームワーク
arxiv_reader 2021/11/23
高性能トランスフォーマーの設計への関心が爆発的に高まっています。 Transformersは大幅なパフォーマンスの向上をもたらしましたが、特に長いシーケンスの場合、バックプロパゲーション中の勾配計算に

arXiv reaDer

transformer

quantization

arXiv

approximation

gradient
リンク
ロボットピッキングタスクのための深度認識オブジェクトセグメンテーションと把握検出
arxiv_reader 2021/11/23
この論文では、平行板グリッパーを使用したロボットによるピッキングタスクのための、クラスに依存しない共同オブジェクトセグメンテーションと把持検出のための新しいディープニューラルネットワークアーキテクチャ

arXiv reaDer

detection

arXiv

segmentation

dataset

robot

convolutional
リンク
一般化されたゼロショット学習のためのデュアルプログレッシブプロトタイプネットワーク
arxiv_reader 2021/11/23
一般化ゼロショット学習（GZSL）は、カテゴリ属性などの補助的なセマンティック情報を使用して新しいカテゴリを認識することを目的としています。この論文では、視覚的表現のクロスドメイン転送可能性とカテゴリ

arXiv reaDer

representation

arXiv

localization

learning

zero-shot

domain

benchmark
リンク
意味的にテクスチャ化されたメッシュでのラベル融合による意味画像セグメンテーションの改善
arxiv_reader 2021/11/23
セマンティックセグメンテーションのモデルには、大量の手作業でラベル付けされたトレーニングデータが必要であり、作成にはコストと時間がかかります。この目的のために、教師なしの方法でビデオシーケンスのセマン

arXiv reaDer

representation

arXiv

unsupervised

3D

dataset

mesh

semantic segmentation

video
リンク
Talk-to-Resolve：シーンの理解と空間対話を組み合わせて、併置されたロボットの詳細なタスクのあいまいさを解決します
arxiv_reader 2021/11/23
ロボットの連結の有用性は、人間との簡単で直感的な相互作用メカニズムに大きく依存します。ロボットが自然言語でのタスク命令を受け入れる場合、まず、命令をデコードしてユーザーの意図を理解する必要があります。

arXiv reaDer

arXiv

action

human

face

robot
リンク
単眼道路平面視差推定
運転可能な表面と周囲の環境の3D構造を推定することは、自動運転を支援するための重要なタスクです。これは通常、LiDARなどの高価な3Dセンサーを使用するか、ディープラーニングを介してポイントの深さを直接予測することで解決されます。既存の方法論に従う代わりに、平面視差に基づく単眼画像シーケンスからの3Dセンシング用の新しいディープニューラルネットワークであるRoad Planar Parallax Attention Network（RPA Net）を提案します。これは、運転シーンで一般的に見られる路面形状を最大限に活用します。 RPA Netは、道路面のホモグラフィによって位置合わせされた1対の画像を入力として受け取り、3D再構成用のγマップを出力します。深さまたは高さを推定するだけでなく、γマップは、深さまたは高さを簡単に導き出すことができる一方で、2つの連続するフレーム間で2次元変換を構築
arxiv_reader 2021/11/23
運転可能な表面と周囲の環境の3D構造を推定することは、自動運転を支援するための重要なタスクです。これは通常、LiDARなどの高価な3Dセンサーを使用するか、ディープラーニングを介してポイントの深さを直

autonomous driving

arXiv reaDer

LiDAR

monocular

arXiv

reconstruction

estimation

3D

attention

residual
リンク
マルチストリームコーパスアラインメントとデュアルソフトマックス損失によるビデオテキスト検索の改善
arxiv_reader 2021/11/23
大規模な事前トレーニング済みモデルCLIPを使用してビデオテキスト検索タスク（VTR）を実行することは、以前のVTRメソッドを超える新しいトレンドになっています。ただし、ビデオとテキストの間の構造とコ

pre-training

arXiv reaDer

representation

arXiv

action

contrastive

benchmark

video
リンク
半教師ありビジョントランスフォーマー
arxiv_reader 2021/11/23
半教師あり画像分類のためのビジョントランスフォーマーのトレーニングを研究します。トランスフォーマーは最近、多数の教師あり学習タスクで印象的なパフォーマンスを示しました。驚いたことに、VisionTra

CNN

arXiv reaDer

transformer

arXiv

learning

bias

classification

semi-supervised
リンク
FedCV：多様なコンピュータービジョンタスクのための連合学習フレームワーク
arxiv_reader 2021/11/23
連合学習（FL）は、エッジデバイス上の分散型データセットからグローバルモデルまたはパーソナライズされたモデルを学習できる分散学習パラダイムです。ただし、コンピュータービジョンの領域では、FLのモデルの

arXiv reaDer

detection

edge device

arXiv

computer vision

segmentation

classification

domain

benchmark
リンク
https://arxiv-check-250201.firebaseapp.com/each/2111.11057v3
arxiv_reader 2021/11/23
インスタンスレベルでオブジェクトのピクセルごとのラベリングを実行することを目的とした、リモートセンシング画像のインスタンスセグメンテーションのタスクは、さまざまな民間アプリケーションにとって非常に重要

arXiv reaDer

arXiv

segmentation

attention

dataset

domain

residual
リンク
ImageNetへの敵対的攻撃の評価：誤分類クラスの現実チェック
arxiv_reader 2021/11/23
ImageNetは当初、コンピュータービジョンの領域でのパフォーマンスベンチマークのデータセットとして提案されましたが、他のさまざまな研究活動も可能にしました。敵対的な機械学習は、そのような研究努力の

arXiv reaDer

arXiv

learning

domain

computer vision

dataset

adversarial
リンク
アンサンブルベースの条件付き潜在変数モデルによる密な不確実性の推定
arxiv_reader 2021/11/23
不確実性の推定は、最近の文献で広く研究されており、通常、それは、気管の不確実性と認識論の不確実性として分類することができます。現在の空中不確実性推定フレームワークでは、空中不確実性がデータの固有の属性

arXiv

arXiv reaDer

estimation

detection
リンク
自己教師あり学習とレイトレーシングを使用した、反射率の高い高忠実度の単眼顔再構成に向けて
arxiv_reader 2021/11/23
一般的な照明条件での単眼画像からのロバストな顔の再構成は困難です。ディープニューラルネットワークエンコーダーと微分可能なレンダリングを組み合わせた方法により、ジオメトリ、照明、反射率の非常に高速な単眼

CNN

arXiv reaDer

monocular

representation

arXiv

learning

reconstruction

self-supervised

face

differentiable
リンク
PRIN / SPRIN：点ごとの回転不変特徴の抽出について
arxiv_reader 2021/11/23
点群の方向が不明なことが多いため、ポーズの事前設定を使用しない点群分析は、実際のアプリケーションでは非常に困難です。本論文では、点群解析における回転不変特徴抽出に焦点を当てた、まったく新しいポイントセ

arXiv reaDer

arXiv

augmentation

pose

3D

segmentation

sparse

point cloud

convolutional
リンク
自己監視スケルトンベースの行動認識のためのコントラスト再構成表現学習
arxiv_reader 2021/11/23
スケルトンベースのアクション認識は、監視や人間と機械の相互作用など、さまざまな分野で広く使用されています。既存のモデルは主に教師あり学習で学習されるため、大規模なラベル付きデータに大きく依存します。こ

action recognition

arXiv reaDer

contrastive learning

arXiv

unsupervised

reconstruction

self-supervised

representation learning

knowledge distillation

benchmark
リンク
機械は視覚的なデータベースなしで見ることを学ぶことができますか？
arxiv_reader 2021/11/23
この論文は、真に人間のような文脈で視覚スキルを征服する学習機械を考える時が来たという立場を維持します。そこでは、いくつかの人間のようなオブジェクトの監視は、音声の相互作用とポインティングエイドによって

arXiv

arXiv reaDer

learning
リンク
FRT-PAD: 顔関連タスクによる効果的なプレゼンテーション攻撃検出
arxiv_reader 2021/11/23
プレゼンテーション攻撃検出（PAD）メソッドの堅牢性と一般化機能は、顔認識システム（FRS）のセキュリティを確保するために重要です。ただし、実際のシナリオでは、プレゼンテーション攻撃（PA）はさまざま

arXiv reaDer

detection

arXiv

attention

face recognition

dataset
リンク
少数ショットのビデオオブジェクト検出
arxiv_reader 2021/11/23
非常に多様でダイナミックな世界での視覚学習への3つの貢献を伴うFew-ShotVideo Object Detection（FSVOD）を紹介します。1）500クラスで構成される大規模なビデオデータセ

arXiv reaDer

detection

representation

arXiv

learning

dataset

video

few-shot
リンク
手術ビデオからのオンライン位相認識のためのセグメントレベルのセマンティクスの活用
arxiv_reader 2021/11/23
自動手術位相認識は、ロボット支援手術で重要な役割を果たします。既存の方法は、フレームごとの情報だけに依存するのではなく、セグメントレベルのセマンティクスを学習することによって手術段階を分類する必要があ

arXiv reaDer

arXiv

learning

attention

dataset

video
リンク
ソース画像の選択は、敵対的攻撃の有効性に大きく影響します
arxiv_reader 2021/11/23
ディープニューラルネットワーク（DNN）の採用率は近年大幅に増加していますが、敵対的な例に対する脆弱性の解決策はまだ見つかっていません。その結果、この弱点を修正するために多大な研究努力が注がれ、多くの

arXiv reaDer

DNN

transformer

arXiv

adversarial
リンク
忠実度の高い画像完成のためのグローバルコンテキスト相互作用の橋渡し
arxiv_reader 2021/11/23
グローバルコンテキストの相互作用を正しくブリッジすることは、大きなマスクを使用した忠実度の高い画像の完成にとって重要です。深いまたは大きな受容野（RF）畳み込みを介してこれを試みる以前の方法は、劣って

CNN

arXiv reaDer

transformer

seq2seq

representation

arXiv

dataset

convolutional
リンク
アクション品質評価のための自動エンコーディングスコア分布回帰
Auto-Encoding Score Distribution Regression for Action Quality Assessment ビデオとアクションスコアの関係をモデル化するのは難しいため、ビデオからのアクション品質評価（AQA）は難しいビジョンタスクです。したがって、行動の質の評価は、文献で広く研究されてきました。従来、AQAタスクは、ビデオとアクションスコアの間の基礎となるマッピングを学習するための回帰問題として扱われていました。最近では、ラベル分布学習（LDL）の導入により、不確実性スコア分布学習（USDL）の方法が成功しました。ただし、USDLは連続ラベルのあるデータセットには適用されず、トレーニングで一定の分散が必要です。この論文では、上記の問題に対処するために、Distribution Auto-Encoder（DAE）をさらに開発します。 DAEは、回帰アル
arxiv_reader 2021/11/23
ビデオとアクションスコアの関係をモデル化するのは難しいため、ビデオからのアクション品質評価（AQA）は難しいビジョンタスクです。したがって、行動の質の評価は、文献で広く研究されてきました。従来、AQA

arXiv reaDer

arXiv

learning

action

multi-task

dataset

video
リンク
連合学習によるニューラルネットワークベースの方法を使用した頭蓋内出血の検出
arxiv_reader 2021/11/23
頭蓋内出血は、頭蓋内で起こる出血であり、深刻な健康問題であり、迅速かつ集中的な治療が必要です。このような状態は伝統的に、高度に訓練された専門家が患者のコンピューター断層撮影（CT）スキャンを分析し、

arXiv reaDer

detection

arXiv

learning

CT

classification

pooling

convolutional
リンク
CDistNet：ロバストなテキスト認識のためのマルチドメイン文字距離の認識
arxiv_reader 2021/11/23
注意ベースのエンコーダ-デコーダフレームワークは、主に視覚的ドメインと意味的ドメインの両方からの認識の手がかりを統合することにおけるその優位性のために、シーンテキスト認識で人気が高まっています。ただし

arXiv reaDer

arXiv

augmentation

localization

embedding

attention

dataset

domain

benchmark
リンク
生物学的画像の再構成と強化のための教師なし深層学習法
arxiv_reader 2021/11/23
最近、深層学習アプローチは、その高性能と超高速の推論時間のおかげで、生物学的画像の再構成と強調の問題の主要な研究フロンティアになっています。ただし、教師あり学習のために一致する参照データを取得すること

arXiv reaDer

arXiv

learning

unsupervised

reconstruction

self-supervised

generative
リンク
ノイズを意識したビデオ顕著性予測
arxiv_reader 2021/11/23
ダイナミックシーンのビデオの顕著性マップを予測する問題に取り組んでいます。一定数の観測者の視線データから再構築されたマップの精度は、シーンのコンテンツに依存するため、フレームによって異なることに注意し

arXiv reaDer

saliency

arXiv

gaze

loss function

dataset

video
リンク
周波数領域を介したバックドア攻撃
arxiv_reader 2021/11/23
バックドア攻撃は、生体認証や自動運転などの深層学習システムに対する深刻な脅威であることが示されています。効果的なバックドア攻撃は、特定の事前定義された条件下、つまりトリガーの下でモデルの誤動作を強制す

autonomous driving

arXiv reaDer

arXiv

learning

dataset

domain
リンク
3Dポイントクラウド分類での知覚できない転送攻撃と防御
Imperceptible Transfer Attack and Defense on 3D Point Cloud Classification 近年、2D画像ドメインに対する攻撃と防御に多くの努力が払われてきましたが、3Dモデルの脆弱性を調査する方法はほとんどありません。既存の3D攻撃者は通常、点群に対して点ごとの摂動を実行し、その結果、構造や外れ値が変形します。これは、人間が簡単に認識できます。さらに、それらの敵対的な例は、ホワイトボックス設定の下で生成されます。ホワイトボックス設定は、リモートブラックボックスモデルを攻撃するために転送されると、成功率が低くなることがよくあります。この論文では、新しい知覚不能伝達攻撃（ITA）を提案することにより、2つの新しい挑戦的な視点から3D点群攻撃を研究します。1）知覚不能性：各点の摂動方向を近傍表面の法線ベクトルに沿って制約し、同様の幾何学
arxiv_reader 2021/11/23
近年、2D画像ドメインに対する攻撃と防御に多くの努力が払われてきましたが、3Dモデルの脆弱性を調査する方法はほとんどありません。既存の3D攻撃者は通常、点群に対して点ごとの摂動を実行し、その結果、構造

arXiv reaDer

adversarial

arXiv

representation

learning

domain

3D

classification

point cloud
リンク
半教師あり医用画像セグメンテーションのための特徴表現学習の探索
arxiv_reader 2021/11/23
この論文は、半教師あり医療画像セグメンテーションのためのシンプルで効果的な2段階のフレームワークを提示します。私たちの重要な洞察は、セグメンテーションのパフォーマンスを向上させるために、ラベル付きおよ

arXiv reaDer

contrastive learning

arXiv

representation learning

segmentation

benchmark

semi-supervised
リンク
単一画像の超解像のための局所選択的特徴蒸留
Local-Selective Feature Distillation for Single Image Super-Resolution 畳み込みニューラルネットワーク（CNN）ベースの単一画像超解像（SISR）手法の最近の改善は、回帰損失を最小限に抑える以外に適切なトレーニングアルゴリズムを見つけるのではなく、ネットワークアーキテクチャの製造に大きく依存しています。知識蒸留（KD）を採用することで、SISRをさらに改善する道が開かれ、モデルの効率の観点からも有益です。 KDは、テスト用の追加パラメーターを使用せずに、ディープニューラルネットワーク（DNN）のパフォーマンスを向上させるモデル圧縮方法です。最近、容量とパフォーマンスのトレードオフを改善する能力が脚光を浴びています。本論文では、SISRに適した新しい特徴蒸留（FD）法を提案した。 SISRタスクで発生する既存のFit Net
arxiv_reader 2021/11/23
畳み込みニューラルネットワーク（CNN）ベースの単一画像超解像（SISR）手法の最近の改善は、回帰損失を最小限に抑える以外に適切なトレーニングアルゴリズムを見つけるのではなく、ネットワークアーキテクチ

CNN

arXiv reaDer

DNN

arXiv

attention

knowledge distillation

super-resolution

compression
リンク
ノイズベースの路面異常検出を駆動するための効率的な非圧縮オートエンコーダ
arxiv_reader 2021/11/23
雨天は道路上に水膜を作り、その膜はタイヤと路面の間の摩擦を少なくします。車両が低摩擦道路を通過すると、事故は通常の道路よりも最大35％高い頻度で発生する可能性があります。上記のような事故を未然に防ぐた

arXiv reaDer

anomaly detection

arXiv

vehicle

real time

convolutional
リンク
密な予測のためのトポロジー正則化
arxiv_reader 2021/11/23
奥行き知覚やセマンティックセグメンテーションなどの高密度予測タスクは、画像を接続されたコンポーネントに分割したり、画像内のオブジェクトに対応する少数の極値を持つ関数を推定したりするという点で具体的なト

arXiv reaDer

regularization

arXiv

computer vision

benchmark

semantic segmentation
リンク
半教師付きセマンティックセグメンテーションの構造化一貫性損失
arxiv_reader 2021/11/23
一貫性の損失は、半教師あり学習に関する最近の研究で問題を解決する上で重要な役割を果たしてきました。しかし、一貫性の損失を伴う既存の研究は、分類タスクへの適用に限定されています。半教師付きセマンティッ

arXiv reaDer

arXiv

learning

classification

benchmark

semantic segmentation

semi-supervised
リンク
変形ロバストロトスケール-変換同変CNN
arxiv_reader 2021/11/23
群の対称性を学習プロセスに直接組み込むことは、モデル設計の効果的なガイドラインであることが証明されています。入力に対するグループアクションに共変変換することが保証されている機能を生成することにより、グ

CNN

arXiv reaDer

representation

arXiv

learning

OOD

action
リンク
多くの頭と 1 つの脳: 融合脳 -- 競争と単一のマルチモーダルマルチタスクアーキテクチャ
arxiv_reader 2021/11/23
AIコミュニティの現在の傾向をサポートするために、FusionBrainと呼ばれるAIJourney 2021チャレンジを提案します。これは、ユニバーサルアーキテクチャにさまざまなモダリティ（つまり、

arXiv reaDer

detection

arXiv

metric

zero-shot

dataset
リンク
複数のカメラを使用して、大きなペンで成長を終えた豚を追跡する
arxiv_reader 2021/11/23
肉製品の需要の増加と農場の労働力不足が相まって、動物を効果的に監視するための新しいリアルタイムソリューションを開発する必要が生じています。検出による追跡方法を使用して、個々の豚の位置を継続的に特定する

arXiv reaDer

detection

YOLO

arXiv

MOT

dataset

real time

video
リンク
バイナリニューラルネットワークの周波数領域近似の学習
arxiv_reader 2021/11/23
バイナリニューラルネットワーク（BNN）は、元の全精度の重みとアクティブ化を符号関数を使用して1ビットに表します。従来の符号関数の勾配はどこでもほぼゼロであり、バックプロパゲーションには使用できないた

adaptation

arXiv reaDer

arXiv

learning

approximation

dataset

domain

benchmark

gradient
リンク
Medical Aegis：医療画像用の堅牢な敵対的プロテクター
arxiv_reader 2021/11/23
ディープニューラルネットワークベースの医用画像システムは、敵対的な例に対して脆弱です。多くの防御メカニズムが文献で提案されていますが、既存の防御は、防御システムについてほとんど知らず、防御に従って攻撃

arXiv reaDer

DNN

arXiv

classification

adversarial
リンク
宝くじのジャックポットは、事前にトレーニングされたモデルに存在します
arxiv_reader 2021/11/23
ネットワークプルーニングは、許容できるパフォーマンスの妥協でネットワークの複雑さを軽減するための効果的なアプローチです。既存の研究は、時間のかかる重み調整または幅が拡張されたネットワークでの複雑な検索

pre-training

arXiv reaDer

arXiv

pruning

sparse
リンク
VLDeformer：高速クロスモーダル検索のための視覚言語分解トランスフォーマー
arxiv_reader 2021/11/23
クロスモデル検索は、テキストのみの検索エンジン（SE）の最も重要なアップグレードの1つとして浮上しています。最近、初期の相互作用を介したペアワイズテキスト画像入力の強力な表現により、視覚言語（VL）ト

arXiv reaDer

pre-training

transformer

representation

arXiv

learning

human

embedding

dataset
リンク
MidNet：航空写真での方向性のある船の検出のためのアンカーと角度のない検出器
arxiv_reader 2021/11/23
航空写真での船の検出は、任意のオブジェクト指向と鳥瞰図からの複雑な背景のため、アクティブでありながら困難なタスクのままです。既存の方法のほとんどは、角度予測または事前定義されたアンカーボックスに依存し

arXiv reaDer

detection

arXiv

dataset

convolutional
リンク
MUM：半教師ありオブジェクト検出のための画像タイルの混合と機能タイルの混合解除
MUM : Mix Image Tiles and UnMix Feature Tiles for Semi-Supervised Object Detection 最近の多くの半教師あり学習（SSL）研究は、教師と生徒のアーキテクチャを構築し、教師から生成された監視信号によって生徒のネットワークをトレーニングします。ラベル情報を失うことなく弱く強い拡張入力ペアを作成することは難しいため、データ拡張戦略はSSLフレームワークで重要な役割を果たします。特にSSLを半教師ありオブジェクト検出（SSOD）に拡張する場合、画像ジオメトリと補間正則化に関連する多くの強力な拡張手法は、オブジェクト検出タスクのバウンディングボックスの位置情報を損なう可能性があるため、利用が困難です。これに対処するために、SSODフレームワークの混合画像タイルの機能タイルをアンミックスするシンプルで効果的なデータ拡張方法
arxiv_reader 2021/11/23
最近の多くの半教師あり学習（SSL）研究は、教師と生徒のアーキテクチャを構築し、教師から生成された監視信号によって生徒のネットワークをトレーニングします。ラベル情報を失うことなく弱く強い拡張入力ペアを

arXiv reaDer

detection

arXiv

augmentation

learning

dataset

benchmark

semi-supervised
リンク
野生の単一画像からのポーズ誘導人間アニメーション
arxiv_reader 2021/11/23
一連の身体ポーズによって制御される人物の単一の画像から人間のアニメーションを合成するための新しいポーズ転送方法を提示します。既存のポーズ転送方法は、新しいシーンに適用するときに重大な視覚的アーティファ

arXiv reaDer

person

representation

arXiv

pose

human

synthesis
リンク
誘導バイアスマルチヘッド自己注意を備えた3Dスウィントランスフォーマーに基づく肝血管セグメンテーション
arxiv_reader 2021/11/23
目的：CT画像からの肝臓血管のセグメンテーションは、外科的計画の前に不可欠であり、医療画像分析コミュニティで幅広い関心を呼び起こしました。複雑な構造と低コントラストのバックグラウンドのため、自動肝血管

arXiv reaDer

transformer

U-Net

arXiv

embedding

3D

attention

segmentation

convolutional
リンク
モデルベースの単一画像ディープデヘイズ
arxiv_reader 2021/11/23
モデルベースの単一画像の曇り除去アルゴリズムは、低いPSNR値を犠牲にして、シャープなエッジと豊かなディテールを備えた画像を復元します。データ駆動型のものは、PSNR値が高いがコントラストが低く、ヘイ

arXiv reaDer

arXiv

learning

augmentation

synthesis
リンク
アダプティブトランスファーラーニング：シンプルだが効果的なトランスファーラーニング
arxiv_reader 2021/11/23
転移学習（TL）は、以前に取得した知識を活用して新しいタスクを効率的に学習し、限られた量のデータで深層学習（DL）モデルをトレーニングするために使用されています。 TLがDLに適用されると、事前にトレ

arXiv reaDer

transfer learning

arXiv

domain

few-shot
リンク
データラベリングと品質評価のための自己管理半教師あり学習
arxiv_reader 2021/11/23
産業用アプリケーションでの深層学習技術の採用が速度と規模の増加とともに拡大するにつれて、深層学習モデルの展開の成功は、多くの場合、注釈付きデータの可用性、量、および品質にかかっています。この論文では、

arXiv reaDer

arXiv

self-supervised

representation learning

dataset

semi-supervised
リンク
部分的なスケッチベースの画像検索のための深い強化された注意回帰
arxiv_reader 2021/11/23
きめ細かいスケッチベースの画像検索（FG-SBIR）は、クエリスケッチを指定して大きなギャラリーから特定の画像を見つけることを目的としています。多くの重要な領域（犯罪活動の追跡など）でFG-SBIRが

arXiv reaDer

arXiv

activity

domain

reinforcement learning

attention

dataset

tracking

gradient
リンク
GANを使用したビデオコンテンツの交換
arxiv_reader 2021/11/23
ビデオ生成は、コンピュータビジョンの興味深い問題です。データ拡張、移動時の特殊効果、AR / VRなどで非常に人気があります。深層学習の進歩に伴い、この課題を解決するために多くの深層生成モデルが提案さ

arXiv reaDer

pre-training

detection

arXiv

augmentation

pose

computer vision

unsupervised

GAN

generative
リンク
2要素摂動を使用した深層学習分類器のロバスト性のベンチマーク
arxiv_reader 2021/11/23
このホワイトペーパーでは、ディープラーニング（DL）分類器の堅牢性のベンチマークに関する基本的な作業を追加します。 DL分類器の堅牢性を評価するための新しいベンチマーク手法を革新します。また、DL分類

arXiv

arXiv reaDer

learning
リンク
分布外データの検出とキャリブレーションのための共変量と概念シフトの調査
arxiv_reader 2021/11/23
配布中のデータのテストを超えて、配布外（OOD）の検出に関する作業が最近人気が高まっています。 OODデータを分類する最近の試みでは、近距離および遠距離のOOD検出の概念が導入されています。具体的には

arXiv reaDer

detection

arXiv

OOD

dataset
リンク
感度分解によるニューラルキャリブレーションに向けた幾何学的展望
arxiv_reader 2021/11/23
視覚分類モデルは、データ分布の変化に直面してキャリブレーションが不十分になることはよく知られています。この論文では、この問題に対して幾何学的なアプローチを取ります。サンプル特徴埋め込みのノルムとターゲ

arXiv reaDer

arXiv

OOD

metric

embedding

disentangling

face

classification

dataset
リンク
スタインの偏りのないリスク推定量を使用する前の深い画像：SURE-DIP
arxiv_reader 2021/11/23
広範なトレーニングデータに依存する深層学習アルゴリズムは、不適切な測定からの画像回復に革命をもたらしています。超高解像度イメージングを含む多くのイメージングアプリケーションでは、トレーニングデータが不

CNN

arXiv reaDer

arXiv

learning

metric

single-shot
リンク
変分多様体学習を使用したマルチスライス動的MRIの共同アライメントと再構成
arxiv_reader 2021/11/23
自由呼吸心臓MRIスキームは、呼吸を保持するシネMRIプロトコルの競争力のある代替手段として浮上しており、息を止めることができない小児およびその他の集団への適用を可能にします。スライスからのデータは順

arXiv reaDer

representation

arXiv

learning

unsupervised

reconstruction

manifold

MRI
リンク
アクティブオブジェクト検出のためのリレーショナルボックスフィールドを使用した順次投票
arxiv_reader 2021/11/23
手とオブジェクトの相互作用を理解するための重要な要素は、アクティブなオブジェクト（人間の手によって操作されているオブジェクト）を識別する機能です。アクティブオブジェクトを正確にローカライズするために、

arXiv reaDer

detection

arXiv

localization

human

reinforcement learning
リンク
多様体での動き補償された滑らかさの正則化を使用した動的イメージング（MoCo-SToRM）
arxiv_reader 2021/11/23
動き補償動的MRIのための教師なし深多様体学習アルゴリズムを紹介します。自由呼吸肺MRIデータセットのモーションフィールドは多様体上にあると仮定します。各時点でのモーションフィールドは、時間的変動を捉

regularization

arXiv reaDer

arXiv

learning

unsupervised

manifold

estimation

MRI

dataset

generative
リンク
ビデオからのバイノーラルオーディオ生成のためのジオメトリ対応マルチタスク学習
arxiv_reader 2021/11/23
バイノーラルオーディオは、人間のリスナーに没入型の空間サウンド体験を提供しますが、ほとんどの既存のビデオにはバイノーラルオーディオ録音がありません。ビデオの視覚情報を利用して、モノラル（シングルチャネ

arXiv reaDer

arXiv

learning

multi-task

human

dataset

video
リンク
屋外の自然シーンの記憶力を理解し、予測する
arxiv_reader 2021/11/23
記憶力は、一瞥した後の画像の記憶のしやすさを測定し、雑誌の表紙や観光宣伝資料などのデザインに貢献する可能性があります。最近の作品は、一般的な画像、オブジェクト画像、または顔写真を思い出深いものにする視

arXiv

arXiv reaDer

DNN

face
リンク
ロボット形態の全身視覚的自己モデリング
arxiv_reader 2021/11/23
物理的な物体の内部計算モデルは、ロボットと動物が同様に行動を計画および制御する能力の基本です。これらの「自己モデル」により、ロボットは、物理的な現実でそれらを試すことなく、複数の可能な将来のアクション

arXiv reaDer

arXiv

localization

action

robot

domain

differentiable
リンク
多発性硬化症における脈絡叢の自動セグメンテーションのための軸方向多層パーセプトロンアーキテクチャ
arxiv_reader 2021/11/23
脈絡叢（CP）は、脳脊髄液（CSF）の大部分を生成する脳室の構造です。いくつかの死後およびinvivo研究は、多発性硬化症（MS）の炎症過程におけるそれらの役割を指摘しています。したがって、MRIから

CNN

arXiv reaDer

transformer

U-Net

arXiv

MRI

3D

segmentation

dataset
リンク
CpT：3Dポイントクラウド処理用の畳み込みポイントトランスフォーマー
arxiv_reader 2021/11/23
CpT：Convolutional pointTransformerを紹介します-3Dポイントクラウドデータの非構造化された性質を処理するための新しい深層学習アーキテクチャ。 CpTは、既存のアテンシ

arXiv reaDer

transformer

arXiv

embedding

3D

dataset

point cloud

benchmark

semantic segmentation

convolutional
リンク
それらすべてを測定するための1つのメトリック：視覚的検出タスクを評価するためのローカリゼーション再現率（LRP）
arxiv_reader 2021/11/23
視覚的検出タスクのパフォーマンス指標として広く使用されているにもかかわらず、平均精度（AP）は、（i）ローカリゼーションの品質の反映、（ii）解釈可能性、（iii）計算に関する設計選択の堅牢性、および

arXiv reaDer

detection

arXiv

metric

keypoint

zero-shot

classification

dataset

panoptic segmentation
リンク
https://arxiv-check-250201.firebaseapp.com/each/2111.10854v3
arxiv_reader 2021/11/23
カプセルネットワークは、視覚認識タスクのためにディープニューラルネットワークの特徴間の位置関係を定義する優れた能力を示しますが、計算コストが高く、モバイルデバイスでの実行には適していません。ボトルネッ

CNN

arXiv

arXiv reaDer

dataset
リンク
ノイズ除去された内部モデル：敵対的な攻撃に対する脳に触発されたオートエンコーダ
arxiv_reader 2021/11/23
その大きな成功にもかかわらず、ディープラーニングは堅牢性に深刻な問題を抱えています。つまり、ディープニューラルネットワークは、最も単純なものであっても、敵対的な攻撃に対して非常に脆弱です。脳科学の最近

arXiv reaDer

arXiv

learning

human

sparse

adversarial

generative
リンク
マルチスタイルおよびマルチビューの対照学習によるマンモグラフィ検出のためのドメインの一般化
arxiv_reader 2021/11/23
病変の検出は、マンモグラフィのコンピュータ支援診断スキームにおける基本的な問題です。トレーニングデータが大きく、画像のスタイルと品質の点で十分に多様であるという条件で、深層学習技術の進歩はこのタスクで

arXiv reaDer

detection

contrastive learning

arXiv

unsupervised

embedding

dataset

domain
リンク
自動運転のための空間コンテキストディープネットワークベースのマルチモーダル歩行者検出
arxiv_reader 2021/11/23
歩行者検出は、自動運転システムの最も重要なモジュールです。この目的でカメラが一般的に使用されますが、夜間の暗い場所での運転シナリオでは、カメラの品質が大幅に低下します。一方、赤外線カメラの画像の品質は

autonomous driving

arXiv reaDer

detection

arXiv

embedding

RNN

attention

pedestrian

dataset

benchmark
リンク
3Dキーポイントナレッジエンジンを使用したピクセルレベルの2D画像セマンティクスの理解
arxiv_reader 2021/11/23
ピクセルレベルの2Dオブジェクトのセマンティック理解は、コンピュータービジョンの重要なトピックであり、機械が日常生活の中でオブジェクト（機能やアフォーダンスなど）を深く理解するのに役立ちます。ただし、

arXiv reaDer

arXiv

computer vision

keypoint

3D

dataset

domain

benchmark
リンク
脳ネットワーク分類のための構造保存グラフカーネル
arxiv_reader 2021/11/23
この論文は、コネクトーム分析のための新しいグラフベースのカーネル学習アプローチを提示します。具体的には、グラフ表現内で自然に利用可能な構造を活用して、カーネルの事前知識をエンコードする方法を示します。

arXiv reaDer

representation

arXiv

learning

classification

emotion
リンク
FreqNet：離散余弦変換を備えた周波数領域画像超解像ネットワーク
arxiv_reader 2021/11/23
単一画像超解像（SISR）は、低解像度（LR）入力から高解像度（HR）出力を取得することを目的とした不適切な問題であり、その間に、知覚を改善するために余分な高周波情報が追加されることになっています。品

arXiv reaDer

arXiv

reconstruction

loss function

domain

metric

interpretation

super-resolution
リンク
HoughCL：高密度の自己監視学習でより良いポジティブペアを見つける
arxiv_reader 2021/11/23
最近、自己監視方式は、画像レベルの表現学習において目覚ましい成果を示しています。それにもかかわらず、それらの画像レベルの自己監視は、学習された表現を、オブジェクト検出、インスタンスセグメンテーションな

arXiv reaDer

detection

contrastive learning

arXiv

augmentation

self-supervised

embedding

representation learning

segmentation
リンク
DuDoTrans：デュアルドメイントランスフォーマーは、スパースビューCT再構成でのサイノグラム復元により多くの注意を提供します
arxiv_reader 2021/11/23
X線サイノグラムからのコンピューター断層撮影（CT）の再構成は臨床診断に必要ですが、画像化プロセスでのヨウ素放射線は不可逆的な損傷を誘発し、それによって研究者はスパースビューCT再構成を研究するように

arXiv reaDer

transformer

arXiv

reconstruction

COVID-19

attention

CT

sparse

dataset
リンク
パラメータ効率の高い畳み込みニューラルネットワークのための深く共有されたフィルタベース
arxiv_reader 2021/11/23
最新の畳み込みニューラルネットワーク（CNN）には、大規模な同一の畳み込みブロックがあるため、パラメーターの量を減らすために、これらのブロック間でパラメーターを再帰的に共有することが提案されています。

CNN

arXiv reaDer

regularization

detection

representation

arXiv

pose

classification
リンク
FCOSR：空中物体検出用のシンプルなアンカーフリー回転検出器
arxiv_reader 2021/11/23
既存のアンカーベース指向のオブジェクト検出方法は驚くべき結果を達成しましたが、これらの方法にはいくつかの手動プリセットボックスが必要であり、追加のハイパーパラメータと計算が導入されます。既存のアンカー

arXiv reaDer

anchor free

detection

arXiv

dataset

convolutional
リンク
医用画像におけるワンショット弱教師ありセグメンテーション
arxiv_reader 2021/11/23
ディープニューラルネットワークは通常、医療画像のセグメンテーションで卓越したパフォーマンスを実現するために、正確で多数の注釈を必要とします。ワンショットセグメンテーションと弱教師あり学習は、それぞれ1

denoising

arXiv reaDer

one-shot

arXiv

weakly-supervised

3D

CT

segmentation

dataset
リンク
オンラインセマンティック3Dシーンセグメンテーションのためのフュージョン対応ポイントコンボリューション
arxiv_reader 2021/11/23
リアルタイムのRGB-D再構築機能を備えた企業におけるオンラインセマンティック3Dセグメンテーションは、漸進的に融合した3Dジオメトリデータに対して直接3Dコンボリューションを実行する方法や、フレー

arXiv reaDer

arXiv

pose

reconstruction

3D

segmentation

point cloud

real time

convolutional
リンク
モバイルデバイス上の画像認識システムをだますための目立たない敵対的パッチ
arxiv_reader 2021/11/23
ディープラーニングベースの画像認識システムは、今日の世界のモバイルデバイスに広く展開されています。ただし、最近の研究では、深層学習モデルは敵対的な例に対して脆弱であることが示されています。敵対パッチと

arXiv reaDer

saliency

arXiv

learning

human

attention

adversarial
リンク
カテゴリレベルの6Dオブジェクトのポーズとサイズを推定するための正規形状空間の学習
arxiv_reader 2021/11/23
カテゴリレベルの6 Dオブジェクトのポーズとサイズの推定への新しいアプローチを提示します。クラス内の形状変動に取り組むために、特定のオブジェクトカテゴリのさまざまなインスタンスの統一表現である正規形

arXiv reaDer

RGB-D

arXiv

pose

estimation

embedding

3D

point cloud

generative

6D
リンク
視覚的表現の分散型教師なし学習
arxiv_reader 2021/11/23
連合学習（FL）を使用すると、分散クライアントは、トレーニングデータを各クライアントでローカルに保ちながら、予測用の共有モデルを学習できます。ただし、既存のFLでは、トレーニングに完全にラベル付けされ

contrastive learning

unsupervised

self-supervised

arXiv reaDer

representation learning

arXiv
リンク
深い特徴抽出によるCOVID-19検出
arxiv_reader 2021/11/23
SARS-CoV2ウイルスは、人口に多くの苦難をもたらしました。人がCOVID-19に感染しているかどうかを正確に判断できる予測モデリングが不可欠です。この研究では、ネットワークのバックボーンとして機

arXiv reaDer

pre-training

detection

person

arXiv

human

COVID-19

dataset
リンク
敵対マスク：顔認識モデルに対する現実世界の普遍的な敵対攻撃
arxiv_reader 2021/11/23
ディープラーニングベースの顔認識（FR）モデルは、COVID-19のパンデミック時に保護用の医療用フェイスマスクを着用することが一般的になった場合でも、過去数年間で最先端のパフォーマンスを実証していま

arXiv reaDer

arXiv

learning

domain

COVID-19

face recognition

dataset

adversarial
リンク
TraVLR: 見えるようになりましたが、見えなくなりました!視覚言語推論を評価するためのバイモーダルデータセット
arxiv_reader 2021/11/23
多数のVisio-Linguistic（V + L）表現学習方法が開発されていますが、既存のデータセットは、統一された空間で視覚的および言語的概念を表す範囲を評価していません。クロスリンガル転送と心理

arXiv reaDer

reasoning

arXiv

OOD

representation learning

zero-shot

dataset

synthesis

benchmark
リンク
非線形演算子の疑似逆行列
arxiv_reader 2021/11/23
ムーア・ペンローズ逆行列は、物理学、統計学、および工学のさまざまな分野で広く使用されています。他の特性の中でも、データが過剰な場合の線形演算子の反転の概念をうまく捉えています。データサイエンスでは、非

arXiv

arXiv reaDer
リンク
確率的分散により、敵対的移転可能性を高めるためのアンサンブル敵対的攻撃が減少しました
arxiv_reader 2021/11/23
ブラックボックスの敵対的攻撃は、ディープラーニングセキュリティの分野での実用化で大きな注目を集めていますが、ネットワークアーキテクチャやターゲットモデルの内部の重みにアクセスできないため、非常に困難で

arXiv reaDer

arXiv

learning

attention

dataset

adversarial

gradient
リンク
非見通し内イメージングの最近の進歩：従来の物理モデル、ディープラーニング、および新しいシーン
arxiv_reader 2021/11/23
大きな注目を集めている新興技術として、非視線（NLOS）イメージングは、自動運転、医療イメージング、および医療イメージングの分野で幅広いアプリケーションの見通しを持って、リレー表面での拡散反射を分析す

autonomous driving

arXiv reaDer

arXiv

learning

reconstruction

attention
リンク
MaIL：画像セグメンテーションを参照するための統一されたマスク-画像-言語三峰性ネットワーク
arxiv_reader 2021/11/23
参照画像のセグメンテーションは、特定の言語式で記述された指示対象のバイナリマスクを生成することを目的とした、典型的なマルチモーダルタスクです。従来技術は、エンコーダー-フュージョン-デコーダーパイプラ

arXiv reaDer

pre-training

arXiv

learning

segmentation

dataset
リンク
単純な近隣代表の前処理が外れ値検出器を後押し
arxiv_reader 2021/11/23
何十年にもわたって、従来の外れ値検出器は、オブジェクトレベルの係数のみを評価することによってデータ内のオブジェクトの外れ値スコアを計算するときにグループレベルの係数を無視し、集合的な外れ値をキャプチャ

arXiv

arXiv reaDer

detection

dataset
リンク
小惑星探査のための深層学習を備えた3Dビジュアルトラッキングフレームワーク
arxiv_reader 2021/11/23
3Dビジュアルトラッキングは、宇宙船がターゲットに柔軟に接近することを保証できる深宇宙探査プログラムにとって重要です。この論文では、3D追跡のために研究された正確でリアルタイムの方法に焦点を当てます。

arXiv reaDer

monocular

arXiv

simulation

3D

dataset

point cloud

video

real time

tracking
リンク
深い確率の推定
arxiv_reader 2021/11/23
信頼性の高い確率推定は、天気予報、医療予測、自動運転車の衝突回避など、固有の不確実性が存在する多くの実際のアプリケーションで非常に重要です。確率推定モデルは、観察された結果（たとえば、雨が降ったかどう

arXiv reaDer

arXiv

estimation

metric

classification

dataset

synthesis

video

vehicle
リンク
管状構造追跡のための曲率正則化による軌道グループ化
arxiv_reader 2021/11/23
管状構造の追跡は、コンピュータビジョンと医療画像分析の分野で重要なタスクです。最小パスベースのアプローチは、管状構造をトレースする強力な能力を示しています。これにより、管状構造は、適切な測地線メトリッ

trajectory

arXiv reaDer

regularization

arXiv

computer vision

metric

synthesis

tracking
リンク
対照的な自己監視テクスチャ学習に基づく頸部光コヒーレンストモグラフィー画像分類
arxiv_reader 2021/11/23
背景：子宮頸がんは、女性の生殖器系の健康に深刻な影響を及ぼします。光コヒーレンストモグラフィー（OCT）は、頸部疾患を検出するための非侵襲的で高解像度の画像技術として登場しました。ただし、OCT画像注

CNN

arXiv reaDer

detection

contrastive learning

arXiv

self-supervised

3D

classification

dataset
リンク
赤外線小ターゲット検出のための非凸テンソル低ランク近似
arxiv_reader 2021/11/23
赤外線の小さなターゲットの検出は、赤外線システムの重要な基本的なタスクです。そのため、多くの赤外線小ターゲット検出方法が提案されており、低ランクモデルが強力なツールとして使用されています。ただし、ほと

regularization

arXiv reaDer

detection

arXiv

estimation

metric

approximation
リンク
畳み込みニューラルネットワークの忠実な説明には、Grad-CAMの代わりにHiResCAMを使用してください
arxiv_reader 2021/11/23
説明方法は、意味のある概念を学習し、疑似相関の悪用を回避するモデルの開発を容易にします。一般的なニューラルネットワークの説明方法であるGrad-CAMのこれまで認識されていなかった制限について説明しま

CNN

arXiv reaDer

arXiv

attention

gradient
リンク
配布外データを使用した望ましくない機能の貢献の削除
arxiv_reader 2021/11/23
いくつかのデータ拡張方法は、ニューラルネットワークのトレーニングと推論の間のギャップを埋めるために、ラベルなし配布（UID）データを展開します。ただし、これらの方法には、UIDデータの可用性と、アルゴ

arXiv reaDer

arXiv

augmentation

learning

OOD

human

adversarial
リンク
修復による自己監視点群の完成
arxiv_reader 2021/11/23
都市環境をナビゲートする場合、追跡および回避する必要のあるオブジェクトの多くは、かなり閉塞されています。これらの部分スキャンを使用した計画と追跡は、困難な場合があります。この作業の目的は、これらの部分

arXiv reaDer

LiDAR

arXiv

weakly-supervised

unsupervised

self-supervised

synthesis

dataset

point cloud

tracking
リンク
深層学習モデルの表現力と損失面
arxiv_reader 2021/11/23
このホワイトペーパーの目的は2つあります。最初の目標は、深層学習の成功の理由についての幾何学的な直感を強調する深層学習モデルの動作に関する説明チュートリアルとして機能することです。 2番目の目標は、深

arXiv reaDer

transformer

arXiv

learning

attention
リンク
視覚的関係検出のためのランダムに重み付けされた特徴ネットワークを使用した事前知識の表現
arxiv_reader 2021/11/23
Hong and Pavlic（2021）によって導入された単一の隠れ層のランダム加重機能ネットワーク（RWFN）は、リレーショナル学習タスクのニューラルテンソルネットワークアプローチの代替として開発

arXiv reaDer

detection

representation

arXiv

learning

interpretation

zero-shot

dataset
リンク
深層学習による磁気共鳴前立腺画像の分割に関するレビュー
arxiv_reader 2021/11/23
ディープラーニング;これは、生物医学分野の画像のプロセスを分割する際によく使用されます。近年、他の画像分割方法と比較して、深層学習を使用して前立腺画像に対して実行される分割手順が増加していることが観察

arXiv

arXiv reaDer

learning

MRI
リンク
VideoPose：ビデオから6Dオブジェクトのポーズを推定する
arxiv_reader 2021/11/23
畳み込みニューラルネットワークを使用して、ビデオからオブジェクトのポーズを直接推定する、シンプルでありながら効果的なアルゴリズムを紹介します。私たちのアプローチは、ビデオシーケンスからの時間情報を活用

CNN

arXiv reaDer

pre-training

detection

arXiv

pose estimation

RNN

domain

real time

6D
リンク
兆候を探す：連続ビデオ映像で孤立した兆候インスタンスを特定する
arxiv_reader 2021/11/23
この論文では、ワンショット手話スポッティングのタスクに焦点を当てます。つまり、孤立した手話（クエリ）の例を挙げて、この手話が連続的な同時調音の手話ビデオ（ターゲット）に表示されるかどうか/どこに表示さ

CNN

arXiv reaDer

one-shot

arXiv

localization

3D

spatio-temporal

attention

dataset

benchmark
リンク
ビジョントランスフォーマーは、摂動にパッチを当てるのに堅牢ですか？
arxiv_reader 2021/11/23
Vision Transformer（ViT）の最近の進歩は、画像分類におけるその印象的なパフォーマンスを実証しており、畳み込みニューラルネットワーク（CNN）の有望な代替手段となっています。 CNN

CNN

arXiv reaDer

transformer

representation

arXiv

attention

classification

adversarial
リンク
エッジデバイスのリアルタイム人間検出モデル
arxiv_reader 2021/11/23
限られたリソースのデバイスに適合する小型の高速監視システムモデルを構築することは困難ですが、重要な作業です。畳み込みニューラルネットワーク（CNN）は、検出および分類タスクにおいて、従来の特徴抽出およ

CNN

arXiv reaDer

detection

edge device

arXiv

human

classification

dataset

benchmark

real time
リンク
シミュレートされたLiDAR再配置：新しい点群データ拡張方法
arxiv_reader 2021/11/23
LiDARのデータ拡張の問題に対処します。ある位置からのシーンのLiDARスキャンを考えると、異なる2次位置からのそのシーンの新しいスキャンをどのようにシミュレートできますか？この方法では、有効な2次

arXiv reaDer

LiDAR

arXiv

augmentation

occlusion

synthesis

point cloud
リンク
事前の顔部分空間によるアイデンティティ保持ポーズロバストな顔の幻覚
arxiv_reader 2021/11/23
過去数十年にわたって、対応する低解像度（LR）の対応物から高解像度（HR）の顔画像を復元する問題に対処するために、多くの試みがなされてきました。これは、一般に顔の幻覚と呼ばれるタスクです。位置パッチと

arXiv reaDer

arXiv

reconstruction

3D

face

dataset

super-resolution
リンク
点群ジオメトリ圧縮のためのスパーステンソルベースのマルチスケール表現
Sparse Tensor-based Multiscale Representation for Point Cloud Geometry Compression この研究では、SparsePCGCと呼ばれるボクセル化されたPCGのスパーステンソルプロセッシング（STP）ベースのマルチスケール表現を介して、統合された点群ジオメトリ（PCG）圧縮方法を開発します。 STPを適用すると、最も可能性の高い正の占有ボクセル（MP-POV）を中心とした畳み込みのみが実行されるため、複雑さが大幅に軽減されます。また、マルチスケール表現により、スケールごとのMP-POVを段階的に圧縮できます。全体的な圧縮効率は、各MP-POVの占有確率の近似精度に大きく依存します。したがって、事前確率を広範囲に活用するために、スパース畳み込みとボクセル再サンプリングで構成されるスパース畳み込みベースのニューラルネット
arxiv_reader 2021/11/23
この研究では、SparsePCGCと呼ばれるボクセル化されたPCGのスパーステンソルプロセッシング（STP）ベースのマルチスケール表現を介して、統合された点群ジオメトリ（PCG）圧縮方法を開発します。

arXiv reaDer

LiDAR

representation

arXiv

autoregressive

embedding

sparse

point cloud

dataset

convolutional
リンク
SPINE：ソフトな区分的に解釈可能なニューラル方程式
arxiv_reader 2021/11/23
Relu Fully Connected Networksは、多層構造とモデルの重みの複雑な相互作用から生じる区分的線形関数に適合するため、ユビキタスですが解釈できません。このペーパーでは、個々のピー

arXiv reaDer

representation

arXiv

learning

classification

dataset

domain

benchmark
リンク
FlowVOS：詳細を維持し、時間的に一貫性のあるシングルショットビデオオブジェクトセグメンテーションのための弱教師ありビジュアルワーピング
arxiv_reader 2021/11/23
半教師ありビデオオブジェクトセグメンテーション（VOS）のタスクを検討します。私たちのアプローチは、視覚的なワーピングを使用して詳細の保存と時間的一貫性に対処することにより、以前のVOS作業の欠点を軽

arXiv reaDer

video

arXiv

weakly-supervised

single-shot

optical flow

segmentation

benchmark

semi-supervised
リンク
不均衡な医用画像分類のための医療知識に基づく深層学習
arxiv_reader 2021/11/23
深層学習モデルは、さまざまな画像分類タスクで目覚ましいパフォーマンスを発揮しています。ただし、多くのモデルは、データのバランスが崩れていると、臨床または医療環境でのパフォーマンスが制限されます。この課

arXiv

arXiv reaDer

learning

classification
リンク
PAANet：自動医療画像セグメンテーションのための漸進的な交互の注意
PAANet: Progressive Alternating Attention for Automatic Medical Image Segmentation 医療画像のセグメンテーションは、臨床分析のための詳細な情報を提供できます。これは、所見の詳細な場所が重要であるシナリオに役立ちます。病気の場所を知ることは、治療と意思決定において重要な役割を果たすことができます。畳み込みニューラルネットワーク（CNN）ベースのエンコーダ-デコーダ技術は、自動化された医療画像セグメンテーションシステムのパフォーマンスを向上させました。このようなCNNベースの方法論のいくつかは、空間的およびチャネルごとの注意などの手法を利用してパフォーマンスを向上させます。近年注目を集めているもう1つの手法は、残留高密度ブロック（RDB）です。密に接続されたブロック内の連続する畳み込み層は、さまざまな受容野を持つ
arxiv_reader 2021/11/23
医療画像のセグメンテーションは、臨床分析のための詳細な情報を提供できます。これは、所見の詳細な場所が重要であるシナリオに役立ちます。病気の場所を知ることは、治療と意思決定において重要な役割を果たすこと

CNN

arXiv reaDer

arXiv

segmentation

attention

dataset

identification

residual
リンク
変形することを学ぶことによる変形を意識した局所的特徴の抽出
arxiv_reader 2021/11/23
手作りの学習ベースの記述子によって達成された局所的な特徴の抽出における進歩にもかかわらず、それらは依然として非剛体変換への不変性の欠如によって制限されています。この論文では、変形可能な表面とオブジェク

arXiv reaDer

transformer

RGB-D

arXiv

learning

dataset

synthesis
リンク
GMSRF-Net：ポリープセグメンテーションのためのグローバルマルチスケール残差融合ネットワークによる改善された一般化可能性
GMSRF-Net：ポリープセグメンテーションのためのグローバルマルチスケール残差融合ネットワークによる改善された一般化可能性 GMSRF-Net: An improved generalizability with global multi-scale residual fusion network for polyp segmentation 結腸内視鏡検査はゴールドスタンダードの手順ですが、オペレーターに大きく依存します。前癌性前駆体であるポリープの検出とセグメンテーションを自動化して、見逃し率を効果的に最小限に抑えるための努力がなされてきました。エンコーダーデコーダーによって作動する広く使用されているコンピューター支援ポリープセグメンテーションシステムは、精度の点で高いパフォーマンスを達成しています。ただし、さまざまなセンターから収集されたポリープセグメンテーションデータセットは、
arxiv_reader 2021/11/23
結腸内視鏡検査はゴールドスタンダードの手順ですが、オペレーターに大きく依存します。前癌性前駆体であるポリープの検出とセグメンテーションを自動化して、見逃し率を効果的に最小限に抑えるための努力がなされて

arXiv reaDer

detection

representation

arXiv

segmentation

attention

dataset

residual
リンク
超高速画像認識のためのデータ駆動型ビニングを採用したフォトセンサー
arxiv_reader 2021/11/23
ピクセルビニングは、光学画像の取得と分光法で広く使用されている手法であり、イメージセンサーの隣接する検出器要素を組み合わせてより大きなピクセルにします。これにより、処理するデータの量とノイズの影響が軽

arXiv reaDer

detection

arXiv

learning

face

classification

dataset
リンク
不均衡な医用画像を分類するための制約付き深きものども特徴学習
arxiv_reader 2021/11/23
医用画像データは通常、異なるクラス間で不均衡です。少数派クラスのサンプルを多数派クラスから区別することにより、データの不均衡の問題に対処するために、1つのクラスの分類がますます注目を集めています。以前

arXiv reaDer

arXiv

learning

reconstruction

MRI

classification

attention

dataset
リンク
テキストに依存しないライターの識別のためのマルチスケールフュージョン、空間的注意およびパッチ相互作用技術の活用
テキストに依存しないライターの識別のためのマルチスケールフュージョン、空間的注意およびパッチ相互作用技術の活用 Exploiting Multi-Scale Fusion, Spatial Attention and Patch Interaction Techniques for Text-Independent Writer Identification テキストに依存しないライターの識別は、異なる手書きスタイルを区別して手書きテキストの作成者を決定するという難しい問題です。以前の作家の識別は、作家間の違いの断片を明らかにするために手作りの機能に依存していました。畳み込みニューラルネットワークの出現に伴う最近の研究では、深層学習ベースの方法が進化しました。この論文では、空間的注意メカニズム、マルチスケール特徴融合、パッチベースのCNNの3つの異なる深層学習手法を提案して、各作家の手書き
arxiv_reader 2021/11/23
テキストに依存しないライターの識別は、異なる手書きスタイルを区別して手書きテキストの作成者を決定するという難しい問題です。以前の作家の識別は、作家間の違いの断片を明らかにするために手作りの機能に依存し

CNN

arXiv reaDer

representation

arXiv

learning

attention

dataset

identification
リンク
デバイスフリージェスチャ認識のための教師なしドメイン適応
arxiv_reader 2021/11/23
無線周波数信号を使用したデバイスフリーのヒューマンジェスチャ認識は、RF信号の遍在性、プライバシー保護、および広範囲にわたる性質により、高い評価を得ています。ただし、特定のドメインから収集されたデータ

arXiv reaDer

domain adaptation

regularization

arXiv

augmentation

unsupervised

human

dataset

gesture
リンク
クロスモーダルテキストビデオ検索のための視覚的時空間関係強化ネットワーク
arxiv_reader 2021/11/23
テキストとビデオの間のクロスモーダル検索のタスクは、ビジョンと言語の間の対応を理解することを目的としています。既存の研究は、テキストとビデオの埋め込みに基づいてテキストとビデオの類似性を測定する傾向に

arXiv reaDer

transformer

representation

arXiv

learning

embedding

spatio-temporal

dataset

video

convolutional
リンク
AGA-GAN：顔の幻覚のためのU-Netを備えた属性誘導注意生成的敵対的ネットワーク
arxiv_reader 2021/11/23
顔の超解像法の性能は、顔の構造と顕著な特徴を効果的に回復する能力に依存しています。畳み込みニューラルネットワークと生成的敵対的ネットワークベースの方法は、顔の幻覚タスクで印象的なパフォーマンスを提供し

CNN

arXiv reaDer

saliency

U-Net

arXiv

metric

face

attention

super-resolution

GAN
リンク
DeepCapの詳細
arxiv_reader 2021/11/23
人間のパフォーマンスキャプチャは、映画制作や仮想/拡張現実の多くのアプリケーションで非常に重要なコンピュータビジョンの問題です。以前のパフォーマンスキャプチャアプローチの多くは、高価なマルチビューセッ

monocular

learning

computer vision

arXiv reaDer

arXiv

weakly-supervised

3D

human

pose estimation
リンク
劇的な顔の閉塞の影響を減らすための教師と生徒のトレーニングとトリプレットの喪失
arxiv_reader 2021/11/23
強い閉塞下の顔の分析を必要とする2つの現実的なシナリオで一連の認識タスクを研究します。一方では、バーチャルリアリティ（VR）ヘッドセットを装着している人々の表情を認識することを目指しています。一方、サ

CNN

arXiv reaDer

arXiv

learning

estimation

occlusion

face

knowledge distillation
リンク
多様な外観ドメインとタスクタイプにわたる転移学習の影響要因
arxiv_reader 2021/11/23
転移学習により、ソースタスクで学習した知識を再利用して、ターゲットタスクの学習に役立てることができます。転送学習の単純な形式は、現在の最先端のコンピュータービジョンモデルで一般的です。つまり、ILSV

autonomous driving

arXiv reaDer

transfer learning

pre-training

detection

arXiv

computer vision

estimation

classification

semantic segmentation
リンク
バッチ知識アンサンブルによる自己蒸留はImageNet分類を改善します
arxiv_reader 2021/11/23
知識蒸留に関する最近の研究では、複数の教師または生徒からの「暗い知識」をアンサンブルすることで、トレーニング用のより優れたソフトターゲットを作成できることがわかりましたが、計算やパラメータが大幅に増え

arXiv reaDer

arXiv

knowledge distillation

classification

dataset

benchmark
リンク
スタイルベースの画像翻訳における整流器の詳細
arxiv_reader 2021/11/23
最新の画像変換技術はフォトリアリスティックな合成画像を作成できますが、スタイルの制御性が制限されているため、変換エラーが発生する可能性があります。この作業では、活性化関数が画像合成の方向を制御する上で

synthesis

arXiv

arXiv reaDer

convolutional
リンク
パッチルーティングされた空間適応型GANを介したスケーラブルなペアリングされていない仮想トライオンに向けて
arxiv_reader 2021/11/23
画像ベースの仮想試着は、その途方もない現実世界の可能性のために、人間中心の画像生成の最も有望なアプリケーションの1つです。それでも、ほとんどの試着アプローチは店内の衣服を対象者に適合させるため、ペアの

arXiv reaDer

person

arXiv

pose

unsupervised

keypoint

disentangling

dataset

residual

GAN
リンク
ニューラルIMLS：方向付けされていない点群からの表面再構成のための暗黙の移動最小二乗の学習
arxiv_reader 2021/11/23
ノイズが多く、不均一で、方向性のない点群からの表面再構成は、コンピュータビジョンとグラフィックスにおける魅力的でありながら挑戦的な問題です。 3Dスキャン技術の革新により、通常は深刻なノイズを伴う生の

arXiv reaDer

arXiv

manifold

computer vision

reconstruction

self-supervised

3D

sparse

point cloud

benchmark
リンク
Temporal-MPI: 時間基底学習による動的シーンモデリングのためのマルチプレーンイメージの有効化
arxiv_reader 2021/11/23
静的シーンの新しいビュー合成は、フォトリアリスティックな結果を生成する上で目覚ましい進歩を遂げました。ただし、動的コンテンツの没入型レンダリングには重要な課題が残っています。たとえば、独創的な画像ベー

arXiv reaDer

representation

arXiv

learning

3D

face

synthesis

real time

video
リンク
FAMINet：最も急な最適化されたオプティカルフローを使用したリアルタイムの半教師ありビデオオブジェクトセグメンテーションの学習
arxiv_reader 2021/11/23
半教師ありビデオオブジェクトセグメンテーション（VOS）は、ビデオシーケンス内のいくつかの移動オブジェクトをセグメント化することを目的としています。これらのオブジェクトは、最初のフレームの注釈によって

arXiv reaDer

video

arXiv

estimation

optical flow

segmentation

benchmark

real time

semi-supervised
リンク
ACR-Pose：カテゴリレベルの6Dオブジェクトポーズ推定のための敵対的な標準表現再構成ネットワーク
ACR-Pose: Adversarial Canonical Representation Reconstruction Network for Category Level 6D Object Pose Estimation 最近、カテゴリレベルの6Dオブジェクトポーズ推定は、標準的な3D表現の再構築の開発により大幅な改善を達成しました。ただし、既存の方法の再構成の品質はまだ優れているとは言えません。この論文では、ACR-Poseという名前の新しい敵対的正準表現再構成ネットワークを提案します。 ACR-Poseは、ReconstructorとDiscriminatorで構成されています。 Reconstructorは、主に2つの新しいサブモジュールで構成されています。Pose-IrrelevantModule（PIM）とRelational Reconstruction Module（
arxiv_reader 2021/11/23
最近、カテゴリレベルの6Dオブジェクトポーズ推定は、標準的な3D表現の再構築の開発により大幅な改善を達成しました。ただし、既存の方法の再構成の品質はまだ優れているとは言えません。この論文では、ACR-

arXiv reaDer

representation

arXiv

reconstruction

pose estimation

3D

dataset

adversarial

6D
リンク
StylePart：画像ベースの形状パーツ操作
arxiv_reader 2021/11/23
画像ベースの「パーツコントローラ」がないため、椅子の背もたれのサイズ変更やカップハンドルの交換など、人工の形状画像の形状操作は、画像ベースのパーツコントローラがないため直感的ではありません。この問題に

arXiv

arXiv reaDer

3D

generative
リンク
ディープラーニングベースの鋼管溶接欠陥検出
arxiv_reader 2021/11/23
鋼管は、石油、化学、天然ガス、シェールガスなどの高リスクおよび高圧のシナリオで広く使用されています。鋼管に何らかの欠陥があると、深刻な悪影響が発生します。深層学習の分野で物体検出をパイプ溶接欠陥の検出

arXiv reaDer

detection

arXiv

learning

computer vision

R-CNN

classification

identification

real time
リンク
歩行予測と正則化による単一画像からの着替え人の再識別
arxiv_reader 2021/11/23
着替え人の再識別（CC-ReID）は、同じ人物を異なる場所で長期間、たとえば数日にわたって照合することを目的としているため、着替えの課題に必然的に対応します。このホワイトペーパーでは、より困難な設定、

arXiv reaDer

regularization

person

representation

arXiv

re-id

pedestrian

benchmark

real time
リンク
CamLiFlow：オプティカルフローとシーンフローの共同推定のための双方向カメラ-LiDARフュージョン
CamLiFlow: Bidirectional Camera-LiDAR Fusion for Joint Optical Flow and Scene Flow Estimation 本論文では、同期した2Dおよび3Dデータからオプティカルフローとシーンフローを共同で推定する問題を研究します。以前の方法では、共同タスクを独立した段階に分割する複雑なパイプラインを使用するか、2Dおよび3D情報を「早期融合」または「後期融合」の方法で融合します。このような万能のアプローチは、各モダリティの特性を十分に活用できない、またはモダリティ間の相補性を最大化できないというジレンマに悩まされています。この問題に対処するために、CamLiFlowと呼ばれる新しいエンドツーエンドのフレームワークを提案します。これは、2Dおよび3Dブランチで構成され、特定のレイヤーでそれらの間に複数の双方向接続があります。
arxiv_reader 2021/11/23
本論文では、同期した2Dおよび3Dデータからオプティカルフローとシーンフローを共同で推定する問題を研究します。以前の方法では、共同タスクを独立した段階に分割する複雑なパイプラインを使用するか、2Dおよ

arXiv reaDer

arXiv

estimation

optical flow

3D

sparse

point cloud

benchmark
リンク
制御可能な画像キャプションのための自己注釈付きトレーニング
arxiv_reader 2021/11/23
Controllable Image Captioning（CIC）タスクは、指定された制御信号を条件とするキャプションを生成することを目的としています。文の長さや品詞タグシーケンスなど、文の意味構造

arXiv reaDer

arXiv

metric

bias

captioning

benchmark

reinforcement
リンク
個別の表現により、VisionTransformerの堅牢性が強化されます
arxiv_reader 2021/11/23
Vision Transformer（ViT）は、画像認識のための最先端のアーキテクチャとして登場しています。最近の研究では、ViTは畳み込み対応のものよりも堅牢であることが示唆されていますが、私たち

arXiv reaDer

transformer

representation

arXiv

OOD

benchmark

convolutional
リンク
SpectralFormer：トランスフォーマーを使用したハイパースペクトル画像分類の再考
arxiv_reader 2021/11/23
ハイパースペクトル（HS）画像は、ほぼ連続したスペクトル情報によって特徴付けられ、微妙なスペクトルの不一致をキャプチャすることにより、材料の詳細な識別を可能にします。優れたローカルコンテキストモデリン

CNN

arXiv reaDer

transformer

representation

arXiv

learning

embedding

classification

dataset

identification
リンク
PatchCensor: 徹底的なテストによる変圧器のパッチの堅牢性認定
arxiv_reader 2021/11/23
敵対的パッチ攻撃は、入力画像の制限された領域内のピクセルを任意に変更することにより、機械学習モデルをだますことを目的としています。このような攻撃は、カスタマイズされたオブジェクトをカメラビューに表示す

arXiv reaDer

transformer

arXiv

learning

zero-shot

attention

adversarial
リンク
TransMorph：教師なし医療画像レジストレーション用のトランスフォーマー
arxiv_reader 2021/11/23
過去10年間で、畳み込みニューラルネットワーク（ConvNets）が医療画像分析の分野を支配してきました。ただし、ConvNetのパフォーマンスは、画像内のボクセル間の長距離空間関係をモデル化できない

CNN

arXiv reaDer

transformer

arXiv

unsupervised

MRI

Bayesian
リンク
胸部X線データからCOVID-19を診断するための人工知能モデルの要件分析
arxiv_reader 2021/11/23
COVID-19診断のためのさまざまなAIモデルについて発表された複数の論文があり、有望な結果が得られています。残念ながら、レビューによると、多くの論文は、臨床的に使用可能なモデルに必要な洗練されたレ

arXiv

arXiv reaDer

COVID-19

bias
リンク
線維性肺疾患を評価するための自動気道形態学的定量化の評価
arxiv_reader 2021/11/23
牽引性気管支拡張症と呼ばれる異常な気道拡張は、特発性肺線維症（IPF）の典型的な特徴です。体積コンピューター断層撮影（CT）イメージングは、IPFにおける通常の気道テーパーの喪失を捉えます。気道異常の

arXiv reaDer

arXiv

learning

CT

segmentation
リンク
DIVeR：ボリュームレンダリングのための決定論的統合を備えたリアルタイムで正確な神経放射輝度フィールド
arxiv_reader 2021/11/23
DIVeRは、NeRFとそのバリアント（密度モデルとボリュームレンダリング）の主要なアイデアに基づいて構築され、少数の画像からリアルにレンダリングできる3Dオブジェクトモデルを学習します。以前のすべて

arXiv reaDer

representation

arXiv

3D

real time
リンク
極端に暗い画像を強調する学習のためのバースト写真
Burst Photography for Learning to Enhance Extremely Dark Images 非常に暗い場所で画像をキャプチャすることは、標準のカメラパイプラインに大きな課題をもたらします。画像が暗くなりすぎてノイズが多くなりすぎるため、従来の拡張技術を適用することはほとんど不可能になります。最近、学習ベースのアプローチは、改善された品質を可能にする実質的により表現力のある機能を備えているため、このタスクに非常に有望な結果を示しています。これらの研究を動機として、このホワイトペーパーでは、バースト写真を活用してパフォーマンスを向上させ、非常に暗い未加工画像からよりシャープで正確なRGB画像を取得することを目指しています。私たちが提案するフレームワークのバックボーンは、高品質の出力を段階的に生成する新しい粗雑なネットワークアーキテクチャです。粗いネットワーク
arxiv_reader 2021/11/23
非常に暗い場所で画像をキャプチャすることは、標準のカメラパイプラインに大きな課題をもたらします。画像が暗くなりすぎてノイズが多くなりすぎるため、従来の拡張技術を適用することはほとんど不可能になります

arXiv

arXiv reaDer

pose

learning
リンク
SSUL：模範ベースのクラス増分学習のための未知のラベルを使用したセマンティックセグメンテーション
arxiv_reader 2021/11/23
このホワイトペーパーでは、クラスインクリメンタルセマンティックセグメンテーション（CISS）問題の最新のベースラインを紹介します。最近のCISSアルゴリズムは、知識蒸留（KD）手法の変形を利用して問題

arXiv reaDer

arXiv

learning

knowledge distillation

classification

dataset

benchmark

semantic segmentation
リンク
学習ベースの3D登録が現実の世界で機能するのを妨げるものは何ですか？
arxiv_reader 2021/11/23
学習ベースの3Dポイントクラウド登録のタスクは大幅に進歩しており、既存の方法では、部分から部分へのマッチングシナリオでも、ModelNet40などの標準ベンチマークで優れた結果が得られます。残念ながら

arXiv reaDer

arXiv

3D

synthesis

point cloud

benchmark
リンク
角度リサンプリングによるライトフィールドベースの水中3D再構成
arxiv_reader 2021/11/23
カメラハウジングによって引き起こされる水と空気の境界面での光の非線形屈折のため、水中シーンの3Dジオメトリを復元することは困難です。単一の視点から高品質の水中3D再構成のために角度サンプルのプロパティ

arXiv reaDer

arXiv

reconstruction

estimation

3D

approximation

synthesis
リンク
糖尿病性足潰瘍グランドチャレンジ2021：評価とまとめ
Diabetic Foot Ulcer Grand Challenge 2021: Evaluation and Summary 糖尿病性足潰瘍分類システムは、創傷感染（創傷内に存在する細菌）および虚血（血液供給の制限）の存在を、創傷治癒の治療および予測のための重要な臨床指標として使用します。糖尿病性足創傷内の感染と虚血を分類する自動化されたコンピューター化された方法の使用を調査する研究は、公開されているデータセットの不足と存在する少数のデータセットの深刻な不均衡のために限られています。糖尿病性足潰瘍チャレンジ2021は、参加者に合計15,683の糖尿病性足潰瘍パッチを含むより実質的なデータセットを提供しました。監督された深層学習技術。この論文は、糖尿病性足潰瘍チャレンジ2021で使用された方法の評価を提供し、各ネットワークから得られた結果を要約します。最高のパフォーマンスを発揮したネット
arxiv_reader 2021/11/23
糖尿病性足潰瘍分類システムは、創傷感染（創傷内に存在する細菌）および虚血（血液供給の制限）の存在を、創傷治癒の治療および予測のための重要な臨床指標として使用します。糖尿病性足創傷内の感染と虚血を分類す

arXiv reaDer

arXiv

weakly-supervised

learning

classification

dataset

semi-supervised
リンク
尿顕微鏡画像データセット
尿検査は、泌尿器系に関連する問題を検出するための標準的な診断テストです。尿検査の自動化により、全体的な診断時間が短縮されます。最近の研究では、尿細胞を分類および検出するための深層学習ベースのアルゴリズムを設計するために、尿顕微鏡データセットを使用しました。しかし、これらのデータセットは、さらなる研究のために公に利用可能ではありません。尿データセットの必要性を軽減するために、約3700個の細胞注釈とRBC、膿、上皮細胞の3つのカテゴリの細胞で構成される尿沈渣顕微鏡画像（UMID）データセットを準備します。データセットと注釈の準備に伴ういくつかの課題について説明します。データセットを公開します。 Urinalysis is a standard diagnostic test to detect urinary system related probl ems. The automation o
arxiv_reader 2021/11/23
尿検査は、泌尿器系に関連する問題を検出するための標準的な診断テストです。尿検査の自動化により、全体的な診断時間が短縮されます。最近の研究では、尿細胞を分類および検出するための深層学習ベースのアルゴリズ

arXiv reaDer

arXiv

learning

classification

dataset
リンク
血管流の時間的超解像シミュレーションのための抵抗時間共変調PointNet
arxiv_reader 2021/11/23
本論文では、血管流の時間超解像シミュレーションのための新しい深層学習フレームワークを提案し、低時間分解能の流れシミュレーション結果から高時間分解能の時変血管流シミュレーションを生成する。私たちのフレー

arXiv reaDer

arXiv

learning

loss function

simulation

metric

point cloud

super-resolution
リンク
スケルトン画像のドメイン不変特徴による行動認識
arxiv_reader 2021/11/23
処理速度と堅牢性が高速であるため、スケルトンベースのアクション認識は最近コンピュータビジョンコミュニティの注目を集めています。最近の畳み込みニューラルネットワーク（CNN）ベースの方法は、CNNへの入

CNN

action recognition

arXiv reaDer

representation

arXiv

computer vision

domain

spatio-temporal

attention

adversarial
リンク
ColDE：結腸内視鏡検査再構成のための深さ推定フレームワーク
ColDE: A Depth Estimation Framework for Colonoscopy Reconstruction 単眼ビデオから3Dメッシュを再構築する重要な要素の1つは、すべてのフレームの深度マップを生成することです。ただし、結腸内視鏡ビデオ再構成のアプリケーションでは、高品質の深度推定を生成することは困難です。ニューラルネットワークは、測光の気晴らしに簡単にだまされたり、結腸表面の複雑な形状をキャプチャできず、メッシュの破損につながる欠陥のある形状を予測したりする可能性があります。結腸内視鏡3D再構成の深度推定品質を根本的に改善することを目的として、この作業では、結腸内視鏡データの特別な課題に対処するための一連のトレーニング損失を設計しました。より良いトレーニングのために、深さと表面の法線情報の両方を使用して、一連の幾何学的一貫性目標が開発されました。また、従来の測
arxiv_reader 2021/11/23
単眼ビデオから3Dメッシュを再構築する重要な要素の1つは、すべてのフレームの深度マップを生成することです。ただし、結腸内視鏡ビデオ再構成のアプリケーションでは、高品質の深度推定を生成することは困難です

arXiv reaDer

monocular

arXiv

reconstruction

self-supervised

estimation

3D

mesh

real time

video
リンク
クラスの漸進的学習における壊滅的な忘却の再考
arxiv_reader 2021/11/23
壊滅的な忘却の概念は単純ですが、その原因に関する研究は不足しています。この論文では、クラスインクリメンタルラーニング（CIL）における壊滅的な忘却の3つの原因を体系的に調査して明らかにします。表現学習

arXiv reaDer

contrastive learning

arXiv

representation learning

dataset
リンク
暗黙的表現関数のためのローカルテクスチャ推定器
arxiv_reader 2021/11/23
暗黙の神経関数を使った最近の研究は、任意の解像度で画像を表現することに光を当てています。ただし、スタンドアロンの多層パーセプトロン（MLP）は、高周波コンポーネントの学習において限られたパフォーマンス

arXiv reaDer

representation

arXiv

learning

dataset

super-resolution
リンク
スパースシナプスバーストを伴うドメイン転送の下での継続的な学習
arxiv_reader 2021/11/23
既存のマシンは、簡単な予測と制御のために作られた機能固有のツールです。明日のマシンは、その可変性、回復力、および自律性において、生物学的システムに近い可能性があります。しかし、最初に、彼らは新しい情報

CNN

adaptation

arXiv reaDer

arXiv

learning

activity

sparse

domain

dataset
リンク
ブラックボックスランダム検索ベースの敵対的攻撃の検索分布のメタ学習
arxiv_reader 2021/11/23
ランダム化された検索スキームに基づく敵対的な攻撃は、最近、ブラックボックスの堅牢性評価で最先端の結果を得ています。ただし、この作業で示すように、さまざまなクエリ予算レジームでの効率は、基になる提案分布

adversarial

arXiv

arXiv reaDer

adaptation
リンク
視覚的時系列予測：画像駆動型アプローチ
arxiv_reader 2021/11/23
時系列予測は、エージェントが意思決定を行うために不可欠です。従来のアプローチは、過去の数値を予測するために統計的手法に依存しています。実際には、エンドユーザーは、予測について推論するために、チャートや

arXiv reaDer

arXiv

learning

metric

dataset

synthesis
リンク
3DConvNetsのビデオリターゲティングにおける教師なしアクションローカリゼーションクロップ
arxiv_reader 2021/11/23
ソーシャルメディア上のトリミングされていないビデオ、またはロボットや監視カメラによってキャプチャされたビデオは、さまざまなアスペクト比です。ただし、3D CNNは通常、入力として、空間次元が元のビデオ

dataset

3D

arXiv

unsupervised

benchmark

localization

classification

saliency

arXiv reaDer

CNN
リンク
画像修復のための補助損失の再重み付け
arxiv_reader 2021/11/23
画像修復で一般的に使用される補助損失は、欠落領域の事前知識を組み込むことにより、より良い再構成性能につながります。ただし、通常、補助損失の可能性を十分に活用するには多くの労力が必要です。そうでない場合

domain

arXiv

reconstruction

gradient

arXiv reaDer

adaptation
リンク
- 2021年11月24日
- 2021年11月23日
- 2021年11月22日

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx