arxiv_readerのブックマーク / 2021年11月30日 - はてなブックマーク

arxiv_reader id:arxiv_reader

2021年11月30日のブックマーク (229件)

不均一から均一への量子化：一般化されたストレートスルー推定による正確な量子化に向けて
arxiv_reader 2021/11/30
ニューラルネットワークを圧縮するための不均一な量子化戦略は、通常、その優れた表現能力のために、対応するもの、つまり均一な戦略よりも優れたパフォーマンスを実現します。ただし、多くの不均一な量子化方法は、

arXiv

arXiv reaDer

regularization

estimation

learning

representation

quantization
リンク
GANベースの画像編集のためのNeuralODEを介した潜在的変換
arxiv_reader 2021/11/30
忠実度の高いセマンティック画像編集の最近の進歩は、StyleGANなどの最先端の生成モデルのおそらく解きほぐされた潜在空間に大きく依存しています。具体的には、最近の研究は、潜在的な方向に沿った線形シフ

GAN

arXiv

arXiv reaDer

domain

disentangling

face

dataset

generative
リンク
変形可能なモデルの適合を学ぶ
arxiv_reader 2021/11/30
人体、手、または顔のパラメトリックモデルを、正確、堅牢、かつ高速な方法でスパース入力信号に適合させることで、ARおよびVRシナリオへの没入感を大幅に向上させることができます。これらの問題に取り組むシス

sparse

arXiv

human

arXiv reaDer

domain

landmark

estimation

face

learning

3D
リンク
テキストから画像への合成のためのベクトル量子化拡散モデル
arxiv_reader 2021/11/30
テキストから画像への生成のためのベクトル量子化拡散（VQ-Diffusion）モデルを提示します。この方法は、ベクトル量子化変分オートエンコーダー（VQ-VAE）に基づいており、その潜在空間は、最近開

arXiv

arXiv reaDer

synthesis

bias

autoregressive

denoising

quantization
リンク
マルチモーダルトランスフォーマーを使用したエンドツーエンドの参照ビデオオブジェクトセグメンテーション
arxiv_reader 2021/11/30
参照ビデオオブジェクトセグメンテーションタスク（RVOS）には、特定のビデオのフレーム内のテキスト参照オブジェクトインスタンスのセグメンテーションが含まれます。テキスト推論、ビデオ理解、インスタンスの

attention

arXiv

arXiv reaDer

tracking

transformer

segmentation

reasoning

benchmark

computer vision
リンク
ロバストで適応性のあるモーション予測に向けて：因果的表現の視点
arxiv_reader 2021/11/30
観察データから行動パターンを学習することは、動き予測への事実上のアプローチでした。しかし、現在のパラダイムには2つの欠点があります。それは、共変量シフトの下で脆弱であるということと、知識の伝達が非効率

arXiv

arXiv reaDer

OOD

synthesis

learning

representation

dataset
リンク
Point-BERT：マスクされたポイントモデリングを使用した3Dポイントクラウドトランスフォーマーの事前トレーニング
arxiv_reader 2021/11/30
トランスフォーマーを学習してBERTの概念を3Dポイントクラウドに一般化するための新しいパラダイムであるPoint-BERTを紹介します。 BERTに触発されて、点群トランスフォーマーを事前トレーニン

arXiv

arXiv reaDer

transformer

pre-training

classification

domain

BERT

point cloud

few-shot

3D
リンク
自然画像のテキスト駆動編集のための混合拡散
arxiv_reader 2021/11/30
自然言語は、画像編集のための非常に直感的なインターフェースを提供します。このホワイトペーパーでは、ROIマスクとともに自然言語の説明に基づいて、一般的な自然画像でローカル（領域ベース）編集を実行するた

denoising

arXiv

arXiv reaDer

adversarial
リンク
TransWeather：悪天候によって劣化した画像のトランスフォーマーベースの復元
arxiv_reader 2021/11/30
雨、霧、雪などの悪天候を画像から取り除くことは、多くのアプリケーションで重要な問題です。文献で提案されているほとんどの方法は、1つのタイプの劣化を取り除くだけで対処するように設計されています。最近、す

attention

arXiv

arXiv reaDer

transformer

pre-training

dataset

embedding

NAS
リンク
UBoCo：一般的なイベント境界検出のための教師なし境界対照学習
arxiv_reader 2021/11/30
Generic Event Boundary Detection（GEBD）は、イベントの1レベル深いセマンティック境界を見つけることを目的とした、新しく提案されたビデオ理解タスクです。自然な人間の知

detection

arXiv

human

arXiv reaDer

contrastive learning

benchmark

video

unsupervised

representation
リンク
スパースLiDARからの半教師あり暗黙的シーン補完
arxiv_reader 2021/11/30
最近の進歩は、半教師あり陰的表現学習がアイコナール方程式のような物理的制約を通じて達成できることを示しています。ただし、このスキームは、空間的にスパース性が変化するため、LiDARポイントクラウドデー

sparse

LiDAR

arXiv

arXiv reaDer

convolutional

point cloud

semi-supervised

embedding

representation learning
リンク
分類-チャート理解のための回帰
arxiv_reader 2021/11/30
グラフは、データの視覚化の一般的で効果的な形式です。チャートの質問応答（CQA）は、チャートの理解度を評価するために使用されるタスクであり、自然な画像を理解することとは根本的に異なります。 CQAでは

arXiv

human

arXiv reaDer

transformer

classification

dataset
リンク
3D医療画像分析のためのSwinTransformersの自己監視事前トレーニング
Self-Supervised Pre-Training of Swin Transf ormers for 3D Medical Image Analysis Vision Transf ormers（ViT）は、ダウンストリームアプリケーションに転送できるグローバルおよびローカル表現の自己監視学習で優れたパフォーマンスを示しています。これらの結果に触発されて、医療画像分析のために調整されたプロキシタスクを備えた新しい自己監視学習フレームワークを紹介します。具体的には、次のことを提案します。（i）Swin UNEt TRansf ormers（Swin UNETR）と呼ばれる新しい3Dトランスベースのモデルで、自己監視型の事前トレーニング用の階層型エンコーダーを備えています。（ii）人体解剖学の根底にあるパターンを学習するための調整されたプロキシタスク。さまざまな体の臓器からの5,050の公
arxiv_reader 2021/11/30
Vision Transformers（ViT）は、ダウンストリームアプリケーションに転送できるグローバルおよびローカル表現の自己監視学習で優れたパフォーマンスを示しています。これらの結果に触発されて

arXiv

arXiv reaDer

transformer

pre-training

dataset

self-supervised

segmentation

CT

3D
リンク
確率的正常-異常輸送のための深い分解
arxiv_reader 2021/11/30
移流拡散方程式は、流体の流れ、熱伝達、風の輸送など、自然な輸送プロセスの大きなファミリーを表します。これらは、オプティカルフローおよび灌流イメージングの計算にも使用されます。確率論的移流拡散方程式に基

arXiv

arXiv reaDer

optical flow

estimation

anomaly

dataset

transfer learning
リンク
フランク・ウルフの敵対的訓練の理解と効率の向上
arxiv_reader 2021/11/30
深いニューラルネットワークは、敵対的攻撃として知られる小さな摂動によって簡単にだまされます。 Adversarial Training（AT）は、ロバストな最適化問題をほぼ解決して最悪の場合の損失を最

arXiv

gradient

arXiv reaDer

adversarial
リンク
QVHighlights：自然言語クエリを介したビデオの瞬間とハイライトの検出
arxiv_reader 2021/11/30
自然言語（NL）のユーザークエリが与えられたビデオからカスタマイズされた瞬間とハイライトを検出することは重要ですが、十分に研究されていないトピックです。この方向性を追求する上での課題の1つは、注釈付き

arXiv

human

saliency

arXiv reaDer

activity

transformer

weakly-supervised

video

representation

dataset
リンク
R4Dyn：動的シーンの自己監視単眼深度推定のためのレーダーの調査
arxiv_reader 2021/11/30
運転シナリオでの自己監視単眼深度推定は、監視ありアプローチと同等のパフォーマンスを達成しましたが、静的な世界の仮定に違反すると、交通参加者の誤った深度予測につながる可能性があり、潜在的な安全上の問題が

arXiv

arXiv reaDer

vehicle

self-supervised

depth prediction

monocular

estimation

dataset
リンク
知識蒸留のための相互情報量の推定と最大化
arxiv_reader 2021/11/30
この作業では、相互情報量最大化知識蒸留（MIMKD）を提案します。私たちの方法は、対照的な目的を使用して、教師と学生のネットワーク間のローカルおよびグローバルな特徴表現の相互情報量の下限を同時に推定し

arXiv

arXiv reaDer

contrastive

knowledge distillation

representation
リンク
形状ネットワークにおける確率的部分対応のためのリーマン関数マップの同期
arxiv_reader 2021/11/30
関数マップは、形状の対応を効率的に表現したものであり、形状のペア間で実数値関数のマッチングを提供します。機能マップは、ほぼ等角形状のリー群SO（n）の要素としてモデル化できます。その後、同期を使用して

manifold

arXiv

arXiv reaDer

Bayesian

estimation

representation
リンク
FaceAtlasAR：拡張現実における顔の経穴のアトラス
arxiv_reader 2021/11/30
鍼治療は、施術者が体の特定の箇所を刺激する技術です。鍼治療のポイント（または鍼治療のポイント）と呼ばれるこれらのポイントは、身体のいくつかの目印と比較して、皮膚の領域を解剖学的に定義します。従来の鍼治

arXiv

arXiv reaDer

localization

augmentation

landmark

face

benchmark

learning

dataset
リンク
視覚言語モデルによる単純なロングテール認識ベースライン
arxiv_reader 2021/11/30
視覚世界は当然、オープンクラスのロングテール分布を示しており、これは現代の視覚システムに大きな課題をもたらします。既存のアプローチは、クラスのリバランス戦略を実行するか、ネットワークモジュールを直接改

arXiv

arXiv reaDer

pose

contrastive learning

benchmark

representation

dataset
リンク
カメラポーズ推定のためのネットワークのドメイン適応：ポーズラベルなしのカメラポーズ推定の学習
Domain Adaptation of Networks for Camera Pose Estimation: Learning Camera Pose Estimation Without Pose Labels ディープラーニングに対する主な批判の1つは、高性能で優れた一般化機能を備えたモデルをトレーニングするには、高価で取得が困難なトレーニングデータが大量に必要になることです。シーン座標回帰（SCR）による単眼カメラポーズ推定のタスクに焦点を当て、ターゲットタスクのラベルにアクセスせずにモデルのトレーニングを可能にする新しい方法であるカメラポーズ推定（DANCE）のためのネットワークのドメイン適応について説明します。。 DANCEには、ラベルのない画像（既知のポーズ、順序、またはシーン座標ラベルなし）と空間の3D表現（スキャンされた点群など）が必要です。どちらも、既製のコモディ
arxiv_reader 2021/11/30
ディープラーニングに対する主な批判の1つは、高性能で優れた一般化機能を備えたモデルをトレーニングするには、高価で取得が困難なトレーニングデータが大量に必要になることです。シーン座標回帰（SCR）による

pose estimation

arXiv

arXiv reaDer

dataset

synthesis

point cloud

domain adaptation

monocular

unsupervised

3D
リンク
ピクセル埋め込みを使用したインスタンスセグメンテーションのためのスパースオブジェクトレベルの監視
arxiv_reader 2021/11/30
最新のインスタンスセグメンテーション方法のほとんどは、高密度の注釈付き画像でトレーニングする必要があります。一般的には困難ですが、この要件は、注釈にドメインの専門知識が必要になることが多く、事前トレー

sparse

benchmark

arXiv

arXiv reaDer

self-supervised

segmentation

weakly-supervised

embedding

3D
リンク
深層ニューラルネットワークの不変性は人間の知覚と一致するか?
arxiv_reader 2021/11/30
モデルが適切な表現を学習するときの貴重な視点は、モデルによって同様の表現にマッピングされた入力が人間によって同様に認識されるべきであるということであると主張します。表現の反転を使用して、同じモデル表現

arXiv

human

arXiv reaDer

self-supervised

augmentation

learning

representation
リンク
VisionTransformerの検索スペースの検索
arxiv_reader 2021/11/30
Vision Transformerは、認識や検出などの実質的な視覚タスクで優れた視覚表現力を示しており、より効果的なアーキテクチャを手動で設計することに急成長している取り組みを引き付けています。本論

detection

arXiv

arXiv reaDer

transformer

representation

NAS

semantic segmentation
リンク
FisheyeSuperPoint：魚眼画像のキーポイント検出および記述ネットワーク
arxiv_reader 2021/11/30
キーポイントの検出と説明は、特にロボット工学と自動運転のためのコンピュータビジョンシステムで一般的に使用されるビルディングブロックです。しかし、これまでの技術の大部分は、都市の運転や自動駐車で一般的に

detection

arXiv

keypoint

arXiv reaDer

self-supervised

estimation

autonomous driving

benchmark

computer vision

dataset
リンク
タスク固有のアダプターを使用したクロスドメインの少数ショット学習
arxiv_reader 2021/11/30
この論文では、これまでに見られなかったクラスと、ラベル付けされたサンプルがほとんどないドメインから分類器を学習することを目的とした、クロスドメインの数ショット分類の問題について説明します。最近のアプロ

arXiv

arXiv reaDer

classification

domain

residual

estimation

benchmark

few-shot

learning
リンク
オンライン教育におけるリアルタイムの注意スパン追跡
過去10年間で、eラーニングは、いつでもどこでも質の高い教育へのアクセスを提供することで、学生の学習方法に革命をもたらしました。しかし、生徒はさまざまな理由で気が散ることが多く、学習能力に大きな影響を与えます。多くの研究者がオンライン教育の質を向上させようとしていますが、この問題に対処するには全体的なアプローチが必要です。この論文は、カメラフィードとマイク入力を使用して、オンラインクラス中の学生のリアルタイムの注意レベルを監視するメカニズムを提供することを目的としています。この調査では、さまざまな画像処理技術と機械学習アルゴリズムについて説明します。 5つの異なる非言語機能を使用して、コンピューターベースのタスク中に学生の注意スコアを計算し、学生と組織の両方にリアルタイムのフィードバックを生成するシステムを提案します。生成されたフィードバックをヒューリスティックな値として使用して、学生の全
arxiv_reader 2021/11/30
過去10年間で、eラーニングは、いつでもどこでも質の高い教育へのアクセスを提供することで、学生の学習方法に革命をもたらしました。しかし、生徒はさまざまな理由で気が散ることが多く、学習能力に大きな影響を

attention

arXiv

tracking

arXiv reaDer

real time

learning
リンク
SAGCI-システム：サンプル効率が高く、一般化可能で、構成的で、インクリメンタルなロボット学習に向けて
arxiv_reader 2021/11/30
人間レベルで多種多様な環境で膨大な量のタスクを実行するための汎用ロボットの構築は、悪名高いほど複雑です。ロボットの学習は、サンプル効率が高く、一般化可能で、構成的で、段階的である必要があります。この作

arXiv

human

arXiv reaDer

simulation

point cloud

differentiable

learning

video

robot
リンク
すべてのラベルが等しいわけではありません：トレーニングオブジェクト検出のラベル付けコストの合理化
arxiv_reader 2021/11/30
ディープニューラルネットワークはオブジェクト検出で高精度に達しましたが、その成功は大量のラベル付きデータにかかっています。ラベルの依存性を減らすために、通常は検出器の信頼性に基づいて、さまざまな能動学

detection

arXiv

arXiv reaDer

learning

dataset
リンク
DanceTrack：均一な外観と多様な動きでのマルチオブジェクトトラッキング
arxiv_reader 2021/11/30
マルチオブジェクトトラッキング（MOT）の一般的なパイプラインは、オブジェクトのローカリゼーションに検出器を使用し、オブジェクトの関連付けに再識別（re-ID）を実行することです。このパイプラインは、

detection

arXiv

arXiv reaDer

localization

bias

re-id

MOT

benchmark

video

dataset
リンク
神経演算子としてのテキスト：テキスト命令による画像操作
Text as Neural Operator: Image Manipulation by Text Instruction 近年、テキストガイドによる画像操作は、マルチメディアおよびコンピュータビジョンのコミュニティでますます注目を集めています。条件付き画像生成への入力は、画像のみからマルチモダリティに進化しました。このホワイトペーパーでは、複雑なテキスト命令を使用してオブジェクトを追加、削除、または変更することで、ユーザーが複数のオブジェクトを含む画像を編集できるようにする設定について説明します。タスクの入力は、（1）参照画像、および（2）画像への必要な変更を説明する自然言語での命令を含むマルチモーダルです。この問題に取り組むために、GANベースの方法を提案します。重要なアイデアは、テキストをニューラルオペレーターとして扱い、画像の特徴をローカルに変更することです。提案されたモデルが
arxiv_reader 2021/11/30
近年、テキストガイドによる画像操作は、マルチメディアおよびコンピュータビジョンのコミュニティでますます注目を集めています。条件付き画像生成への入力は、画像のみからマルチモダリティに進化しました。このホ

attention

arXiv

arXiv reaDer

computer vision

dataset
リンク
ハイパースペクトル画像の高次元モデル表現によるグラフ埋め込み
arxiv_reader 2021/11/30
リモートセンシング画像の多様体構造を学習することは、プロセスのモデリングと理解、およびその後の分類、回帰、またはアンミキシングのための有益な機能の削減されたセットに高次元性をカプセル化するために最も重

manifold

arXiv

arXiv reaDer

classification

embedding

learning

representation
リンク
分解コンセンサスによる3D組成ゼロショット学習
arxiv_reader 2021/11/30
パーツは、さまざまなオブジェクト間の幾何学的および意味的類似性の基本単位を表します。パーツの知識は、観察されたオブジェクトクラスを超えて構成可能でなければならないと主張します。これに向けて、セマンティ

arXiv

arXiv reaDer

dataset

classification

point cloud

learning

zero-shot

3D

semantic segmentation
リンク
野生の単眼ビデオからのヒューマンパフォーマンスキャプチャ
arxiv_reader 2021/11/30
服を着た人間の動的に変形する3D形状をキャプチャすることは、VR / AR、自動運転、人間とコンピューターの相互作用など、多くのアプリケーションにとって不可欠です。既存の方法は、高価なマルチビューイメ

arXiv

human

arXiv reaDer

dataset

pose

monocular

autonomous driving

video

3D
リンク
エグザンプラ再構成を使用した少数ショットの開集合分類器の学習
arxiv_reader 2021/11/30
見えたカテゴリから与えられたサンプルが少ない場合（数ショットの設定）、見えないカテゴリからサンプルを識別する方法（開集合分類）の問題を研究します。サンプルが非常に少ないクラスの優れた抽象化を学習すると

attention

arXiv

arXiv reaDer

classification

domain

reconstruction

learning

few-shot

dataset
リンク
diffConv：不規則なビューで不規則な点群を分析する
arxiv_reader 2021/11/30
標準の空間畳み込みは、通常の近傍構造を持つ入力データを想定しています。既存の方法は、通常、たとえば固定された近隣サイズを介して通常の「ビュー」を固定することにより、畳み込みを不規則な点群ドメインに一般

attention

arXiv

arXiv reaDer

bias

classification

domain

convolutional

point cloud

benchmark
リンク
スパースLiDARによる自己監視単眼深度学習の進歩
arxiv_reader 2021/11/30
自己監視型単眼深度予測は、各ピクセルの3D位置を取得するための費用効果の高いソリューションを提供します。ただし、既存のアプローチでは通常、不十分な精度が発生します。これは、自律型ロボットにとって重要で

sparse

detection

LiDAR

arXiv

arXiv reaDer

real time

self-supervised

depth prediction

monocular

3D
リンク
非常に高解像度の衛星画像を使用した建物の分類
Buildings Classification using Very High Resolution Satellite Imagery 衛星画像を使用した建物の分類は、被害評価、リソース割り当て、人口推定などのいくつかのアプリケーションでより重要になっています。この作業では、住宅および非住宅の建物の建物損傷評価（BDA）および建物タイプ分類（BTC）に焦点を当てます。 RGB衛星画像のみに依存し、2段階の深層学習ベースのアプローチに従うことを提案します。最初に、建物のフットプリントがセマンティックセグメンテーションモデルを使用して抽出され、次にトリミングされた画像が分類されます。住宅/非住宅の建物分類に適切なデータセットがないため、高解像度の衛星画像の新しいデータセットを導入します。最適なハイパーパラメータ、モデルアーキテクチャ、トレーニングパラダイムを選択するために広範な実験を実施し
arxiv_reader 2021/11/30
衛星画像を使用した建物の分類は、被害評価、リソース割り当て、人口推定などのいくつかのアプリケーションでより重要になっています。この作業では、住宅および非住宅の建物の建物損傷評価（BDA）および建物タイ

semantic segmentation

arXiv

arXiv reaDer

classification

satellite

estimation

metric

dataset

transfer learning
リンク
ディープマルチビュー検出に一般化をもたらす
arxiv_reader 2021/11/30
マルチビュー検出（MVD）は、混雑した環境でのオクルージョン推論に非常に効果的です。ディープラーニングを使用した最近の作業は、この分野で大きな進歩を遂げましたが、一般化の側面を見落としているため、実際

detection

arXiv

arXiv reaDer

occlusion

reasoning

learning

dataset
リンク
MUNet：モーションの不確実性を意識した半教師ありビデオオブジェクトのセグメンテーション
arxiv_reader 2021/11/30
半教師ありビデオオブジェクトセグメンテーション（VOS）のタスクは大幅に進歩し、最新のパフォーマンスは高密度マッチングベースの方法によって作成されました。最近の方法では、時空間メモリ（STM）ネットワ

attention

arXiv

arXiv reaDer

occlusion

segmentation

semi-supervised

benchmark

video

representation
リンク
アーバンラディアンスフィールド
arxiv_reader 2021/11/30
この作業の目標は、都市の屋外環境（ストリートビューなど）で世界のマッピングに一般的に展開されるスキャンプラットフォームによってキャプチャされたデータから、3D再構築と新しいビュー合成を実行することです

LiDAR

arXiv

arXiv reaDer

synthesis

reconstruction

representation

3D
リンク
ILabel：インタラクティブなニューラルシーンのラベリング
arxiv_reader 2021/11/30
3Dニューラルフィールドを使用したジオメトリ、色、セマンティクスの共同表現により、ユーザーがハンドヘルドRGB-Dセンサーを使用してリアルタイムでシーンを再構築するときに、超疎な相互作用から正確な高密

arXiv

arXiv reaDer

real time

dataset

pre-training

RGB-D

representation

3D

semantic segmentation
リンク
医用画像分類のための弱く監視された生成的敵対的ネットワーク
arxiv_reader 2021/11/30
弱教師あり学習は、近年人気のあるテクノロジーになっています。この論文では、弱教師あり生成的敵対的ネットワーク（WSGAN）と呼ばれる新しい医療画像分類アルゴリズムを提案します。これは、ラベルのない少数

GAN

arXiv

arXiv reaDer

classification

contrastive learning

weakly-supervised

dataset
リンク
TransMVSNet：トランスフォーマーを備えたグローバルコンテキストアウェアマルチビューステレオネットワーク
TransMVSNet: Global Context-aware Multi-view Stereo Network with Transf ormers このホワイトペーパーでは、マルチビューステレオ（MVS）での機能マッチングの調査に基づいて、TransMVSNetを紹介します。 MVSを機能マッチングタスクの性質に戻し、強力な機能マッチングトランスフォーマー（FMT）を提案して、画像内および画像全体の長距離コンテキスト情報を集約するために、内部（自己）および相互（相互）の注意を活用します。。 FMTのより良い適応を促進するために、Adaptive Receptive Field（ARF）モジュールを活用して、機能のスコープ内をスムーズに通過し、さまざまなステージを機能パスウェイでブリッジして、変換された機能と勾配をさまざまなスケールに渡します。さらに、ペアワイズ特徴相関を適用して特
arxiv_reader 2021/11/30
このホワイトペーパーでは、マルチビューステレオ（MVS）での機能マッチングの調査に基づいて、TransMVSNetを紹介します。 MVSを機能マッチングタスクの性質に戻し、強力な機能マッチングトランス

attention

arXiv

arXiv reaDer

transformer

stereo

benchmark

adaptation

dataset
リンク
神経行動表現の対照学習におけるドメインギャップの克服
arxiv_reader 2021/11/30
神経科学の基本的な目標は、神経活動と行動の関係を理解することです。たとえば、神経データから行動意図を抽出する機能、または神経デコードは、効果的なブレインマシンインターフェイスを開発するために重要です。

arXiv

arXiv reaDer

dataset

self-supervised

domain adaptation

contrastive learning

embedding

unsupervised

representation

3D
リンク
自己教師ありソフト対照学習のための類似度対照推定
arxiv_reader 2021/11/30
対照表現学習は、効果的な自己教師あり学習方法であることが証明されています。最も成功しているアプローチは、ノイズコントラスト推定（NCE）パラダイムに基づいており、インスタンスのさまざまなビューをポジテ

arXiv

arXiv reaDer

self-supervised

augmentation

estimation

contrastive learning

representation learning

dataset
リンク
効率的な通信クラスタリングによるマルチインスタンス点群登録
Multi-instance Point Cloud Registration by Efficient Correspondence Clustering ターゲットポイントクラウド内のソースポイントクラウドの複数のインスタンスのポーズを推定する問題に対処します。既存のソリューションでは、可能性のあるインスタンスを検出して外れ値を拒否するために多くの仮説をサンプリングする必要があります。外れ値の堅牢性と効率は、インスタンスと外れ値の数が増えると特に低下します。ノイズのある対応のセットを、距離不変性行列に基づいて異なるクラスターに直接グループ化することを提案します。インスタンスと外れ値は、クラスタリングによって自動的に識別されます。私たちの方法は堅牢で高速です。合成データセットと実世界のデータセットの両方でメソッドを評価しました。結果は、私たちのアプローチが70％の外れ値の存在下で90.4
arxiv_reader 2021/11/30
ターゲットポイントクラウド内のソースポイントクラウドの複数のインスタンスのポーズを推定する問題に対処します。既存のソリューションでは、可能性のあるインスタンスを検出して外れ値を拒否するために多くの仮説

arXiv

clustering

arXiv reaDer

synthesis

point cloud

pose

dataset
リンク
3D人間の動きを予測するための時空間トランスフォーマー
arxiv_reader 2021/11/30
3D人間の動きの生成モデリングのタスクのための新しいTransformerベースのアーキテクチャを提案します。以前の作業は、通常、RNNベースのモデルに依存しており、より短い予測期間が定常状態に到達し

attention

arXiv

arXiv reaDer

transformer

domain

pose

spatio-temporal

embedding

3D

generative
リンク
部分的に注釈が付けられたグループラベルを使用した公正な分類器の学習
Learning Fair Classifiers with Partially Annotated Group Labels 最近、公平性を意識した学習がますます重要になっていますが、これらの方法のほとんどは、完全に注釈が付けられたグループラベルの可用性を前提として機能することに注意してください。グループラベルの注釈は高価であり、プライバシーの問題と競合する可能性があるため、このような仮定は実際のアプリケーションでは非現実的であることを強調します。このホワイトペーパーでは、部分的に注釈が付けられたグループラベル（Fair-PG）を使用したAlgorithmicFairnessと呼ばれるより実用的なシナリオを検討します。グループラベルのみのデータを使用する既存の公平性手法は、Fair-PGの下で、ターゲットラベルのみの完全なデータのみを使用するバニラトレーニングよりもパフォーマンスがさらに
arxiv_reader 2021/11/30
最近、公平性を意識した学習がますます重要になっていますが、これらの方法のほとんどは、完全に注釈が付けられたグループラベルの可用性を前提として機能することに注意してください。グループラベルの注釈は高価で

arXiv

arXiv reaDer

metric

learning

dataset
リンク
視覚的推論の問題を解決するためのリカレントビジョントランスフォーマー
Recurrent Vision Transf ormer for Solving Visual Reasoning Probl ems 畳み込みニューラルネットワーク（CNN）は、多くの視覚タスクで注目に値する結果を示しましたが、単純でありながら困難な視覚的推論の問題によって依然として緊張しています。コンピュータビジョンにおけるTransf ormerネットワークの最近の成功に触発されて、このペーパーでは、Recurrent Vision Transf ormer（RViT）モデルを紹介します。推論タスクにおける反復接続と空間的注意の影響のおかげで、このネットワークは、SVRTデータセットと同じ異なる視覚的推論の問題に対して競争力のある結果を達成します。空間次元と深さ次元の両方での重み共有により、モデルが正規化され、28kのトレーニングサンプルのみを使用して、はるかに少ない自由パラメーターを使用
arxiv_reader 2021/11/30
畳み込みニューラルネットワーク（CNN）は、多くの視覚タスクで注目に値する結果を示しましたが、単純でありながら困難な視覚的推論の問題によって依然として緊張しています。コンピュータビジョンにおけるTra

attention

arXiv

arXiv reaDer

transformer

CNN

reasoning

recurrent

computer vision

representation

dataset
リンク
MedRDF：敵対的攻撃に対する医療事前訓練済みモデルのための堅牢で再訓練の少ない診断フレームワーク
arxiv_reader 2021/11/30
ディープニューラルネットワークは、知覚できない敵対的な例に攻撃されたときに非ロバストであることが発見されました。これは、高い信頼性を必要とする医療診断システムに適用されると危険です。ただし、自然画像に

arXiv

arXiv reaDer

pre-training

augmentation

COVID-19

adversarial

metric

compression

dataset
リンク
自然シーンにおけるインスタンスごとのオクルージョンとデプスオーダー
arxiv_reader 2021/11/30
このホワイトペーパーでは、3D空間内のインスタンスの空間的関係を理解するために使用できるInstaOrderという名前の新しいデータセットを紹介します。データセットは、101Kの自然シーンにおけるクラ

arXiv

arXiv reaDer

dataset

occlusion

depth prediction

computer vision

3D
リンク
無人航空機の安全な着陸帯を特定するための画像セグメンテーション
arxiv_reader 2021/11/30
都市部では配送サービスが著しく増加しており、Amazonが発送する注文の86％が5ポンド未満であるとジェフ・ベゾスが主張しているため、配送プロセスの最終段階を自動化する経済的な方法を調査する時期が来て

drone

arXiv

human

arXiv reaDer

UAV

segmentation

video
リンク
自己注意と畳み込みの統合について
arxiv_reader 2021/11/30
畳み込みと自己注意は、表現学習の2つの強力な手法であり、通常、互いに異なる2つのピアアプローチと見なされます。この論文では、これら2つのパラダイムの計算の大部分が実際には同じ操作で行われるという意味で

attention

arXiv

arXiv reaDer

pre-training

convolutional

representation learning
リンク
ECLIPSE：太陽エネルギーにおける雲によって引き起こされる摂動の構想
arxiv_reader 2021/11/30
太陽エネルギーを電力ミックスに効率的に統合するには、その断続性を確実に予測する必要があります。雲量のダイナミクスに起因する太陽放射照度の時間的変動を予測するための有望なアプローチは、地上で撮影された空

arXiv

arXiv reaDer

satellite

spatio-temporal

learning

recurrent
リンク
MeshUDF：符号なし距離フィールドネットワークの高速で微分可能なメッシュ
arxiv_reader 2021/11/30
3Dオープンサーフェスをモデリングする最近の作業では、深いニューラルネットワークをトレーニングして、符号なし距離フィールド（UDF）を近似し、形状を暗黙的に表現します。この表現を明示的なメッシュに変換

sparse

arXiv

arXiv reaDer

point cloud

differentiable

representation

3D

mesh
リンク
LiVLR：ビデオ質問応答のための軽量の視覚言語推論フレームワーク
arxiv_reader 2021/11/30
マルチモーダルビデオコンテンツの理解に基づいて特定の質問に正しく回答することを目的としたビデオ質問応答（VideoQA）は、豊富なビデオコンテンツのために困難です。ビデオ理解の観点から、優れたVide

arXiv

arXiv reaDer

reasoning

benchmark

video

representation

VQA
リンク
メトリックガイド付きプロトタイプ学習によるクラス階層の活用
arxiv_reader 2021/11/30
多くの分類タスクでは、ターゲットクラスのセットを階層に編成できます。この構造は、クラス間の意味的な距離を誘発し、クラスセットの有限メトリックを定義するコストマトリックスの形式で要約できます。この論文で

arXiv

arXiv reaDer

classification

metric

embedding

learning

dataset

semantic segmentation
リンク
SNARF：非剛体の神経陰的形状をアニメーション化するための微分可能なフォワードスキニング
arxiv_reader 2021/11/30
神経陰関数曲面表現は、3D形状を連続的かつ解像度に依存しない方法でキャプチャするための有望なパラダイムとして浮上しています。ただし、それらを関節形状に適合させることは簡単ではありません。既存のアプロー

arXiv

arXiv reaDer

pose

differentiable

learning

representation

3D

mesh
リンク
堅牢で正確な超二次回復：確率論的アプローチ
arxiv_reader 2021/11/30
基本的な幾何学的プリミティブを使用したオブジェクトの解釈は、コンピュータービジョンで長い間研究されてきました。幾何学的プリミティブの中で、超二次表現は、単純な暗黙の式と、いくつかのパラメーターでさまざ

arXiv

arXiv reaDer

dataset

synthesis

point cloud

estimation

computer vision

3D
リンク
SPIN：ニューラルネットワークの極不変性の簡素化ビジョンベースの放射照度予測への適用
arxiv_reader 2021/11/30
プーリング操作によって引き起こされる並進不変性は、畳み込みニューラルネットワークの固有の特性であり、分類などの多数のコンピュータービジョンタスクを容易にします。しかし、回転不変タスクを活用するには、畳

arXiv

arXiv reaDer

classification

CNN

satellite

augmentation

computer vision

representation

pooling
リンク
ディープメトリック学習における分布外シフトの下での一般化の特徴づけ
arxiv_reader 2021/11/30
ディープメトリックラーニング（DML）は、事前に未知のテスト分布へのゼロショット転送に適した表現を見つけることを目的としています。ただし、一般的な評価プロトコルは、トレインクラスとテストクラスがランダ

arXiv

arXiv reaDer

OOD

metric learning

benchmark

few-shot

zero-shot

representation
リンク
小さなデータセットを用いた画像分類のためのニューラルアンサンブルの有効性について
arxiv_reader 2021/11/30
ディープニューラルネットワークは、画像分類のゴールドスタンダードです。ただし、通常、優れたパフォーマンスを実現するには大量のデータが必要です。この作業では、クラスごとにいくつかのラベル付きの例を使用し

arXiv

arXiv reaDer

classification

interpretation

domain

learning

dataset
リンク
CoNIC：結腸核の識別とカウントの課題2022
arxiv_reader 2021/11/30
ヘマトキシリン＆エオシン染色組織画像内の核のセグメンテーション、分類、および定量化により、計算病理学（CPath）の下流の説明可能なモデルで使用できる解釈可能な細胞ベースの特徴の抽出が可能になります。

arXiv

arXiv reaDer

classification

segmentation

explainable

identification

dataset
リンク
機械知覚と最小限の摂動で正則化された敵対的画像の生成の丁度可知差異
arxiv_reader 2021/11/30
この研究では、人間の知覚の丁度可知差異（JND）の概念に触発された、機械知覚の尺度を紹介します。この方法に基づいて、モデルが偽のラベルを出力して画像の変化を検出するまで、加法性ノイズによって画像を繰り

detection

arXiv

human

arXiv reaDer

gradient

classification

adversarial

dataset
リンク
Mix3D：3Dシーンのコンテキスト外データ拡張
arxiv_reader 2021/11/30
大規模な3Dシーンをセグメント化するためのデータ拡張手法であるMix3Dを紹介します。シーンコンテキストはオブジェクトのセマンティクスについての推論に役立つため、現在の作業は、入力3Dシーンのグローバ

arXiv

arXiv reaDer

dataset

augmentation

pedestrian

reasoning

benchmark

3D
リンク
超高解像度画像の高品質セグメンテーション
4Kまたは6Kの超高解像度画像をセグメント化するには、画像セグメンテーションで追加の計算を考慮する必要があります。ダウンサンプリング、パッチクロッピング、カスケードモデルなどの一般的な戦略では、精度と計算コストのバランスの問題にうまく対処できません。人間がオブジェクトを粗いレベルから正確なレベルまで連続的に区別するという事実に動機付けられて、超高解像度セグメンテーションリファインメントタスク用のContinuous Refinement Model〜（CRM）を提案します。 CRMは、フィーチャマップをリファインメントターゲットに継続的に位置合わせし、フィーチャを集約してこれらの画像の詳細を再構築します。さらに、当社のCRMは、低解像度のトレーニング画像と超高解像度のテスト画像の間の解像度のギャップを埋める重要な一般化機能を示しています。定量的なパフォーマンス評価と視覚化を提示して、提案さ
arxiv_reader 2021/11/30
4Kまたは6Kの超高解像度画像をセグメント化するには、画像セグメンテーションで追加の計算を考慮する必要があります。ダウンサンプリング、パッチクロッピング、カスケードモデルなどの一般的な戦略では、精度と

segmentation

arXiv

arXiv reaDer
リンク
共同の深い圧縮と拡張を備えた学習ベースのビデオコーディング
arxiv_reader 2021/11/30
ディープラーニングベースのビデオコーディングは、ビデオシーケンスの時空間的な冗長性を絞り出す大きな可能性で大きな注目を集めています。このホワイトペーパーでは、効率的なコーデック、つまりデュアルパス生成

attention

GAN

arXiv

arXiv reaDer

convolutional

reconstruction

residual

estimation

video

compression
リンク
Motion-from-Blur：ビデオ内のモーションブラーされたオブジェクトの3D形状とモーション推定
arxiv_reader 2021/11/30
ビデオから、3Dモーション、3D形状、およびモーションブラーの大きいオブジェクトの外観を共同で推定する方法を提案します。この目的のために、複数のフレームにまたがる事前定義された時間ウィンドウの期間にわ

arXiv

arXiv reaDer

dataset

reconstruction

differentiable

estimation

trajectory

benchmark

3D

generative
リンク
トカゲ：結腸核インスタンスのセグメンテーションと分類のための大規模データセット
arxiv_reader 2021/11/30
計算病理学（CPath）のディープセグメンテーションモデルの開発は、解釈可能な形態学的バイオマーカーの調査を促進するのに役立ちます。しかし、教師あり深層学習モデルには正確にラベル付けされた大量のデータ

arXiv

arXiv reaDer

classification

segmentation

learning

dataset
リンク
分離された低照度画像の強調
arxiv_reader 2021/11/30
不完全な明度の条件下で撮影された写真の視覚的品質は、複数の要因、たとえば、低明度、画像ノイズ、色の歪みなどによって低下する可能性があります。現在の低照度画像強調モデルは、低照度の改善のみに焦点を当てて

loss function

arXiv

arXiv reaDer
リンク
ViDT：効率的で効果的な完全トランスフォーマーベースのオブジェクト検出器
arxiv_reader 2021/11/30
トランスフォーマーは、特に認識タスクのために、コンピュータービジョンの風景を変えています。検出トランスフォーマーは、オブジェクト検出のための最初の完全なエンドツーエンドの学習システムであり、ビジョント

attention

detection

arXiv

arXiv reaDer

transformer

classification

benchmark

computer vision

learning

dataset
リンク
HDR-NeRF：高ダイナミックレンジニューラル放射輝度フィールド
arxiv_reader 2021/11/30
ハイダイナミックレンジニューラルラディアンスフィールド（HDR-NeRF）を提示して、さまざまな露出の低ダイナミックレンジ（LDR）ビューのセットからHDRラディアンスフィールドを復元します。 HDR

dataset

arXiv

synthesis

arXiv reaDer
リンク
AVA-AVD：野生の視聴覚スピーカーのダイアリゼーション
arxiv_reader 2021/11/30
視聴覚スピーカーのダイアリゼーションは、聴覚信号と視覚信号の両方を使用して、「誰がいつ話したか」を検出することを目的としています。既存の視聴覚ダイアリゼーションデータセットは、主に会議室やニューススタ

arXiv

arXiv reaDer

benchmark

video

dataset
リンク
ZeroCap：視覚的意味論的算術のためのゼロショット画像からテキストへの生成
arxiv_reader 2021/11/30
最近のテキストと画像のマッチングモデルは、キュレーションされていない画像と文のペアの大規模なコーパスに対照的な学習を適用します。このようなモデルは、マッチングとそれに続くゼロショットタスクに強力なスコ

arXiv

arXiv reaDer

contrastive learning

zero-shot

captioning
リンク
オンライン署名検証のためのK最近傍法と動的タイムワーピング
arxiv_reader 2021/11/30
オンライン署名は、最も一般的に使用される生体認証の1つです。この分野では、いくつかの検証システムと公開データベースが紹介されました。この論文では、最近公開されたDeepSignDBデータベースを使用し

biometrics

arXiv

arXiv reaDer
リンク
アクティブ検索による交通標識認識の改善
まれな交通標識を認識するための反復能動学習アルゴリズムについて説明します。標準のResNetは、まれなクラスの1つのサンプルのみを含むトレーニングセットでトレーニングされます。ラベルのない大きなセットのサンプルを、レアクラスに属する推定確率で並べ替えることにより、レアクラスからのサンプルを効率的に識別できることを示します。これは、この推定確率が通常は非常に低いという事実にもかかわらず機能します。信頼できる能動学習ループは、トレーニングセットに含まれるこれらの候補サンプルにラベルを付け、手順を繰り返すことによって得られます。さらに、単一の合成サンプルから開始して同様の結果が得られることを示します。自動運転システムの交通標識認識を改善する簡単な方法を示しているため、私たちの結果は重要です。さらに、信頼性の低い出力に隠されている情報を利用できることを示していますが、通常は無視されます。 We d
arxiv_reader 2021/11/30
まれな交通標識を認識するための反復能動学習アルゴリズムについて説明します。標準のResNetは、まれなクラスの1つのサンプルのみを含むトレーニングセットでトレーニングされます。ラベルのない大きなセット

synthesis

arXiv

arXiv reaDer
リンク
オブジェクトの視覚的ナビゲーションのためのエージェント中心位グラフ
arxiv_reader 2021/11/30
オブジェクトの視覚的ナビゲーションは、エージェントの視覚的観察に基づいて、エージェントをターゲットオブジェクトに向けて誘導することを目的としています。環境を合理的に認識し、エージェントを正確に制御する

arXiv

arXiv reaDer

learning

action

representation
リンク
IB-MVS：バイナリ決定に基づくディープマルチビューステレオの反復アルゴリズム
arxiv_reader 2021/11/30
マルチビューステレオの新しい深層学習ベースの方法を紹介します。私たちの方法は、バイナリ決定方式で各ピクセルで実行可能な深度値の連続空間をトラバースすることにより、高解像度と高精度の深度マップを繰り返し

arXiv

stereo

arXiv reaDer

benchmark
リンク
ParaDiS：並列分散可能なスリム化可能なニューラルネットワーク
arxiv_reader 2021/11/30
複数の限られた電力デバイスが利用可能な場合、処理の待ち時間と通信負荷を削減しながら、これらのリソースを活用する最も効率的な方法の1つは、複数のニューラルサブネットワークを並列に実行し、処理の最後に結果

arXiv

arXiv reaDer

classification

super-resolution

adaptation
リンク
PGGANet：個人の再識別のためのポーズガイド付きグラフ注意ネットワーク
arxiv_reader 2021/11/30
人物再識別（ReID）は、さまざまなカメラでキャプチャされた画像から人物を取得することを目的としています。ディープラーニングベースのReIDメソッドの場合、人物画像のグローバルな特徴と一緒にローカルな

attention

arXiv

human

arXiv reaDer

pre-training

convolutional

pose

re-id

representation

dataset
リンク
MPI補正と一時的な再構築のための軽量ディープラーニングアーキテクチャ
Lightweight Deep Learning Architecture for MPI Correction and Transient Reconstruction 間接飛行時間型カメラ（iToF）は、インタラクティブなフレームレートで深度画像を提供する低コストのデバイスです。ただし、これらはさまざまなエラーソースの影響を受けており、このテクノロジの重要な課題であるマルチパス干渉（MPI）にスポットライトが当てられています。一般的なデータ駆動型アプローチは、シーン内の光の基本的な一時的な伝播を無視して、出力深度値の直接推定に焦点を合わせる傾向があります。代わりに、この作業では、MPIの削除と一時的な情報自体の再構築のために、一時的な情報の直接グローバルな細分化を活用する、非常にコンパクトなアーキテクチャを提案します。提案されたモデルは、合成データと実際のデータの両方で最先端のMPI
arxiv_reader 2021/11/30
間接飛行時間型カメラ（iToF）は、インタラクティブなフレームレートで深度画像を提供する低コストのデバイスです。ただし、これらはさまざまなエラーソースの影響を受けており、このテクノロジの重要な課題であ

arXiv

arXiv reaDer

synthesis

reconstruction

estimation

learning
リンク
医用画像と患者の人口統計データの融合による強化された転移学習
arxiv_reader 2021/11/30
この作業では、画像の特徴が関連する非画像データと組み合わされた場合の医用画像データの分類におけるパフォーマンスの向上を調べます。画像特徴のみを使用する場合と、患者のメタデータと組み合わせた場合の分類タ

arXiv

arXiv reaDer

pre-training

classification

domain

representation

transfer learning
リンク
VPFNet：仮想ポイントベースのLiDARとステレオデータフュージョンによる3Dオブジェクト検出の改善
arxiv_reader 2021/11/30
深度認識LiDARポイントクラウドとセマンティックリッチステレオ画像からの補足情報を融合すると、3Dオブジェクト検出に役立つことがよく認識されています。それにもかかわらず、疎な3Dポイントと密な2Dピ

sparse

detection

LiDAR

arXiv

arXiv reaDer

dataset

stereo

point cloud

augmentation

3D
リンク
クラス識別プルーニングによるフェデレーション非学習
arxiv_reader 2021/11/30
連合学習（FL）でトレーニングされたCNN分類モデルからカテゴリを選択的に忘却する問題を調査します。トレーニングに使用されるデータにFLでグローバルにアクセスできないことを考えると、私たちの洞察は、各

arXiv

arXiv reaDer

classification

CNN

pruning

learning

dataset
リンク
歩行者属性認識の再考：ゼロショット歩行者アイデンティティ設定の下での信頼できる評価
arxiv_reader 2021/11/30
歩行者属性認識は、ビデオ監視カメラによってキャプチャされた1つの歩行者画像に複数の属性を割り当てることを目的としています。多くの方法が提案され、目覚ましい進歩を遂げていますが、私たちは、この地域の現状

arXiv

arXiv reaDer

pedestrian

video

zero-shot

dataset
リンク
ドメイン適応のための確率対照学習
arxiv_reader 2021/11/30
最近の特徴対照学習（FCL）は、自己監視表現学習で有望なパフォーマンスを示しています。ただし、ドメイン適応の場合、最適化中にクラスの重みが関与しないため、FCLは圧倒的な増加を示すことができません。こ

arXiv

arXiv reaDer

self-supervised

domain adaptation

semi-supervised

contrastive learning

unsupervised

representation learning

dataset
リンク
周波数領域の知識による教師なし画像のノイズ除去
教師あり学習ベースの方法は、堅牢なノイズ除去の結果をもたらしますが、大規模なクリーン/ノイズのペアデータセットの必要性によって本質的に制限されます。一方、教師なしデノイザーを使用するには、基礎となる画像統計をより詳細に理解する必要があります。特に、クリーンな画像とノイズの多い画像の明らかな違いが高周波帯域で最も顕著であることがよく知られており、従来の画像前処理ステップの一部としてローパスフィルターを使用することが正当化されます。ただし、ほとんどの学習ベースのノイズ除去方法は、周波数領域の情報を考慮せずに、空間領域からの片側の情報のみを利用します。この制限に対処するために、この研究では、周波数に敏感な教師なしノイズ除去法を提案します。この目的のために、生成的敵対的ネットワーク（GAN）が基本構造として使用されます。続いて、周波数知識をジェネレータに転送するために、スペクトル弁別器と周波数再構
arxiv_reader 2021/11/30
教師あり学習ベースの方法は、堅牢なノイズ除去の結果をもたらしますが、大規模なクリーン/ノイズのペアデータセットの必要性によって本質的に制限されます。一方、教師なしデノイザーを使用するには、基礎となる画

GAN

arXiv

arXiv reaDer

synthesis

domain

reconstruction

augmentation

denoising

unsupervised

dataset
リンク
IDR：反復データ詳細化による自己監視画像ノイズ除去
arxiv_reader 2021/11/30
大規模なノイズの多いクリーンな画像ペアがないため、実際のアプリケーションでの監視されたノイズ除去方法の展開が制限されます。既存の教師なし手法は、グラウンドトゥルースのクリーンな画像なしで画像のノイズ除

arXiv

arXiv reaDer

synthesis

self-supervised

benchmark

denoising

unsupervised

dataset
リンク
敵対的コラボレーションによる知識蒸留の改善
arxiv_reader 2021/11/30
知識の蒸留は、コンパクトでありながら効果的なモデルを得るための重要なアプローチになっています。この目標を達成するために、小規模な学生モデルは、十分に訓練された大規模な教師モデルの知識を活用するように訓

attention

arXiv

arXiv reaDer

classification

adversarial

learning

knowledge distillation
リンク
サンプル間自己蒸留による半教師ありドメイン適応
arxiv_reader 2021/11/30
半教師ありドメイン適応（SSDA）は、ソースドメインで大きなラベル付きデータセットが指定された場合に、ラベル付きサンプルの小さなセットのみを使用して学習者を新しいドメインに適応させることです。この論文

arXiv

arXiv reaDer

domain adaptation

semi-supervised

benchmark

dataset
リンク
音声ドライブテンプレート：学習したテンプレートを使用した共同音声ジェスチャ合成
arxiv_reader 2021/11/30
共同音声ジェスチャ生成は、リアルに見えるだけでなく、入力された音声オーディオとも一致するジェスチャシーケンスを合成することです。私たちの方法は、腕、手、頭を含む完全な上半身の動きを生成します。最近のデ

arXiv

arXiv reaDer

synthesis

gesture

metric
リンク
サイン付きの最初のパワーリニアユニット
arxiv_reader 2021/11/30
この論文は、FPLUSと呼ばれる斬新で洞察に満ちた活性化方法を提案します。これは、形式の極符号を持つ数学的べき乗関数を利用します。生体工学の直感的な意味を備えながら、一般的な逆演算によって啓発されます

arXiv

arXiv reaDer

CNN

benchmark

dataset
リンク
選択的推論によるニューラルネットワークベースの画像セグメンテーションの統計的有意性の定量化
arxiv_reader 2021/11/30
膨大な数の文献がディープニューラルネットワーク（DNN）を使用する画像セグメンテーション方法に関連していますが、セグメンテーション結果の統計的信頼性の評価にはあまり注意が払われていません。この研究では

attention

arXiv

arXiv reaDer

synthesis

segmentation

DNN

adaptation

dataset
リンク
食品科学と産業における食品知識グラフの開発と応用
arxiv_reader 2021/11/30
さまざまなネットワーク（インターネットオブシングス（IoT）やモバイルネットワークなど）、データベース（栄養表や食品組成データベースなど）、ソーシャルメディア（InstagramやTwitterなど）

classification

arXiv

human

arXiv reaDer
リンク
合成未知のデータを活用することによる異常を意識したセマンティックセグメンテーション
Anomaly-Aware Semantic Segmentation by Leveraging Synthetic-Unknown Data 異常認識は、自動運転などのセーフティクリティカルなアプリケーションにとって不可欠な機能です。ロボット工学とコンピュータービジョンの最近の進歩により、画像分類の異常検出が可能になりましたが、セマンティックセグメンテーションの異常検出についてはあまり検討されていません。モデルをトレーニングするために他の既存のクラスを分布外（疑似不明）クラスとして想定する従来の異常認識システムには、2つの欠点があります。（1）アプリケーションが対処する必要のある未知のクラスは、トレーニング時間中に実際には存在しない可能性があります。（2）モデルのパフォーマンスは、クラスの選択に強く依存します。これを観察して、異常を意識したセマンティックセグメンテーションタスクに取
arxiv_reader 2021/11/30
異常認識は、自動運転などのセーフティクリティカルなアプリケーションにとって不可欠な機能です。ロボット工学とコンピュータービジョンの最近の進歩により、画像分類の異常検出が可能になりましたが、セマンティッ

arXiv

gradient

arXiv reaDer

OOD

anomaly detection

classification

autonomous driving

computer vision

dataset

semantic segmentation
リンク
ロビン：実世界の分布外シフトにおける個々の迷惑に対するロバスト性のベンチマーク
ROBIN : A Benchmark for Robustness to Individual Nuisancesin Real-World Out-of-Distribution Shifts 実際のシナリオで堅牢性を強化することは、非常に困難であることが証明されています。 1つの理由は、既存のロバストネスベンチマークは、合成データに依存するか、データセット間の一般化としてロバスト性を測定するだけであり、したがって個々の迷惑要因の影響を無視するため、制限されているためです。この作業では、実世界の画像の個々の妨害に対する視覚アルゴリズムの堅牢性を診断するためのベンチマークデータセットであるROBINを紹介します。 ROBINは、PASCAL VOC 2012およびImageNetデータセットの10の厳密なカテゴリに基づいて構築されており、オブジェクトの3Dポーズ、形状、テクスチャ、コンテ
arxiv_reader 2021/11/30
実際のシナリオで堅牢性を強化することは、非常に困難であることが証明されています。 1つの理由は、既存のロバストネスベンチマークは、合成データに依存するか、データセット間の一般化としてロバスト性を測定す

detection

pose estimation

arXiv

arXiv reaDer

transformer

OOD

convolutional

augmentation

benchmark

3D
リンク
シーンテキスト検出のための注意ベースの特徴分解-再構成ネットワーク
arxiv_reader 2021/11/30
最近、シーンテキストの検出は困難な作業になっています。通常、任意の形状やアスペクト比の大きいテキストは検出が困難です。以前のセグメンテーションベースの方法では、曲線テキストをより正確に記述することがで

attention

detection

arXiv

arXiv reaDer

segmentation

benchmark

dataset
リンク
ユニットクラス損失とクロスモダリティ弁別器を使用した不均一な可視-熱および可視-赤外線顔認識
arxiv_reader 2021/11/30
可視から熱への顔画像のマッチングは、クロスモダリティ認識の挑戦的な変種です。課題は、モダリティのギャップが大きく、可視モダリティと熱モダリティの間の相関が低いことにあります。既存のアプローチは、それ自

arXiv

arXiv reaDer

classification

face recognition

representation
リンク
顕著性ガイド付きトレーニングによる深層学習の解釈可能性の改善
Improving Deep Learning Interpretability by Saliency Guided Training 顕著性手法は、モデル予測における重要な入力機能を強調するために広く使用されています。ほとんどの既存の方法は、修正された勾配関数でバックプロパゲーションを使用して顕著性マップを生成します。したがって、ノイズの多い勾配は、不忠実な機能の帰属をもたらす可能性があります。この論文では、この問題に取り組み、モデルの予測性能を維持しながら、予測で使用されるノイズの多い勾配を減らすためのニューラルネットワークの顕著性ガイド付きトレーニング手順を紹介します。私たちの顕著性ガイド付きトレーニング手順は、マスクされた入力とマスクされていない入力の両方のモデル出力の類似性を最大化しながら、小さくて潜在的にノイズの多い勾配で特徴を繰り返しマスクします。顕著性ガイド付きトレーニン
arxiv_reader 2021/11/30
顕著性手法は、モデル予測における重要な入力機能を強調するために広く使用されています。ほとんどの既存の方法は、修正された勾配関数でバックプロパゲーションを使用して顕著性マップを生成します。したがって、ノ

arXiv

arXiv reaDer

saliency

transformer

synthesis

domain

convolutional

learning

computer vision

RNN
リンク
条件付き画像生成のためのデュアルプロジェクション生成的敵対的ネットワーク
arxiv_reader 2021/11/30
条件付き生成的敵対的ネットワーク（cGAN）は、標準の無条件GANフレームワークを拡張して、サンプルから共同データラベル分布を学習し、忠実度の高い画像を生成できる強力な生成モデルとして確立されています

GAN

arXiv

arXiv reaDer

synthesis

classification

learning

dataset
リンク
スパースDETR：学習可能なスパース性を備えた効率的なエンドツーエンドのオブジェクト検出
Sparse DETR: Efficient End-to-End Object Detection with Learnable Sparsity DETRは、トランスエンコーダ-デコーダアーキテクチャを使用した最初のエンドツーエンドオブジェクト検出器であり、高解像度の特徴マップで競争力のあるパフォーマンスを示しますが、計算効率は低くなります。その後の作業であるDeformableDETRは、密な注意を変形可能な注意に置き換えることでDETRの効率を高め、10倍高速な収束とパフォーマンスの向上を実現します。変形可能なDETRは、マルチスケール機能を使用してパフォーマンスを向上させますが、エンコーダトークンの数はDETRと比較して20倍に増加し、エンコーダの注意の計算コストがボトルネックのままです。予備実験では、エンコーダトークンの一部のみを更新しても検出性能が低下することはほとんどありま
arxiv_reader 2021/11/30
DETRは、トランスエンコーダ-デコーダアーキテクチャを使用した最初のエンドツーエンドオブジェクト検出器であり、高解像度の特徴マップで競争力のあるパフォーマンスを示しますが、計算効率は低くなります。そ

sparse

attention

detection

arXiv

arXiv reaDer

transformer

dataset
リンク
深い畳み込み特徴に基づく非線形強度ソナー画像マッチング
arxiv_reader 2021/11/30
深海探査の分野では、ソナーは現在、唯一の効率的な長距離検知装置です。ノイズ干渉、低いターゲット強度、バックグラウンドダイナミクスなどの複雑な水中環境は、ソナーイメージングに多くの悪影響をもたらしていま

arXiv

arXiv reaDer

convolutional
リンク
SwiftSRGAN-効率的でリアルタイムの推論のための超解像の再考
arxiv_reader 2021/11/30
近年、最先端のディープラーニングベースのアーキテクチャを使用した画像の超解像のタスクにいくつかの進歩がありました。以前に公開された多くの超解像ベースの技術では、画像の超解像を実行するために、ハイエンド

GAN

arXiv

arXiv reaDer

real time

convolutional

super-resolution

learning
リンク
TinyDefectNet：高スループット製造の視覚的品質検査のための非常にコンパクトなディープニューラルネットワークアーキテクチャ
arxiv_reader 2021/11/30
製造プロセスの重要な側面は、製造されたコンポーネントの欠陥や欠陥を視覚的に検査することです。人間のみの目視検査は、非常に時間と手間がかかる可能性があり、特に高スループットの製造シナリオでは重大なボトル

detection

arXiv

arXiv reaDer

convolutional

benchmark

learning

dataset
リンク
個人検索のためのコンテキストアウェア埋め込みの学習
arxiv_reader 2021/11/30
個人検索は、個人検出と個人再識別（re-ID）を共同で解決することを目的とした関連タスクです。以前のほとんどの方法は、検索のための堅牢な個々の特徴の学習に焦点を合わせていますが、照明、大きなポーズの分

attention

detection

arXiv

arXiv reaDer

occlusion

person

pose

pedestrian

re-id

embedding
リンク
重い画像増強のための方向性のある自己監視学習
arxiv_reader 2021/11/30
大規模な拡張ファミリにもかかわらず、自己監視型の画像表現学習に有益なのは、厳選された堅牢な拡張ポリシーのほんの一部です。この論文では、大幅に多くの拡張機能と互換性のある方向性のある自己監視学習パラダイ

arXiv

arXiv reaDer

self-supervised

augmentation

representation learning
リンク
CSIROオニヒトデ検出データセット
オニヒトデ（COTS）の発生は、グレートバリアリーフ（GBR）でのサンゴの喪失の主な原因であり、COTSの個体数を生態学的に持続可能なレベルに管理するために、実質的な監視および管理プログラムが進行中です。 GBRのCOTS発生地域から大規模な注釈付き水中画像データセットをリリースし、リーフスケールでのCOTS個体群の検出、監視、管理を改善するための機械学習とAI駆動技術の研究を奨励しています。データセットはリリースされ、これらの水中画像からのCOTS検出のタスクで国際的な機械学習コミュニティに挑戦するKaggleコンペティションでホストされます。 Crown-of-Thorn Starfish (COTS) outbreaks are a major cause of coral loss on the Great Barrier Reef (GBR) and substantial su
arxiv_reader 2021/11/30
オニヒトデ（COTS）の発生は、グレートバリアリーフ（GBR）でのサンゴの喪失の主な原因であり、COTSの個体数を生態学的に持続可能なレベルに管理するために、実質的な監視および管理プログラムが進行中で

detection

arXiv

arXiv reaDer

learning

dataset
リンク
TEVARの厳密な登録方法
arxiv_reader 2021/11/30
定義された介入内X線と未定義の介入前コンピュータ断層撮影（CT）の間のマッピング関係は不確実であるため、補助ポジショニングデバイスまたは医療用インプラントなどの身体マーカーがこの関係を決定するために一

arXiv

human

arXiv reaDer

segmentation

estimation

CT
リンク
GreedyFool：多要素の知覚不能性とブラックボックスの敵対的攻撃の設計へのその応用
arxiv_reader 2021/11/30
敵対的な例は、適切に設計された入力サンプルであり、摂動は人間の目には知覚できませんが、ディープニューラルネットワーク（DNN）の出力を簡単に誤解させます。既存の作品は、顕著なアーティファクトを生成する

arXiv

human

arXiv reaDer

adversarial

DNN

metric

approximation

dataset
リンク
インフルエンスグラフを介してバックドア攻撃から防御するための一般的なフレームワーク
A General Framework for Defending Against Backdoor Attacks via Influence Graph この作業では、攻撃トリガーは通常特定のタイプの攻撃パターンに従うため、中毒のトレーニング例はトレーニング中に相互に大きな影響を与えるという事実に触発されて、バックドア攻撃から防御するための新しい一般的なフレームワークを提案します。個々のトレーニングポイントと関連するペアワイズ影響をそれぞれ表すノードとエッジで構成される影響グラフの概念を紹介します。トレーニングポイントのペア間の影響は、影響関数koh2017understandingで近似された、あるトレーニングポイントの削除が別のトレーニングポイントの予測に与える影響を表します。悪意のあるトレーニングポイントは、特定のサイズの対象となる最大平均サブグラフを見つけることによって抽出され
arxiv_reader 2021/11/30
この作業では、攻撃トリガーは通常特定のタイプの攻撃パターンに従うため、中毒のトレーニング例はトレーニング中に相互に大きな影響を与えるという事実に触発されて、バックドア攻撃から防御するための新しい一般的

computer vision

arXiv

arXiv reaDer
リンク
動的ネットワークプルーニングのための機能ゲート結合
arxiv_reader 2021/11/30
ゲーティングモジュールは、特徴の表現を維持しながら、ディープニューラルネットワークの実行時の計算コストを削減するために、動的ネットワークプルーニングで広く検討されてきました。実質的な進歩にもかかわらず

arXiv

arXiv reaDer

self-supervised

pruning

contrastive learning

representation
リンク
生成的敵対的ネットワークを使用した医療MR画像のデータ拡張
arxiv_reader 2021/11/30
ディープラーニングに基づくコンピューター支援診断（CAD）は、医療業界で重要な診断技術になり、診断の精度を効果的に向上させています。ただし、脳腫瘍の磁気共鳴（MR）画像データセットが不足しているため、

loss function

GAN

arXiv

arXiv reaDer

augmentation

learning

dataset

MRI
リンク
Deblur-NeRF：ぼやけた画像からの神経放射輝度フィールド
ニューラルラディアンスフィールド（NeRF）は、その優れた合成品質により、最近3Dシーンの再構築と新しいビューの合成で大きな注目を集めています。ただし、野生のシーンをキャプチャするときによく発生する焦点ぼけや動きによって引き起こされる画像のぼやけは、その再構成の品質を大幅に低下させます。この問題に対処するために、ぼやけた入力からシャープなNeRFを復元できる最初の方法であるDeblur-NeRFを提案します。ぼかしプロセスをシミュレートすることでぼやけたビューを再構築する合成による分析アプローチを採用しているため、NeRFはぼやけた入力に対して堅牢になっています。このシミュレーションのコアは、各空間位置で正規のスパースカーネルを変形することにより、空間的に変化するブラーカーネルをモデル化する新しい変形可能スパースカーネル（DSK）モジュールです。各カーネルポイントの光線の原点は、物理的なぼ
arxiv_reader 2021/11/30
ニューラルラディアンスフィールド（NeRF）は、その優れた合成品質により、最近3Dシーンの再構築と新しいビューの合成で大きな注目を集めています。ただし、野生のシーンをキャプチャするときによく発生する焦

attention

sparse

arXiv

arXiv reaDer

dataset

synthesis

simulation

reconstruction

3D
リンク
ReduNet：レート削減を最大化するという原則からのホワイトボックスディープネットワーク
arxiv_reader 2021/11/30
この作業は、データ圧縮と識別表現の原理から現代の深い（畳み込み）ネットワークを解釈することを目的としたもっともらしい理論的フレームワークを提供しようとします。高次元のマルチクラスデータの場合、最適な線

arXiv

gradient

arXiv reaDer

compression

classification

interpretation

domain

convolutional

representation

dataset
リンク
TAL：一般化可能な個人の再識別のための2ストリームアダプティブラーニング
TAL: Two-stream Adaptive Learning for Generalizable Person Re-identification ドメインの一般化可能な個人の再識別は、訓練されたモデルを見えないドメインに適用することを目的としています。以前の作業では、すべてのトレーニングドメインのデータを組み合わせてドメイン不変の機能をキャプチャするか、専門家の混合を採用してドメイン固有の情報を調査します。この作業では、ドメイン固有の機能とドメイン不変の機能の両方が、re-idモデルの一般化能力を向上させるために重要であると主張します。この目的のために、これら2種類の情報を同時にモデル化するために、2ストリームアダプティブラーニング（TAL）と名付けた新しいフレームワークを設計します。具体的には、ドメイン固有のストリームは、バッチ正規化（BN）パラメーターを使用してトレーニングドメ
arxiv_reader 2021/11/30
ドメインの一般化可能な個人の再識別は、訓練されたモデルを見えないドメインに適用することを目的としています。以前の作業では、すべてのトレーニングドメインのデータを組み合わせてドメイン不変の機能をキャプチ

arXiv

batch normalization

arXiv reaDer

domain

person

re-id

learning
リンク
局所的に強化された自己注意：局所および文脈用語としての自己注意と畳み込みの組み合わせ
arxiv_reader 2021/11/30
自己注意は、コンピュータビジョンモデルで普及しています。完全に接続された条件付き確率場（CRF）に触発されて、自己注意をローカル用語とコンテキスト用語に分解します。これらはCRFの単項および二項項に対

attention

detection

arXiv

arXiv reaDer

convolutional

CNN

segmentation

computer vision
リンク
オムニ教師付き顔認識：単純なベースライン
Omni-supervised Facial Expression Recognition: A Simple Baseline この論文では、全知教師付き学習を活用することで、表情認識（FER）のパフォーマンスを向上させることを目標としています。現在の最先端のFERアプローチは、通常、限られた数のサンプルでモデルをトレーニングすることにより、制御された環境で顔の表情を認識することを目的としています。さまざまなシナリオで学習したモデルの堅牢性を高めるために、ラベルの付いたサンプルを多数のラベルなしのデータと一緒に活用して、全方向教師付き学習を実行することを提案します。特に、最初にMS-Celeb-1Mを顔のプールとして使用します。ここには、約5,822Kのラベルのない顔の画像が含まれています。次に、少数のラベル付きサンプルで学習されたプリミティブモデルを採用して、特徴ベースの類似性比較を行
arxiv_reader 2021/11/30
この論文では、全知教師付き学習を活用することで、表情認識（FER）のパフォーマンスを向上させることを目標としています。現在の最先端のFERアプローチは、通常、限られた数のサンプルでモデルをトレーニン

distillation

arXiv

arXiv reaDer

face

benchmark

learning

dataset
リンク
マインドギャップ：生成的敵対的ネットワークのためのシングルショットドメイン適応のためのドメインギャップ制御
arxiv_reader 2021/11/30
ワンショットドメイン適応の新しい方法を紹介します。私たちのメソッドへの入力は、ドメインAの画像とドメインBからの単一の参照画像I_Bを生成できるトレーニング済みGANです。提案されたアルゴリズムは、ト

single-shot

GAN

arXiv

arXiv reaDer

pre-training

one-shot

domain adaptation
リンク
ExCon：画像分類のための説明主導の教師あり対照学習
arxiv_reader 2021/11/30
対照的な学習により、画像分類などのタスクで学習された埋め込み表現の品質が大幅に向上しました。ただし、既存の対照的な拡張方法の主な欠点は、画像コンテンツの変更につながる可能性があり、そのセマンティクスに

arXiv

arXiv reaDer

classification

augmentation

adversarial

contrastive learning

embedding

representation

dataset
リンク
病院のビデオ録画における患者の自動検出
arxiv_reader 2021/11/30
臨床現場では、てんかん患者はビデオ脳波（EEG）テストを介して監視されます。ビデオEEGは患者がビデオテープで体験したことを記録し、EEGデバイスは患者の脳波を記録します。現在、発作中に患者の位置を追

detection

arXiv

arXiv reaDer

real time

tracking

R-CNN

pre-training

benchmark

video

dataset
リンク
視覚と言語のナビゲーションモデルの潜在的なパフォーマンスを探る：スナップショットアンサンブル法
arxiv_reader 2021/11/30
Vision-and-Language Navigation（VLN）は、人工知能の分野での挑戦的なタスクです。深いビジョンと言語モデルの飛躍的進歩に起因して、過去数年間でこのタスクは大幅に進歩しまし

dataset

arXiv

arXiv reaDer
リンク
深層学習を使用した診療所での3D高品質磁気共鳴画像の復元
arxiv_reader 2021/11/30
取得時間の短縮とモーションアーチファクトの低減は、磁気共鳴画像法で最も重要な2つの懸念事項です。有望なソリューションとして、ディープラーニングベースの高品質MR画像復元が調査され、追加の取得時間やパル

arXiv

arXiv reaDer

learning

3D

MRI
リンク
V4細胞の形状選択性のモデルを学習すると、脳の形状エンコードメカニズムが明らかになります
Learning a model of shape selectivity in V4 cells reveals shape encoding mechanisms in the brain 初期の視覚信号をV4の曲率表現に変換するメカニズムは不明です。 V4で報告された曲率表現へのこの変換に不可欠なコンポーネントであるV1 / V2エンコーディングを明らかにする階層モデルを提案します。次に、単一のガウス分布の前に頻繁に課せられるものを緩和することにより、V4形状の選択性が、マカクのV4応答から階層の最後の層で学習されます。 V4細胞は、受容野の空間的範囲全体からの複数の形状部分を、同様の興奮性および抑制性の寄与で統合することがわかりました。私たちの結果は、V4ニューロンの形状選択性に関する既存のデータの新しい詳細を明らかにしており、さらなる実験により、この領域での処理の理解を深めること
arxiv_reader 2021/11/30
初期の視覚信号をV4の曲率表現に変換するメカニズムは不明です。 V4で報告された曲率表現へのこの変換に不可欠なコンポーネントであるV1 / V2エンコーディングを明らかにする階層モデルを提案します。次

arXiv

representation

arXiv reaDer

learning
リンク
EffCNet：NXPBlueBoxでの画像分類のための効率的なCondenseNet
arxiv_reader 2021/11/30
プロセッサを内蔵したインテリジェントエッジデバイスは、画像分類やオブジェクト検出などの高度なコンピュータビジョン（CV）タスクを実行する機能と物理的形態の点で大きく異なります。自動運転車やUAV、組み

detection

arXiv

arXiv reaDer

real time

edge device

classification

CNN

augmentation

UAV

computer vision
リンク
画像圧縮のための複雑度の低い丸めKLT近似
arxiv_reader 2021/11/30
Karhunen-Lo \ `eve変換（KLT）は、データの非相関化と次元削減によく使用されます。その計算は入力信号の共分散行列に依存するため、リアルタイムアプリケーションでのKLTの使用は、それを

arXiv

arXiv reaDer

real time

approximation

compression
リンク
ベイズモデルを使用したタスク外および分布外の一般化によるアモーダルセグメンテーション
arxiv_reader 2021/11/30
アモーダル完了は、人間が簡単に実行できる視覚的なタスクですが、コンピュータービジョンアルゴリズムでは困難です。目的は、遮られて見えないオブジェクトの境界をセグメント化することです。データの取得と注釈付

arXiv

arXiv reaDer

OOD

Bayesian

occlusion

segmentation

computer vision

generative
リンク
高レベルの自然言語命令実行のための永続的な空間意味表現
arxiv_reader 2021/11/30
自然言語は、ロボットエージェントの長期的なタスクを指定するためのアクセス可能で表現力豊かなインターフェイスを提供します。ただし、専門家以外の人は、抽象化のいくつかのレイヤーを通じて特定のロボットアクシ

arXiv

arXiv reaDer

reasoning

benchmark

action

robot

representation
リンク
組み込みプラットフォームでのリアルタイムLiDARデータセグメンテーションのためのマルチスケール相互作用
arxiv_reader 2021/11/30
LiDARデータのリアルタイムのセマンティックセグメンテーションは、通常埋め込まれたプラットフォームを備え、計算リソースが限られている自動運転車両にとって非常に重要です。点群を直接操作するアプローチ

LiDAR

arXiv

arXiv reaDer

real time

vehicle

point cloud

semantic segmentation
リンク
ローカル学習の問題：連合学習におけるデータの不均一性の再考
arxiv_reader 2021/11/30
連合学習（FL）は、クライアントのネットワーク（つまり、エッジデバイス）を使用してプライバシーを保護する分散学習を実行するための有望な戦略です。ただし、クライアント間のデータ分散は本質的に非IIDであ

arXiv

arXiv reaDer

edge device

regularization

learning
リンク
ビジュアルコミュニケーションゲームにおける創発的なグラフィカルな慣習
arxiv_reader 2021/11/30
人間は、象徴的な言語とは別に、グラフィカルなスケッチと通信します。創発的コミュニケーションに関する最近の研究は主に象徴的な言語に焦点を合わせていますが、それらの設定は人間のコミュニケーションに存在する

arXiv

human

arXiv reaDer

reinforcement learning
リンク
卵を割ってオムレツを作る：新規属性合成のためのゼロショット学習
arxiv_reader 2021/11/30
ゼロショット分類問題の既存のアルゴリズムのほとんどは、通常、カテゴリ間の属性ベースのセマンティック関係に依存して、インスタンスを観察せずに新しいカテゴリの分類を実現します。ただし、ゼロショット分類モデ

detection

arXiv

arXiv reaDer

localization

synthesis

classification

learning

zero-shot

dataset
リンク
COVID-19後の時代におけるUAVベースの群集監視
arxiv_reader 2021/11/30
現在のパンデミック状況に対処し、疑似通常の日常生活を回復するために、マスクの着用、社会的距離、手の消毒など、いくつかの対策が展開および維持されています。屋外の文化イベント、コンサート、ピクニックが徐々

detection

arXiv

arXiv reaDer

real time

activity

UAV

COVID-19

estimation

trajectory

learning
リンク
CDGNet：人間の構文解析のためのクラス配布ガイド付きネットワーク
arxiv_reader 2021/11/30
人間の構文解析の目的は、画像内の人間を構成要素に分割することです。このタスクには、クラスに従って人間の画像の各ピクセルにラベルを付けることが含まれます。人体は階層的に構造化された部分で構成されているた

arXiv

human

arXiv reaDer
リンク
PIP：スパン選択によるメンタルシミュレーションによる物理的相互作用の予測
arxiv_reader 2021/11/30
物理的な相互作用の結果を正確に予測することは、人間の知性の重要な要素であり、現実の世界でロボットを安全かつ効率的に展開するために重要です。物理的相互作用の結果を予測することを学習する既存のビジョンベー

attention

arXiv

human

arXiv reaDer

dataset

synthesis

simulation

robot

3D

generative
リンク
ビデオの視聴から支配的なオブジェクトの動きをセグメント化することを学ぶ
arxiv_reader 2021/11/30
既存の深層学習ベースの教師なしビデオオブジェクトセグメンテーション方法は、トレーニングのためにグラウンドトゥルースセグメンテーションマスクに依然依存しています。このコンテキストでの教師なしとは、推論中

arXiv

arXiv reaDer

saliency

pre-training

optical flow

segmentation

unsupervised

representation

dataset
リンク
畳み込みネットワークにおける暗黙の同変
arxiv_reader 2021/11/30
畳み込みニューラルネットワーク（CNN）は、変換では本質的に同変ですが、回転やスケールの変更などの他の変換を処理するための同等の組み込みメカニズムはありません。設計により、CNNを他の変換グループの下

loss function

arXiv

tracking

arXiv reaDer

classification

CNN

learning

dataset
リンク
シンプルで転送可能な認識認識画像処理の探索
arxiv_reader 2021/11/30
画像認識の最近の進歩は、前例のない規模での視覚システムの展開を刺激しました。その結果、視覚データは現在、人間だけでなく機械によっても消費されることがよくあります。既存の画像処理方法は、人間の知覚を改善

detection

arXiv

human

arXiv reaDer

classification

dataset
リンク
FashionSearchNet-v2：属性操作による画像検索のためのローカリゼーションによる属性表現の学習
arxiv_reader 2021/11/30
この論文の焦点は、属性操作による画像検索の問題にあります。私たちが提案する作業は、他の属性を維持しながら、クエリ画像の目的の属性を操作することができます。たとえば、クエリ画像のcollar属性をrou

attention

arXiv

arXiv reaDer

localization

classification

domain

weakly-supervised

metric

representation

dataset
リンク
弱教師ありローカリゼーションの重みマップの学習
弱く監視されたローカリゼーション設定では、監視は画像レベルのラベルとして与えられます。画像分類器fを使用し、入力画像が与えられた場合に、画像内のオブジェクトの位置を示すピクセルごとの重みマップを出力する生成ネットワークgをトレーニングすることを提案します。ネットワークgは、元の画像の分類器fの出力と、gの出力によって重み付けされた同じ画像が与えられた場合のその出力との間の不一致を最小化することによってトレーニングされます。このスキームでは、gが均一な重みを提供しないことを保証する正則化項と、gが画像を過度にセグメント化するのを防ぐための早期停止基準が必要です。私たちの結果は、この方法が、一般的な画像認識データセットだけでなく、挑戦的な細粒度分類データセットでもかなりのマージンで既存のローカリゼーション方法よりも優れていることを示しています。さらに、取得された重みマップは、きめ細かい分類デー
arxiv_reader 2021/11/30
弱く監視されたローカリゼーション設定では、監視は画像レベルのラベルとして与えられます。画像分類器fを使用し、入力画像が与えられた場合に、画像内のオブジェクトの位置を示すピクセルごとの重みマップを出力す

arXiv

arXiv reaDer

localization

classification

regularization

segmentation

weakly-supervised

dataset

generative
リンク
マルチタスク学習のためのクロスタスク整合性学習フレームワーク
arxiv_reader 2021/11/30
マルチタスク学習（MTL）は、タスク間の関係を活用して複数のタスクを共同で学習するモデルをトレーニングするディープラーニングのアクティブな分野です。 MTLは、各タスクを個別に学習する場合と比較して、

arXiv

arXiv reaDer

contrastive learning

benchmark

multi-task

dataset
リンク
医用画像の教師なし局所識別
arxiv_reader 2021/11/30
対照学習は、医用画像分析における高価な注釈の高い需要を軽減するのに効果的であることが証明されています。最近の作品は主にインスタンスごとの識別に基づいており、グローバルな識別機能を学びます。ただし、主に

arXiv

clustering

arXiv reaDer

segmentation

one-shot

landmark

contrastive learning

embedding

unsupervised
リンク
確率論的なピクセルごとのパーツセグメンテーションを介して、強く相互作用する手を明確にすることを学ぶ
arxiv_reader 2021/11/30
自然な会話や相互作用では、私たちの手はしばしば重なり合ったり、互いに接触したりします。手の外観が均一であるため、画像から相互作用する手の3Dポーズを推定することは困難です。この論文では、自己相似性、お

pose estimation

arXiv

arXiv reaDer

dataset

segmentation

monocular

learning

3D
リンク
CHARTER：ヒートマップベースのマルチタイプチャートデータ抽出
ドキュメントに保存されている情報のデジタル変換は、優れた知識源です。ドキュメントのテキストとは対照的に、チャートやプロットなどの埋め込みドキュメントのグラフィックの変換については、あまり検討されていません。ドキュメントチャートを機械可読な表形式のデータ形式にエンドツーエンドで変換する方法とシステムを紹介します。これは、デジタルドメインで簡単に保存および分析できます。私たちのアプローチでは、グラフをグラフ要素と、凡例、軸、タイトル、キャプションなどのサポート構造とともに抽出して分析します。私たちの検出システムは、合成データのみでトレーニングされたニューラルネットワークに基づいており、データ収集の制限要因を排除します。バウンディングボックスを使用してグラフィック要素を検出する以前の方法とは対照的に、当社のネットワークは、補助ドメイン固有のヒートマップ予測を備えており、長方形のバウンディングボッ
arxiv_reader 2021/11/30
ドキュメントに保存されている情報のデジタル変換は、優れた知識源です。ドキュメントのテキストとは対照的に、チャートやプロットなどの埋め込みドキュメントのグラフィックの変換については、あまり検討されていま

detection

arXiv

arXiv reaDer

synthesis

domain

benchmark
リンク
マルチドメイン顔画像翻訳用のゲート付きSwitchGAN
arxiv_reader 2021/11/30
マルチドメインの顔画像の翻訳に関する最近の研究は、印象的な結果を達成しています。既存の方法は、一般に、ドメイン変換を課すための補助分類器を備えた弁別器を提供します。ただし、これらの方法では、ドメイン分

GAN

arXiv

arXiv reaDer

classification

domain

face
リンク
ディープMAGSAC++
arxiv_reader 2021/11/30
従来の推定量と深くロバストな推定量の利点を組み合わせたDeepMAGSAC ++を提案します。幾何学的に正当な方法で、部分的にアフィンな共変特徴、たとえばSIFTからの方向とスケールを活用する新しい損

loss function

arXiv

arXiv reaDer

Bayesian

estimation

learning

dataset
リンク
OCRを改善するための画像前処理と修正された適応しきい値
Image preprocessing and modified adaptive thresholding for improving OCR この論文では、テキスト内の主要なピクセル強度を見つけ、それに応じて画像をしきい値処理して、光学式文字認識（OCR）モデルに使用しやすくする方法を提案しました。私たちの方法では、画像全体を編集する代わりに、テキストの境界とそれらを塗りつぶす色を除く他のすべての機能を削除しています。このアプローチでは、入力画像からの文字のグレースケール強度がしきい値パラメータの1つとして使用されます。開発されたモデルのパフォーマンスは、PyTesseractによるOCRが続く画像処理の有無にかかわらず、入力画像で最終的に検証されます。得られた結果に基づいて、このアルゴリズムは、OCRの画像処理の分野で効率的に適用できることが観察できます。 In this paper
arxiv_reader 2021/11/30
この論文では、テキスト内の主要なピクセル強度を見つけ、それに応じて画像をしきい値処理して、光学式文字認識（OCR）モデルに使用しやすくする方法を提案しました。私たちの方法では、画像全体を編集する代わり

arXiv

arXiv reaDer
リンク
PAPooling：点群におけるローカルジオメトリのグラフベースの位置適応型集計
PAPooling: Graph-based Position Adaptive Aggregation of Local Geometry in Point Clouds 局所領域の点の特徴の集約によってキャプチャされたきめの細かいジオメトリは、点群のオブジェクト認識とシーンの理解に不可欠です。それにもかかわらず、既存の卓越したポイントクラウドバックボーンは通常、ローカルフィーチャ集約のための最大/平均プーリングを組み込んでおり、ポイントの位置分布をほとんど無視しているため、きめ細かい構造の組み立てが不十分になります。このボトルネックを軽減するために、最大プーリングの効率的な代替手段である位置適応プーリング（PAPooling）を提示します。これは、新しいグラフ表現を使用してローカルポイント間の空間関係を明示的にモデル化し、位置適応方式でフィーチャを集約して、集約された機能。具体的には、
arxiv_reader 2021/11/30
局所領域の点の特徴の集約によってキャプチャされたきめの細かいジオメトリは、点群のオブジェクト認識とシーンの理解に不可欠です。それにもかかわらず、既存の卓越したポイントクラウドバックボーンは通常、ローカ

arXiv

GCN

arXiv reaDer

classification

convolutional

point cloud

segmentation

3D

pooling
リンク
選択的特徴共有に基づく表情認識と合成のための深いマルチタスク学習
Deep Multi-task Learning for Facial Expression Recognition and Synthesis Based on Selective Feature Sharing マルチタスク学習は、深層学習ベースの表情認識タスクのための効果的な学習戦略です。ただし、ほとんどの既存の方法では、異なるタスク間で情報を転送するときに機能の選択が限定的に考慮されているため、マルチタスクネットワークのトレーニング時にタスクの干渉が発生する可能性があります。この問題に対処するために、我々は新しい選択的特徴共有法を提案し、表情認識と表情合成のためのマルチタスクネットワークを確立します。提案された方法は、役に立たない有害な情報を除外しながら、異なるタスク間で有益な機能を効果的に転送できます。さらに、提案された方法の汎化能力をさらに強化するために、トレーニングデータセッ
arxiv_reader 2021/11/30
マルチタスク学習は、深層学習ベースの表情認識タスクのための効果的な学習戦略です。ただし、ほとんどの既存の方法では、異なるタスク間で情報を転送するときに機能の選択が限定的に考慮されているため、マルチタ

arXiv

arXiv reaDer

synthesis

learning

face

benchmark

multi-task

dataset
リンク
Relightable Neural Video Portrait
arxiv_reader 2021/11/30
フォトリアリスティックな顔のビデオポートレートの再現は、仮想制作と多数のVR / AR体験に役立ちます。ポートレートは高いリアリズムとターゲット環境との一貫性を維持する必要があるため、このタスクは依然

arXiv

arXiv reaDer

segmentation

pose

face

learning

video

multi-task
リンク
自然主義的なシーンでのEスクーターライダーの検出
arxiv_reader 2021/11/30
Eスクーターは世界中の主要都市でユビキタスな乗り物になりました。Eスクーターの数は増え続けており、道路上の他の車との相互作用が増えています。電動スクーターのライダーの通常の行動は、他の脆弱な道路利用者

detection

arXiv

arXiv reaDer

YOLO

classification

CNN

pedestrian

benchmark

computer vision

dataset
リンク
NoFADE：CO2投資の収穫逓減の分析
arxiv_reader 2021/11/30
気候変動は、現在、社会全体に影響を及ぼしている差し迫った問題であり続けています。コンピュータビジョン（CV）コミュニティを含む社会として、環境への影響を制限するための措置を講じることが重要です。このホ

arXiv

arXiv reaDer

metric

computer vision

dataset
リンク
ESGN：高速3Dオブジェクト検出のための効率的なステレオジオメトリネットワーク
arxiv_reader 2021/11/30
高速ステレオベースの3Dオブジェクト検出器は、最近、推論時間の意味で大きな進歩を遂げました。ただし、精度は高精度指向の方法よりもはるかに遅れています。主な理由は、高速ステレオベースの方法での3Dジオメ

detection

arXiv

arXiv reaDer

stereo

learning

knowledge distillation

representation

3D
リンク
ニューラルネットワークのアーキテクチャは、ノイズの多いラベルに対する堅牢性にどのように影響しますか？
arxiv_reader 2021/11/30
大規模な実世界のデータセットでは、ノイズの多いラベルは避けられません。この作業では、以前の作業で調査された領域、つまりネットワークのアーキテクチャがノイズの多いラベルに対する堅牢性にどのように影響する

arXiv

arXiv reaDer

domain

representation

dataset
リンク
単眼斜め視覚データ分析のための半自動モノプロッティングのAIサポートフレームワーク
arxiv_reader 2021/11/30
過去数十年の間に、スマートフォン、ドローン、空中パトロール、デジタルカメラの開発により、大勢の人々が利用できる高品質の写真が可能になり、世界中をカバーする自然と社会の膨大なデータを収集する機会が提供さ

detection

pose estimation

arXiv

drone

arXiv reaDer

real time

human

monocular

identification

3D
リンク
人間の学習模倣による教師なしドメイン適応者の再識別
Unsupervised Domain Adaptive Person Re-Identification via Human Learning Imitation 教師なしドメイン適応型の人の再識別は、その高い実用的価値のために大きな注目を集めています。過去数年間、研究者は、クラスタリングと微調整のパラダイムに従うことにより、異なる個人の再識別データセット間のドメインギャップを減らすための方法で教師と学生のフレームワークを利用することを提案しています。生徒に教師からの行動を直接コピーさせるか、信頼できる学習教材を選択することによって人間の学習プロセスを模倣しようとする最近の教師と生徒のフレームワークベースの方法に触発されて、さまざまな側面から人間の学習プロセスを模倣するためのさらなる調査を行うことを提案しますつまり、学習教材を適応的に更新し、教師の行動を選択的に模倣し、学習教材の構造を分
arxiv_reader 2021/11/30
教師なしドメイン適応型の人の再識別は、その高い実用的価値のために大きな注目を集めています。過去数年間、研究者は、クラスタリングと微調整のパラダイムに従うことにより、異なる個人の再識別データセット間のド

attention

arXiv

clustering

arXiv reaDer

human

domain

re-id

benchmark

unsupervised

dataset
リンク
胸部X線解釈の深層学習モデルに対する放射線レポートラベラーの品質の影響
arxiv_reader 2021/11/30
胸部X線解釈の深層学習モデルは、通常、自動放射線レポートラベラーによって生成されたラベルでトレーニングされますが、レポートラベリングの改善が胸部X線分類モデルのパフォーマンスに与える影響は体系的に調査

arXiv

arXiv reaDer

classification

interpretation

learning

dataset
リンク
ニューラルネットワークの敵対的ロバスト性を改善するためのマージン増加（IMA）トレーニング
arxiv_reader 2021/11/30
畳み込みニューラルネットワーク（CNN）は、医用画像分類の従来の方法を上回っています。ただし、CNNは敵対的な攻撃に対して脆弱であり、医療アプリケーションに悲惨な結果をもたらす可能性があります。敵対的

arXiv

arXiv reaDer

classification

CNN

segmentation

adversarial

dataset
リンク
教師なし視覚表現における特徴抑制への対処
arxiv_reader 2021/11/30
対照学習は、ラベル付けされたデータなしで有用な表現を学習できるため、機械学習で最も急速に成長している研究分野の1つです。ただし、対照学習は特徴抑制の影響を受けやすく、つまり、関心のあるタスクに関連する

arXiv

arXiv reaDer

classification

contrastive learning

unsupervised

representation

dataset
リンク
自己監視学習をどのようにきめ細かい頭のポーズの推定に使用できるか？
arxiv_reader 2021/11/30
ヘッドビューポイントラベルのコストは、きめ細かいヘッドポーズ推定アルゴリズムを改善する上での主なハードルです。膨大な数のラベルがないことに対する1つの解決策は、自己監視学習（SSL）を使用することです

pose estimation

arXiv

arXiv reaDer

pre-training

self-supervised

learning

multi-task
リンク
ロングテール認識のための対象を絞った教師あり対照学習
Targeted Supervised Contrastive Learning for Long-Tailed Recognition 実世界のデータは、多くの場合、クラスの不均衡が大きいロングテール分布を示します。この場合、多数派のクラスがトレーニングプロセスを支配し、少数派のクラスの決定境界を変更する可能性があります。最近、研究者は、ロングテール認識のための教師あり対照学習の可能性を調査し、それが強力なパフォーマンスの向上を提供することを実証しました。このホワイトペーパーでは、監視された対照学習がパフォーマンスの向上に役立つ一方で、過去のベースラインは、不均衡なデータ分布によってもたらされる均一性の低下に悩まされていることを示しています。この不十分な均一性は、特徴空間での分離性が低い少数派クラスのサンプルに現れます。この問題に対処するために、超球上の特徴分布の均一性を改善する、ターゲ
arxiv_reader 2021/11/30
実世界のデータは、多くの場合、クラスの不均衡が大きいロングテール分布を示します。この場合、多数派のクラスがトレーニングプロセスを支配し、少数派のクラスの決定境界を変更する可能性があります。最近、研究者

contrastive learning

dataset

arXiv

arXiv reaDer
リンク
陰関数による連続環境フィールドの学習
arxiv_reader 2021/11/30
到達距離、つまりシーン内の任意の位置から実行可能な軌道に沿ったゴールまでの距離をエンコードする新しいシーン表現を提案します。この環境フィールド表現が、2D迷路または3D屋内シーンでのエージェントの動的

arXiv

human

arXiv reaDer

trajectory

learning

representation

3D

generative
リンク
NCVX：機械学習における非凸最適化のためのユーザーフレンドリーでスケーラブルなパッケージ
arxiv_reader 2021/11/30
非凸（NCVX）問題、特に非平滑（NSMT）および制約（CSTR）の問題を最適化することは、機械学習と深層学習の重要な部分です。しかし、最適化の専門知識がなければ、この種の問題を確実に解決することは困

python

arXiv

arXiv reaDer

learning
リンク
時空間的一貫性のある深いネットワークに基づくネッタイシマカの繁殖地の自動検出
arxiv_reader 2021/11/30
毎年、ネッタイシマカは何百万人もの人々にデング熱、ジカ熱、チクングニア熱、都市部の黄熱病などの病気に感染します。これらの病気と闘うための主な形態は、潜在的な蚊の繁殖地を探して排除することにより、蚊の繁

detection

arXiv

arXiv reaDer

convolutional

UAV

spatio-temporal

video

dataset
リンク
ラベルアシスタント：画像セグメンテーションタスクでの支援データ注釈のワークフロー
arxiv_reader 2021/11/30
コンピュータビジョンの分野における最近の研究は、画像処理の問題に取り組むための深層学習アーキテクチャに重点を置いています。従来のコンピュータビジョンアプローチは、複雑な関係のために開発または限界に達す

arXiv

human

arXiv reaDer

segmentation

learning

computer vision

dataset
リンク
スパース条件付き確率場の安全なスクリーニング
arxiv_reader 2021/11/30
スパース条件付き確率場（CRF）は、構造化された予測のためのコンピュータービジョンと自然言語処理における強力な手法です。ただし、大規模なアプリケーションでスパースCRFを解決することは依然として困難で

sparse

arXiv

arXiv reaDer

synthesis

estimation

computer vision

dataset
リンク
DoubleField：忠実度の高い人間の再構築とレンダリングのための神経表面と放射輝度フィールドのブリッジ
arxiv_reader 2021/11/30
表面フィールドと放射輝度フィールドの両方のメリットを組み合わせて、忠実度の高い人間の再構築とレンダリングを実現する新しいフレームワークであるDoubleFieldを紹介します。 DoubleField

sparse

arXiv

human

arXiv reaDer

transformer

reconstruction

embedding

dataset
リンク
一般化可能な個人の再識別のための較正された特徴分解
arxiv_reader 2021/11/30
一般化可能な人物の再識別のための既存の解きほぐされたベースの方法は、人物の表現をドメイン関連の干渉とアイデンティティ関連の機能に直接解きほぐすことを目的としています。ただし、教師なしで分解するのが難し

reinforcement

arXiv

batch normalization

arXiv reaDer

domain

disentangling

re-id

benchmark

unsupervised

representation
リンク
単一画像超解像度のための実践的な対照学習フレームワーク
arxiv_reader 2021/11/30
対照学習は、さまざまな高レベルのタスクで目覚ましい成功を収めていますが、低レベルのタスクに対して提案されている方法はほとんどありません。取得したグローバルな視覚的表現は、豊富なテクスチャとコンテキスト

benchmark

arXiv

arXiv reaDer

pre-training

super-resolution

contrastive learning

embedding

representation
リンク
ハイパースペクトル画像の超解像のための3D-CNNとトランスフォーマーの事前学習
arxiv_reader 2021/11/30
ハイパースペクトル画像超解像（HSISR）の不適切な問題を解決するために、通常の方法は、目的関数を制約するための正則化項としてハイパースペクトル画像（HSI）の事前情報を使用することです。手作りの事前

arXiv

gradient

arXiv reaDer

transformer

regularization

CNN

super-resolution

learning

dataset
リンク
ハイパースペクトル画像分類のためのスパース部分空間クラスタリングに適したディープディクショナリ学習
arxiv_reader 2021/11/30
部分空間クラスタリング手法は、ハイパースペクトル画像セグメンテーションで有望であることが示されています。部分空間クラスタリングの基本的な仮定は、異なるクラスター/セグメントに属するサンプルが分離可能な

sparse

arXiv

clustering

arXiv reaDer

classification

segmentation

learning

representation
リンク
一般化された数ショットのセマンティックセグメンテーション
arxiv_reader 2021/11/30
セマンティックセグメンテーションモデルのトレーニングには、細かく注釈が付けられた大量のデータが必要であるため、この条件を満たさない新しいクラスにすばやく適応することは困難です。少数ショットセグメンテー

arXiv

arXiv reaDer

benchmark

few-shot

learning

semantic segmentation
リンク
物体検出とノード認識を使用した手描きの電気回路認識
arxiv_reader 2021/11/30
ニューラルネットワークの最近の開発により、手描きの回路からシミュレーション対応の電子回路を自動生成するためのアルゴリズムが復活しました。ただし、文献のアプローチのほとんどは、さまざまなタイプの電気部品

detection

arXiv

arXiv reaDer

real time

classification

simulation
リンク
深いキャラクターアニメーションのための階層を意識したポーズ表現
A Hierarchy-Aware Pose Representation for Deep Character Animation データ駆動型のキャラクターアニメーション技術は、適切に確立されたモーションモデルの存在に依存しており、その豊富なコンテキストを記述できます。ただし、一般的に使用されるモーション表現は、モーションの完全なアーティキュレーションを正確にエンコードできないか、アーティファクトを提示することがよくあります。この作業では、モーションモデリング用の堅牢なポーズ表現を見つけるという基本的な問題に対処します。これは、ポーズをより適切に制約し、骨格特性と相関するニュアンスを忠実にキャプチャできる、深いキャラクターアニメーションに適しています。私たちの表現は、双対四元数に基づいています。これは、明確に定義された操作による数学的抽象化であり、回転方向と位置方向を同時にエンコードし
arxiv_reader 2021/11/30
データ駆動型のキャラクターアニメーション技術は、適切に確立されたモーションモデルの存在に依存しており、その豊富なコンテキストを記述できます。ただし、一般的に使用されるモーション表現は、モーションの完全

arXiv

arXiv reaDer

pose

learning

representation

dataset
リンク
AdaDM：画像の超解像の正規化を有効にする
バッチ正規化（BN）のような正規化は、深層学習で中間層の分布を正規化するマイルストーン手法であり、トレーニングの高速化と一般化の精度の向上を可能にします。ただし、忠実度画像の超解像（SR）では、正規化レイヤーは機能を正規化することで範囲の柔軟性をなくし、最新のSRネットワークから削除されると考えられています。この論文では、この現象を定量的および定性的に研究します。残余特徴の標準偏差は、正規化レイヤーの後で大幅に縮小し、SRネットワークのパフォーマンスが低下することがわかりました。標準偏差は、ピクセル値の変動量を反映しています。変動が小さくなると、ネットワークが解決するためのエッジの識別力が低下します。この問題に対処するために、変調係数が適応的に予測されてピクセル偏差を増幅する適応偏差変調器（AdaDM）を提案します。より良い一般化パフォーマンスのために、提案されたAdaDMを使用して最先端
arxiv_reader 2021/11/30
バッチ正規化（BN）のような正規化は、深層学習で中間層の分布を正規化するマイルストーン手法であり、トレーニングの高速化と一般化の精度の向上を可能にします。ただし、忠実度画像の超解像（SR）では、正規化

arXiv

batch normalization

arXiv reaDer

super-resolution

residual

benchmark

learning

dataset
リンク
頭と体：メディアでの個人検索のための統合検出器とグラフネットワーク
arxiv_reader 2021/11/30
メディアでの人物検索は、ビデオクリッピングや文字収集などのインターネットアプリケーションでますます可能性が高まっています。このタスクは一般的ですが、監視シーンに焦点を当てた以前の人物検索作業では見落と

detection

arXiv

human

arXiv reaDer

anchor free

person

re-id

embedding

video

dataset
リンク
大規模な時空間的人物の再識別：アルゴリズムとベンチマーク
arxiv_reader 2021/11/30
空間的および時間的スパンが大きいシナリオでの個人の再識別（re-ID）は、十分に検討されていません。これは、既存のベンチマークデータセットが主に限られた空間的および時間的範囲で収集されたためです。たと

arXiv

arXiv reaDer

pre-training

person

spatio-temporal

re-id

benchmark

video

dataset
リンク
画像デコンボリューションのための識別的収縮ディープネットワークの学習
arxiv_reader 2021/11/30
非ブラインドデコンボリューションは、不適切な問題です。ほとんどの既存の方法は、通常、この問題を最大事後フレームワークに定式化し、潜在的な鮮明な画像の正則化項とデータ項の種類を設計することによってそれに

arXiv

gradient

arXiv reaDer

regularization

CNN

learning
リンク
深いモデルの公理的、階層的、および象徴的な説明に向けて
arxiv_reader 2021/11/30
この論文では、推論のために十分に訓練された深いモデルによってエンコードされた内部ロジックを客観的に説明するために、階層的でシンボリックなAnd-Orグラフ（AOG）を提案します。まず、ゲーム理論で説明

arXiv

representation

arXiv reaDer
リンク
MOCCA：異常検出のための多層1クラス分類
arxiv_reader 2021/11/30
異常はすべての科学分野に遍在しており、データ分布に関する知識が不完全であるか、突然作用して観測を歪める未知のプロセスが原因で、予期しないイベントを表す可能性があります。このようなイベントはまれであるた

arXiv

arXiv reaDer

anomaly detection

classification

reconstruction

learning

representation

dataset
リンク
形状制御自己トレーニングによる半教師あり解剖学的ランドマーク検出
arxiv_reader 2021/11/30
十分に注釈が付けられた医用画像はコストがかかり、場合によっては取得が不可能であり、ランドマーク検出の精度がある程度低下します。半教師あり学習は、ラベルのないデータを利用して解剖学的ランドマークの人口構

attention

detection

arXiv

arXiv reaDer

landmark

semi-supervised

learning

dataset
リンク
学習したビデオ圧縮のための時間的コンテキストマイニング
arxiv_reader 2021/11/30
私たちは、より良い学習と時間的コンテキストの利用に特に焦点を当てて、エンドツーエンドで学習したビデオ圧縮に取り組んでいます。時間的コンテキストマイニングでは、以前に再構築されたフレームだけでなく、伝播

arXiv

arXiv reaDer

learning

video

compression
リンク
注意をそらす：顔の表情認識のためのマルチヘッドクロスアテンションネットワーク
arxiv_reader 2021/11/30
Distract your Attention Network（DAN）と呼ばれる新しい表情認識ネットワークを紹介します。私たちの方法は、2つの重要な観察に基づいています。まず、複数のクラスが本質的に

attention

arXiv

clustering

arXiv reaDer

face

learning

dataset
リンク
あなたの他のドアをチェックしてください！周波数領域でのバックドア攻撃の作成
arxiv_reader 2021/11/30
ディープニューラルネットワーク（DNN）はユビキタスであり、画像分類や顔認識から医療画像分析やリアルタイムの物体検出に至るまで、さまざまなアプリケーションにまたがっています。 DNNモデルがより洗練さ

detection

arXiv

human

arXiv reaDer

real time

classification

domain

DNN

face

dataset
リンク
転送ベースの敵対的攻撃のための適応画像変換
arxiv_reader 2021/11/30
敵対的攻撃は、深層学習モデルの堅牢性を研究するための良い方法を提供します。転送ベースのブラックボックス攻撃の方法の1つのカテゴリは、敵対的な例の転送可能性を改善するためにいくつかの画像変換操作を利用し

arXiv

arXiv reaDer

adversarial

learning
リンク
敵対的攻撃のための適応摂動
arxiv_reader 2021/11/30
近年、深層学習モデルのセキュリティは、敵対的な例に対して脆弱なニューラルネットワークの急速な発展によりますます注目を集めています。ほとんどすべての既存の勾配ベースの攻撃方法は、L_∞ノルムの摂動バジェ

arXiv

gradient

arXiv reaDer

adversarial

learning

dataset
リンク
ドメイン一般化のための原理的な解きほぐしに向けて
arxiv_reader 2021/11/30
機械学習モデルの基本的な課題は、一部には疑似相関が原因で、分布外（OOD）データに一般化することです。この課題に取り組むために、まずOOD一般化問題を制約付き最適化として形式化します。これはDisen

arXiv

arXiv reaDer

saliency

OOD

domain

augmentation

disentangling

adversarial

benchmark

representation
リンク
3D点群での教師なし表現学習のための点識別学習
arxiv_reader 2021/11/30
教師なし学習は、最近、自然言語理解と2D画像ドメインで大きな成功を収めています。教師なし学習の力を3D点群分析に活用する方法は未解決のままです。ほとんどの既存の方法は、3Dデータの特異性を十分に活用す

arXiv

arXiv reaDer

classification

domain

point cloud

segmentation

unsupervised

representation learning

3D
リンク
深部深度予測と視覚的SLAMのオンライン相互適応
arxiv_reader 2021/11/30
CNNによる正確な深度予測の機能は、強化されたカメラ追跡や高密度マッピングなどの実用的なビジュアルSLAMアプリケーションで広く使用するための主要な課題です。このホワイトペーパーは、次の質問に答えるこ

arXiv

tracking

arXiv reaDer

pre-training

regularization

depth prediction

CNN

SLAM

benchmark

dataset
リンク
DSC：大規模な場所認識のためのディープスキャンコンテキスト記述子
arxiv_reader 2021/11/30
LiDARベースの場所認識は、ループクロージャの検出とグローバルな再ローカリゼーションの両方において不可欠で困難なタスクです。点群のセグメント間の関係をキャプチャする、一般的で識別力のあるグローバル記

detection

arXiv

arXiv reaDer

point cloud

embedding

representation

dataset
リンク
環境マッピングとトポロジーマッチングのための平均外向きフラックススケルトン
arxiv_reader 2021/11/30
境界の撤回をロバストに計算するオンライン手順を介して、最初は未知の2次元環境のロードマップ（トポロジ表現とも呼ばれます）を直接抽出する方法を検討します。この記事では、最初に[1]で最初に提示された、ト

detection

arXiv

arXiv reaDer

localization

robot

representation
リンク
FQ-ViT：完全に量子化されたビジョントランスフォーマーのトレーニング後の量子化
arxiv_reader 2021/11/30
ネットワーク量子化は、モデル推論の複雑さを大幅に軽減し、実際の展開で広く使用されています。ただし、ほとんどの既存の量子化手法は、主に畳み込みニューラルネットワーク（CNN）で開発およびテストされており

attention

arXiv

arXiv reaDer

transformer

R-CNN

CNN

benchmark

quantization
リンク
交通カメラビデオを使用した道路のさまざまな部分での歩行者活動の認識と共同分析
arxiv_reader 2021/11/30
歩行者の安全は、輸送システムの管理者とオペレーターにとって優先事項であり、テキサス州オースティン市で採用されているVisionZero戦略の主な焦点です。歩行者の安全を効果的に改善するための治療法や技

detection

arXiv

human

arXiv reaDer

activity

pedestrian

identification

video
リンク
ビデオフレーム補間トランスフォーマー
arxiv_reader 2021/11/30
ビデオ補間の既存の方法は、深い畳み込みニューラルネットワークに大きく依存しているため、コンテンツにとらわれないカーネルの重みや制限された受容野など、固有の制限に悩まされています。これらの問題に対処する

attention

arXiv

arXiv reaDer

transformer

synthesis

domain

convolutional

benchmark

video

dataset
リンク
直接マルチビューマルチパーソン3Dポーズ推定
arxiv_reader 2021/11/30
マルチビュー画像から複数人の3Dポーズを推定するためのマルチビューポーズトランスフォーマー（MvP）を紹介します。以前の方法のように、コストのかかる体積表現から3D関節の位置を推定したり、複数の検出さ

attention

pose estimation

arXiv

benchmark

arXiv reaDer

SMPL

transformer

dataset

embedding

3D
リンク
ディープラーニングを使用したビデオコンテンツの分類
arxiv_reader 2021/11/30
ビデオコンテンツの分類は、コンピュータビジョンの重要な研究コンテンツであり、画像やビデオの検索、コンピュータビジョンなど、多くの分野で広く使用されています。このホワイトペーパーでは、畳み込みニューラル

arXiv

arXiv reaDer

classification

video

CNN

learning

computer vision

RNN
リンク
審美的な画像拡張によるドキュメントレイアウト分析
Document Layout Analysis with Aesthetic-Guided Image Augmentation ドキュメントレイアウト分析（DLA）は、情報の抽出とドキュメントの理解において重要な役割を果たします。現在、ドキュメントレイアウト分析は画期的な成果に達していますが、マンハッタン以外のドキュメントレイアウト分析は依然として課題です。本論文では、この課題に取り組むための画像層モデリング手法を提案する。提案された画像レイヤーモデリング方法を測定するために、FPDという名前の手動でラベル付けされた非マンハッタンレイアウトのきめ細かいセグメンテーションデータセットを提案します。私たちが知る限り、FPDは、手動でラベル付けされた最初の非マンハッタンレイアウトのきめ細かいセグメンテーションデータセットです。ドキュメントのきめ細かい特徴を効果的に抽出するために、LE ^ 3
arxiv_reader 2021/11/30
ドキュメントレイアウト分析（DLA）は、情報の抽出とドキュメントの理解において重要な役割を果たします。現在、ドキュメントレイアウト分析は画期的な成果に達していますが、マンハッタン以外のドキュメントレイ

arXiv

arXiv reaDer

augmentation

segmentation

embedding

dataset
リンク
CDGAN：画像から画像への変換のための循環的識別生成的敵対的ネットワーク
arxiv_reader 2021/11/30
生成的敵対的ネットワーク（GAN）は、画像から画像への変換の問題に取り組むための新しい方向性を促進しました。異なるGANは、目的関数の損失が異なるジェネレーターネットワークとディスクリミネーターネット

dataset

GAN

arXiv

arXiv reaDer
リンク
diffGrad：畳み込みニューラルネットワークの最適化手法
arxiv_reader 2021/11/30
確率的勾配降下（SGD）は、ディープニューラルネットワークの成功の背後にあるコアテクニックの1つです。勾配は、関数が最も急な変化率を持つ方向に関する情報を提供します。基本的なSGDの主な問題は、勾配

arXiv

gradient

arXiv reaDer

synthesis

CNN

SGD

residual

learning

dataset
リンク
LAFITE：テキストから画像への生成のための言語フリートレーニングに向けて
arxiv_reader 2021/11/30
テキストから画像への生成モデルをトレーニングする際の主要な課題の1つは、高品質の画像とテキストのペアを多数必要とすることです。画像サンプルには簡単にアクセスできることがよくありますが、関連するテキスト

arXiv

human

arXiv reaDer

pre-training

zero-shot

dataset

captioning
リンク
シャドウ除去を使用したファインコンテキストシャドウ検出
arxiv_reader 2021/11/30
現在の影の検出方法は、小さい、不明瞭な、またはぼやけたエッジを持つ影の領域を検出する場合、パフォーマンスが低下します。この作業では、2つの面でこの問題に対処しようとします。最初に、ファインコンテキスト

detection

arXiv

arXiv reaDer

learning

dataset
リンク
顔のランドマーク検出およびそれ以降のベンチマークシャドウ除去
arxiv_reader 2021/11/30
顔のランドマークの検出は、多くの重要なアプリケーションを伴う非常に基本的で重要なビジョンタスクです。実際には、顔のランドマークの検出は、多くの自然な劣化の影響を受ける可能性があります。最も一般的で重要

detection

arXiv

arXiv reaDer

adversarial

landmark

face

benchmark
リンク
自動運転のための物体検出に対するMulti-LiDAR配置の影響の調査
arxiv_reader 2021/11/30
過去数年間、自動運転車でのLiDARの知覚性能を改善することへの関心が高まっています。既存の作業のほとんどは、新しい深層学習アルゴリズムまたはモデルアーキテクチャの開発に焦点を当てていますが、物理設計

detection

LiDAR

arXiv

arXiv reaDer

vehicle

point cloud

autonomous driving

metric

learning

3D
リンク
多層カーネルマシンにおける教師なしMKL
arxiv_reader 2021/11/30
多層カーネルマシン（MKM）を使用したカーネルベースのディープラーニングは、Y.ChoとLKSaulによってsaulで提案されました。 MKMでは、カーネルPCAベースの特徴抽出のために、レイヤーで1

arXiv

arXiv reaDer

learning

unsupervised

representation

dataset
リンク
eGHWT：拡張された一般化されたHaar-Walsh変換
arxiv_reader 2021/11/30
計算調和解析ツールを通常の格子の古典的な設定からグラフやネットワークのより一般的な設定に拡張することは非常に重要であり、最近多くの研究が行われています。 Irion and Saito（2014）によ

approximation

arXiv

arXiv reaDer
リンク
ノイズの多い点群からの自己監視型3Dヒューマンメッシュ回復
arxiv_reader 2021/11/30
この論文は、ノイズの多い点群データから人間の形とポーズを再構築するための新しい自己監視アプローチを提示します。最近の学習ベースのアプローチは、グラウンドトゥルースアノテーションを使用した大量のデータセ

arXiv

human

arXiv reaDer

dataset

synthesis

self-supervised

point cloud

pose

3D

mesh
リンク
事前トレーニングと一貫性を備えた驚くほど単純な半教師ありドメインの適応
arxiv_reader 2021/11/30
最新の教師なしドメイン適応（UDA）アプローチは、ドメインアラインメントに根ざしています。つまり、ソースとターゲットの機能をアラインメントして、ソースラベルを使用してターゲットドメイン分類子を学習する

arXiv

arXiv reaDer

regularization

self-supervised

domain adaptation

adversarial

semi-supervised

benchmark

unsupervised

dataset
リンク
ワイルドデータチャレンジにおける5番目の認識家族：顔からの親族関係の予測
arxiv_reader 2021/11/30
自動顔およびジェスチャ認識（FG）に関する第16回IEEE国際会議に関連してデータチャレンジとして開催されたRecognizing Families In the Wild（RFIW）は、大規模なマル

arXiv

arXiv reaDer

face

gesture
リンク
優れたハンドシェイクの暗黙の値：ハンドヘルドマルチフレームニューラルデプスリファインメント
arxiv_reader 2021/11/30
最新のスマートフォンは、高品質の3Dポーズ情報および低解像度のLiDAR駆動の深度推定と同期して、60〜HzでマルチメガピクセルのRGB画像を継続的にストリーミングできます。スナップショット写真の間、

LiDAR

arXiv

arXiv reaDer

pose

3D
リンク
GraphVICRegHSIC：hyrbidloss関数を使用したグラフの自己監視表現学習の改善に向けて
arxiv_reader 2021/11/30
特に畳み込みニューラルネットワーク（CNN）については、過去数年間に自己管理型の学習および事前トレーニング戦略が開発されてきました。このような方法の最近の適用は、グラフニューラルネットワーク（GNN）

loss function

arXiv

arXiv reaDer

pre-training

self-supervised

CNN

GNN

representation learning

dataset
リンク
DeepTMH：TelementalHealthの感情的および認知的関与を活用するマルチモーダル半教師ありフレームワーク
arxiv_reader 2021/11/30
既存のテレメンタルヘルスサービスを支援するために、心理学の文献で頻繁に使用される感情的および認知的特徴に対応する潜在ベクトルを抽出することによってテレメンタルヘルスセッションビデオをモデル化する新しい

video

learning

arXiv reaDer

detection

domain

dataset

GAN

arXiv

semi-supervised
リンク
単一の拡張トレーニングサンプルからの画像形状操作
Image Shape Manipulation from a Single Augmented Training Sample この論文では、単一の画像に基づく条件付き画像操作の生成モデルであるDeepSIMを紹介します。単一画像のトレーニングを可能にするためには、大規模な拡張が重要であることがわかり、効果的な拡張として薄板スプライン（TPS）の使用が組み込まれています。私たちのネットワークは、画像の原始的な表現と画像自体の間のマッピングを学習します。プリミティブ表現の選択は、操作の容易さと表現力に影響を与え、自動（エッジなど）、手動（セグメンテーションなど）、またはセグメンテーションの上のエッジなどのハイブリッドにすることができます。操作時に、ジェネレーターは、プリミティブ入力表現を変更し、ネットワークを介してマッピングすることにより、複雑な画像変更を行うことができます。私たちの方法は
arxiv_reader 2021/11/30
この論文では、単一の画像に基づく条件付き画像操作の生成モデルであるDeepSIMを紹介します。単一画像のトレーニングを可能にするためには、大規模な拡張が重要であることがわかり、効果的な拡張として薄板ス

augmentation

generative

arXiv reaDer

representation

segmentation

arXiv
リンク
粗いものから細かいものへのインクリメンタルな少数のショット学習
事前にトレーニングされたクラスの大規模なデータセットで事前トレーニングされたモデルを微調整するのとは異なり、クラスインクリメンタル学習（CIL）は、事前にトレーニングされたクラスを忘れることなく、時間の経過とともに新しいクラスを認識することを目的としています。ただし、特定のモデルは、よりきめ細かいクラスのテスト画像によってチャレンジされます。たとえば、バセンジーはせいぜい犬として認識されます。このような画像は新しいトレーニングセット（つまりサポートセット）を形成するため、インクリメンタルモデルは次回バセンジーとしてバセンジー（つまりクエリ）を認識することが期待されます。この論文では、C2FSCILという名前のCIL問題として、粗いものから細かいものへの数ショット（C2FS）認識のハイブリッド自然問題を定式化し、シンプルで効果的で理論的に健全な戦略Knoweを提案します。粗いラベルから対照的
arxiv_reader 2021/11/30
事前にトレーニングされたクラスの大規模なデータセットで事前トレーニングされたモデルを微調整するのとは異なり、クラスインクリメンタル学習（CIL）は、事前にトレーニングされたクラスを忘れることなく、時間

learning

arXiv reaDer

few-shot

pre-training

embedding

metric

dataset

arXiv
リンク
ManiFest：数ショットの画像翻訳のためのマニホールド変形
arxiv_reader 2021/11/30
ほとんどの画像から画像への変換方法では、多数のトレーニング画像が必要であるため、それらの適用性が制限されます。代わりに、ManiFestを提案します。これは、少数の画像のみからターゲットドメインのコン

metric

few-shot

adversarial

manifold

arXiv

domain

arXiv reaDer

representation
リンク
ソースフリードメイン適応のための固有の近隣構造の活用
arxiv_reader 2021/11/30
ドメイン適応（DA）は、ソースドメインとターゲットドメイン間のドメインシフトを軽減することを目的としています。ほとんどのDAメソッドは、ソースデータへのアクセスを必要としますが、多くの場合、それは不可

dataset

domain adaptation

regularization

3D

point cloud

arXiv

affinity

arXiv reaDer
リンク
空間ノイズカリキュラム学習による対照的なオブジェクトレベルの事前トレーニング
arxiv_reader 2021/11/30
対照学習ベースの事前トレーニングの目標は、ラベルのない大量のデータを活用して、ダウンストリームに容易に適応できるモデルを作成することです。現在のアプローチは、画像識別タスクの解決を中心に展開しています

pre-training

dataset

contrastive learning

arXiv

augmentation

arXiv reaDer

representation
リンク
医療画像セグメンテーションのためのアノテーター選好と確率的注釈エラーのモデリング
arxiv_reader 2021/11/30
医用画像の手動注釈は非常に主観的であり、必然的で巨大な注釈バイアスにつながります。ディープラーニングモデルは、さまざまなタスクで人間のパフォーマンスを超える可能性がありますが、これらのバイアスを模倣ま

learning

benchmark

bias

human

arXiv

arXiv reaDer

segmentation

disentangling
リンク
人物画像生成のための自己監視相関マイニングネットワーク
arxiv_reader 2021/11/30
人物画像の生成は、ソース画像に対して非剛体変形を実行することを目的としています。これには、通常、トレーニングのために位置合わせされていないデータペアが必要です。最近、自己監視された方法は、自己再構築の

face

dataset

self-supervised

person

pose

unsupervised

arXiv

arXiv reaDer

disentangling

representation
リンク
NeSF：3Dシーンの一般化可能なセマンティックセグメンテーションのためのニューラルセマンティックフィールド
arxiv_reader 2021/11/30
ポーズをとったRGB画像のみから3Dセマンティックフィールドを生成する方法であるNeSFを紹介します。古典的な3D表現の代わりに、私たちの方法は、3D構造が点ごとの関数によってキャプチャされる陰関数的

3D

pose

semantic segmentation

arXiv

arXiv reaDer

synthesis

representation
リンク
シーン表現トランスフォーマー：セット潜在的なシーン表現によるジオメトリフリーの新しいビュー合成
arxiv_reader 2021/11/30
コンピュータビジョンの古典的な問題は、インタラクティブな速度で新しいビューをレンダリングするために使用できるいくつかの画像から3Dシーン表現を推測することです。以前の作業は、テクスチャメッシュなどの事

dataset

computer vision

3D

reconstruction

pose

reasoning

transformer

semantic segmentation

arXiv

arXiv reaDer
リンク
ガウスカーネル平滑化
arxiv_reader 2021/11/30
画像の取得とセグメンテーションにより、ノイズが発生する可能性があります。画像の登録やパラメータ化などの画像処理をさらに行うと、ノイズが増える可能性があります。したがって、ノイズ測定を減らして信号をブ

segmentation

arXiv reaDer

arXiv
リンク
少ないほど多い：ランドマークからの接地されたナビゲーション指示の生成
arxiv_reader 2021/11/30
屋内ルートで撮影した360度画像からのナビゲーション指示の自動生成を研究しています。既存のジェネレーターは視覚的な接地が不十分であるため、言語の事前確率に依存してオブジェクトを幻覚化します。当社のMA

detection

dataset

human

pose

landmark

arXiv

arXiv reaDer
リンク
階層グラフ-人間の動きの生成モデリングのための畳み込み変分オートエンコーディング
arxiv_reader 2021/11/30
人間の動きのモデルは、通常、軌道予測またはアクション分類のいずれかに焦点を合わせていますが、両方に焦点を当てることはめったにありません。人間の動きの顕著な不均一性と複雑な構成性により、各タスクは、実際

CNN

trajectory

human

generative

OOD

arXiv

classification

arXiv reaDer

learning

action
リンク
L-Verse：画像とテキスト間の双方向生成
arxiv_reader 2021/11/30
自然言語の長距離の相互作用を学ぶことをはるかに超えて、トランスフォーマーは、そのパワーと拡張性を備えた多くのビジョンタスクの事実上の標準になりつつあります。特に画像とテキスト間のクロスモーダルタスクで

detection

representation learning

reconstruction

transformer

arXiv

domain

quantization

arXiv reaDer
リンク
ビジュアルコンピューティングおよびそれ以降のニューラルフィールド
arxiv_reader 2021/11/30
機械学習の最近の進歩により、空間と時間にわたってシーンまたはオブジェクトの物理的特性をパラメーター化する座標ベースのニューラルネットワークのクラスを使用してビジュアルコンピューティングの問題を解決する

learning

pose estimation

3D

reconstruction

human

arXiv

arXiv reaDer

synthesis

representation
リンク
RadFusion：CTおよびEHRからのマルチモーダル肺塞栓症検出のベンチマークパフォーマンスと公平性
arxiv_reader 2021/11/30
病歴を文脈化し、画像の解釈を通知するために放射線技師が電子健康記録（EHR）データを日常的に使用しているにもかかわらず、医療画像の深層学習アーキテクチャの大部分は単峰性です。つまり、ピクセルレベルの情

learning

detection

dataset

bias

classification

arXiv

CT

arXiv reaDer

benchmark

interpretation
リンク
MetaFormerは実際にビジョンに必要なものです
arxiv_reader 2021/11/30
トランスフォーマーは、コンピュータービジョンタスクで大きな可能性を示しています。一般的な信念は、彼らの注意ベースのトークンミキサーモジュールが彼らの能力に最も貢献しているということです。ただし、最近の

pooling

computer vision

transformer

arXiv

arXiv reaDer

attention
リンク
PointMixer：点群を理解するためのMLP-Mixer
arxiv_reader 2021/11/30
MLP-Mixerは、CNNとトランスフォーマーの領域に対する新しいチャレンジャーとして新たに登場しました。トランスフォーマーと比較して単純であるにもかかわらず、チャネルミキシングMLPおよびトークン

CNN

3D

reconstruction

transformer

point cloud

semantic segmentation

arXiv

classification

arXiv reaDer

sparse
リンク
- 2021年12月1日
- 2021年11月30日
- 2021年11月29日

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx