arxiv_readerのブックマーク / 2022年2月15日 - はてなブックマーク

arxiv_reader id:arxiv_reader

2022年2月15日のブックマーク (144件)

小さな物体検出のためのスライス支援ハイパー推論と微調整
arxiv_reader 2022/02/15
小さな物体やシーン内の遠くにある物体の検出は、監視アプリケーションの主要な課題です。このようなオブジェクトは、画像内の少数のピクセルで表され、十分な詳細が不足しているため、従来の検出器を使用して検出す

detection

arXiv reaDer

dataset

arXiv
リンク
勾配反転攻撃は連合学習を危険にさらしますか?
arxiv_reader 2022/02/15
連合学習（FL）を使用すると、生データを共有しなくてもAIモデルの共同トレーニングが可能になります。この機能は、患者とデータのプライバシーが最大の関心事であるヘルスケアアプリケーションにとって特に興味

arXiv reaDer

learning

arXiv

metric

gradient

batch normalization
リンク
不変の識別特徴を学習するための一般的な自己監視フレームワーク
arxiv_reader 2022/02/15
自己監視学習（SSL）は、人間の注釈を必要とせずに不変表現を生成するための一般的な方法になりました。それにもかかわらず、入力データに対して以前のオンライン変換関数を利用することにより、望ましい不変表現

representation learning

arXiv reaDer

contrastive learning

dataset

self-supervised

unsupervised

adversarial

arXiv

augmentation

metric
リンク
データ効率の高い行動認識のための表象的不変性の学習
arxiv_reader 2022/02/15
データ拡張は、ラベル付けされたデータが不足している場合に画像分類を改善するためのユビキタスな手法です。モデルの予測をさまざまなデータ拡張に対して不変になるように制約すると、モデルに目的の表現上の不変性

action recognition

arXiv reaDer

classification

semi-supervised

learning

dataset

arXiv

video

augmentation
リンク
COLA：スパースLiDARデータセットの3Dセマンティックセグメンテーションのための粗いLAbel事前トレーニング
arxiv_reader 2022/02/15
転送学習は、2Dコンピュータービジョンで実証済みの手法であり、利用可能な大量のデータを活用し、取得または注釈のコストのためにサイズが制限されたデータセットで高いパフォーマンスを実現します。 3Dでは、

semantic segmentation

sparse

arXiv reaDer

LiDAR

real time

transfer learning

unsupervised

3D

arXiv

computer vision
リンク
画像から画像への変換にローカルドメインを活用する
arxiv_reader 2022/02/15
Image-to-Image（i2i）ネットワークは、グローバルシーン構造に影響を与えないため、ローカルの変更をキャプチャするのに苦労します。たとえば、高速道路のシーンからオフロードに変換する場合、i

arXiv reaDer

arXiv

human

transfer learning

GAN

domain
リンク
脳出血セグメンテーションのためのグラフィカルなアプローチ
arxiv_reader 2022/02/15
脳の出血は、15歳から24歳までの人々の主な死因であり、それ以上の年齢の人々の3番目に多い死因です。コンピュータ断層撮影（CT）は、脳卒中や外傷性脳損傷などの神経学的緊急事態を診断するために使用される

CT

arXiv reaDer

arXiv

learning

GNN

CNN

detection

segmentation
リンク
ビジュアルアコースティックマッチング
arxiv_reader 2022/02/15
オーディオクリップをターゲット環境で録音されたようなサウンドに変換するビジュアルアコースティックマッチングタスクを紹介します。ターゲット環境の画像とソースオーディオの波形が与えられた場合、目標は、目に

attention

arXiv reaDer

arXiv

human

self-supervised

transformer

video
リンク
VQAのビジョンボトルネックの実験的研究
arxiv_reader 2022/02/15
視覚と言語を組み合わせた多くのタスクと同様に、両方のモダリティが視覚的質問応答（VQA）で重要な役割を果たします。タスクを適切に解決するには、特定のモデルが提案された画像の内容と質問の性質の両方を理解

attention

arXiv reaDer

arXiv

VQA

embedding

detection

reasoning
リンク
オーバービュー2およびストリートビューベースの点群のクロスビュー登録のためのグラフマッチングアプローチ
arxiv_reader 2022/02/15
この論文では、概観データからのオブジェクト境界（建物など）がストリートビュー写真測量画像から生成されたファサード3Dポイントのフットプリントと一致する必要があるという仮定に基づいて、完全に自動化された

arXiv reaDer

satellite

monocular

3D

point cloud

arXiv

video
リンク
https://arxiv-check-250201.firebaseapp.com/each/2202.06851v2
arxiv_reader 2022/02/15
人間の活動の理解は、人工知能に広く関心があり、ヘルスケアや行動分析などのさまざまなアプリケーションにまたがっています。ディープラーニングは進歩していますが、依然として困難です。オブジェクト認識のような

benchmark

arXiv reaDer

learning

human

arXiv

activity
リンク
CATs ++：畳み込みとトランスフォーマーによるコスト集約の強化
arxiv_reader 2022/02/15
コストの集計は、ノイズの多いマッチングスコアを明確にすることを目的とした、画像マッチングタスクで非常に重要なプロセスです。既存の方法は、一般に、手作りまたはCNNベースの方法でこれに取り組みます。これ

benchmark

arXiv reaDer

transformer

arXiv

convolutional

face

CNN
リンク
マルチスケール注意ガイド付きポーズ転送
arxiv_reader 2022/02/15
ポーズ転送とは、別のポーズをとっているその人物の別の画像から、これまでに見られなかった新しいポーズをとっている人物の確率的な画像生成を指します。潜在的な学術的および商業的用途のために、この問題は近年広

attention

arXiv reaDer

pose

dataset

person

arXiv
リンク
失速した脳毛細血管検出のための3D畳み込みニューラルネットワーク
arxiv_reader 2022/02/15
十分な血液供給は、正常な脳機能にとって重要です。脳毛細血管の血流停止などの脳血管系機能障害は、アルツハイマー病の認知機能低下と病因に関連しています。イメージング技術の最近の進歩により、失速した血管を視

arXiv reaDer

arXiv

learning

pre-training

CNN

3D

detection

localization
リンク
確率的埋め込みの再検討
arxiv_reader 2022/02/15
近年、深い計量学習とその確率的拡張により、顔の検証タスクで最先端の結果が得られました。ただし、顔の検証が改善されたにもかかわらず、確率的手法はコミュニティでほとんど注目されていませんでした。それらが画

attention

arXiv reaDer

face

embedding

arXiv

metric learning
リンク
Wukong：1億の大規模な中国のクロスモーダル事前トレーニングデータセットと基盤フレームワーク
arxiv_reader 2022/02/15
このホワイトペーパーでは、ビジョン言語事前トレーニング（VLP）の研究とコミュニティ開発を促進するために、さまざまなマルチモーダル事前トレーニング方法のベンチマークを行うための大規模な中国語クロスモー

benchmark

arXiv reaDer

classification

learning

pre-training

domain

dataset

arXiv

zero-shot
リンク
ビジョントランスフォーマーはどのように機能しますか？
arxiv_reader 2022/02/15
コンピュータビジョンのためのマルチヘッドセルフアテンション（MSA）の成功は、今や議論の余地がありません。ただし、MSAがどのように機能するかについてはほとんどわかっていません。 MSAの性質をよりよ

arXiv reaDer

transformer

arXiv

dataset

CNN

computer vision
リンク
システムレベルのローカル自動ゲイン制御を備えたスパイク蝸牛
arxiv_reader 2022/02/15
ローカル自動利得制御（AGC）回路をシリコン蝸牛の設計に含めることは、トランジスタの不一致とモデルの複雑さのために困難でした。これに対処するために、個々のチャネルの出力スパイクアクティビティを測定する

activity

arXiv reaDer

classification

arXiv
リンク
高速でロバストな点群登録のための幾何学的変換器
arxiv_reader 2022/02/15
点群登録のための正確な対応を抽出する問題を研究します。最近のキーポイントフリーの方法は、重複の少ないシナリオでは困難な繰り返し可能なキーポイントの検出をバイパスし、登録に大きな可能性を示しています。そ

benchmark

sparse

arXiv reaDer

arXiv

detection

keypoint

estimation

point cloud

transformer
リンク
迅速な学習によるドメイン適応
arxiv_reader 2022/02/15
教師なしドメイン適応（UDA）は、適切に注釈が付けられたソースドメインから学習したモデルを、ラベルのないサンプルのみが提供されるターゲットドメインに適応させることを目的としています。現在のUDAアプロ

benchmark

representation

arXiv reaDer

classification

learning

pre-training

domain adaptation

unsupervised

adversarial

arXiv
リンク
マシンは、データセットの質問16に回答し、不適切なコンテンツを反映するのに役立ちますか？
arxiv_reader 2022/02/15
現在の機械学習の多くの根底にある大規模なデータセットは、攻撃的、侮辱的、脅迫的、または不安を引き起こす可能性があるなど、不適切なコンテンツに関する深刻な問題を引き起こします。これには、データシートの使

arXiv reaDer

arXiv

learning

human

pre-training

dataset

transformer

computer vision
リンク
指静脈認識のための畳み込みブロック注意モジュールを備えた畳み込みニューラルネットワーク
arxiv_reader 2022/02/15
畳み込みニューラルネットワークは、その強力な画像特徴表現により、指静脈認識の分野で人気のある研究になっています。ただし、ほとんどの研究者は、CNNの深さと幅を増やすことによってネットワークのパフォーマ

representation

attention

arXiv reaDer

arXiv

CNN
リンク
リアルタイムで軽量な線分検出に向けて
arxiv_reader 2022/02/15
以前の深層学習ベースの線分検出（LSD）は、巨大なモデルサイズと線予測の高い計算コストに悩まされていました。これにより、計算が制限された環境でのリアルタイムの推論が制限されます。この論文では、モバイル

arXiv reaDer

arXiv

real time

detection

augmentation
リンク
社会距離測定のための実世界の公共交通機関画像における物体検出の複雑さについて
arxiv_reader 2022/02/15
公共の場での社会的距離は、COVID-19パンデミックの影響を減らすのに役立つ重要な側面になっています。機械学習の最近の進歩を利用して、公共スペースでの監視カメラの使用による物体検出を介した社会的距離

benchmark

arXiv reaDer

COVID-19

arXiv

learning

domain

occlusion

detection
リンク
事前に訓練された生成モデルを利用することによる解きほぐされた表現の学習：対照的な学習ビュー
arxiv_reader 2022/02/15
解きほぐしの直感的な概念から、さまざまな要因に対応する画像の変化は互いに区別されるべきであり、解きほぐされた表現はそれらの変化を別々の次元で反映する必要があります。要因を発見し、解きほぐされた表現を学

representation learning

arXiv reaDer

generative

contrastive learning

GAN

disentangling

regularization

arXiv
リンク
VP9ビデオ圧縮のレート制御のための自己競争を備えたMuZero
arxiv_reader 2022/02/15
エンターテインメント、教育、およびビジネスがますますオンラインビデオに依存するようになるにつれて、ビデオストリーミングの使用は大幅に増加しています。ビデオ圧縮を最適化すると、ユーザーのコンテンツへのア

arXiv reaDer

learning

compression

quantization

arXiv

video
リンク
収束プラグアンドプレイ用のグラジエントステップデノイザー
arxiv_reader 2022/02/15
プラグアンドプレイメソッドは、既成のデノイザーによって正則化が実行される画像問題の反復アルゴリズムのクラスを構成します。プラグアンドプレイ方式は、さまざまな画像の問題に対して驚異的な視覚的パフォーマン

super-resolution

arXiv reaDer

regularization

arXiv

gradient
リンク
第1トリメスター3D超音波におけるヒト胚のマルチアトラスセグメンテーションと空間アラインメント
arxiv_reader 2022/02/15
妊娠初期に取得された超音波（US）イメージングデータのセグメンテーションと空間アラインメントは、この重要な人生の期間を通して人間の胚の成長と発達を監視するために重要です。現在のアプローチは手動または半

GA

arXiv reaDer

learning

human

3D

arXiv

segmentation
リンク
スライド画像全体の腫瘍浸潤リンパ球を定量化するための実用的な機械学習アプローチ
arxiv_reader 2022/02/15
癌組織における腫瘍浸潤リンパ球（TIL）のレベルの上昇は、多くの種類の癌で好ましい結果を示しています。免疫細胞の手動定量化は、病理学者にとって不正確で時間がかかります。私たちの目的は、計算ソリューショ

arXiv reaDer

arXiv

classification

learning

detection

augmentation

segmentation
リンク
I-Tuning: 軽量な画像キャプション用に画像を使用して凍結された言語モデルを調整する
arxiv_reader 2022/02/15
最近、パラメータ効率の高い方法で事前トレーニングされた言語モデル（PLM）を調整することが、自然言語処理の分野で人気のあるトピックになっています。ただし、それらのほとんどは、テキストのみの情報を使用し

captioning

arXiv reaDer

pre-training

arXiv
リンク
単一画像のドレインのためのオンライン更新された高次協調ネットワーク
arxiv_reader 2022/02/15
単一画像のドレインは、ビデオ監視や自動運転システムなどの一部のダウンストリーム人工知能アプリケーションにとって重要で困難なタスクです。既存の深層学習ベースの方法のほとんどは、ネットワークを制約してドレ

self-supervised

video

synthesis

learning

arXiv

dataset

arXiv reaDer
リンク
太陽コロナヒートマップを備えた2点を介した単段回転物体検出器
arxiv_reader 2022/02/15
指向性オブジェクトの検出は、コンピュータービジョンの重要なタスクです。現在のトップダウン指向の検出方法は、通常、オブジェクト全体を直接検出し、ターゲットの真の方向を無視するだけでなく、主要なセマンティ

arXiv reaDer

arXiv

dataset

detection

computer vision
リンク
ブラーはアンサンブルのように動作します：精度、不確実性、および堅牢性を向上させるための空間スムージング
arxiv_reader 2022/02/15
ベイズニューラルネットワーク（BNN）などのニューラルネットワークアンサンブルは、不確実性の推定とロバスト性の分野で成功を収めています。ただし、重大な課題により、実際の使用は禁止されています。 BNN

arXiv reaDer

arXiv

pooling

estimation

Bayesian

CNN
リンク
Video2IMU：ビデオからのリアルなIMU機能と信号
arxiv_reader 2022/02/15
ウェアラブルセンサーデータからの人間活動認識（HAR）は、制約のない環境での動きや活動を識別します。 HARは、被験者間で大きなばらつきがあるため、難しい問題です。ウェアラブルセンサー信号は、単純な人

arXiv reaDer

classification

human

monocular

dataset

arXiv

video

activity
リンク
テキストからビデオへの検索のための読書戦略に触発された視覚表現学習
arxiv_reader 2022/02/15
この論文は、テキストからビデオへの検索のタスクを目的としています。自然言語の文の形式でクエリが与えられると、ラベルのない多数のビデオから、与えられたクエリに意味的に関連するビデオを検索するように求めら

representation learning

arXiv reaDer

pre-training

dataset

arXiv

video
リンク
MetaShift：コンテキスト分布シフトとトレーニングの競合を評価するためのデータセットのデータセット
arxiv_reader 2022/02/15
信頼性の高いアプリケーションでは、さまざまなデータ分散にわたる機械学習モデルのパフォーマンスを理解することが非常に重要です。これに動機付けられて、分布の変化をキャプチャするベンチマークデータセットのキ

benchmark

arXiv reaDer

learning

dataset

arXiv
リンク
MCDAL：アクティブラーニングの最大分類子の不一致
arxiv_reader 2022/02/15
最近の最先端のアクティブラーニング手法は、サンプル取得に生成的敵対的ネットワーク（GAN）を主に活用しています。ただし、GANは通常、ハイパーパラメータに対する不安定性と感度に悩まされることが知られて

semantic segmentation

arXiv reaDer

classification

learning

domain adaptation

GAN

dataset

arXiv

interpretation
リンク
CCTA-CPRスキャンにおける不健康な冠状動脈壁セグメンテーションのビームスタック検索ベースの再構成
arxiv_reader 2022/02/15
CCTAスキャンでの冠状動脈壁の境界の推定は、心臓病の診断において費用がかかりますが不可欠な作業です。このタスクを自動化するために、深層学習ベースの画像セグメンテーション方法が一般的に使用されます。た

CT

arXiv reaDer

learning

estimation

dataset

reconstruction

arXiv

segmentation
リンク
SAR船の検出のためのコンテキスト保存インスタンスレベルの拡張および変形可能な畳み込みネットワーク
arxiv_reader 2022/02/15
レーダー信号の閉塞によって引き起こされるランダムな向きと部分的な情報損失によるSAR画像内のターゲットの形状変形は、SAR船の検出における重要な課題です。本論文では、ターゲット内の部分的な情報損失に対

arXiv reaDer

arXiv

learning

convolutional

dataset

occlusion

detection

augmentation

segmentation
リンク
ガンマチャレンジ：マルチモダリティ画像からの緑内障の評価
arxiv_reader 2022/02/15
カラー眼底写真と光コヒーレンストモグラフィー（OCT）は、緑内障スクリーニングのための2つの最も費用効果の高いツールです。画像の2つのモダリティは両方とも、緑内障が疑われることを示す顕著なバイオマーカ

3D

arXiv reaDer

dataset

arXiv
リンク
ミキシングとシフト：ビジョンMLPにおけるグローバルおよびローカルの依存関係の活用
arxiv_reader 2022/02/15
トークンミキシング多層パーセプトロン（MLP）モデルは、シンプルなアーキテクチャと比較的小さな計算コストで、コンピュータービジョンタスクで競争力のあるパフォーマンスを示しています。計算効率の維持におけ

benchmark

arXiv reaDer

arXiv

classification

transformer

computer vision
リンク
超音波画像からの乳がんのセグメンテーションガイド付き分類の深く統合されたパイプライン
arxiv_reader 2022/02/15
乳がんは、世界中のがんによる死亡の主な原因の1つであるため、現代の世界では大きな懸念の象徴となっています。この点で、乳房超音波画像は、乳がんを早期に診断するために医師によって頻繁に利用されます。ただし

semantic segmentation

arXiv reaDer

classification

pre-training

transfer learning

U-Net

arXiv
リンク
タスク境界のない完全なオンラインメタ学習
arxiv_reader 2022/02/15
ディープネットワークは分類器、検出器、トラッカーなどの複雑な機能を学習できますが、多くのアプリケーションでは、入力分布の変化、タスクの変化、環境条件の変化に継続的に適応するモデルが必要です。実際、知識

arXiv reaDer

arXiv

learning

pre-training

dataset

adaptation

tracking

detection

gradient
リンク
農業用移動ロボットのシーン認識のためのセマンティックセグメンテーションのマルチソース疑似ラベル学習
arxiv_reader 2022/02/15
この論文では、対象の温室環境とは異なる屋外シーンの公開されているデータセットを活用して、農業用移動ロボットのシーン認識のためのセマンティックセグメンテーションモデルをトレーニングする新しい方法について

semantic segmentation

arXiv reaDer

robot

learning

domain adaptation

dataset

unsupervised

arXiv
リンク
意見は変わりますか？最初の診断！
arxiv_reader 2022/02/15
医療画像セグメンテーションでは、画像は通常、いくつかの異なる臨床専門家によって注釈が付けられます。この臨床ルーチンは、個人的な偏見を軽減するのに役立ちます。ただし、コンピュータビジョンモデルでは、イン

arXiv reaDer

simulation

arXiv

bias

computer vision

segmentation
リンク
パターン認識のための畳み込みニューラルネットワークの分析的学習
arxiv_reader 2022/02/15
バックプロパゲーション（BP）を使用した畳み込みニューラルネットワーク（CNN）のトレーニングは、特にデータセットに何度もアクセスする必要があることを考えると、時間とリソースを大量に消費します。対照的

benchmark

arXiv reaDer

classification

arXiv

learning

dataset

regularization

CNN
リンク
ビデオの弱教師あり異常検出のための適応グラフ畳み込みネットワーク
arxiv_reader 2022/02/15
弱く監視された異常検出タスクの場合、既存の作業のほとんどは、長期間のコンテキスト情報をモデル化できないため、ビデオ表現が不十分であるという問題に限定されます。ビデオセグメント間のコンテキスト関係をモデ

representation

sparse

arXiv reaDer

anomaly detection

learning

dataset

arXiv

video

GCN

weakly-supervised
リンク
少数ショットセグメンテーションのためのセマンティックエンリッチメントを備えたタスク適応型機能トランスフォーマー
arxiv_reader 2022/02/15
数ショットの学習により、マシンは、ラベル付けされた少数のサンプルのみを使用して、新しいクラスを分類できます。最近、低サンプルデータのセマンティックセグメンテーションを目的とした数ショットのセグメンテー

semantic segmentation

attention

arXiv reaDer

arXiv

classification

learning

dataset

few-shot

transformer
リンク
D2ADA：セマンティックセグメンテーションのための動的密度認識アクティブドメイン適応
arxiv_reader 2022/02/15
ドメイン適応の分野では、モデルのパフォーマンスとターゲットドメインアノテーションの数の間にトレードオフが存在します。このようなシナリオでは、有益なラベル付きデータをほとんど使用せずにモデルのパフォーマ

semantic segmentation

benchmark

arXiv reaDer

learning

domain adaptation

arXiv
リンク
直交シルエットからの3D人間モデリングのための簡潔で効果的なネットワーク
arxiv_reader 2022/02/15
この論文では、個人の2つの直交するシルエット（つまり、正面図と側面図）からの3D人間モデリングの問題を再検討します。以前の研究とは異なり、畳み込みニューラルネットワーク（CNN）に基づく教師あり学習ア

arXiv reaDer

arXiv

learning

human

dataset

3D

CNN
リンク
コンピュータビジョンとフローベースの欠陥検出の正規化
arxiv_reader 2022/02/15
ほとんどの製品の品質を確保するには、視覚的な欠陥の検出が重要です。ただし、中小規模の製造企業の大多数は、依然として面倒でエラーが発生しやすい人間による手動検査に依存しています。主な理由は次のとおりです

arXiv reaDer

arXiv

learning

human

face

unsupervised

detection

computer vision
リンク
注意集約ベースの双方向相互学習による手書き数式認識
arxiv_reader 2022/02/15
手書きの数式認識は、指定された画像からLaTeXシーケンスを自動的に生成することを目的としています。現在、注意ベースのエンコーダ-デコーダモデルがこのタスクで広く使用されています。これらは通常、左から

attention

distillation

arXiv reaDer

learning

arXiv

augmentation
リンク
弱教師あり階層的場所認識のための密結合学習戦略
arxiv_reader 2022/02/15
視覚的場所認識（VPR）は、ロボット工学および自律システムにとって重要な問題です。時間とパフォーマンスのトレードオフとして、ほとんどの方法では、グローバル機能を使用して上位N候補を取得し、ローカル機能

benchmark

arXiv reaDer

robot

learning

real time

arXiv

weakly-supervised
リンク
https://arxiv-check-250201.firebaseapp.com/each/2202.06467v2
arxiv_reader 2022/02/15
差分プライベートデータのリリースは、機械学習コミュニティで注目を集めています。最近、DPMixと呼ばれるアルゴリズムが提案され、差分プライバシーと次数mのランダムな混合の後に高次元データをリリースしま

attention

arXiv reaDer

learning

pre-training

self-supervised

arXiv
リンク
顕微鏡画像分析におけるU-Netの最先端の調査：単純な使用法から構造のモーティフィケーションまで
A State-of-the-art Survey of U-Net in Microscopic Image Analysis: from Simple Usage to Structure Mortification 画像解析技術は、病気、廃水処理、環境変化モニタリング分析、畳み込みニューラルネットワーク（CNN）における人工的な従来の方法の不注意を解決するために使用され、顕微鏡画像解析で重要な役割を果たします。検出、追跡、監視、特徴抽出、モデリング、分析における重要なステップは画像セグメンテーションであり、U-Netは顕微鏡画像セグメンテーションにますます適用されています。本稿では、U-Netの開発履歴を包括的にレビューし、U-Netの登場以来のさまざまなセグメンテーション手法のさまざまな研究結果を分析し、関連する論文の包括的なレビューを行います。最初に、このペーパーでは、U-Net
arxiv_reader 2022/02/15
画像解析技術は、病気、廃水処理、環境変化モニタリング分析、畳み込みニューラルネットワーク（CNN）における人工的な従来の方法の不注意を解決するために使用され、顕微鏡画像解析で重要な役割を果たします。検

arXiv reaDer

arXiv

U-Net

CNN

tracking

detection

segmentation
リンク
合成データからも学べる: 教師なし視覚表現学習のための効果的なデータの合成
arxiv_reader 2022/02/15
自己監視学習アプローチである対照学習（CL）は、ラベルのないデータから視覚的表現を効果的に学習できます。ただし、CLは、優れたパフォーマンスを実現するために膨大な量の多様なデータを学習する必要がありま

representation learning

arXiv reaDer

classification

contrastive learning

transfer learning

dataset

self-supervised

arXiv
リンク
深い畳み込みネットワークを使用した選択的カーネルメカニズムに基づくより高速なハイパースペクトル画像分類
Faster hyperspectral image classification based on selective kernel mechanism using deep convolutional networks ハイパースペクトル画像は、空間情報とスペクトル情報が豊富です。 3D-CNNを使用すると、空間次元とスペクトル次元の特徴を同時に取得して、特徴の分類を容易にすることができますが、ハイパースペクトル画像情報のスペクトル次元情報の冗長性が得られます。連続3D-CNNを使用すると、大量のパラメーターが発生し、デバイスの計算能力要件が高くなり、トレーニングに時間がかかりすぎます。この手紙は、より高速な選択的カーネルメカニズムネットワーク（FSKNet）を設計しました。FSKNetはこの問題のバランスを取ることができます。 3D-CNNおよび2D-CNN変換モジュールを設計し、3
arxiv_reader 2022/02/15
ハイパースペクトル画像は、空間情報とスペクトル情報が豊富です。 3D-CNNを使用すると、空間次元とスペクトル次元の特徴を同時に取得して、特徴の分類を容易にすることができますが、ハイパースペクトル画像

attention

arXiv reaDer

classification

convolutional

arXiv
リンク
非対称で不確実性を意識したGANによる悪天候画像の翻訳
arxiv_reader 2022/02/15
悪天候の画像変換は、悪条件ドメイン（たとえば、雨の夜）を標準ドメイン（たとえば、日）に転送することを目的とした教師なし画像間（I2I）変換タスクに属します。不利なドメインからの画像にはいくつかのアーテ

arXiv reaDer

domain

GAN

disentangling

unsupervised

arXiv
リンク
マルチローターを備えた電力線での知覚認識パーチング
arxiv_reader 2022/02/15
マルチローター空中ロボットは、電力線の検査に広く使用されるようになっています。人間の介入なしに継続的で堅牢な検査を可能にするには、ロボットが電力線に止まってバッテリーを再充電できる必要があります。実際

representation

arXiv reaDer

robot

human

pose

trajectory

arXiv
リンク
AIはラベルなしで進化することができます：知識蒸留による胸部X線診断のための自己進化型ビジョントランスフォーマー
arxiv_reader 2022/02/15
深層学習ベースのコンピューター支援診断システムは最近専門家レベルのパフォーマンスを達成しましたが、堅牢な深層学習モデルを開発するには、手動注釈付きの大規模で高品質のデータが必要であり、取得に費用がかか

arXiv reaDer

arXiv

COVID-19

learning

pose

knowledge distillation

self-supervised

transformer
リンク
乳がん診断のための深層学習アプローチに関する調査
arxiv_reader 2022/02/15
ディープラーニングは、乳房腫瘍を認識するためのいくつかの学習ベースの方法を導入し、乳がんの診断に高い適用性を示しています。それは、さまざまなモダリティの診断において放射線科医をさらに支援するために、コ

arXiv reaDer

arXiv

classification

learning

CNN

3D

detection

metric

segmentation
リンク
軽量の自己注意ベースのモデルによる階層的点群の符号化と復号化
arxiv_reader 2022/02/15
この論文では、点群データの表現学習のための階層的で軽量な自己注意ベースの符号化および復号化アーキテクチャであるSA-CNNを紹介します。提案されたSA-CNNは、畳み込みおよび転置された畳み込みスタッ

representation learning

arXiv reaDer

convolutional

reconstruction

unsupervised

3D

point cloud

arXiv

segmentation
リンク
クロスモーダル干渉消去による野生の視覚音像定位
arxiv_reader 2022/02/15
オーディオビジュアル音源のローカリゼーションのタスクは、オーディオ録音がクリーンな制約のあるシーンで十分に研究されています。ただし、実際のシナリオでは、オーディオは通常、画面外のサウンドやバックグラウ

representation

distillation

arXiv reaDer

learning

arXiv

localization
リンク
深い歩行認識：調査
arxiv_reader 2022/02/15
歩行認識は、歩行方法に基づいて個人を識別することを目的とした魅力的な生体認証モダリティです。ディープラーニングは、識別表現を自動的に学習する機能を通じて、2015年以降この分野の研究環境を再構築しまし

representation

arXiv reaDer

learning

dataset

arXiv
リンク
どれだけ低くすることができますか？セマンティックセグメンテーションのピクセル注釈
arxiv_reader 2022/02/15
事前の知識がなくても、画像をセグメント化するには、ラベル付けされたピクセルがいくつ必要ですか？この質問に答えるために実験を行います。私たちの実験では、Oracleはアクティブラーニングを使用してネット

semantic segmentation

learning

arXiv reaDer

arXiv
リンク
肝臓セグメンテーションのスケジューリング手法：ReduceLRonPlateauとOneCycleLR
arxiv_reader 2022/02/15
機械学習とコンピュータービジョン技術は、生物医学分野を含む多くの分野に影響を与えてきました。このホワイトペーパーの目的は、ReduceLRonPlateauに対して新しく考案されたOneCycleLR

arXiv reaDer

learning

dataset

arXiv

computer vision

segmentation
リンク
COVID-19の分析のための深層学習技術とオミクロンを検出するためのそれらの有用性の調査
arxiv_reader 2022/02/15
2019年12月のコロナウイルス（COVID-19）の発生は、世界中の人間にとって継続的な脅威となっており、何百万もの命に感染した健康危機を引き起こし、世界経済を壊滅させています。ディープラーニング（

CT

arXiv reaDer

COVID-19

arXiv

classification

learning

pre-training

CNN

segmentation
リンク
プリミティブを使用したOmnifontペルシアOCRシステム
arxiv_reader 2022/02/15
この論文では、モデルベースのオムニフォントペルシアOCRシステムを紹介します。システムは、認識のための構造的特徴として8つのプリミティブ要素のセットを使用します。まず、スキャンしたドキュメントが前処理

identification

arXiv reaDer

arXiv
リンク
X線透過イメージングにおける圧縮効果の学習
arxiv_reader 2022/02/15
コーンビームX線透過イメージングでは、X線の発散により、X線検出器で深度が異なる画像構造の倍率が異なり、遠近法による変形が発生します。遠近法による変形は、解剖学的構造の直接の正確な幾何学的評価を困難に

arXiv reaDer

arXiv

learning

domain

detection

synthesis
リンク
NODEO：変形可能な画像レジストレーションのためのニューラル常微分方程式ベースの最適化フレームワーク
arxiv_reader 2022/02/15
画像間の空間的対応を見つけることを目的とした変形可能画像レジストレーション（DIR）は、医療画像分析の分野で最も重大な問題の1つです。この論文では、ニューラル常微分方程式（NODE）を利用する、新規で

benchmark

arXiv reaDer

domain

3D

trajectory

arXiv

metric
リンク
Do Inpainting Yourself: 手本に導かれるジェネレーティブなフェイシャルインペインティング
arxiv_reader 2022/02/15
顔画像の修復は、顔画像の欠落したピクセルまたはマスクされたピクセルについて、視覚的に現実的で意味的に意味のあるコンテンツを埋めるタスクです。既存の方法は、高い視覚品質を達成する上で大きな進歩を遂げまし

arXiv reaDer

dataset

GAN

self-supervised

face

arXiv

metric

gradient
リンク
極限状態での顔検出：機械学習アプローチ
arxiv_reader 2022/02/15
さまざまな表情、明るさ、色合いのフリンジにより、制限のない状態での顔検出は長年問題となってきました。最近の研究によると、戦略に関する深層学習の知識は、さまざまなガジェットやパターンの識別の中で素晴らし

arXiv reaDer

arXiv

learning

identification

convolutional

pose

face

occlusion

detection

landmark
リンク
全自動脳腫瘍セグメンテーションのためのデータ拡張法
A Data Augmentation Method for Fully Automatic Brain Tumor Segmentation 神経膠腫とその小領域の自動セグメンテーションは、疾患の診断、治療、モニタリングにとって非常に重要です。この論文では、TensorMixupと呼ばれる拡張方法が提案され、脳腫瘍のセグメンテーションのための3次元U-Netアーキテクチャに適用されました。主なアイデアには、最初に、同じモダリティを持つ任意の2人の患者の磁気共鳴画像データからのグラウンドトゥルースラベルの神経膠腫情報に従って、3次元でサイズが128の2つの画像パッチが選択されたことが含まれていました。次に、すべての要素がベータ分布から独立してサンプリングされたテンソルを使用して、画像パッチを混合しました。次に、テンソルは、上記の画像パッチのワンホットエンコードされたラベルを混合するために使
arxiv_reader 2022/02/15
神経膠腫とその小領域の自動セグメンテーションは、疾患の診断、治療、モニタリングにとって非常に重要です。この論文では、TensorMixupと呼ばれる拡張方法が提案され、脳腫瘍のセグメンテーションのため

arXiv reaDer

U-Net

arXiv

augmentation

segmentation
リンク
外観ベースの視線推定における高性能で複雑度の低いキャリブレーションに向けて
arxiv_reader 2022/02/15
RGB画像からの外観ベースの視線推定は、比較的制約のない視線追跡を提供します。我々は以前に、視線角度を画像からの被写体に依存しない視線推定と被写体に依存するバイアスの合計に分解する視線分解法を提案した

arXiv reaDer

estimation

dataset

gaze

tracking

arXiv

bias
リンク
バックドア防御のための敵対的微調整：バックドア攻撃を敵対的攻撃に接続する
arxiv_reader 2022/02/15
ディープニューラルネットワーク（DNN）は、バックドア攻撃に対して脆弱であることが知られています。つまり、トレーニング時にバックドアトリガーが設定されると、感染したDNNモデルは、トリガーが埋め込まれ

arXiv reaDer

DNN

adversarial

arXiv
リンク
空間的に変化する屋内照明予測のためのディープグラフ学習
arxiv_reader 2022/02/15
単一の画像からの照明予測は、仮想オブジェクトと実オブジェクト間のシェーディングとシャドウの一貫性を保証する必要がある多くのビジョンおよび拡張現実（AR）アプリケーションでますます重要になっています。た

representation

GCN

arXiv reaDer

learning

convolutional

estimation

arXiv

augmentation
リンク
視覚的垂直推定による乗り物酔いモデリングとその自律パーソナルモビリティビークルへの応用
arxiv_reader 2022/02/15
レベル3〜5の自律型パーソナルモビリティビークル（APMV）の乗客（ドライバー）および車は、運転中に本やスマートフォンを読むなどの非運転タスクを実行できます。そのような活動は乗り物酔いを増加させる可能

autonomous driving

arXiv reaDer

vehicle

human

estimation

arXiv

activity
リンク
Polyp-PVT：ピラミッドビジョントランスフォーマーによるポリープセグメンテーション
arxiv_reader 2022/02/15
ほとんどのポリープセグメンテーション方法は、バックボーンとしてCNNを使用するため、エンコーダーとデコーダーの間で情報を交換する際に2つの重要な問題が発生します。 2）これらの機能を融合するための効果

representation

arXiv reaDer

transformer

arXiv

identification

dataset

CNN

segmentation
リンク
UAVのアンダーディスプレイカメラのゼロ参照画像復元
arxiv_reader 2022/02/15
露出したUAVのカメラは、悪天候の影響下で揺れたり、ずれたり、誤動作したりする可能性がありますが、アドオンデバイス（デュポンライン）は損傷に対して非常に脆弱です。低コストのT-OLEDオーバーレイをカ

UAV

loss function

arXiv reaDer

real time

dataset

arXiv
リンク
エンコーダ-ジェネレータアーキテクチャに基づく反復顔画像修復
arxiv_reader 2022/02/15
顔の画像の修復は、目や鼻などの顔のマスクされた主要コンポーネントのセマンティック情報を含む新しいピクセルを生成する必要があるため、難しい問題です。最近、この分野で注目すべき方法が提案されています。これ

face

arXiv reaDer

dataset

arXiv
リンク
深度マップを使用した自然な画像のスティッチング
arxiv_reader 2022/02/15
自然画像スティッチング（NIS）は、異なる表示位置から同じ3Dシーンをキャプチャする2つの重なり合う画像から1つの自然に見えるモザイクを作成することを目的としています。シーンが非平面でカメラのベースラ

3D

arXiv reaDer

arXiv
リンク
BViT：幅広い注目を集めるVision Transformer
arxiv_reader 2022/02/15
最近の研究では、トランスフォーマーは、画像パッチ間の関係を自己注意で活用することにより、コンピュータービジョンで有望なパフォーマンスを達成できることが実証されています。彼らは単一の機能レイヤーで注意を

benchmark

attention

arXiv reaDer

arXiv

classification

pre-training

transformer

computer vision
リンク
欠落している領域の複雑さを強調することにより、深い画像の修復を改善します
arxiv_reader 2022/02/15
ディープイメージインペインティングの研究は、主にさまざまなニューラルネットワークアーキテクチャの構築または新しい最適化の目的を課すことに焦点を当てています。ただし、一方では、最先端の深い修復モデルを構

metric

arXiv reaDer

dataset

arXiv
リンク
循環微分可能アーキテクチャ検索
arxiv_reader 2022/02/15
微分可能なARchiTectureSearch、つまりDARTSは、ニューラルアーキテクチャ検索で大きな注目を集めています。浅い検索ネットワークで最適なアーキテクチャを見つけようとし、深い評価ネットワ

NAS

attention

distillation

arXiv reaDer

classification

differentiable

regularization

arXiv
リンク
LighTN：点群ダウンサンプリングにおけるパフォーマンスとオーバーヘッドのトレードオフのための軽量Transformerネットワーク
arxiv_reader 2022/02/15
従来のタスクに関係のないダウンサンプリング方法と比較して、タスク指向のニューラルネットワークは点群のダウンサンプリング範囲でパフォーマンスが向上していることを示しています。最近、Transformer

loss function

arXiv reaDer

arXiv

classification

learning

point cloud

transformer
リンク
LTSP：正確な気道セグメンテーションのための長期スライス伝搬
arxiv_reader 2022/02/15
目的：気管支鏡による介入は、肺疾患に対して広く使用されている臨床技術であり、その位置特定とガイダンスのために正確でトポロジー的な完全な気道マップが必要です。気道マップは、胸部コンピュータ断層撮影（CT

CT

arXiv reaDer

arXiv

localization

segmentation
リンク
RandomSEMO：ビデオ異常検出のための移動オブジェクトの正規性学習
RandomSEMO: Normality Learning Of Moving Objects For Video Anomaly Detection 最近の異常検出アルゴリズムは、フレーム予測オートエンコーダを採用することで強力なパフォーマンスを示しています。ただし、これらの方法は2つの困難な状況に直面しています。第一に、それらは過度に強力になるように訓練されている可能性が高く、異常なフレームさえもうまく生成し、異常の検出に失敗します。第二に、それらは前景と背景の両方でキャプチャされた多数のオブジェクトに気を取られています。これらの問題を解決するために、単純な軽量オートエンコーダーの上に構築された、移動オブジェクトのランダムスーパーピクセル消去（RandomSEMO）および移動オブジェクト損失（MOLoss）という名前の新しいスーパーピクセルベースのビデオデータ変換手法を提案します。
arxiv_reader 2022/02/15
最近の異常検出アルゴリズムは、フレーム予測オートエンコーダを採用することで強力なパフォーマンスを示しています。ただし、これらの方法は2つの困難な状況に直面しています。第一に、それらは過度に強力になるよ

benchmark

attention

arXiv reaDer

anomaly detection

learning

face

arXiv

video
リンク
歪み補正と高精度特徴検出を備えたカメラキャリブレーションのための学習ベースのフレームワーク
arxiv_reader 2022/02/15
カメラのキャリブレーションは、多くのロボットシステムのパフォーマンスに大きな影響を与える重要な手法です。堅牢性と高精度は、常に多様な校正方法の追求でした。ただし、古典的なZhangの方法に基づく最先端

arXiv reaDer

arXiv

robot

estimation

dataset

detection

synthesis
リンク
動的障害物のある3D環境での自律ドローンスウォームナビゲーションとマルチターゲット追跡
arxiv_reader 2022/02/15
手作業による作成は時間がかかり複雑な手順であり、実用的ではないため、人工群の自律モデリングが必要です。深層強化学習を採用した自律的アプローチは、群れナビゲーションのためのこの研究で提示されます。このア

reinforcement learning

drone

arXiv reaDer

3D

tracking

arXiv
リンク
マスクテンプレートに基づくプライバシー保護
arxiv_reader 2022/02/15
強力な認識アルゴリズムは、インターネットや重要な医療システムで広く使用されており、個人のプライバシーに深刻な脅威をもたらします。法律は多様性の保護を規定していますが、たとえば、ヨーロッパの一般データ保

arXiv reaDer

human

pose

arXiv

biometrics
リンク
FairStyle：スタイルチャネル操作によるStyleGAN2のバイアス除去
arxiv_reader 2022/02/15
生成的敵対的ネットワークの最近の進歩は、高解像度で超現実的な画像を生成することが可能であることを示しています。ただし、GANによって生成された画像は、それらがトレーニングされたデータセットと同じくらい

arXiv reaDer

pre-training

dataset

GAN

disentangling

arXiv
リンク
無制限のメディアでの堅牢なディープフェイク：生成と検出
arxiv_reader 2022/02/15
ディープラーニングの最近の進歩により、ディープフェイクの生成が大幅に改善され、よりリアルな外観のフェイクメディアが生まれました。ディープフェイクメディアは幅広い分野で応用できる可能性があり、学界と産業

attention

arXiv reaDer

arXiv

learning

detection

video

deepfake
リンク
トーラス上のテンソル積表現による教師なし解きほぐし
arxiv_reader 2022/02/15
オートエンコーダで表現を学習するための現在の方法は、ほとんど排他的に潜在表現としてベクトルを使用します。この作業では、この目的のためにテンソル積構造を採用することを提案します。このようにして、得られた

representation

arXiv reaDer

generative

learning

disentangling

unsupervised

arXiv
リンク
リップシンクのためのリップムーブメント情報の解きほぐし
唇の動きの情報は、多くの視聴覚タスクにとって重要です。ただし、ビデオから唇の動きの情報を抽出することは困難です。これは、個人のアイデンティティや頭のポーズなどの要因によって簡単に混乱する可能性があるためです。この論文では、パラメトリック3D顔モデルを利用して、唇の動きの情報を明示的に解きほぐすことを提案します。最近の3D顔再構成の進歩に加えて、まず、唇の動きの情報が存在する表現情報を一貫して解きほぐすことができる方法を提供します。次に、解きほぐされた唇の動きの情報を使用して顔を合成することにより、摂動要因の影響が軽減されると、はるかに少ないデータでリップシンクタスクをより適切に実行できることを示します。最後に、アクティブスピーカー検出タスクの目に見えないデータセットでテストし、競争力のあるパフォーマンスを実現することで、実際にその有効性を示します。 The lip movements in
arxiv_reader 2022/02/15
唇の動きの情報は、多くの視聴覚タスクにとって重要です。ただし、ビデオから唇の動きの情報を抽出することは困難です。これは、個人のアイデンティティや頭のポーズなどの要因によって簡単に混乱する可能性があるた

arXiv reaDer

arXiv

pose

dataset

reconstruction

face

disentangling

3D

detection

synthesis
リンク
開集合ドメイン適応のためのソースフリーのプログレッシブグラフ学習
arxiv_reader 2022/02/15
オープンセットドメイン適応（OSDA）は、多くの視覚認識タスクでかなりの注目を集めています。ただし、ほとんどの既存のOSDAアプローチは、次の3つの主な理由により制限されています。（1）一般化の限界に

benchmark

attention

action recognition

arXiv reaDer

classification

semi-supervised

domain adaptation

dataset

unsupervised

arXiv
リンク
InfraredTags：低コストの赤外線ベースの3D印刷およびイメージングツールを使用した、目に見えないARマーカーとバーコードの埋め込み
arxiv_reader 2022/02/15
3Dオブジェクト内に目立たないタグを埋め込むための既存のアプローチでは、複雑な製造または高コストのイメージング機器が必要です。 InfraredTagsは、肉眼では認識できない2Dマーカーであり、オブ

arXiv reaDer

3D

tracking

arXiv

embedding

augmentation
リンク
範囲と強度のバックグラウンド減算を使用した路側ライダー車両の検出と追跡
arxiv_reader 2022/02/15
この論文では、2つの教師なし学習アルゴリズムの組み合わせを使用した路傍LiDARオブジェクト検出のソリューションを紹介します。 3D点群データは、最初に球面座標に変換され、ハッシュ関数を使用して標高-

sparse

arXiv reaDer

arXiv

LiDAR

classification

unsupervised

3D

point cloud

tracking

detection
リンク
脳血管疾患の分類とMRIからPETへの変換のためのマルチタスクディープラーニング
arxiv_reader 2022/02/15
もやもや病、頸動脈狭窄症、動脈瘤、脳卒中などの脳血管疾患の診断と評価には、脳血流量（CBF）の正確な定量化が不可欠です。陽電子放出断層撮影（PET）は、現在、人間の脳のCBF測定のゴールドスタンダード

MRI

multi-task

arXiv reaDer

arXiv

classification

learning

human

3D

CNN
リンク
マルチインスタンス学習とラジオミクスに基づく深い注意を使用した肺がん診断
arxiv_reader 2022/02/15
肺がんの早期診断は、肺がんの治療のための重要な介入です。コンピューター支援診断（CAD）は重要な役割を果たすことができます。ただし、ほとんどの公開されたCADメソッドは、肺がんの診断を肺結節分類の問題

attention

arXiv reaDer

classification

learning

dataset

simulation

arXiv
リンク
組織病理学的画像を使用した乳がんの検出
arxiv_reader 2022/02/15
癌は、世界で最も一般的で致命的な病気の1つです。乳がんは、女性の8人に1人、男性の800人に1人に発症します。したがって、癌の早期発見は癌を効果的に治療するのに役立つ可能性があるため、私たちの主な目標

action

arXiv reaDer

arXiv

classification

saliency

identification

dataset

CNN

detection

localization
リンク
ジオメトリを意識した一貫性トレーニングによる半教師あり医療画像セグメンテーション
arxiv_reader 2022/02/15
医療画像セグメンテーションのための教師あり深層学習法のパフォーマンスは、ラベル付けされたデータの不足によって制限されることがよくあります。有望な研究の方向性として、半教師あり学習は、ラベルのないデータ

benchmark

arXiv reaDer

semi-supervised

learning

dataset

arXiv

segmentation
リンク
視覚表現学習は、同じドメイン内で強く一般化されません
arxiv_reader 2022/02/15
機械学習を一般化するための重要な要素は、変動の潜在的な要因と、各要因が世界で作用するメカニズムを明らかにすることです。このホワイトペーパーでは、17の教師なし、弱教師あり、および完全教師あり表現学習ア

benchmark

representation learning

arXiv reaDer

generative

OOD

domain

dataset

unsupervised

arXiv

weakly-supervised
リンク
https://arxiv-check-250201.firebaseapp.com/each/2202.06095v2
arxiv_reader 2022/02/15
インターネット上で急速に広まる情報は、ユーザーへの多数の公益事業サービスと娯楽の迅速な供給をサポートするために不可欠です。ソーシャルネットワークとオンラインメディアは、現代的でタイムリーなコミュニケー

attention

arXiv reaDer

arXiv

learning

domain

detection

video

deepfake
リンク
NeuVV：没入型レンダリングと編集を備えたニューラルボリュームビデオ
arxiv_reader 2022/02/15
メタバースが提供すると約束している最もエキサイティングな体験のいくつか、たとえば、仮想環境での仮想キャラクターとのライブインタラクションには、リアルタイムのフォトリアリスティックレンダリングが必要です

representation

arXiv reaDer

mesh

real time

reconstruction

3D

point cloud

arXiv

synthesis

video
リンク
手書きのドキュメントコレクションに関する認識のない質問応答
arxiv_reader 2022/02/15
近年、ドキュメント画像の質問応答（QA）の研究分野でかなりの進歩が見られました。 Document Image Analysisコミュニティからの現在のQAアプローチは、主に機械で印刷されたドキュメン

arXiv reaDer

dataset

arXiv
リンク
テキストと画像に基づく3Dアバターの生成と操作
arxiv_reader 2022/02/15
潜在空間の操作は、最近、生成モデルの分野で興味深いトピックになっています。最近の調査によると、潜在的な方向を使用して、特定の属性に向けて画像を操作できることが示されています。ただし、3D生成モデルの生

arXiv reaDer

generative

mesh

pre-training

GAN

differentiable

face

3D

contrastive

arXiv
リンク
トランスフォーマーを使用した胸部X線写真におけるマルチモーダル疾患分類の事前知識としての適応
arxiv_reader 2022/02/15
臨床医が画像検査のために患者を紹介するとき、スキャン要求に理由（例えば、関連する患者の病歴、疑わしい病気）を含めます。これは、放射線レポートの表示フィールドとして表示されます。画像の解釈と報告は、この

arXiv reaDer

classification

arXiv

interpretation

pre-training

dataset

transformer

BERT
リンク
乳房組織の顕微鏡画像の分類：領域複製ベースの自己監視と既製の深部表現
arxiv_reader 2022/02/15
乳がんは、世界の女性の死亡率の主な原因の1つです。進行の初期段階で診断を行うと、これを減らすことができます。さらに、プロセスの効率は、コンピュータ支援診断によって大幅に改善することができます。これを達

arXiv reaDer

arXiv

classification

pre-training

domain

transfer learning

dataset

self-supervised

embedding

CNN
リンク
ビデオの顕著な物体検出のための深さ結合三峰性ネットワーク
arxiv_reader 2022/02/15
深さは、顕著なオブジェクト検出（SOD）に役立つ地理的手がかりを提供でき、最近のRGB-DSODメソッドで役立つことが証明されています。ただし、既存のビデオ顕著なオブジェクト検出（VSOD）メソッドは

benchmark

attention

arXiv reaDer

arXiv

saliency

optical flow

dataset

detection

video

RGB-D
リンク
3Dカラーポイントクラウドおよびメッシュモデルの非参照品質評価
arxiv_reader 2022/02/15
視聴者の体験の質（QoE）を改善し、コンピューターグラフィックスアプリケーションを最適化するために、3Dモデルの品質評価（3D-QA）がマルチメディア分野で重要なタスクになっています。点群とメッシュは

representation

arXiv reaDer

arXiv

mesh

learning

compression

3D

point cloud

domain

metric
リンク
P2T：シーン理解のためのピラミッドプーリングトランス
arxiv_reader 2022/02/15
最近、ビジョントランスフォーマーは、最先端のさまざまなビジョンタスクを推進することで大きな成功を収めています。ビジョントランスフォーマーで最も困難な問題の1つは、画像トークンのシーケンス長が大きいと、

semantic segmentation

arXiv reaDer

transformer

arXiv

classification

pooling

detection
リンク
RGB深度の人の再識別のためのクロスモーダル蒸留
arxiv_reader 2022/02/15
個人の再識別は、複数のセンサーにわたる監視の重要な課題です。視覚認識のための強力な深層学習モデル、安価なRGB-Dカメラ、自動運転車などのセンサーが豊富なモバイルロボットプラットフォームの出現に促され

attention

distillation

arXiv reaDer

arXiv

detection

pose

transfer learning

CNN

RGB-D

re-id
リンク
OctAttention：点群圧縮のためのOctreeベースの大規模コンテキストモデル
arxiv_reader 2022/02/15
点群圧縮では、点群分布をモデル化するために十分なコンテキストが重要です。ただし、以前のボクセルベースの方法で収集されたコンテキストは、スパースポイントクラウドを処理するときに減少します。この問題に対処

benchmark

attention

representation

sparse

arXiv reaDer

LiDAR

compression

dataset

point cloud

arXiv
リンク
堅牢なキーポイント表現によるロボット操作のエンドツーエンド強化学習
arxiv_reader 2022/02/15
堅牢で効率的なキーポイント表現を使用して、ロボット操作タスクのためのエンドツーエンドの強化学習（RL）フレームワークを提示します。提案された方法は、自己監視オートエンコーダアーキテクチャを介して、状態

reinforcement learning

representation

arXiv reaDer

keypoint

domain

self-supervised

sim-to-real

arXiv

adversarial

zero-shot
リンク
顔認識における楽しい自分撮りフィルター：影響評価と除去
arxiv_reader 2022/02/15
この作業では、セルフィーを変更するために頻繁に使用される楽しいセルフィーフィルターが顔認識システムに与える影響を調査します。自由に利用できるモバイルアプリケーションの定性的評価と分類に基づいて、データ

face recognition

arXiv reaDer

arXiv

classification

detection

segmentation
リンク
POTHER：COVID-19検出のためのパッチ投票による深層学習ベースの胸部X線バイアス分析
arxiv_reader 2022/02/15
人々の生活に壊滅的な影響を及ぼし続けているCOVID-19との闘いにおける重要なステップは、重度のCOVID-19症状のある診療所にいる患者の効果的なスクリーニングです。胸部X線撮影は有望なスクリーニ

attention

arXiv reaDer

COVID-19

arXiv

classification

explainable

learning

pre-training

detection

bias
リンク
堅牢な教師なしビデオ人物の再識別の活用
arxiv_reader 2022/02/15
教師なしビデオ人物再識別（reID）メソッドは、通常、グローバルレベルの機能に依存します。また、多くの監視対象reIDメソッドは、ローカルレベルの機能を採用し、パフォーマンスを大幅に向上させました。た

benchmark

representation

arXiv reaDer

learning

person

unsupervised

arXiv

video

re-id
リンク
ビデオベースの歩行者検索用のTransformerの多方向およびマルチスケールピラミッド
arxiv_reader 2022/02/15
ビデオ監視では、歩行者の検索（個人の再識別とも呼ばれます）が重要なタスクです。このタスクは、重複しないカメラから関心のある歩行者を取得することを目的としています。最近、トランスベースのモデルはこのタス

benchmark

representation

arXiv reaDer

arXiv

pedestrian

human

person

transformer

video

re-id
リンク
MoDeRNN：時空間予測学習のためのきめ細かいモーション詳細に向けて
arxiv_reader 2022/02/15
時空間予測学習（ST-PL）は、限られた観測シーケンスを介して後続のフレームを予測することを目的としており、現実の世界で幅広い用途があります。ただし、予測のための代表的な時空間機能を学習することは困難

arXiv reaDer

RNN

learning

dataset

arXiv
リンク
RSINet：トリプルGANフレームワークを使用したリモートセンシング画像の修復
arxiv_reader 2022/02/15
リモートセンシング領域での画像修復の問題に取り組んでいます。リモートセンシング画像は、高解像度と地理的変動を備えているため、従来の修復方法の効果が低下します。これはさらに、画像内のスペクトル、空間、お

attention

residual

arXiv reaDer

learning

domain

dataset

GAN

arXiv

gradient
リンク
キャリブレーションされていないモデルは、人間と AI のコラボレーションを改善できます
arxiv_reader 2022/02/15
AIの多くの実用的なアプリケーションでは、AIモデルは人間のユーザーの意思決定支援として使用されます。 AIは、人間が（場合によっては）意思決定プロセスに組み込むアドバイスを提供します。 AIのアドバ

human

arXiv reaDer

simulation

arXiv
リンク
GANで生成された顔を公開するための堅牢で注意深いディープニューラルネットワーク
arxiv_reader 2022/02/15
リアルな顔を生成および合成するGANベースの手法は、深刻な社会的懸念とセキュリティ問題を引き起こしています。 GANで生成された顔を検出するための既存の方法は、限られた公開データセットでうまく機能しま

arXiv reaDer

arXiv

learning

dataset

face

detection

synthesis
リンク
Retinexベースのアルゴリズムの展開と調整による低照度画像の強調
arxiv_reader 2022/02/15
最近の進歩に動機付けられて、深層学習技術は低照度画像強調（LIE）問題に広く適用されています。その中で、Retinex理論に基づくものは、主に分解調整パイプラインに従っており、その物理的解釈と有望なパ

arXiv reaDer

learning

dataset

self-supervised

arXiv

interpretation
リンク
イベントタイプを意識したビデオ認識のための視聴覚融合レイヤー
Audio-Visual Fusion Layers for Event Type Aware Video Recognition 人間の脳は、いつでも外界から来る多感覚情報とそれらの複雑な相互作用で絶えず氾濫しています。このような情報は、私たちの脳内で結合または分離することによって自動的に分析されます。このタスクは人間の脳にとっては簡単に思えるかもしれませんが、複雑な相互作用は単一のタイプの統合では処理できず、より高度なアプローチが必要になるため、同様のタスクを実行できるマシンを構築することは非常に困難です。この論文では、マルチタスク学習スキームにおける個々のイベント固有のレイヤーとの多感覚統合問題に対処するための新しいモデルを提案します。単一のタイプの融合が使用される以前の作品とは異なり、私たちはさまざまな視聴覚関係タスクを処理するためにイベント固有のレイヤーを設計し、視聴覚形成のさま
arxiv_reader 2022/02/15
人間の脳は、いつでも外界から来る多感覚情報とそれらの複雑な相互作用で絶えず氾濫しています。このような情報は、私たちの脳内で結合または分離することによって自動的に分析されます。このタスクは人間の脳にとっ

benchmark

multi-task

arXiv reaDer

learning

human

dataset

arXiv

video

bias
リンク
クリーンな敵対的相互学習によるオープンセットの敵対的防御
arxiv_reader 2022/02/15
オープンセット認識と敵対的防御は、実世界での展開に不可欠なディープラーニングの2つの重要な側面を研究します。オープンセット認識の目的は、テスト中にオープンセットクラスからサンプルを識別することです。一

representation

arXiv reaDer

classification

learning

self-supervised

adversarial

arXiv

denoising
リンク
オブジェクト検出のための平衡ドメイン分類器に基づくドメイン不変提案
arxiv_reader 2022/02/15
画像からの物体認識とは、関心のある物体を自動的に見つけ、そのカテゴリと位置情報を返すことを意味します。畳み込みニューラルネットワーク〜（CNN）や生成的敵対的ネットワークなどの深層学習の研究の恩恵を受

arXiv reaDer

arXiv

classification

learning

R-CNN

detection

domain adaptation

GAN

dataset

CNN
リンク
コンテキストキューを使用したコンテキスト外オブジェクトの検出
arxiv_reader 2022/02/15
このホワイトペーパーでは、画像内のコンテキスト外（OOC）オブジェクトを検出するためのアプローチを紹介します。オブジェクトのセットを含む画像が与えられた場合、私たちの目標は、オブジェクトがシーンコンテ

benchmark

representation

arXiv reaDer

arXiv

dataset

detection

reasoning
リンク
深い署名-平面曲線の学習不変量
平面曲線の微分不変量の数値近似のための学習パラダイムを提案します。ディープニューラルネットワーク（DNN）の普遍近似特性は、幾何学的測度を推定するために利用されます。提案されたフレームワークは、公理的構造の好ましい代替案であることが示されています。具体的には、DNNが不安定性とサンプリングアーティファクトを克服し、平面内の特定の変換グループの対象となる曲線の数値的に安定したシグネチャを生成することを学習できることを示します。提案されたスキームを、グループ不変の弧長と曲率の代替の最先端の公理的構造と比較します。 We propose a learning paradigm for numerical approximation of differential invariants of planar curves. Deep neural-networks' (DNNs) universal
arxiv_reader 2022/02/15
平面曲線の微分不変量の数値近似のための学習パラダイムを提案します。ディープニューラルネットワーク（DNN）の普遍近似特性は、幾何学的測度を推定するために利用されます。提案されたフレームワークは、公理的

approximation

arXiv reaDer

learning

DNN

arXiv
リンク
生成制御のためのマルチレベル潜在空間構造
arxiv_reader 2022/02/15
切り捨ては、生成されたサンプルの多様性を減らすことを犠牲にして、生成されたサンプルの品質を向上させるための生成モデルで広く使用されています。 StyleGAN生成アーキテクチャを活用して、潜在空間のク

learning

arXiv reaDer

generative

arXiv
リンク
胎児の機能的磁気共鳴画像データのための運動補正と体積再構成
arxiv_reader 2022/02/15
動きの補正は、胎児の動きと母体の呼吸によって引き起こされるアーチファクトを除去し、その結果、誤った信号相関を抑制することを目的とした、胎児の脳の機能的磁気共鳴画像法（fMRI）における重要な前処理ステ

metric

arXiv

3D

arXiv reaDer

benchmark

reconstruction

estimation

regularization
リンク
制作用のビデオ駆動型ニューラル物理ベースのフェイシャルアセット
arxiv_reader 2022/02/15
説得力のある3Dダイナミックな人間の顔を作成するための制作レベルのワークフローは、ジオメトリとテクスチャの生成、モーションキャプチャとリギング、および表現の合成のための労働集約的なツールの混乱に長い間

representation

arXiv reaDer

human

reconstruction

face

3D

adaptation

arXiv

synthesis

video
リンク
マルチタスクトランスフォーマーを使用した弱教師ありテキストスポッティングに向けて
arxiv_reader 2022/02/15
テキストの検出と認識のコンポーネントを共同で最適化することの利点により、テキストスポッティングのエンドツーエンドの方法が最近文献で注目を集めています。既存の方法では通常、検出ブランチと認識ブランチが明

benchmark

attention

loss function

multi-task

arXiv reaDer

arXiv

detection

transformer

localization

weakly-supervised
リンク
閉ループ転写による構造化記憶の漸進的学習
arxiv_reader 2022/02/15
この作品は、インクリメンタル設定で複数のオブジェクトクラスの構造化メモリを学習するための最小限の計算モデルを提案します。私たちのアプローチは、低次元の特徴空間で、線形識別表現として知られる、複数のクラ

representation

arXiv reaDer

generative

learning

arXiv
リンク
画像再構成のための同変正則化
arxiv_reader 2022/02/15
この作業では、不完全な測定の下でイメージング逆問題を解決するための新しい構造適応正則化スキームである、同変による正則化（REV）を提案します。この正則化スキームは、測定の物理学における等変構造を利用し

CT

arXiv reaDer

reconstruction

regularization

arXiv

gradient
リンク
OWL (Observe, Watch, Listen): 自己中心的なビデオのアクションをローカライズするためのオーディオビジュアルの時間的コンテキスト
arxiv_reader 2022/02/15
一時的なアクションのローカリゼーション（TAL）は、近年、サードパーソンビデオで広く調査され、改善された重要なタスクです。最近では、一人称のビデオに対してきめ細かい時間的ローカリゼーションを実行するた

action

arXiv reaDer

arXiv

localization

video
リンク
FILM：ラージモーションのフレーム補間
arxiv_reader 2022/02/15
大きな中間運動を持つ2つの入力画像から複数の中間フレームを合成するフレーム補間アルゴリズムを提示します。最近の方法では、複数のネットワークを使用してオプティカルフローまたは深度を推定し、フレームシンセ

benchmark

arXiv reaDer

optical flow

pre-training

dataset

arXiv

synthesis

video
リンク
コンピュータビジョンと数学的方法を使用した工場機械のパーセンテージでの残留量
arxiv_reader 2022/02/15
AIの開発が推進されて以来、コンピュータービジョンは繁栄してきました。ディープラーニング技術の使用は、コンピューター科学者が解決策を考えた最も一般的な方法です。ただし、深層学習手法は、手動処理よりもパ

residual

arXiv reaDer

learning

arXiv

computer vision
リンク
アンサンブルベースの自己監視学習による複雑なデータの推論
arxiv_reader 2022/02/15
自己監視学習は、利用可能なラベル付きデータがほとんどまたはまったくない問題を扱います。最近の研究では、基礎となるクラスに意味上の大きな違いがある場合に印象的な結果が示されています。クラス内距離はクラス

arXiv reaDer

arXiv

clustering

human

dataset

person

self-supervised

CNN

reasoning

re-id
リンク
深い確率の推定
arxiv_reader 2022/02/15
信頼性の高い確率推定は、天気予報、医療予測、自動運転車の衝突回避など、固有の不確実性が存在する多くの実際のアプリケーションで非常に重要です。確率推定モデルは、観察された結果（たとえば、雨が降ったかどう

arXiv reaDer

classification

vehicle

estimation

dataset

arXiv

synthesis

metric
リンク
半教師あり医療画像セグメンテーションのためのクロスレベルの対照学習と一貫性の制約
arxiv_reader 2022/02/15
少数のラベル付き画像と多数のラベルなし画像をネットワークトレーニングに活用することを目的とした半教師あり学習（SSL）は、医療画像セグメンテーションにおけるデータ注釈の負担を軽減するのに役立ちます。医

representation

arXiv reaDer

semi-supervised

contrastive learning

dataset

arXiv

segmentation
リンク
フェーズストレッチ適応勾配フィールドエクストラクタ（PAGE）
arxiv_reader 2022/02/15
Phase-Stretch Adaptive Gradient-Field Extractor（PAGE）は、電磁回折と分散の物理学に着想を得たエッジ検出アルゴリズムです。計算画像アルゴリズムであり、

representation

arXiv reaDer

classification

arXiv

detection
リンク
自動運転のための画像からの3Dオブジェクト検出：調査
arxiv_reader 2022/02/15
自動運転における根本的かつ困難な問題の1つである画像からの3D物体検出は、近年、産業界と学界の両方からますます注目を集めています。深層学習技術の急速な発展の恩恵を受けて、画像ベースの3D検出は目覚まし

arXiv reaDer

learning

autonomous driving

detection

3D

attention

arXiv
リンク
事前登録が深いハイブリッドアトラスビルディング
arxiv_reader 2022/02/15
登録ベースのアトラス構築は、高次元の画像空間で計算上の課題を引き起こすことがよくあります。この論文では、計算コストを大幅に削減して大規模な画像データセットからアトラスを高速に推定する、新しいハイブリッ

arXiv reaDer

pose

arXiv

learning

3D

pre-training

dataset

MRI
リンク
HRBF-Fusion：オンザフライの暗黙を使用したRGB-Dデータからの正確な3D再構成
arxiv_reader 2022/02/15
忠実度の高い3Dオブジェクトまたはシーンの再構築は、基礎研究の問題です。 RGB-D融合の最近の進歩は、消費者レベルのRGB-Dカメラから3Dモデルを作成する可能性を示しています。ただし、離散的な性質

arXiv reaDer

RGB-D

reconstruction

arXiv

representation

estimation

dataset

synthesis

3D

tracking
リンク
- 2022年2月16日
- 2022年2月15日
- 2022年2月14日

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx