arxiv_readerのブックマーク / 2022年3月11日 - はてなブックマーク

arxiv_reader id:arxiv_reader

2022年3月11日のブックマーク (114件)

視覚言語モデルのための条件付きプロンプト学習
arxiv_reader 2022/03/11
CLIPのような強力な事前トレーニング済みの視覚言語モデルの台頭により、これらのモデルをダウンストリームのデータセットに適応させる方法を調査することが不可欠になります。コンテキスト最適化（CoOp）と

dataset

arXiv

arXiv reaDer

learning

domain

pre-training
リンク
ビデオラベルの伝播への表現の転送：実装要因が重要
arxiv_reader 2022/03/11
この作品は、色付けや時間サイクルの一貫性などの自己監視信号を使用してビデオの対応を学習する最近提案された方法に焦点を当てて、ビデオの高密度ラベル伝播の機能表現を研究します。文献では、これらの方法は一貫

dataset

self-supervised

benchmark

arXiv

arXiv reaDer

representation

unsupervised

video
リンク
3D異常検出とセグメンテーションの経験的調査
arxiv_reader 2022/03/11
画像の異常検出とセグメンテーションは近年大きな進歩を遂げましたが、3D情報はしばしば無視されてきました。このホワイトペーパーの目的は、画像異常検出における色ではなく、3Dの利点と役割をさらに理解するこ

dataset

anomaly detection

segmentation

arXiv

arXiv reaDer

representation

3D

learning
リンク
EfficientPhys：シンプル、高速、正確なカメラベースのバイタル測定を可能にする
arxiv_reader 2022/03/11
カメラベースの生理学的測定は、最先端のパフォーマンスを提供するニューラルモデルを備えた成長分野です。以前の調査では、さまざまな「エンドツーエンド」モデルが調査されてきました。ただし、これらのメソッドに

dataset

transformer

convolutional

segmentation

arXiv

arXiv reaDer

detection

video

face
リンク
AGCN：生涯マルチラベル画像認識のための拡張グラフ畳み込みネットワーク
arxiv_reader 2022/03/11
生涯マルチラベル（LML）画像認識は、シーケンシャルマルチラベル画像認識データストリームにオンラインクラスインクリメンタル分類器を構築します。 LML画像認識の主な課題は、トレーニングデータの部分ラベ

benchmark

representation

augmentation

arXiv reaDer

arXiv

convolutional
リンク
制約の少ないマクロニューラルアーキテクチャ検索に向けて
arxiv_reader 2022/03/11
Neural Architecture Search（NAS）で検出されたネットワークは、さまざまなタスクで最先端のパフォーマンスを実現し、人間が設計したネットワークよりも優れています。ただし、ほとん

human

NAS

arXiv

arXiv reaDer

estimation
リンク
ロバストで適応性のあるモーション予測に向けて：因果的表現の視点
arxiv_reader 2022/03/11
観察データから行動パターンを学習することは、動き予測への事実上のアプローチでした。それでも、現在のパラダイムには2つの欠点があります。それは、配布シフトの下での脆弱性と、知識の伝達が非効率的であるとい

dataset

OOD

arXiv

arXiv reaDer

synthesis

representation

learning

contrastive

sparse
リンク
モデルスープ：複数の微調整されたモデルの重みを平均化すると、推論時間を増やすことなく精度が向上します
arxiv_reader 2022/03/11
モデルの精度を最大化するための従来のレシピは、（1）さまざまなハイパーパラメータを使用して複数のモデルをトレーニングし、（2）保持された検証セットで最高のパフォーマンスを発揮する個々のモデルを選択し、

OOD

arXiv

arXiv reaDer

pre-training

zero-shot

classification
リンク
高密度オブジェクト検出のための予測ガイド付き蒸留
arxiv_reader 2022/03/11
実際のオブジェクト検出モデルは、安価で正確である必要があります。知識蒸留（KD）は、より大きな教師モデルからの有用な情報を活用することにより、小さくて安価な検出モデルの精度を高めることができます。ただ

dataset

arXiv

arXiv reaDer

detection

knowledge distillation
リンク
LoopITR：画像テキスト検索のためのデュアルエンコーダアーキテクチャとクロスエンコーダアーキテクチャの組み合わせ
arxiv_reader 2022/03/11
デュアルエンコーダーとクロスエンコーダーは、画像テキストの検索に広く使用されています。 2つの間で、デュアルエンコーダーは画像とテキストを個別にエンコードし、その後に内積が続きます。一方、クロスエンコ

dataset

arXiv

arXiv reaDer

distillation

learning
リンク
視覚追跡のための再帰的最小二乗推定器支援オンライン学習
arxiv_reader 2022/03/11
テスト段階で単一の初期エグザンプラから視覚オブジェクトを追跡することは、1ショット/数ショットの問題として広くキャストされています。つまり、初期適応のためのワンショット学習とオンライン適応のための数シ

one-shot

CNN

benchmark

few-shot

arXiv

arXiv reaDer

tracking

learning

adaptation
リンク
MFNet：ピクセル単位のメトリック学習を備えたマルチクラスの数ショットセグメンテーションネットワーク
arxiv_reader 2022/03/11
視覚認識タスクでは、数ショットの学習には、サポート例がほとんどないオブジェクトカテゴリを学習する機能が必要です。ディープラーニングの開発に照らしたその再人気は、主に画像分類にあります。この作業は、まだ

semantic segmentation

embedding

benchmark

few-shot

arXiv

arXiv reaDer

attention

metric learning

classification
リンク
継続的なセマンティックセグメンテーションのための表現補償ネットワーク
arxiv_reader 2022/03/11
この作業では、壊滅的な忘却なしに新しいクラスを継続的に組み込むためにディープニューラルネットワークが必要とされる、継続的なセマンティックセグメンテーション問題を研究します。古い知識と新しい知識の両方の

semantic segmentation

arXiv

arXiv reaDer

representation learning

domain

knowledge distillation
リンク
多様なクラスターベースのペア選択による注釈効率の高い人物の再識別
arxiv_reader 2022/03/11
個人の再識別（Re-ID）は、その有望な実世界のアプリケーションのために大きな注目を集めています。ただし、実際には、Re-IDモデルをトレーニングするためにトレーニングデータに注釈を付けることは常にコ

dataset

human

person

re-id

arXiv

arXiv reaDer

clustering

attention
リンク
エネルギーを意識した剪定によるコンパクトなディープニューラルネットワークに向けて
arxiv_reader 2022/03/11
驚くべきパフォーマンスにもかかわらず、現代のディープニューラルネットワークは必然的に学習と展開のためにかなりの量の計算コストを伴い、エッジデバイスでの使用と互換性がない可能性があります。これらのオーバ

edge device

compression

arXiv

arXiv reaDer

pruning

learning

classification
リンク
歩行者のマルチオブジェクトトラッキングトラッカーに対するトラックレットスイッチ敵対的攻撃
arxiv_reader 2022/03/11
マルチオブジェクトトラッキング（MOT）は積極的な進歩を遂げ、多くの優れた深層学習モデルを導き出しました。ただし、トラッカーの堅牢性が研究されることはめったになく、その成熟した関連付けアルゴリズムは追

dataset

adversarial

pedestrian

arXiv

arXiv reaDer

MOT

learning
リンク
部分的なシーンでのオブジェクトのローカリゼーションのための空間常識グラフ
arxiv_reader 2022/03/11
部分的なシーンでのオブジェクトのローカリゼーションを解決します。これは、シーンの部分的な3Dスキャンを前提として、オブジェクトの未知の位置（バッグはどこにあるかなど）を推定する新しい問題です。提案され

dataset

benchmark

arXiv

arXiv reaDer

3D

attention
リンク
https://arxiv-check-250201.firebaseapp.com/each/2111.08492v3
arxiv_reader 2022/03/11
3Dヒューマンアクションのポイントクラウドシーケンスは、順序付けられたポイントクラウドフレームのセットで構成されます。静的な点群と比較して、点群シーケンスは時間次元に比例する巨大なデータサイズを持って

dataset

human

point cloud

arXiv

action recognition

arXiv reaDer

3D
リンク
ロバストな海上障害物検出のための時間的コンテキスト
arxiv_reader 2022/03/11
完全に自律的な無人航空機（USV）には、堅牢な海上障害物の検出が不可欠です。現在広く採用されているセグメンテーションベースの障害物検出方法は、オブジェクトの反射と太陽のきらめきを障害物として誤分類する

vehicle

benchmark

arXiv

arXiv reaDer

detection

learning
リンク
画像とテキストのマッチングのための2ストリームの階層的類似性推論
arxiv_reader 2022/03/11
推論ベースのアプローチは、画像とテキストのマッチングのタスクに対する強力な能力を実証しています。この作業では、画像とテキストのマッチングに関する2つの問題に対処します。第一に、推論処理の場合、従来のア

dataset

benchmark

arXiv

arXiv reaDer

learning

reasoning
リンク
プラグアンドプレイフレームワークの下でのビデオ圧縮センシングのための辞書学習を再考する
arxiv_reader 2022/03/11
高次元（HD）データの取得と分析を目的として、スナップショット圧縮イメージング（SCI）は、光学イメージングシステムを使用してHDデータの2D圧縮測定を取得し、圧縮センシングアルゴリズムを使用してHD

simulation

dataset

reconstruction

arXiv

arXiv reaDer

denoising

learning

video
リンク
視覚的ストーリーテリングのためのグループごとのセマンティックを備えた知識豊富なアテンションネットワーク
Knowledge-enriched Attention Network with Group-wise Semantic for Visual Storytelling 技術的に挑戦的なトピックとして、視覚的なストーリーテリングは、関連する画像のグループから物語のマルチセンテンスを備えた架空の一貫したストーリーを生成することを目的としています。既存の方法は、画像以外の暗黙の情報を探索することができないため、見かけの画像ベースのコンテンツの直接的かつ厳密な記述を生成することがよくあります。したがって、これらのスキームは、全体論的な表現から一貫した依存関係を捉えることができず、合理的で流暢なストーリーの生成を損ないます。これらの問題に対処するために、グループごとのセマンティックモデルを備えた新しい知識豊富な注意ネットワークが提案されています。 3つの主要な新規コンポーネントは、実用的な利点を
arxiv_reader 2022/03/11
技術的に挑戦的なトピックとして、視覚的なストーリーテリングは、関連する画像のグループから物語のマルチセンテンスを備えた架空の一貫したストーリーを生成することを目的としています。既存の方法は、画像以外の

dataset

pooling

arXiv

arXiv reaDer

representation

attention

metric
リンク
いつ、なぜ、そしてどの事前訓練されたGANが有用ですか？
arxiv_reader 2022/03/11
文献では、新しいデータセットで事前トレーニングされたGANを微調整するためのいくつかの方法が提案されています。これにより、特にデータが限られている場合、最初からトレーニングする場合に比べてパフォーマン

dataset

computer vision

arXiv

arXiv reaDer

GAN
リンク
EyeLoveGAN：ドメインシフトを活用してcycleGANでネットワーク学習を促進する
arxiv_reader 2022/03/11
この論文は、REFUGEチャレンジ2020への私たちの貢献を示しています。チャレンジは、網膜画像のデータセットに基づく3つのタスクで構成されていました。視神経乳頭とカップのセグメンテーション、緑内障の

U-Net

CNN

segmentation

arXiv

arXiv reaDer

pre-training

detection

localization

classification
リンク
顔のなりすまし防止のためのシャッフルスタイルアセンブリによるドメインの一般化
arxiv_reader 2022/03/11
多様なプレゼンテーション攻撃が絶えず出現しているため、一般化可能な顔のなりすまし防止（FAS）がますます注目を集めています。ほとんどの既存のメソッドは、完全な表現にドメイン一般化（DG）を実装します。

benchmark

arXiv

arXiv reaDer

representation

contrastive learning

attention

face

domain
リンク
TrueTypeトランスフォーマー：アウトライン形式での文字およびフォントスタイルの認識
arxiv_reader 2022/03/11
アウトライン形式で文字やフォントのスタイルを認識できるTrueTypeトランスフォーマー（T3）を提案します。 TrueTypeなどのアウトライン形式は、各文字をストロークの輪郭の制御点のシーケンスと

classification

arXiv

arXiv reaDer

transformer
リンク
タスク相関解きほぐしと制御可能なサンプル合成による非生成的一般化ゼロショット学習
arxiv_reader 2022/03/11
疑似サンプルの合成は、現在、一般化ゼロショット学習（GZSL）の問題を解決するための最も効果的な方法です。ほとんどのモデルは競争力のあるパフォーマンスを実現しますが、それでも2つの問題があります。（1

adversarial

benchmark

few-shot

arXiv

arXiv reaDer

disentangling

domain

synthesis

representation

zero-shot
リンク
対応する反復ジオメトリ：テクスチャのないオブジェクトの非常に効率的な3Dトラッキングのための領域と深さの融合
arxiv_reader 2022/03/11
3D空間でオブジェクトを追跡し、それらの6DoFポーズを予測することは、コンピュータービジョンの重要なタスクです。最先端のアプローチでは、この問題に取り組むためにオブジェクトのテクスチャに依存すること

dataset

occlusion

computer vision

pose

tracking

arXiv

arXiv reaDer

3D
リンク
SelfTune：自己監視学習による計量的にスケーリングされた単眼深度推定
SelfTune: Metrically Scaled Monocular Depth Estimation through Self-Supervised Learning 野生の単眼深度推定は、本質的に未知のスケールまでの深度を予測します。スケールのあいまいさの問題を解決するために、固有受容センサーを備えた単眼同時ローカリゼーションおよびマッピング（SLAM）を活用する学習アルゴリズムを提示します。このような単眼SLAMシステムは、計量的にスケーリングされたカメラポーズを提供できます。これらのメトリックポーズと単眼シーケンスを考慮して、メトリックスケーリングされた深度推定を可能にするために、事前にトレーニングされた監視あり単眼深度ネットワークの自己監視学習方法を提案します。私たちのアプローチは、高品質の深さを予測するために私たちのネットワークを導く教師と生徒の定式化に基づいています。私
arxiv_reader 2022/03/11
野生の単眼深度推定は、本質的に未知のスケールまでの深度を予測します。スケールのあいまいさの問題を解決するために、固有受容センサーを備えた単眼同時ローカリゼーションおよびマッピング（SLAM）を活用する

self-supervised

SLAM

pose

arXiv

arXiv reaDer

metric

localization

monocular

estimation

pre-training
リンク
バックボーンがすべてのニーズ：ビジュアルオブジェクトトラッキングのための簡素化されたアーキテクチャ
arxiv_reader 2022/03/11
汎用のニューラルアーキテクチャを利用して、手作業で配線された設計や誘導バイアスを置き換えることは、最近大きな関心を集めています。ただし、既存の追跡アプローチはカスタマイズされたサブモジュールに依存して

transformer

bias

tracking

arXiv

arXiv reaDer
リンク
StyleBabel：芸術的なスタイルのタグ付けとキャプション
arxiv_reader 2022/03/11
自然言語のキャプションと自由形式のタグのユニークなオープンアクセスデータセットであるStyleBabelを紹介します。これは、専門の芸術学校やデザイン学校で勉強している専門家から新しい参加型の方法で収

dataset

captioning

transformer

embedding

arXiv

arXiv reaDer

representation learning
リンク
MR画像回復のデータ効率的な文脈学習のための漸進的にボリューム化された深層生成モデル
arxiv_reader 2022/03/11
磁気共鳴画像法（MRI）は、多数の組織のコントラストの下で特定の解剖学的ボリュームを画像化する柔軟性を提供します。それでも、スキャン時間の考慮により、MRIデータの品質と多様性に厳しい制限が課せられま

MRI

reconstruction

arXiv

arXiv reaDer

synthesis

generative

learning

domain
リンク
GrainSpace：穀物の細粒でドメイン適応型の認識のための大規模なデータセット
arxiv_reader 2022/03/11
穀物は人間の食生活の重要な部分であり、人々の生活と国際貿易にとって重要な商品です。穀物外観検査（GAI）は、適切な循環、保管、食品加工などのために、穀物の品質と穀物の層別化を決定するための重要なステッ

dataset

human

self-supervised

OOD

computer vision

benchmark

arXiv

arXiv reaDer

semi-supervised

domain adaptation
リンク
BEAT：会話型ジェスチャ合成のための大規模な意味論的および感情的なマルチモーダルデータセット
arxiv_reader 2022/03/11
マルチモーダルデータを条件とする現実的で鮮やかな人間のような合成会話ジェスチャを実現することは、利用可能なデータセット、モデル、および標準の評価指標がないため、未解決の問題です。これに対処するために、

dataset

human

synthesis

arXiv

arXiv reaDer

emotion

gesture

face

metric
リンク
オブジェクト検出のためのドメインの一般化
arxiv_reader 2022/03/11
ドメインの一般化は、ドメイン固有の機能を抑制しながらドメイン不変の機能の学習を促進することを目的としているため、モデルはこれまでに見られなかったターゲットドメインでうまく一般化できます。この論文では、

dataset

learning

representation

domain

arXiv reaDer

arXiv

detection
リンク
パッチワーク：3DLiDARセンサーを使用した地上尤度推定による同心円ゾーンベースの地域ごとの地上セグメンテーション
arxiv_reader 2022/03/11
地上のモバイルプラットフォームがナビゲーションや隣接するオブジェクトの認識を実行するには、地上のセグメンテーションが不可欠です。残念ながら、急な斜面が特徴であるため、地面は平らではありません。でこぼこ

dataset

point cloud

segmentation

arXiv

arXiv reaDer

representation

3D

LiDAR

estimation
リンク
深層構造とテクスチャ合成による概念圧縮
arxiv_reader 2022/03/11
既存の圧縮方法は通常、信号レベルの冗長性の除去に焦点を合わせていますが、視覚データをコンパクトな概念コンポーネントに分解する可能性と多様性については、まだ研究が不足しています。この目的のために、視覚デ

reconstruction

compression

synthesis

arXiv

arXiv reaDer

representation

GAN
リンク
縦方向構造MRIを使用した外れ値ベースの自閉症検出
arxiv_reader 2022/03/11
臨床評価（認知テスト）を使用した自閉症スペクトラム障害（ASD）の診断は、個人間のばらつきが大きいため困難です。効果的な治療法が存在しないため、迅速で信頼性の高いASD診断により、治療計画の効果的な準

dataset

MRI

spatio-temporal

reconstruction

arXiv

arXiv reaDer

detection

GAN

metric
リンク
点群セグメンテーションのための対照境界学習
arxiv_reader 2022/03/11
点群のセグメンテーションは、3D環境を理解する上で基本です。ただし、現在の3Dポイントクラウドセグメンテーション方法は、通常、シーン境界でのパフォーマンスが低く、全体的なセグメンテーションパフォーマン

point cloud

segmentation

arXiv

arXiv reaDer

representation

3D

contrastive

learning

metric
リンク
グローバルレベルおよび単語レベルの機能に基づくリアルタイムのシーンテキスト検出
arxiv_reader 2022/03/11
自然なシーンで任意の形状のテキストを高精度かつ効率的に検出することは非常に困難な作業です。本論文では、シーンテキスト検出フレームワーク、すなわちGWNetを提案する。これは主にグローバルモジュールとR

dataset

differentiable

R-CNN

benchmark

arXiv

arXiv reaDer

detection

real time
リンク
ビデオにおける偏りのない時間的文の根拠の詳細：データセット、メトリック、およびアプローチ
arxiv_reader 2022/03/11
トリミングされていないビデオで自然言語の文をグラウンディングすることを目的としたビデオでの時間的センテンスグラウンディング（TSGV）は、過去数年にわたって広く注目を集めています。ただし、最近の研究で

dataset

OOD

bias

benchmark

arXiv

arXiv reaDer

representation

attention

video

metric
リンク
現実に戻る：形状誘導ラベル拡張による弱教師あり3Dオブジェクト検出
arxiv_reader 2022/03/11
この論文では、3Dオブジェクト検出のための弱教師ありアプローチを提案します。これにより、位置レベルの注釈（つまりオブジェクト中心の注釈）を使用して強力な3D検出器をトレーニングできます。ボックスの注釈

dataset

arXiv

arXiv reaDer

synthesis

weakly-supervised

detection

domain adaptation

3D
リンク
コンピュータ断層撮影画像からの深層学習ベースの自動COVID-19分類
arxiv_reader 2022/03/11
この論文は、画像分類のための畳み込みニューラルネットワーク（CNN）モデルを提示し、より深く、したがってより複雑な代替案を回避しながら、COVID-19診断の予測性能を向上させることを目的としています

dataset

COVID-19

CNN

arXiv

arXiv reaDer

learning

classification
リンク
画像分類子の漫画の説明
arxiv_reader 2022/03/11
レート歪み説明（RDE）フレームワークに基づいて、画像分類子に合わせて調整された、モデルにとらわれない新しい説明方法であるCartoonX（漫画の説明）を紹介します。自然画像は、ほぼ区分的に滑らかな信

domain

sparse

arXiv

arXiv reaDer
リンク
テーブル構造認識のためのニューラルコラボレーティブグラフマシン
arxiv_reader 2022/03/11
最近、テーブル構造の認識は、深いグラフモデルの助けを借りて目覚ましい進歩を遂げました。それらのほとんどは、表形式の要素の単一の視覚的手がかりを利用するか、グラフの関係を推論するために、初期の融合を介し

benchmark

arXiv

arXiv reaDer

reasoning
リンク
敵対的知識蒸留による画像翻訳モデルの会員プライバシー保護
arxiv_reader 2022/03/11
画像から画像への変換モデルは、メンバーシップ推論攻撃（MIA）に対して脆弱であることが示されています。この攻撃では、攻撃者の目標は、サンプルがモデルのトレーニングに使用されているかどうかを識別すること

adversarial

arXiv

arXiv reaDer

knowledge distillation
リンク
顔のマイクロエクスプレッション認識のためのデュアル確率グラフ畳み込みネットワークの転送
arxiv_reader 2022/03/11
マイクロエクスプレッション認識は、嘘発見器、犯罪者検出器、心理的相談への幅広い応用により、ますます注目を集めています。小さなマイクロエクスプレッションデータの認識性能を向上させるために、この論文では、

dataset

convolutional

benchmark

transfer learning

arXiv

arXiv reaDer

detection

optical flow

attention

loss function
リンク
ReF-ローカル特徴マッチングのための回転同変特徴
arxiv_reader 2022/03/11
スパースローカル機能のマッチングは、多くのコンピュータービジョンおよびロボット工学のタスクにとって極めて重要です。困難な外観条件と視角に対する不変性、したがってそれらの有用性を改善するために、既存の学

dataset

CNN

computer vision

benchmark

arXiv

arXiv reaDer

bias

sparse

estimation
リンク
クラウドソースシーンの変化の検出とローカルマップの更新
arxiv_reader 2022/03/11
タイムマップ記述子が古くなるにつれてシーンが変化し、VPSローカリゼーションの精度に影響を与えます。この作業では、マップの更新に続く構造およびテクスチャシーンの変更を検出するアプローチを提案します。私

point cloud

segmentation

pose

arXiv

arXiv reaDer

detection

3D

LiDAR

localization
リンク
MAC-ReconNet：動的重み予測を使用したMR画像再構成のための複数取得コンテキストベースの畳み込みニューラルネットワーク
arxiv_reader 2022/03/11
畳み込みニューラルネットワークベースのMR再構成法は、高速で高品質の再構成を提供することが示されています。 CNNベースのモデルの主な欠点は、柔軟性に欠け、特定の取得コンテキストでのみ効果的に動作でき

dataset

MRI

reconstruction

CNN

arXiv

arXiv reaDer
リンク
HANA：オフライン手書きテキスト認識用の手書きNAmeデータベース
arxiv_reader 2022/03/11
通常、AIベースの文字起こしモデルと組み合わせて、履歴データセット間で個人をリンクする方法が急速に開発されています。おそらく、リンクするための唯一の最も重要な識別子は個人名です。ただし、個人名は列挙や

benchmark

transfer learning

arXiv

arXiv reaDer
リンク
詳細：3Dシーンでの高密度キャプションのためのマルチオーダーリレーションマイニング
arxiv_reader 2022/03/11
3D高密度キャプションは、最近提案された新しいタスクであり、点群には2D対応物よりも多くの幾何学的情報が含まれています。ただし、オブジェクト間の関係がより複雑で多様であるため、これもより困難です。既存

dataset

captioning

point cloud

convolutional

arXiv

arXiv reaDer

learning

3D

attention
リンク
相互蒸留によるオンラインディープメトリック学習
arxiv_reader 2022/03/11
ディープメトリック学習は、入力データを埋め込みスペースに変換することを目的としています。埋め込みスペースでは、類似したサンプルは近くにあり、異なるサンプルは互いに遠く離れています。実際には、新しいカテ

augmentation

embedding

estimation

arXiv

arXiv reaDer

distillation

metric learning

multi-task
リンク
チェリートマトのハイパースペクトルイメージング
arxiv_reader 2022/03/11
チェリートマト（Solanum Lycopersicum）は、その特別な風味により世界中の消費者に人気があります。可溶性固形分（SSC）と硬さは、製品の品質を評価するための2つの重要な指標です。この作

convolutional

arXiv

arXiv reaDer

detection

learning

metric
リンク
ディープニューラルネットワークを使用した画面撮影の弾力性のあるドキュメント画像透かし方式
arxiv_reader 2022/03/11
画面読み上げ時代の到来により、画面に表示された機密文書は、痕跡を残さずにカメラで簡単にキャプチャできるようになりました。したがって、この論文は、深いニューラルネットワークを使用する文書画像のための新し

embedding

arXiv

arXiv reaDer
リンク
Wukong：1億の大規模な中国のクロスモーダル事前トレーニングデータセットと基盤フレームワーク
arxiv_reader 2022/03/11
Vision-Language Pre-training（VLP）モデルは、さまざまなダウンストリームタスクで優れたパフォーマンスを示しています。彼らの成功は、事前にトレーニングされたクロスモーダルデ

dataset

benchmark

arXiv

arXiv reaDer

pre-training

contrastive learning

zero-shot

classification
リンク
バックグラウンドマッチングを使用したアダプティブバックグラウンドマット
arxiv_reader 2022/03/11
マットの問題を解決するのは難しいため、多くの方法では、高品質のアルファマットを取得するために何らかの支援を使用しています。グリーンスクリーンのマット方法は、物理的な機器に依存しています。 Trimap

video

estimation

arXiv

arXiv reaDer
リンク
AD-GAN：整列されたもつれを解くトレーニングによるエンドツーエンドの教師なし核セグメンテーション
arxiv_reader 2022/03/11
この論文では、教師なし細胞核のセグメンテーションについて考察します。細胞核画像とランダムに合成されたマスクとの間で最近提案された対になっていない画像から画像への変換を利用して、既存のアプローチ、例えば

dataset

segmentation

arXiv

arXiv reaDer

disentangling

unsupervised

GAN

3D

metric
リンク
NeRFocus: 3D 合成デフォーカス用のニューラルラディアンスフィールド
arxiv_reader 2022/03/11
ニューラルラディアンスフィールド（NeRF）は、3Dインタラクティブエクスペリエンスに新しい波をもたらします。ただし、没入型体験の重要な部分として、焦点ぼけ効果はNeRF内で完全には調査されていません

pose

synthesis

arXiv

arXiv reaDer

3D
リンク
アダプティブフィンガーと合成データで訓練されたオブジェクト検出による雑然とした食品の把握
arxiv_reader 2022/03/11
食品包装業界は、1種類の食品の中でも、さまざまな形やサイズの多種多様な食品を扱っています。メニューも多様で頻繁に変更されるため、ピックアンドプレースの自動化は困難です。ビンピッキングの一般的なアプロー

dataset

human

segmentation

arXiv

arXiv reaDer

synthesis

detection

3D
リンク
疑わしい物体の重要性: 1 段階の視覚的グラウンディングに関するモデルの予測を再考する
arxiv_reader 2022/03/11
最近では、2段グラウンダーに比べて精度は同等ですが効率が大幅に高いため、1段ビジュアルグラウンダーが注目されています。ただし、オブジェクト間の関係モデリングは、1ステージグラウンダーについては十分に研

benchmark

arXiv

arXiv reaDer

representation

attention
リンク
効率的な事前トレーニングとしての知識の抽出：より高速な収束、より高いデータ効率、およびより優れた転送可能性
arxiv_reader 2022/03/11
大規模な事前トレーニングは、さまざまなコンピュータビジョンタスクにとって重要であることが証明されています。ただし、事前トレーニングデータの量、モデルアーキテクチャの量、およびプライベート/アクセスでき

dataset

computer vision

arXiv

arXiv reaDer

representation

pre-training

knowledge distillation
リンク
ラベルからプロトタイプへの学習によるオープンセットテキスト認識に向けて
arxiv_reader 2022/03/11
シーンテキスト認識は人気のあるトピックであり、さまざまなタスクに役立ちます。クローズセットのテキスト認識の課題に対して多くの方法が提案されていますが、評価セットにトレーニングセットに表示されない新しい

dataset

arXiv

arXiv reaDer

learning

zero-shot
リンク
偽の話す顔ビデオ検出のための視聴覚注意ベースのマルチモーダルネットワーク
arxiv_reader 2022/03/11
DeepFakeベースのデジタル顔の偽造は、公共メディアのセキュリティを脅かしています。特に、話す顔の生成に唇の操作が使用されている場合、偽のビデオ検出の難しさがさらに改善されます。与えられたスピーチ

dataset

human

CNN

arXiv

arXiv reaDer

deepfake

representation

detection

attention

face
リンク
暗号化された特徴マップを使用したオブジェクト検出モデルのアクセス制御
arxiv_reader 2022/03/11
本論文では、物体検出モデルのアクセス制御方法を提案する。暗号化された画像または暗号化された特徴マップの使用は、不正アクセスからのモデルのアクセス制御に効果的であることが実証されています。ただし、このア

classification

arXiv reaDer

arXiv

semantic segmentation

detection
リンク
MVP：マルチモダリティガイド付きビジュアル事前トレーニング
arxiv_reader 2022/03/11
最近、マスクされた画像モデリング（MIM）は、視覚的な事前トレーニングの有望な方向になっています。ビジョントランスフォーマーのコンテキストでは、MIMは、トークンレベルの機能を事前定義されたスペースに

transformer

arXiv

arXiv reaDer

representation

pre-training
リンク
Transformerベースのビデオセマンティック埋め込みによるゼロショットアクション認識
arxiv_reader 2022/03/11
ビデオアクション認識は数年前から活発な研究分野でしたが、ゼロショットアクション認識は最近注目を集め始めたばかりです。ただし、ゼロショット学習パラダイムの正式な定義が不足しているため、これまで見られなか

dataset

transformer

embedding

benchmark

arXiv

action recognition

arXiv reaDer

learning

video

zero-shot
リンク
アダプティブオートアタックによる敵対的ロバスト性の実用的評価
arxiv_reader 2022/03/11
敵対的攻撃に対する防御モデルは大幅に成長しましたが、実用的な評価方法の欠如が進歩を妨げています。評価は、予算の反復回数とテストデータセットが与えられた場合に、防御モデルの堅牢性の下限を探すこととして定

dataset

adversarial

arXiv

arXiv reaDer
リンク
Vision Transformer の最近の進歩: さまざまな分野の調査
arxiv_reader 2022/03/11
ビジョントランスフォーマー（ViT）は、畳み込みニューラルネットワーク（CNN）と比較して、さまざまなビジョンタスクでより一般的になり、支配的な手法になっています。コンピュータビジョンの要求の厳しい技

dataset

transformer

CNN

computer vision

benchmark

arXiv

arXiv reaDer
リンク
意味的類似性に対する周波数駆動の知覚できない敵対的攻撃
arxiv_reader 2022/03/11
現在の敵対的攻撃の研究は、注意深く作成された摂動に対する学習ベースの分類器の脆弱性を明らかにしています。ただし、ほとんどの既存の攻撃方法は、カテゴリの閉じたセットを持つ分類レイヤーに依存しているため、

dataset

adversarial

human

classification

arXiv

arXiv reaDer

representation

metric
リンク
インタラクティブセグメンテーションのための意図認識機能伝播ネットワーク
arxiv_reader 2022/03/11
ポイントベースのインタラクティブセグメンテーションの問題に取り組むことを目指しています。この問題では、ユーザーの意図を正しく推測することと、ユーザーが提供する注釈をラベルのない領域に効率的に伝播するこ

segmentation

benchmark

tracking

arXiv

arXiv reaDer

representation

sparse

estimation
リンク
画像の超解像のための効率的な非局所的な対照的注意
arxiv_reader 2022/03/11
Non-Local Attention（NLA）は、自然画像の固有の特徴相関を活用することにより、単一画像超解像（SISR）に大幅な改善をもたらします。ただし、NLAはノイズの多い情報に大きな重みを与

super-resolution

arXiv

arXiv reaDer

contrastive learning

approximation

attention

sparse
リンク
視覚と言語ナビゲーションのためのクロスモーダルマップ学習
arxiv_reader 2022/03/11
視覚と言語のナビゲーション（VLN）の問題を検討します。 VLNの現在の方法の大部分は、LSTMなどの非構造化メモリを使用するか、エージェントの自己中心的観察に対するクロスモーダル注意を使用して、エン

LSTM

benchmark

arXiv

arXiv reaDer

representation

learning

attention
リンク
商空間における多様体モデリング：画像パッチのデコード可能性による不変マッピングの学習
arxiv_reader 2022/03/11
この研究は、同値類の概念を使用した画像パッチの多様体学習のフレームワークを提案します：商空間における多様体モデリング（MMQS）。 MMQSでは、画像のローカルパッチのセットをそのままではなく、同値類

super-resolution

self-supervised

reconstruction

arXiv

arXiv reaDer

manifold

denoising

learning
リンク
ビデオキャプションのための階層的モジュラーネットワーク
arxiv_reader 2022/03/11
ビデオキャプションは、表現学習が重要な役割を果たすコンテンツに応じて自然言語の説明を生成することを目的としています。既存の方法は、主に、言語セマンティクスを十分に活用せずに、生成されたキャプションをグ

captioning

action

arXiv

arXiv reaDer

representation learning

video
リンク
参照ベースの超解像のための粗いものから細かいものへの埋め込みパッチマッチとマルチスケール動的集約
arxiv_reader 2022/03/11
参照ベースの超解像（RefSR）は、外部参照（Ref）画像を使用してリアルなテクスチャを作成する上で大きな進歩を遂げました。ただし、既存のRefSRメソッドは、入力サイズに関して2次計算リソースを消費

super-resolution

arXiv

arXiv reaDer
リンク
DEER：シーンテキストスポッティングのための検出にとらわれないエンドツーエンドの認識機能
arxiv_reader 2022/03/11
最近のエンドツーエンドのシーンテキストスポッターは、任意の形状のテキストインスタンスの認識において大幅な改善を達成しました。テキストスポッティングの一般的なアプローチでは、関心領域のプーリングまたはセ

dataset

benchmark

segmentation

arXiv

arXiv reaDer

pooling

detection
リンク
MetAug：メタ機能拡張による対照学習
arxiv_reader 2022/03/11
対照学習にとって重要なことは何ですか？対照学習は、有益な機能、つまり「ハード」（ポジティブまたはネガティブ）機能に大きく依存していると私たちは主張します。初期の作品には、複雑なデータ拡張と大きなバッチ

dataset

augmentation

benchmark

arXiv

arXiv reaDer

regularization

representation

gradient

contrastive learning
リンク
不確実性に基づく自己相互監視による半教師ありセマンティックセグメンテーション
Semi-supervision semantic segmentation with uncertainty-guided self cross supervision 半教師ありセグメンテーションを実現する強力な方法として、相互監視法は、豊富なラベルなし画像を使用して、独立したアンサンブルモデルに基づいて相互整合性を学習します。ただし、相互監視によって生成された誤った疑似ラベリング情報は、トレーニングプロセスを混乱させ、セグメンテーションモデルの有効性に悪影響を及ぼします。さらに、このような方法でのアンサンブルモデルのトレーニングプロセスは、計算リソースのコストを増大させ、トレーニング効率を低下させます。これらの問題を解決するために、我々は新しい交差監視方法、すなわち不確実性誘導自己交差監視（USCS）を提案します。アンサンブルモデルに加えて、最初に、共有モデルで複数の出力を生成できる
arxiv_reader 2022/03/11
半教師ありセグメンテーションを実現する強力な方法として、相互監視法は、豊富なラベルなし画像を使用して、独立したアンサンブルモデルに基づいて相互整合性を学習します。ただし、相互監視によって生成された誤っ

semi-supervised

semantic segmentation

arXiv

arXiv reaDer
リンク
パノプティコンレイアウト生成によるインタラクティブな画像合成
arxiv_reader 2022/03/11
ユーザーガイド入力からのインタラクティブな画像合成は、ユーザーが生成された画像のシーン構造を簡単に制御したい場合に困難な作業です。インタラクティブでリアルな偽の画像を取得するために、レイアウトベースの

dataset

arXiv

arXiv reaDer

synthesis

GAN

classification
リンク
OpenTAL：オープンセットの時間的アクションのローカリゼーションに向けて
arxiv_reader 2022/03/11
Temporal Action Localization（TAL）は、教師あり学習パラダイムの下で目覚ましい成功を収めています。ただし、既存のTALメソッドは閉集合の仮定に基づいているため、オープンワ

action

benchmark

arXiv

arXiv reaDer

pre-training

learning

localization

video

classification
リンク
データ駆動型STAPレーダーに向けて
arxiv_reader 2022/03/11
古典的なレーダー、コンピュータービジョン、および深層学習からの技術の融合を使用して、時空間適応処理（STAP）レーダーへの継続的なデータ駆動型アプローチを特徴づけます。 ISL Incが開発したサイト

simulation

dataset

CNN

computer vision

R-CNN

arXiv

arXiv reaDer

learning

video

classification
リンク
ディープニューラルネットワークによるノイズの多いラベルからの学習：調査
arxiv_reader 2022/03/11
ディープラーニングは、大量のビッグデータの助けを借りて、多くのドメインで目覚ましい成功を収めています。ただし、実際の多くのシナリオでは高品質のラベルがないため、データラベルの品質が問題になります。ノイ

dataset

arXiv

arXiv reaDer

learning

estimation

domain

metric
リンク
意味的対応のための対照表現の学習
arxiv_reader 2022/03/11
意味的に関連する画像間の密な対応は広く研究されていますが、2つの課題に直面しています：1）同じカテゴリのオブジェクトでも外観、スケール、ポーズに大きなばらつきが存在する、2）ピクセルレベルの密な対応に

dataset

self-supervised

convolutional

benchmark

pose

arXiv

arXiv reaDer

representation

contrastive learning

face
リンク
マルチビューステレオ用の曲率ガイド付きダイナミックスケールネットワーク
arxiv_reader 2022/03/11
マルチビューステレオ（MVS）は、正確な3D再構成のための重要なタスクです。最近の研究では、集約された3Dコストボリュームとその正則化を設計することにより、MVSでのマッチングコストボリュームのパフォ

reconstruction

convolutional

arXiv

arXiv reaDer

regularization

stereo

3D

learning
リンク
知識蒸留による神経ODEの改善
arxiv_reader 2022/03/11
ニューラル常微分方程式（ニューラルODE）は、ニューラルネットワークによって指定された常微分方程式を使用して隠れユニットの連続ダイナミクスを構築し、多くのタスクで有望な結果を示します。ただし、ニューラ

adversarial

arXiv

arXiv reaDer

learning

classification

knowledge distillation
リンク
仮想深度を使用した複数の360度画像からの高密度深度推定
arxiv_reader 2022/03/11
本論文では、マルチビュー360°画像のための高密度深度推定パイプラインを提案します。提案されたパイプラインは、360°画像の放射状歪みを補正する球面カメラモデルを活用しています。この論文の主な貢献は、

dataset

estimation

arXiv

arXiv reaDer
リンク
拡散オートエンコーダ：意味のあるデコード可能な表現に向けて
arxiv_reader 2022/03/11
拡散確率モデル（DPM）は、GANに匹敵する画像生成で驚くべき品質を達成しました。ただし、GANとは異なり、DPMは、意味的な意味がなく、他のタスクの有用な表現として機能できない潜在変数のセットを使用

reconstruction

few-shot

arXiv

arXiv reaDer

denoising

GAN

representation learning
リンク
ツリー構造のマルチタスクモデルレコメンダー
ツリー構造のマルチタスクアーキテクチャは、マルチタスク学習（MTL）のコンテキストで複数のビジョンタスクに共同で取り組むために採用されています。主な課題は、タスクの精度と計算効率の両方を最適化するために、バックボーンモデルを指定して、各タスクの分岐先を決定することです。この課題に対処するために、このペーパーでは、一連のタスクと畳み込みニューラルネットワークベースのバックボーンモデルを前提として、ユーザー指定の計算を満たしながら高いタスクパフォーマンスを実現できるツリー構造のマルチタスクアーキテクチャを自動的に提案する推奨事項を提案します。モデルトレーニングを実行せずに予算を立てます。人気のあるMTLベンチマークの広範な評価は、推奨されるアーキテクチャが、最先端のMTLメソッドと比較して競争力のあるタスクの精度と計算効率を達成できることを示しています。 Tree-structured mul
arxiv_reader 2022/03/11
ツリー構造のマルチタスクアーキテクチャは、マルチタスク学習（MTL）のコンテキストで複数のビジョンタスクに共同で取り組むために採用されています。主な課題は、タスクの精度と計算効率の両方を最適化するため

CNN

benchmark

arXiv

arXiv reaDer

learning

multi-task
リンク
NLX-GPT：ビジョンおよびビジョン言語タスクにおける自然言語説明のモデル
NLX-GPT: A Model for Natural Language Explanations in Vision and Vision-Language Tasks 自然言語説明（NLE）モデルは、人間にやさしく、高レベルで、きめの細かい自然言語文を生成することにより、ブラックボックスシステムの意思決定プロセスを説明することを目的としています。現在のNLEモデルは、GPTなどの言語モデル（説明モデル）を介して、VQAモデルなどのビジョンまたはビジョン言語モデル（別名、タスクモデル）の意思決定プロセスを説明します。タスクモデルに必要な追加のメモリリソースと推論時間を除いて、タスクモデルと説明モデルは完全に独立しているため、説明と回答を予測するために行われた推論プロセスとの関連付けが解除されます。答えを予測し、それを説明することができる、一般的でコンパクトで忠実な言語モデルであるNLX
arxiv_reader 2022/03/11
自然言語説明（NLE）モデルは、人間にやさしく、高レベルで、きめの細かい自然言語文を生成することにより、ブラックボックスシステムの意思決定プロセスを説明することを目的としています。現在のNLEモデルは

VQA

arXiv

arXiv reaDer

pre-training

reasoning
リンク
推移的情報理論とその深層生成モデルへの応用
The Transitive Information Theory and its Application to Deep Generative Models 逆説的ですが、変分オートエンコーダー（VAE）は、強力なデコーダーモデルを利用してリアルな画像を生成し、学習した表現を折りたたむか、正則化係数を増やして表現を解きほぐし、最終的にぼやけた例を生成することで、2つの反対方向にプッシュできます。既存の方法では、問題を圧縮と再構築の間のレート歪みのトレードオフに絞り込みます。優れた再構成モデルは、より詳細な情報をエンコードする大容量の潜在性を学習すると主張しますが、その使用は2つの主要な問題によって妨げられます。平均場変分推論は、これらのユニットをもっともらしい新しい出力に再結合するタスクを実行不可能にする階層構造を強制しません。その結果、解きほぐされた表現の階層を学習するシステムと、学習
arxiv_reader 2022/03/11
逆説的ですが、変分オートエンコーダー（VAE）は、強力なデコーダーモデルを利用してリアルな画像を生成し、学習した表現を折りたたむか、正則化係数を増やして表現を解きほぐし、最終的にぼやけた例を生成するこ

reconstruction

bias

compression

disentangling

arXiv

arXiv reaDer

regularization

representation

generative
リンク
SynWoodScape：自動運転用の合成サラウンドビュー魚眼カメラデータセット
arxiv_reader 2022/03/11
サラウンドビューカメラは、自動運転用の主要なセンサーであり、近接場の知覚に使用されます。これは、商用車で最も一般的に使用されているセンサーの1つです。 190°の視野を持つ4台の魚眼カメラが車両の周囲

dataset

vehicle

arXiv

arXiv reaDer

synthesis

autonomous driving

optical flow
リンク
限られたラベル予算の下でのアクティブラーニングによるオプティカルフロートレーニング
arxiv_reader 2022/03/11
オプティカルフロー予測子の教師ありトレーニングは、一般に、教師なしトレーニングよりも精度が高くなります。ただし、パフォーマンスの向上には、多くの場合、注釈のコストが高くなります。半教師ありトレーニング

dataset

arXiv

arXiv reaDer

synthesis

unsupervised

semi-supervised

optical flow

learning
リンク
顔認識アルゴリズムのために提案された公平性モデルの評価
arxiv_reader 2022/03/11
ディープラーニングの開始とトレーニングデータの広範な利用可能性により、学術および商業組織による顔認識アルゴリズムの開発は急速に成長しています。顔認識アルゴリズムのパフォーマンスのテストは、毎年のパフォ

dataset

arXiv

arXiv reaDer

face recognition

learning
リンク
転送可能なGNNを介した適応軌道予測
歩行者の軌道予測は、自動運転やロボット工学などの幅広いAIアプリケーションに不可欠なコンポーネントです。既存の方法は通常、潜在的な分布の違い（たとえば、ショッピングモールと通り）を無視しながら、トレーニングとテストの動作が同じパターンに従うことを前提としています。この問題により、必然的にパフォーマンスが低下します。この問題に対処するために、統一されたフレームワークで軌道予測とドメインアラインメントを共同で実行する新しいTransferable Graph Neural Network（T-GNN）フレームワークを提案します。具体的には、ドメイン固有の知識が削減された構造運動の知識を探索するために、ドメイン不変のGNNが提案されます。さらに、注意ベースの適応知識学習モジュールは、知識伝達のためのきめ細かい個人レベルの特徴表現を探索するためにさらに提案されます。このようにして、異なる軌道ドメイ
arxiv_reader 2022/03/11
歩行者の軌道予測は、自動運転やロボット工学などの幅広いAIアプリケーションに不可欠なコンポーネントです。既存の方法は通常、潜在的な分布の違い（たとえば、ショッピングモールと通り）を無視しながら、トレー

trajectory

pedestrian

GNN

benchmark

arXiv

arXiv reaDer

representation

autonomous driving

domain
リンク
動的インスタンスドメインの適応
arxiv_reader 2022/03/11
教師なしドメイン適応（UDA）に関する既存の研究のほとんどは、各ドメインのトレーニングサンプルにドメインラベル（絵画、写真など）が付属していることを前提としています。各ドメインからのサンプルは同じ分布

dataset

convolutional

arXiv

arXiv reaDer

semi-supervised

unsupervised

domain adaptation

learning
リンク
リソース効率の高い不変ネットワーク：展開された最適化による指数関数的ゲイン
Resource-Efficient Invariant Networks: Exponential Gains by Unrolled Optimization 迷惑な変換に対する不変性を実現することは、堅牢で信頼性の高いビジョンシステムを構築する上での基本的な課題です。不変性への既存のアプローチは、変換のファミリーの次元に応じて指数関数的にスケーリングし、ポーズや視点の変化などの視覚データの自然な変動に対処できなくなります。これらのアプローチの一般的な制限を特定し（変換の高次元空間をトラバースするためにサンプリングに依存します）、最適化に基づいて不変ネットワークを構築するための新しい計算プリミティブを提案します。これにより、多くのシナリオで、より効率的な方法が提供されます。サンプリングよりも高次元の探索に。提案した方法の効率の向上と健全性の経験的および理論的な裏付けを提供し、展開された
arxiv_reader 2022/03/11
迷惑な変換に対する不変性を実現することは、堅牢で信頼性の高いビジョンシステムを構築する上での基本的な課題です。不変性への既存のアプローチは、変換のファミリーの次元に応じて指数関数的にスケーリングし、ポ

pose

detection

arXiv

arXiv reaDer
リンク
UNeXt：MLPベースの迅速な医療画像セグメンテーションネットワーク
arxiv_reader 2022/03/11
UNetとTransUNetのような最新の拡張機能は、近年、主要な医療画像セグメンテーション手法となっています。ただし、これらのネットワークは、パラメータが多く、計算が複雑で、使用が遅いため、ポイント

dataset

convolutional

segmentation

arXiv

arXiv reaDer

representation

learning
リンク
単射マルチインスタンスプーリングによる転移性癌転帰予測
Metastatic Cancer Outcome Prediction with Injective Multiple Instance Pooling がんの病期は、多くの種類のがんにおける患者の予後と管理の大きな決定要因であり、CTやMRIなどの医用画像診断法を使用して評価されることがよくあります。これらの医用画像には、予後アルゴリズムをさらに改善するために各ステージグループ内の患者を層別化するために調査できる豊富な情報が含まれています。癌による死亡の大部分は転移性および多発性疾患に起因しますが、注釈付きのデータセットと標準的な研究フレームワークがないため、複数の腫瘍を持つ患者のイメージングバイオマーカーを構築することは困難な作業でした。この論文では、2つの公開データセットを処理して、多発性転移性癌の転帰予測を研究するために、合計341人の患者のベンチマークコホートを設定します。一般
arxiv_reader 2022/03/11
がんの病期は、多くの種類のがんにおける患者の予後と管理の大きな決定要因であり、CTやMRIなどの医用画像診断法を使用して評価されることがよくあります。これらの医用画像には、予後アルゴリズムをさらに改善

dataset

CT

MRI

benchmark

arXiv

arXiv reaDer

pooling

learning

classification
リンク
学習した画像圧縮のためのニューラルデータ依存変換
Neural Data-Dependent Transf orm for Learned Image Compression 学習した画像圧縮は、その優れたモデリング能力により大きな成功を収めていますが、各入力画像のレート歪み最適化（RDO）をさらに考慮することはめったにありません。学習したコーデックでこの可能性を探求するために、ニューラルデータに依存する変換を構築し、個々の画像のコーディング効率を共同で最適化する連続オンラインモード決定メカニズムを導入する最初の試みを行います。具体的には、画像コンテンツストリームとは別に、追加のモデルストリームを使用して、デコーダー側で変換パラメーターを生成します。モデルストリームの存在により、モデルはより抽象的な神経構文を学習できるようになり、画像の潜在表現をよりコンパクトにクラスター化するのに役立ちます。変換段階を超えて、追加のデコードオーバーヘッドに
arxiv_reader 2022/03/11
学習した画像圧縮は、その優れたモデリング能力により大きな成功を収めていますが、各入力画像のレート歪み最適化（RDO）をさらに考慮することはめったにありません。学習したコーデックでこの可能性を探求するた

compression

arXiv

arXiv reaDer

representation

video
リンク
ブラインド画像超解像のための劣化分布の学習
arxiv_reader 2022/03/11
合成高解像度（HR）\＆低解像度（LR）ペアは、既存の超解像（SR）メソッドで広く使用されています。合成画像とテスト画像の間のドメインギャップを回避するために、以前のほとんどの方法は、決定論的モデルを

super-resolution

dataset

arXiv

arXiv reaDer

synthesis

learning

domain
リンク
プライベートデータの代わりに生成モデルを共有する：マンモグラフィパッチ分類に関するシミュレーション研究
Sharing Generative Models Instead of Private Data: A Simulation Study on Mammography Patch Classification ディープラーニングベースのコンピューター支援検出システムを介したマンモグラフィスクリーニングでの乳がんの早期発見は、乳がんの治癒可能性と死亡率を改善する上で有望な可能性を示しています。ただし、多くの臨床センターでは、（i）有望なパフォーマンスを達成し、（ii）取得プロトコルとドメイン全体で十分に一般化するために、そのようなモデルをトレーニングするために利用可能なデータの量と不均一性に制限があります。センター間でのデータの共有は患者のプライバシーの懸念により制限されているため、実際の患者データの代わりに、トレーニングされた生成モデルをセンター間で共有するという潜在的な解決策を提案しま
arxiv_reader 2022/03/11
ディープラーニングベースのコンピューター支援検出システムを介したマンモグラフィスクリーニングでの乳がんの早期発見は、乳がんの治癒可能性と死亡率を改善する上で有望な可能性を示しています。ただし、多くの臨

simulation

dataset

transformer

CNN

arXiv

arXiv reaDer

GAN

detection

domain

classification
リンク
ModDrop ++：モダリティが欠落している多発性硬化症病変セグメンテーションのための被験者内共同トレーニングを備えた動的フィルターネットワーク
ModDrop ++：モダリティが欠落している多発性硬化症病変セグメンテーションのための被験者内共同トレーニングを備えた動的フィルターネットワーク ModDrop++: A Dynamic Filter Network with Intra-subject Co-training for Multiple Sclerosis Lesion Segmentation with Missing Modalities 多発性硬化症（MS）は慢性神経炎症性疾患であり、MS病変を監視するためにマルチモダリティMRIが日常的に使用されています。多くの自動MS病変セグメンテーションモデルが開発され、人間レベルのパフォーマンスに達しています。ただし、ほとんどの確立された方法は、トレーニング中に使用されるMRIモダリティがテスト中にも利用可能であることを前提としています。これは、臨床診療では保証されていませ
arxiv_reader 2022/03/11
多発性硬化症（MS）は慢性神経炎症性疾患であり、MS病変を監視するためにマルチモダリティMRIが日常的に使用されています。多くの自動MS病変セグメンテーションモデルが開発され、人間レベルのパフォーマン

dataset

MRI

segmentation

arXiv

arXiv reaDer

representation
リンク
肺CTと静止胸部トモシンセシス画像間の体液登録
Fluid registration between lung CT and stationary chest tomosynthesis images 登録は、画像誘導治療および画像誘導手術で広く使用されており、計画画像と治療画像の間の関心のある臓器間の空間的対応を推定します。ただし、高品質のコンピュータ断層撮影（CT）画像は計画時に利用できることがよくありますが、放射線の懸念やイメージング時間の制約のために、治療中に限定された角度の取得が頻繁に使用されます。これには、限られた角度の取得に基づいてCT画像を登録するためのアルゴリズムが必要です。したがって、測定された投影とデジタルで再構成されたCTのX線写真に基づいて3D変形を推測する3D/2D登録アプローチを策定します。ほとんどの3D/2D登録アプローチは、単純な変換モデルを使用するか、根本的な最適化問題を定式化するために複雑な数学的導
arxiv_reader 2022/03/11
登録は、画像誘導治療および画像誘導手術で広く使用されており、計画画像と治療画像の間の関心のある臓器間の空間的対応を推定します。ただし、高品質のコンピュータ断層撮影（CT）画像は計画時に利用できることが

reconstruction

3D

differentiable

CT

arXiv reaDer

arXiv
リンク
テキスト-DIAE：テキスト認識とドキュメント拡張のための劣化不変オートエンコーダ
arxiv_reader 2022/03/11
この作業では、テキスト認識（手書きまたはシーンテキスト）とドキュメント画像の強調という2つのタスクを解決することを目的とした、テキスト劣化不変オートエンコーダ（Text-DIAE）を提案します。ラベル

pre-training

self-supervised

arXiv reaDer

contrastive

domain

learning

arXiv
リンク
分布の不一致を伴う画像分類のための半教師あり深層学習：調査
arxiv_reader 2022/03/11
深層学習の方法論はいくつかの異なる分野で採用されており、材料品質管理、医用画像、自動運転などの画像認識アプリケーションで目覚ましい成功を収めています。深層学習モデルは、将来のモデルをトレーニングするた

classification

arXiv reaDer

learning

dataset

arXiv

autonomous driving

semi-supervised
リンク
顔認識における物理的敵対パッチの制御可能な評価と生成
arxiv_reader 2022/03/11
最近の研究では、物理的な敵対パッチに対する顔認識モデルの脆弱性が明らかになりました。これにより、展開された顔認識システムに関するセキュリティ上の懸念が生じます。ただし、複雑な物理的条件下でほとんどの攻

3D

arXiv reaDer

face recognition

arXiv

adversarial
リンク
MRI再構成のための深層学習法のレビューと実験的評価
arxiv_reader 2022/03/11
幅広いアプリケーションでの深層学習の成功に続いて、ニューラルネットワークベースの機械学習技術は、磁気共鳴画像法（MRI）の取得および再構成戦略を加速するために大きな関心を集めています。コンピュータビジ

learning

reconstruction

arXiv reaDer

MRI

domain

benchmark

arXiv

computer vision
リンク
超低精度超解像ネットワークのための動的デュアルトレーニング可能境界
arxiv_reader 2022/03/11
軽量の超解像（SR）モデルは、モバイルデバイスでの保守性でかなりの注目を集めています。多くの取り組みでは、ネットワーク量子化を使用してSRモデルを圧縮しています。ただし、これらの方法では、SRモデルを

attention

arXiv reaDer

super-resolution

benchmark

arXiv

quantization
リンク
代表的なスニペット知識伝播による弱く監視された時間的行動のローカリゼーション
arxiv_reader 2022/03/11
弱く監視された時間的アクションのローカリゼーションは、アクションの時間的境界をローカライズすると同時に、ビデオレベルのカテゴリラベルのみでカテゴリを識別することを目的としています。多くの既存の方法は、

classification

arXiv reaDer

action

weakly-supervised

localization

benchmark

arXiv

video
リンク
IntraQ：ゼロショットネットワーク量子化のためのクラス内不均一性を備えた合成画像の学習
arxiv_reader 2022/03/11
データの合成を学ぶことは、実際のデータにアクセスすることなくニューラルネットワークを低ビット整数で表すゼロショット量子化（ZSQ）の有望な方向性として浮上しています。この論文では、実際のデータにおける

learning

reinforcement

arXiv reaDer

synthesis

zero-shot

arXiv

quantization
リンク
SingleSketch2Mesh：Sketchから3Dメッシュモデルを生成する
arxiv_reader 2022/03/11
スケッチは、あらゆる設計プロセスにおいて重要な活動です。デザイナーと利害関係者は、手描きのスケッチを通じてアイデアを共有します。これらのスケッチは、3Dモデルを作成するためにさらに使用されます。スケッ

generative

arXiv reaDer

3D

arXiv

activity

mesh
リンク
HyperTransformer：パンシャープン用のテクスチャおよびスペクトル機能フュージョントランス
arxiv_reader 2022/03/11
パンシャープンは、登録された高解像度パンクロマティック画像（PAN）と低解像度ハイパースペクトル画像（LR-HSI）を融合して、高スペクトルおよび空間解像度の拡張HSIを生成することを目的としています

learning

attention

pre-training

arXiv reaDer

arXiv

dataset

transformer
リンク
深層学習を使用したパターンベースの多変数回帰（PBMR-DP）
arxiv_reader 2022/03/11
センサーデータの高速学習をトリガーするパターン認識に基づく多変量回帰の深層学習手法を提案します。コンピュータービジョンのアーキテクチャとトレーニングプロセスを活用できるように、センサーから画像への変換

computer vision

learning

arXiv

arXiv reaDer
リンク
- 2022年3月14日
- 2022年3月11日
- 2022年3月10日

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx