arxiv_readerのブックマーク / 2022年3月14日 - はてなブックマーク

arxiv_reader id:arxiv_reader

2022年3月14日のブックマーク (123件)

モーター制御のためのマスクされた視覚的事前トレーニング
arxiv_reader 2022/03/14
この論文は、実世界の画像からの自己監視視覚事前訓練が、ピクセルから運動制御タスクを学習するのに効果的であることを示しています。まず、自然画像のマスクされたモデリングによって視覚的表現をトレーニングしま

benchmark

reinforcement learning

arXiv

self-supervised

pre-training

representation

video

robot

arXiv reaDer
リンク
ディープオートオーグメント
arxiv_reader 2022/03/14
最近の自動化されたデータ拡張方法は最先端の結果をもたらしますが、それらの設計スペースと派生データ拡張戦略には、依然として強力な人間の先例が組み込まれています。この作業では、検索されたデータ拡張と一緒に

human

augmentation

gradient

arXiv

arXiv reaDer
リンク
スパイキングニューラルネットワークをトレーニングするためのニューロモルフィックデータ拡張
arxiv_reader 2022/03/14
スパイキングニューラルネットワーク（SNN）を使用したイベントベースのデータセットでのニューロモルフィックインテリジェンスの開発は、最近多くの研究の注目を集めています。ただし、イベントベースのデータセ

benchmark

SNN

augmentation

dataset

unsupervised

arXiv

contrastive learning

attention

arXiv reaDer
リンク
自動運転車の軌道予測の敵対的ロバスト性について
arxiv_reader 2022/03/14
軌道予測は、自動運転車（AV）が安全な計画とナビゲーションを実行するための重要なコンポーネントです。ただし、軌道予測の敵対的なロバスト性を分析したり、最悪の場合の予測が安全な計画につながるかどうかを調

trajectory

augmentation

dataset

arXiv

adversarial

vehicle

arXiv reaDer
リンク
シングルラベル注釈からマルチラベル分類器をトレーニングするための空間的一貫性の損失
arxiv_reader 2022/03/14
自然画像には通常複数のオブジェクトが含まれているため、マルチラベル画像分類は、単一ラベル分類よりも「実際に」適用できます。ただし、関心のあるすべてのオブジェクトで画像に徹底的に注釈を付けるには、コスト

augmentation

arXiv

weakly-supervised

classification

arXiv reaDer
リンク
深層学習を使用した超広視野眼底画像における複数の網膜疾患の検出：関連領域のデータ駆動型識別
arxiv_reader 2022/03/14
超広視野（UWF）イメージングは、従来の眼底写真と比較してより広い網膜視野をキャプチャする有望なモダリティです。以前の研究では、ディープラーニング（DL）モデルがUWF画像の網膜疾患の検出に効果的であ

learning

identification

arXiv

detection

arXiv reaDer
リンク
マルチビュー 3D 再構成のためのマルチセンサー大規模データセット
arxiv_reader 2022/03/14
3D表面再構成のための新しいマルチセンサーデータセットを提示します。これには、スマートフォン、Intel RealSense、Microsoft Kinect、産業用カメラ、構造化光スキャナーなど、さ

reconstruction

learning

dataset

arXiv

3D

arXiv reaDer
リンク
アクティブトークンミキサー
arxiv_reader 2022/03/14
このホワイトペーパーでは、コンピュータビジョン用の一般的なMLPのようなバックボーンであるActiveMLPについて説明します。 CNN、Transformers、MLPの3つの既存の主要なネットワー

transformer

CNN

arXiv

computer vision

arXiv reaDer
リンク
REX：推論を認識し、根拠のある説明
arxiv_reader 2022/03/14
有効性と解釈可能性は、信頼できるAIシステムにとって2つの重要な特性です。視覚的推論に関する最近の研究は、予測された回答の精度を向上させることに専念しており、決定の背後にある理論的根拠を説明することに

bias

multi-task

transfer learning

reasoning

dataset

arXiv

attention

arXiv reaDer
リンク
WLASL-LEX：アメリカ手話で音韻特性を認識するためのデータセット
arxiv_reader 2022/03/14
手話処理（SLP）は、聴覚障害者や聴覚障害者のコミュニケーションの主な手段である手話の自動処理に関するものです。 SLPは、標識認識から署名音声の翻訳および生成に至るまで、さまざまなタスクを備えていま

dataset

arXiv reaDer

video

arXiv

attention
リンク
LFW-Beautified：美化と拡張現実フィルターを備えた顔画像のデータセット
arxiv_reader 2022/03/14
自撮り写真はソーシャルメディアで絶大な人気を誇っています。このタイプの画像の共有を中心とした同じプラットフォームは、画像を美化したり、拡張現実効果を組み込んだりするためのフィルターを提供します。調査に

reconstruction

face

augmentation

dataset

arXiv

detection

person

video

arXiv reaDer
リンク
TAPE: 画像復元のためのタスクに依存しない事前埋め込み
arxiv_reader 2022/03/14
自然な画像復元のための一般化された事前学習は、重要でありながら挑戦的な作業です。初期の方法は、正規化されたスパース性、L0勾配、ダークチャネル事前分布などを含む手作りの事前分布を主に含んでいました。最

disentangling

learning

transformer

embedding

arXiv

pre-training

arXiv reaDer
リンク
ROOD-MRI：深層学習セグメンテーションモデルのMRIでの分布外および破損したデータに対する堅牢性のベンチマーク
arxiv_reader 2022/03/14
深層人工ニューラルネットワーク（DNN）は、分類、セグメンテーション、および検出の課題に成功したため、医療画像分析の最前線に移動しました。ニューロイメージ分析におけるDNNの大規模な展開における主な課

benchmark

augmentation

U-Net

arXiv

segmentation

detection

OOD

computer vision

arXiv reaDer
リンク
地球の埋め込み：密集した土地被覆分類のための自己監視対照事前トレーニング
arxiv_reader 2022/03/14
土地被覆セマンティックセグメンテーションの機械学習モデルのトレーニングでは、入力として使用される衛星画像の可用性と、教師あり学習を可能にするグラウンドトゥルースデータとの間に明確な対照があります。毎日

learning

embedding

semantic segmentation

arXiv

self-supervised

pre-training

satellite

classification

contrastive

arXiv reaDer
リンク
顔の検出と認識に対するSelfie美化フィルターの効果について
arxiv_reader 2022/03/14
美化と拡張現実フィルターは、スマートフォンや個人用デバイスでキャプチャされたセルフィー画像を使用するアプリケーションで非常に人気があります。ただし、生体認証機能を歪めたり変更したりして、個人の身元を認

reconstruction

landmark

augmentation

U-Net

identification

arXiv

segmentation

detection

arXiv reaDer
リンク
フレシェ開始距離における ImageNet クラスの役割
arxiv_reader 2022/03/14
フレシェ開始距離（FID）は、画像の2つの分布間の距離を定量化するためのメトリックです。データ駆動型生成モデリング研究でモデルをランク付けするための標準的な基準としてのステータスを考えると、距離が一般

face

human

GAN

generative

arXiv

pre-training

metric

arXiv reaDer
リンク
氷河セグメンテーションに適用されるインタラクティブな視覚化と表現分析
arxiv_reader 2022/03/14
解釈可能性は、地球観測の問題でますます注目を集めています。インタラクティブな視覚化と表現分析を適用して、氷河セグメンテーションモデルの解釈をガイドします。 U-Netからのアクティベーションを視覚化し

U-Net

interpretation

arXiv

segmentation

representation

attention

arXiv reaDer
リンク
FastDOG：GPUでの高速ディスクリート最適化
arxiv_reader 2022/03/14
構造化予測で発生する0〜1の整数線形計画法を解くための超並列ラグランジュ分解法を提示します。ラグランジアンデュアルを解くための新しい反復更新スキームと、主解をデコードするための摂動法を提案します。サブ

arXiv

tracking

arXiv reaDer
リンク
RAMA：GPUでの高速マルチカットアルゴリズム
arxiv_reader 2022/03/14
機械学習やコンピュータービジョンで広く使用されている古典的なグラフクラスタリング問題であるマルチカット（別名相関クラスタリング）問題に対して、高度に並列なプライマルデュアルアルゴリズムを提案します。私

benchmark

learning

arXiv

clustering

computer vision

arXiv reaDer
リンク
グローバルおよびオブジェクト中心の表現の自己監視学習に向けて
arxiv_reader 2022/03/14
自己監視により、通常は1つの中心的なオブジェクトを含む自然画像の意味のある表現を学習できます。マルチエンティティシーンにどれだけうまく移行しますか？構造化されたオブジェクト中心の表現を自己監視で学習す

reconstruction

learning

augmentation

dataset

arXiv

self-supervised

representation

contrastive

arXiv reaDer
リンク
ロボット制御の視覚ベースの深層強化学習における関係誘導バイアスのためのグラフニューラルネットワーク
arxiv_reader 2022/03/14
最先端の強化学習アルゴリズムは、主に数値状態ベクトルまたは画像のいずれかからポリシーを学習します。どちらのアプローチも、一般にタスクの構造的知識を考慮に入れていません。これは、ロボットアプリケーション

bias

reinforcement learning

GNN

arXiv

3D

representation

robot

arXiv reaDer
リンク
分散データからのディープクラスインクリメンタル学習
arxiv_reader 2022/03/14
このホワイトペーパーでは、対処するデータが継続的に流入し、データが複数のリポジトリに保存される、新しく挑戦的な分散型機械学習パラダイムに焦点を当てます。以下の貢献により、データ分散型クラスインクリメン

benchmark

learning

arXiv

knowledge distillation

arXiv reaDer
リンク
PseudoProp：自動運転システムでの半教師あり物体検出のためのロバストな疑似ラベル生成
arxiv_reader 2022/03/14
半教師ありオブジェクト検出方法は、自動運転システムで広く使用されており、オブジェクトの一部のみがラベル付けされます。ラベル付きオブジェクトからラベルなしオブジェクトに情報を伝播するには、ラベルなしオブ

dataset

arXiv

video

detection

semi-supervised

autonomous driving

arXiv reaDer
リンク
加重集計を使用したアクション品質評価の改善
arxiv_reader 2022/03/14
アクション品質評価（AQA）は、アクションのビデオに基づいて人間のアクションを自動的に判断し、それにパフォーマンススコアを割り当てることを目的としています。 AQAに関する既存の文献の大部分の作品は、

human

learning

dataset

CNN

arXiv

3D

representation

video

action

arXiv reaDer
リンク
ドメイン適応による非参照点群品質評価
arxiv_reader 2022/03/14
3Dポイントクラウド用の新しい非参照品質評価メトリックである画像転送ポイントクラウド品質評価（IT-PCQA）を紹介します。品質評価では、ディープニューラルネットワーク（DNN）は、参照なしのメトリッ

human

point cloud

unsupervised

arXiv

3D

DNN

metric

adversarial

domain adaptation

arXiv reaDer
リンク
強化学習によるスパースブラックボックスビデオ攻撃
arxiv_reader 2022/03/14
最近、ビデオ認識モデルに対する敵対的な攻撃が調査されています。ただし、ほとんどの既存の作品は、各ビデオフレームを平等に扱い、それらの時間的相互作用を無視します。この欠点を克服するために、いくつかの方法

dataset

reinforcement learning

arXiv

adversarial

video

sparse

arXiv reaDer
リンク
スマートシティのPengChengオブジェクト検出ベンチマーク
arxiv_reader 2022/03/14
オブジェクト検出は、画像内のオブジェクトを認識して特定するアルゴリズムであり、複雑な都市のシーンを視覚的に理解するための幅広いアプリケーションがあります。既存のオブジェクト検出ベンチマークは主に単一の

benchmark

drone

occlusion

arXiv

detection

arXiv reaDer
リンク
神経物体検出のための顕著性駆動型の多用途ビデオコーディング
arxiv_reader 2022/03/14
人間のための顕著性主導の画像およびビデオコーディングは、最近重要性を増している。この論文では、最新のビデオコーディング標準であるVersatile Video Coding（VVC）を使用して、マシン

saliency

real time

arXiv

R-CNN

segmentation

detection

YOLO

video

arXiv reaDer
リンク
FLEX：外部パラメータのないマルチビュー3D人間の動きの再構成
arxiv_reader 2022/03/14
複数のカメラによって作成されたビデオ録画の可用性の向上は、ポーズとモーションの再構築方法におけるオクルージョンと深度のあいまいさを軽減するための新しい手段を提供しました。それでも、マルチビューアルゴリ

reconstruction

human

dataset

pose

synthesis

occlusion

arXiv

3D

video

arXiv reaDer
リンク
PD-Flow：フローを正規化するポイントクラウドノイズ除去フレームワーク
PD-Flow: A Point Cloud Denoising Framework with Normalizing Flows 点群のノイズ除去は、きめ細かい詳細を保持しながら、ノイズや外れ値によって破損した生の観測からきれいな点群を復元することを目的としています。正規化フローとノイズ解きほぐし技術を組み込んだ新しい深層学習ベースのノイズ除去モデルを提示して、高いノイズ除去精度を実現します。点群の特徴を抽出して点ごとに補正する既存の作品とは異なり、分布学習と特徴の解きほぐしの観点からノイズ除去プロセスを定式化します。ノイズの多い点群をクリーンポイントとノイズの同時分布と見なすことにより、ノイズのない結果を潜在的なポイント表現からノイズの対応物を解きほぐすことから導き出すことができ、ユークリッド空間と潜在空間の間のマッピングはフローを正規化することによってモデル化されます。さまざまなノイ
arxiv_reader 2022/03/14
点群のノイズ除去は、きめ細かい詳細を保持しながら、ノイズや外れ値によって破損した生の観測からきれいな点群を復元することを目的としています。正規化フローとノイズ解きほぐし技術を組み込んだ新しい深層学習ベ

disentangling

learning

dataset

point cloud

arXiv

3D

representation

denoising

arXiv reaDer
リンク
胸部X線写真で肺結節を検出するための深層学習ベースのワークフロー
arxiv_reader 2022/03/14
目的：この研究は、胸部X線写真（CXR）を使用して肺結節を検出および位置特定するための深層学習ベースのツールを開発することを目的としています。 CXRの解釈効率を高め、肺がんの診断が遅れる可能性を減ら

localization

learning

dataset

arXiv

segmentation

DNN

detection

arXiv reaDer
リンク
TableFormer：トランスフォーマーによるテーブル構造の理解
arxiv_reader 2022/03/14
表は、貴重なコンテンツを簡潔でコンパクトな表現で整理します。このコンテンツは、検索エンジンやナレッジグラフなどのシステムにとって、予測機能を強化するため、非常に価値があります。残念ながら、テーブルには

learning

transformer

identification

arXiv

representation

detection

LSTM

arXiv reaDer
リンク
TFCNet：静的な偏りのない時間的推論のための時間的完全接続ネットワーク
TFCNet: Temporal Fully Connected Networks for Static Unbiased Temporal Reasoning 時間的推論は、視覚知能にとって重要な機能の1つです。コンピュータビジョン研究コミュニティでは、時間的推論は通常、ビデオ分類の形で研究されており、近年、多くの最先端のニューラルネットワーク構造とデータセットベンチマーク、特に3DCNNとKineticsが提案されています。ただし、最近のいくつかの研究では、現在のビデオ分類ベンチマークには静的な特徴に対する強いバイアスが含まれているため、時間モデリング機能を正確に反映できないことがわかりました。静的バイアスを排除することを目的とした新しいビデオ分類ベンチマークが提案され、これらの新しいベンチマークでの実験により、現在のクリップベースの3DCNNがRNN構造と最近のビデオトランスフォーマ
arxiv_reader 2022/03/14
時間的推論は、視覚知能にとって重要な機能の1つです。コンピュータビジョン研究コミュニティでは、時間的推論は通常、ビデオ分類の形で研究されており、近年、多くの最先端のニューラルネットワーク構造とデータセ

reasoning

benchmark

transformer

CNN

arXiv

RNN

3D

classification

computer vision

arXiv reaDer
リンク
VisionTransformerでのパッチの相互作用の視覚化と理解
arxiv_reader 2022/03/14
Vision Transformer（ViT）は、パッチ間の情報の相互作用を通じて視覚表現を明示的に学習する独自の自己注意メカニズムにより、さまざまなコンピュータービジョンタスクの主要なツールになりま

learning

transformer

explainable

arXiv

representation

attention

computer vision

arXiv reaDer
リンク
ニューラル画像圧縮における構造的スパース性の調査
arxiv_reader 2022/03/14
ニューラル画像の圧縮は、従来の方法（JPEG、BPG、WebPなど）に到達するか、それを上回りました。ただし、カスケード畳み込み層を備えた高度なネットワーク構造は、実際の展開に大きな計算負荷をもたらし

real time

convolutional

arXiv

pruning

compression

arXiv reaDer
リンク
マルチモーダルデータを使用した単眼のリアルタイムの手の形状とモーションキャプチャ
arxiv_reader 2022/03/14
100fpsの前例のないランタイムパフォーマンスと最先端の精度で単眼の手の形状と姿勢を推定するための新しい方法を提示します。これは、利用可能なハンドトレーニングデータのすべてのソースを使用できるよう

benchmark

learning

real time

arXiv

pose estimation

3D

detection

monocular

computer vision

arXiv reaDer
リンク
BabyNet：未校正の写真から赤ちゃんの3D顔を再構築する
BabyNet: Reconstructing 3D faces of babies from uncalibrated photographs キャリブレーションされていない写真、BabyNetから赤ちゃんの3D顔の形状を復元することを目的とした3D顔再構成システムを紹介します。赤ちゃんの3D顔の形状は大人のそれとは大幅に異なるため、赤ちゃん固有の顔の再構成システムが必要です。 BabyNetは、次の2つの段階で構成されています。1）3Dグラフ畳み込みオートエンコーダーは、赤ちゃんの3D顔の形の潜在空間を学習します。 2）転移学習を使用して抽出された代表的な特徴に基づいて写真を3D潜在空間にマッピングする2Dエンコーダー。このように、事前にトレーニングされた3Dデコーダーを使用して、2D画像から3D顔を復元できます。 BabyNetを評価し、1）成人のデータセットに基づく方法では、赤ちゃ
arxiv_reader 2022/03/14
キャリブレーションされていない写真、BabyNetから赤ちゃんの3D顔の形状を復元することを目的とした3D顔再構成システムを紹介します。赤ちゃんの3D顔の形状は大人のそれとは大幅に異なるため、赤ちゃん

reconstruction

face

transfer learning

dataset

convolutional

arXiv

pre-training

3D

arXiv reaDer
リンク
Restormer：高解像度の画像復元のための効率的なトランスフォーマー
arxiv_reader 2022/03/14
畳み込みニューラルネットワーク（CNN）は、大規模データから一般化可能な画像の事前学習をうまく行うため、これらのモデルは画像の復元や関連タスクに広く適用されています。最近、別のクラスのニューラルアーキ

learning

transformer

CNN

arXiv

pre-training

denoising

attention

arXiv reaDer
リンク
双曲画像セグメンテーション
arxiv_reader 2022/03/14
画像セグメンテーションの場合、現在の標準は、線形超平面を介したユークリッド出力埋め込み空間でピクセルレベルの最適化と推論を実行することです。この作業では、双曲多様体が画像セグメンテーションの貴重な代替

embedding

arXiv

segmentation

estimation

classification

arXiv reaDer
リンク
ディープMAGSAC++
arxiv_reader 2022/03/14
従来の推定量と深くロバストな推定量の利点を組み合わせたDeepMAGSAC++を提案します。幾何学的に正当な方法で、部分的にアフィンな共変特徴、たとえばSIFTからの方向とスケールを利用する新しい損失

learning

dataset

loss function

arXiv

estimation

Bayesian

arXiv reaDer
リンク
DRTAM：デュアルランク1テンソル注意モジュール
arxiv_reader 2022/03/14
最近、注意メカニズムがコンピュータビジョンで広く調査されていますが、大規模ネットワークとモバイルネットワークの両方で優れたパフォーマンスを示すものはほとんどありません。この論文は、フィードフォワード畳

residual

CNN

pooling

arXiv reaDer

3D

computer vision

arXiv

attention
リンク
機能ベースのレート歪み最適化を備えたマシンのビデオコーディング
Video Coding for Machines with Feature-Based Rate-Distortion Optimization 一般的な最先端のビデオコーデックは、レート歪み最適化（RDO）によって実現される、最終的な人間の観察者に特定の品質を提供することにより、低ビットレートを提供するように最適化されています。しかし、コンピュータビジョンタスクを解決するニューラルネットワークの着実な改善により、ますます多くのマルチメディアデータが人間によって観察されるのではなく、ニューラルネットワークによって直接分析されるようになりました。この論文では、デコードされたフレームがマシンシナリオのビデオコーディングでニューラルネットワークによって分析されるときに、コーディングパフォーマンスを向上させるように設計された標準準拠の機能ベースのRDO（FRDO）を提案します。その範囲で、VTM
arxiv_reader 2022/03/14
一般的な最先端のビデオコーデックは、レート歪み最適化（RDO）によって実現される、最終的な人間の観察者に特定の品質を提供することにより、低ビットレートを提供するように最適化されています。しかし、コンピ

dataset

metric

segmentation

R-CNN

arXiv reaDer

human

computer vision

quantization

arXiv
リンク
生体認証：まだ大規模に採用されていないのはなぜですか？
arxiv_reader 2022/03/14
過去10年間で、キャプチャデバイスの価格が劇的に低下し、計算能力が向上しましたが、生体認証システムは、民間アプリケーションに大規模に採用されるにはほど遠いようです。この論文では、この現象の原因と、生体

arXiv reaDer

arXiv

identification
リンク
病気の予測のためのマルチモーダルグラフ学習
グラフの強力な表現機能の恩恵を受けて、グラフベースのアプローチは、マルチモーダル医療データを処理するために広く適用されており、さまざまな生物医学アプリケーションで印象的なパフォーマンスを達成しています。疾患予測タスクの場合、ほとんどの既存のグラフベースの方法は、指定されたモダリティ（人口統計情報など）に基づいて手動でグラフを定義し、他のモダリティを統合してグラフ表現学習（GRL）によって患者の表現を取得する傾向があります。ただし、これらの方法では、事前に適切なグラフを作成することは簡単なことではありません。一方、モダリティ間の複雑な相関関係は無視されます。これらの要因は必然的に、信頼できる診断のために患者の状態に関する十分な情報を提供することの不十分さをもたらします。この目的のために、マルチモダリティによる疾患予測のためのエンドツーエンドのマルチモーダルグラフ学習フレームワーク（MMGL）
arxiv_reader 2022/03/14
グラフの強力な表現機能の恩恵を受けて、グラフベースのアプローチは、マルチモーダル医療データを処理するために広く適用されており、さまざまな生物医学アプリケーションで印象的なパフォーマンスを達成しています

arXiv reaDer

representation learning

arXiv
リンク
一時的なメタデータ操作のコンテンツ認識検出
arxiv_reader 2022/03/14
オンラインで共有されるほとんどの写真には、一時的なメタデータ（つまり、撮影された日時）が付随しているため、画像コンテンツを実際のイベントに関連付けることができます。このメタデータを悪意を持って操作する

dataset

benchmark

detection

arXiv reaDer

classification

arXiv
リンク
教師なしドメイン適応のための決定論的翻訳を超えて
arxiv_reader 2022/03/14
この作業では、教師なしドメイン適応（UDA）でソースドメインとターゲットドメインの間で1対1のマッピング（「変換」）を使用する一般的なアプローチに挑戦します。代わりに、固有の翻訳のあいまいさをキャプチ

augmentation

unsupervised

benchmark

arXiv reaDer

semantic segmentation

domain adaptation

arXiv
リンク
Wi-Fi信号による人間のシルエットとスケルトンビデオの合成
arxiv_reader 2022/03/14
ワイヤレスアクセスポイント（AP）の可用性の向上は、信号が照明の変化などのよく知られた視覚関連の問題に対処できるようにする、広範な視覚センサーのサポートまたは代替ツールとしてのWi-Fi信号に基づく人

domain

generative

arXiv reaDer

human

video

synthesis

occlusion

arXiv
リンク
DAFNe：指向性オブジェクト検出のための1段階のアンカーフリーアプローチ
arxiv_reader 2022/03/14
指向性物体検出のための高密度の1ステージアンカーフリーディープネットワークであるDAFNeを紹介します。 1ステージのモデルとして、入力画像上の密なグリッド上でバウンディングボックスの予測を実行します

arXiv reaDer

detection

anchor free

localization

arXiv
リンク
腎臓病理学における自動細粒糸球体病変認識
Automatic Fine-grained Glomerular Lesion Recognition in Kidney Pathology 糸球体病変の認識は、腎臓病理学における診断と治療計画の鍵です。ただし、メサンギウム領域などの共存する糸球体構造は、このタスクの難しさを悪化させます。本論文では、スライド画像全体から細粒糸球体病変を認識するスキームを紹介する。最初に、すべてのタイプの糸球体を正確に特定するようにモデルを駆動するために、フォーカルインスタンスの構造的類似性損失が提案されます。次に、不確実性支援配分ネットワークは、バウンディングボックス注釈なしできめ細かい視覚的分類を実行するように設計されています。この二重の枝形の構造は、親クラスから子クラスの共通の特徴を抽出し、トレーニングデータセットを再構成するための不確実性係数を生成します。スライドワイズ評価の結果は、スキーム全体
arxiv_reader 2022/03/14
糸球体病変の認識は、腎臓病理学における診断と治療計画の鍵です。ただし、メサンギウム領域などの共存する糸球体構造は、このタスクの難しさを悪化させます。本論文では、スライド画像全体から細粒糸球体病変を認識

dataset

detection

arXiv reaDer

classification

arXiv
リンク
qBOLDMRIでの柔軟な償却変分推論
arxiv_reader 2022/03/14
合理化されたqBOLD取得により、脳の酸素代謝を実験的に簡単に観察できます。 R_2 ^\primeマップは簡単に推測できます。ただし、酸素抽出率（OEF）と脱酸素化血液量（DBV）は、データからより

Bayesian

arXiv reaDer

learning

MRI

synthesis

arXiv
リンク
WiCV 2021：コンピュータビジョンワークショップの8人目の女性
arxiv_reader 2022/03/14
このホワイトペーパーでは、仮想CVPR2021と一緒に開催されるコンピュータービジョンワークショップ-WiCV2021の女性の詳細を紹介します。これは、コンピュータービジョンコミュニティの少数派（女性

arXiv reaDer

arXiv

computer vision
リンク
aiWave：3Dトレーニング済みアフィンウェーブレットのような変換によるボリューム画像圧縮
arxiv_reader 2022/03/14
体積画像圧縮は、生物学研究および臨床診療で生成された画像を効果的に送信および保存するための緊急の課題になっています。現在、最も一般的に使用されている体積画像圧縮方法は、JP3Dなどのウェーブレット変換

domain

dataset

arXiv reaDer

compression

arXiv
リンク
フォントの形状から印象への翻訳
arxiv_reader 2022/03/14
フォントが異なれば、エレガント、怖い、かっこいいなど、印象も異なります。この論文は、自己注意メカニズムによって局所部品間の相関を処理することができるTransformerアーキテクチャに基づく部品ベー

arXiv reaDer

arXiv

transformer

classification
リンク
フィルタの多様性を最大化することにより、畳み込みニューラルネットワークの剪定を改善します
arxiv_reader 2022/03/14
ニューラルネットワークの剪定は、モデルのストレージとコンピューティングの要件を減らすために広く使用されている戦略です。重みにスパース性を導入することにより、ネットワークの複雑さを軽減できます。スパース

dataset

CNN

pruning

arXiv reaDer

sparse

arXiv
リンク
RLCorrector：細胞レベルの顕微鏡画像セグメンテーションのための強化された校正
arxiv_reader 2022/03/14
ナノスケール電子顕微鏡（EM）画像のセグメンテーションは重要ですが、コネクトミクス研究では依然として困難です。この理由の1つは、既存のセグメンテーション方法にはエラーがないため、校正が必要なことです。

classification

segmentation

arXiv reaDer

reinforcement learning

human

detection

arXiv
リンク
対照的な言語の民主化-画像の事前トレーニング：データ、モデル、および監視のCLIPベンチマーク
arxiv_reader 2022/03/14
対照的な言語-画像事前トレーニング（CLIP）は、言語監視から視覚モデルを学習するための新しいパラダイムとして登場しました。研究者はCLIPのフロンティアを推進し続けていますが、これらの作品を再現する

benchmark

arXiv reaDer

convolutional

contrastive

arXiv

transformer
リンク
FLAG：スパース観測からのフローベースの3Dアバター生成
arxiv_reader 2022/03/14
コラボレーションとコミュニケーションのための複合現実アプリケーションで人々を表現するには、現実的で忠実なアバターポーズを生成する必要があります。ただし、ヘッドマウントデバイス（HMD）からこのタスクに

representation

pose

generative

arXiv reaDer

sparse

3D

human

arXiv
リンク
民主主義は重要です：Co-Salientオブジェクト検出のための包括的な機能マイニング
arxiv_reader 2022/03/14
画像群の中で共存する顕著な物体を検出することを目的とした、共存物体検出が人気を集めています。最近の作品では、注意メカニズムまたは追加情報を使用して、共通の顕著な特徴を集約しているため、ターゲットオブジ

classification

contrastive learning

arXiv reaDer

detection

saliency

arXiv

attention
リンク
インテリジェント3D歯骨再建および臨床応用のためのコーンビームCTと口腔内スキャンのAI対応自動マルチモーダルフュージョン
arxiv_reader 2022/03/14
仮想歯科治療計画の重要なステップは、CBCTからすべての歯の骨の構造を正確に描写し、忠実度が高く、正確な解剖学的情報を提供することです。以前の研究では、深層学習を使用したCBCTセグメンテーションのい

dataset

mesh

segmentation

CT

arXiv reaDer

3D

human

reconstruction

arXiv
リンク
流体に関する知覚と推論への熱力学に基づく能動学習アプローチ
arxiv_reader 2022/03/14
物理現象についての学習と推論は、ロボット工学の開発において依然として課題であり、計算科学は、過去の出来事の説明と将来の状況の厳密な予測を提供できる正確な方法の検索において重要な役割を果たします。観察か

domain

arXiv reaDer

adaptation

reinforcement learning

reasoning

tracking

synthesis

arXiv
リンク
不完全なデータを使用したフェデレーションリモート生理学的測定
arxiv_reader 2022/03/14
遠隔医療をサポートするテクノロジーの必要性の高まりは、人口の高齢化とCOVID-19パンデミックによって深刻に浮き彫りになっています。健康関連の機械学習アプリケーションでは、データをプライベートデバイ

COVID-19

arXiv reaDer

learning

video

arXiv
リンク
変圧器ベースの深層強化学習フレームワークを使用したスライス固有の高速MRスキャンのためのアクティブフェーズエンコード選択
arxiv_reader 2022/03/14
目的：完全なK空間行列を形成するための位相エンコードの長いスキャン時間はMRIの重大な欠点であり、患者を不快にさせ、緊急疾患の診断に重要な時間を浪費します。この論文は、結果として生じるスライス固有の不

dataset

trajectory

arXiv reaDer

reinforcement learning

reconstruction

MRI

arXiv

transformer
リンク
InfinityGAN：無限ピクセル画像合成に向けて
arxiv_reader 2022/03/14
任意のサイズの画像を生成するための新しいフレームワーク、InfinityGANを紹介します。このタスクは、いくつかの重要な課題に関連しています。まず、既存のモデルを任意の大きな画像サイズにスケーリング

arXiv reaDer

synthesis

arXiv
リンク
QDrop：非常に低ビットのトレーニング後の量子化のためのランダムドロップ量子化
arxiv_reader 2022/03/14
最近、トレーニング後の量子化（PTQ）により、長時間の再トレーニングなしで効率的なニューラルネットワークを生成することが注目されています。低コストにもかかわらず、現在のPTQ作業は、非常に低いビット設

classification

arXiv reaDer

computer vision

reconstruction

detection

quantization

arXiv

attention
リンク
アクティブドメイン適応に向けた特徴的なマージンの学習
arxiv_reader 2022/03/14
教師なしまたは数ショットの半教師あり設定でのドメイン適応能力（DA）の改善に焦点を当てた多くの努力にもかかわらず、最近、アクティブラーニングのソリューションは、限られた範囲でより実用的な方法でモデルを

unsupervised

few-shot

benchmark

semi-supervised

arXiv reaDer

learning

domain adaptation

gradient

arXiv

attention
リンク
ドメインの一般化と適応のためのスタイルの正規化と復元
arxiv_reader 2022/03/14
多くの実用的なコンピュータービジョンアプリケーションでは、学習されたモデルは通常、トレーニングに使用されるデータセットで高いパフォーマンスを発揮しますが、新しい環境に展開すると、通常、トレーニング

residual

classification

unsupervised

arXiv reaDer

semantic segmentation

computer vision

detection

disentangling

domain adaptation

arXiv
リンク
少数のラベル付きデータに基づく工業製品の表面欠陥検出の調査
arxiv_reader 2022/03/14
視覚に基づく表面欠陥検出法は、工業品質検査で広く使用されています。欠陥データを取得するのは簡単ではなく、多数の欠陥データに注釈を付けると、多くの人的資源と材料リソースが浪費されるためです。したがって、

augmentation

unsupervised

semi-supervised

arXiv reaDer

detection

transfer learning

arXiv
リンク
イメージパッチは波です：Quantum Inspired Vision MLP
arxiv_reader 2022/03/14
コンピュータビジョンの分野では、最近の研究により、主に完全に接続された層によってスタックされた純粋なMLPアーキテクチャが、CNNおよびトランスとの競合するパフォーマンスを実現できることが示されていま

classification

representation

CNN

arXiv reaDer

semantic segmentation

computer vision

detection

arXiv

transformer
リンク
高速MRIのためのV-NetおよびK-Netを備えたデュアルドメイン再構成ネットワーク
arxiv_reader 2022/03/14
部分スキャンは、磁気共鳴画像法（MRI）データの取得を加速するための一般的なアプローチです。ただし、部分スキャンデータ（つまり、不完全なk空間行列）から画像を正確に再構成することは困難です。ほとんどの

domain

dataset

CNN

U-Net

arXiv reaDer

learning

reconstruction

MRI

arXiv
リンク
情報理論的オドメトリ学習
arxiv_reader 2022/03/14
この論文では、相対的なカメラのポーズがリアルタイムで必要とされるナビゲーションやバーチャルリアリティなどの多くのロボット工学および視覚タスクの重要なコンポーネントであるオドメトリ推定を目的とした学習動

representation

pose

dataset

arXiv reaDer

learning

real time

odometry

estimation

arXiv
リンク
疑似LiDARベースの道路検出
arxiv_reader 2022/03/14
道路の検出は、自動運転車にとって非常に重要なタスクです。 LiDARデータを使用することにより、最近の作業により道路検出の精度が大幅に向上しました。 LiDARセンサーに依存することは、カメラしか利用

benchmark

distillation

arXiv

detection

estimation

NAS

LiDAR

arXiv reaDer
リンク
マルチサイトおよび縦方向の前臨床脳卒中イメージングのためのU-net脳抽出の評価
arxiv_reader 2022/03/14
齧歯類の脳卒中モデルは、治療を評価し、脳虚血の病態生理学と行動の変化を理解するために重要であり、磁気共鳴画像法（MRI）は、前臨床研究の結果を測定するための貴重なツールです。脳の抽出は、ほとんどのニュ

dataset

U-Net

CNN

arXiv

segmentation

MRI

arXiv reaDer
リンク
脳保護剤のマルチサイト前臨床評価のための画像ベースの脳卒中評価
Image-based Stroke Assessment for Multi-site Preclinical Evaluation of Cerebroprotectants 虚血性脳卒中は世界中の主要な死因ですが、推定上の脳保護剤を前臨床試験から患者に翻訳することはほとんど成功していません。潜在的な治療的介入のための大規模な前臨床スクリーニングの品質、拡張性、および見通しの実際的な改善のために、計算画像ベースの評価ツールを調査しました。脳卒中前臨床評価ネットワーク（SPAN）の画像ベースの脳卒中転帰定量化のためのパイプラインを開発、評価、および展開しました。これは、一連の脳保護剤介入を評価するマルチサイト、マルチアーム、マルチステージの研究です。私たちの完全に自動化されたパイプラインは、最先端のアルゴリズムとデータ分析アプローチを組み合わせて、梗塞体積、脳萎縮の測定を含む、中大脳動脈
arxiv_reader 2022/03/14
虚血性脳卒中は世界中の主要な死因ですが、推定上の脳保護剤を前臨床試験から患者に翻訳することはほとんど成功していません。潜在的な治療的介入のための大規模な前臨床スクリーニングの品質、拡張性、および見通し

arXiv

occlusion

MRI

arXiv reaDer
リンク
仮想世界からの学習によるスケール一貫性のある単眼視覚オドメトリに向けて
arxiv_reader 2022/03/14
単眼視覚オドメトリ（VO）は、費用対効果の高いカメラ画像からリアルタイムの車両運動を提供することにより、広範な研究の注目を集めています。ただし、最先端の最適化ベースの単眼VO法は、長期予測のスケールの

odometry

real time

reinforcement

simulation

arXiv

monocular

domain

adversarial

attention

arXiv reaDer
リンク
映画の物語のあらすじ: ストーリー理解のためのビデオ言語データセット
arxiv_reader 2022/03/14
AIの最近の進歩にもかかわらず、ストーリーの理解は未解決で十分に調査されていない問題のままです。人気の映画やテレビシリーズの5,193のビデオ要約を含む、ビデオ言語のストーリーデータセットであるSyn

bias

human

benchmark

dataset

arXiv

zero-shot

video

arXiv reaDer
リンク
エンコーダ-デコーダアーキテクチャおよびそれ以降の双方向スキップ接続に向けて
arxiv_reader 2022/03/14
U-Netは、フォワードスキップ接続を備えたエンコーダ-デコーダアーキテクチャとして、さまざまな医療画像分析タスクで有望な結果を達成しています。最近の多くのアプローチでは、U-Netをより複雑なビルデ

benchmark

dataset

U-Net

arXiv

segmentation

3D

NAS

recurrent

arXiv reaDer
リンク
クラスインクリメンタルセマンティックセグメンテーションのためのセルフトレーニング
arxiv_reader 2022/03/14
クラスインクリメンタルセマンティックセグメンテーションでは、前のタスクのラベル付きデータにアクセスできません。したがって、新しいクラスを段階的に学習する場合、ディープニューラルネットワークは以前に学習

arXiv

learning

semantic segmentation

arXiv reaDer
リンク
幾何学的合成：大規模な掌紋認識モデルの事前トレーニングのための無料ランチ
arxiv_reader 2022/03/14
掌紋は、生体認証のためのプライベートで安定した情報です。深層学習の時代では、掌紋認識の開発は十分なトレーニングデータの不足によって制限されています。本論文では、掌紋が深層学習に基づく掌紋認識の重要な情

arXiv

learning

dataset

arXiv reaDer
リンク
ロボット操作のための家庭用オブジェクトの 6-DoF 姿勢推定: アクセス可能なデータセットとベンチマーク
arxiv_reader 2022/03/14
ロボット操作の研究に焦点を当てて、既知のオブジェクトの6-DoFポーズ推定用の新しいデータセットを提示します。おもちゃの食料品のセットを提案します。その物理的なインスタンス化はすぐに購入でき、ロボット

benchmark

dataset

RGB-D

arXiv

pose estimation

3D

pre-training

metric

computer vision

arXiv reaDer
リンク
ロバストな LiDAR ローカリゼーションのための学習ベースのローカリゼーション推定
arxiv_reader 2022/03/14
LiDARベースのローカリゼーションとマッピングは、範囲とジオメトリが直接統合されているため、多くの最新のロボットシステムのコアコンポーネントの1つであり、正確なモーション推定と高品質のマップのリアル

localization

odometry

real time

arXiv

detection

estimation

LiDAR

attention

robot

arXiv reaDer
リンク
カメラピクセル内の効率的なハイパースペクトル画像処理に向けて
arxiv_reader 2022/03/14
ハイパースペクトルカメラは、従来のカメラの3つのチャネル（赤、緑、青）だけではなく、数百のスペクトルバンドが存在するため、大量のデータを生成します。これには、ハイパースペクトルイメージセンサーと、画像

arXiv

benchmark

CNN

arXiv reaDer
リンク
マルチタスク学習パラダイムの使用によるアラビア語の自動画像キャプションのベンチマークと改善
arxiv_reader 2022/03/14
ソーシャルメディアとインターネット上のビジュアルコンテンツの使用の継続的な増加は、一般的なコンピュータビジョン分野、特に画像キャプションタスクの研究を加速させています。画像を最もよく表すキャプションを

multi-task

benchmark

captioning

dataset

embedding

arXiv

pre-training

representation

computer vision

arXiv reaDer
リンク
適合または不適合：弱い監視からのモデルベースの顔の再構成とオクルージョンのセグメンテーション
arxiv_reader 2022/03/14
閉塞下での3D顔の再構築は、閉塞者のばらつきが大きいため、非常に困難です。現在、最も成功している方法は、逆レンダリングによって3D顔モデルに適合し、オクルーダーの適合を回避するためにオクルーダーの特定

reconstruction

localization

human

unsupervised

generative

arXiv

segmentation

3D

arXiv reaDer
リンク
PC-SwinMorph：教師なし医療画像の登録とセグメンテーションのためのパッチ表現
arxiv_reader 2022/03/14
医療画像のレジストレーションとセグメンテーションは、いくつかの臨床手順にとって重要なタスクです。これらのタスクを手動で実現するには時間がかかり、品質は医師の専門知識のレベルに大きく依存します。その面倒

unsupervised

arXiv

segmentation

3D

representation

domain

contrastive

arXiv reaDer
リンク
医用画像分類のための深いマルチモーダルガイダンス
arxiv_reader 2022/03/14
医用画像は、現代医学における治療と診断の基礎です。ただし、特定の治療タスクの画像モダリティの選択には、通常、特定のモダリティを使用する可能性（たとえば、短い待機時間、低コスト、迅速な取得、放射線/侵襲

multi-task

learning

arXiv

representation

MRI

classification

arXiv reaDer
リンク
不確実性に基づく半教師ありセグメンテーションにおけるラベリング表現の活用
arxiv_reader 2022/03/14
半教師ありセグメンテーションは、ラベル付けされていないデータと少量のラベル付けされたデータを活用することにより、注釈の不足に対処します。ラベルのないデータを利用する主な方法は、教師が生徒のセグメンテー

arXiv

segmentation

3D

representation

MRI

estimation

semi-supervised

arXiv reaDer
リンク
人間と物体の相互作用認識における見落とされた分類器
arxiv_reader 2022/03/14
Human-Object Interaction（HOI）の認識は、（1）クラス間の重大な不均衡と、（2）画像ごとに複数のラベルが必要なという2つの要因のために困難です。このホワイトペーパーでは、バッ

human

few-shot

dataset

embedding

pose

arXiv

detection

action recognition

classification

arXiv reaDer
リンク
FathomNet：海洋で人工知能を可能にするためのグローバル画像データベース
arxiv_reader 2022/03/14
海は前例のない急速な変化を経験しており、責任ある管理に必要な時空間スケールで海洋生物相を視覚的に監視することは手ごわい仕事です。研究コミュニティはベースラインを求めているため、この必要なデータ収集の量

learning

dataset

arXiv

video

tracking

vehicle

robot

arXiv reaDer
リンク
LiDAR3Dオブジェクト検出用のポイント密度対応ボクセル
arxiv_reader 2022/03/14
LiDARは、自動運転における主要な3Dオブジェクト検出センサーの1つになりました。ただし、距離の増加に伴うLiDARの発散点パターンは、離散化された体積特徴抽出に適さない不均一なサンプリング点群をも

localization

point cloud

convolutional

arXiv

3D

detection

autonomous driving

LiDAR

sparse

arXiv reaDer
リンク
高速勾配符号法を用いた顔認識認証システムの攻撃分析
arxiv_reader 2022/03/14
「あなたが何か」スキームを表す生体認証方法は、保護されたリソースにアクセスするための最も安全なアプローチと見なされています。機械学習技術を使用した最近の攻撃では、生体認証の深刻な体系的な再評価が必要で

learning

gradient

arXiv

classification

face recognition

arXiv reaDer
リンク
高解像度、安価な水中マッピング
arxiv_reader 2022/03/14
この論文では、単一の安価なセンサーを利用した水中SLAMの完全なフレームワークを紹介します。近年、アクションカメラの画像技術は、水中領域の厳しい条件下でも驚くべき結果を生み出しています。 GoPro

augmentation

arXiv

domain

video

action

SLAM

arXiv reaDer
リンク
PETR：マルチビュー3Dオブジェクト検出のための位置埋め込み変換
arxiv_reader 2022/03/14
この論文では、マルチビュー3Dオブジェクト検出のための位置埋め込み変換（PETR）を開発します。 PETRは、3D座標の位置情報を画像の特徴にエンコードし、3Dの位置認識特徴を生成します。オブジェクト

benchmark

dataset

embedding

arXiv

3D

detection

arXiv reaDer
リンク
モバイル地上エージェントの都市全体のストリートから衛星画像へのジオローカリゼーション
City-wide Street-to-Satellite Image Geolocalization of a Mobile Ground Agent クロスビュー画像のジオローカリゼーションは、GPSを必要とせずに、ローカルの地上画像を頭上の衛星画像と照合することにより、エージェントのグローバルな位置の推定値を提供します。画像には大きな視点の違いがあるため、地上画像を正しい衛星画像に確実に一致させることは困難です。既存の作品は、小さな領域にわたる制約されたシナリオでのローカリゼーションを示していますが、より大規模なローカリゼーションは示していません。 Wide-Area Geolocalization（WAG）と呼ばれる私たちのアプローチは、ニューラルネットワークと粒子フィルターを組み合わせて、GPSが拒否された環境で移動するエージェントのグローバルな位置推定を実現し、都市規模の地域に
arxiv_reader 2022/03/14
クロスビュー画像のジオローカリゼーションは、GPSを必要とせずに、ローカルの地上画像を頭上の衛星画像と照合することにより、エージェントのグローバルな位置の推定値を提供します。画像には大きな視点の違いが

localization

loss function

arXiv

satellite

estimation

arXiv reaDer
リンク
生体工学的視覚のための深層学習ベースの知覚刺激エンコーダ
arxiv_reader 2022/03/14
網膜インプラントは、不治の失明を治療する可能性がありますが、それらが作り出す人工視力の質はまだ初歩的です。顕著な課題は、わかりやすい視覚的知覚（閃光）につながる電極活性化パターンを特定することです。こ

arXiv

CNN

arXiv reaDer
リンク
畳み込みニューラルネットワークに基づく障害者のためのジェスチャーベースのアラビア手話認識
arxiv_reader 2022/03/14
アラブ手話は、深層学習の方法論を使用してジェスチャーや手話を識別するための優れた研究成果を承認しています。「コミュニケーションの形態」という用語は、聴覚障害者がコミュニケーションをとるために使用する

learning

dataset

CNN

convolutional

arXiv

gesture

action

arXiv reaDer
リンク
画像スティッチングに基づく顔画像の一部からの人間の顔認識
arxiv_reader 2022/03/14
顔認識のための現在の技術のほとんどは、認識される人物の全面の存在を必要とし、この状況を実際に達成することは困難であり、必要な人物が顔の一部とともに現れる可能性があり、その部分の予測が必要であるそれは現

human

arXiv

person

face recognition

arXiv reaDer
リンク
医療画像セグメンテーションのためのオンザフライテスト時間適応
arxiv_reader 2022/03/14
医用画像の深層学習ベースのソリューションにおける主要な問題の1つは、モデルがトレーニングされたものとは異なるデータ分布でテストされた場合のパフォーマンスの低下です。テスト時にソースモデルをターゲットデ

unsupervised

convolutional

arXiv

zero-shot

segmentation

3D

pre-training

arXiv reaDer

batch normalization
リンク
医療画像分析のためのマスクされたオートエンコーダによる自己事前トレーニング
arxiv_reader 2022/03/14
マスクされたオートエンコーダー（MAE）は、自然な画像分析のためのビジョントランスフォーマー（ViT）の事前トレーニングに効果的であることが最近示されました。部分的な観察のみから元の画像を再構築すると

transformer

arXiv

segmentation

pre-training

MRI

domain

classification

CT

arXiv reaDer
リンク
磁気共鳴画像法を使用した神経膠腫の分子サブタイピングのための深い畳み込みニューラルネットワーク
arxiv_reader 2022/03/14
神経膠腫の分子サブタイプの知識は、調整された治療法のための貴重な情報を提供することができます。この研究は、2016年に世界保健機関によって発表された新しい分類法に従って放射線画像データを使用した非侵襲

learning

CNN

arXiv

MRI

residual

classification

arXiv reaDer
リンク
デュアルエネルギーCT再構成のためのマルチチャネル畳み込み解析演算子学習
arxiv_reader 2022/03/14
目的。デュアルエネルギーコンピュータ断層撮影（DECT）は、コントラストを改善し、アーチファクトを低減し、高度なイメージングアプリケーションで材料分解を実行する機能を備えています。放射線量が増えると測

reconstruction

learning

regularization

convolutional

arXiv

pre-training

CT

sparse

arXiv reaDer
リンク
Autofocusing +：磁気共鳴画像法におけるノイズ耐性のあるモーション補正
arxiv_reader 2022/03/14
モーションアーティファクトによる画像の破損は、磁気共鳴画像法（MRI）に根付いた問題です。この作業では、モーションアーティファクトを除去するための古典的な最適化ベースの方法であるオートフォーカスを強化

regularization

synthesis

arXiv

MRI

arXiv reaDer
リンク
医療画像セグメンテーションのためのラベル効率の高いハイブリッド教師あり学習
Label-efficient Hybrid-supervised Learning for Medical Image Segmentation 医用画像の注釈に関する専門知識が不足しているため、医用画像のセグメンテーションのためのラベル効率の高い方法論の調査は、白熱したトピックになります。最近の進歩は、多くの専門的でないシナリオで同等のセグメンテーションパフォーマンスを達成するために、いくつかの強い注釈付きラベルとともに弱い注釈を効率的に利用することに焦点を当てています。ただし、これらのアプローチは、注釈の強いインスタンスと注釈の弱いインスタンスの間の監視の不整合にのみ焦点を当て、注釈の弱いインスタンス内のインスタンスの不整合を無視します。これにより、必然的にパフォーマンスが低下します。この問題に対処するために、新しいラベル効率の高いハイブリッド監視フレームワークを提案します。これは、
arxiv_reader 2022/03/14
医用画像の注釈に関する専門知識が不足しているため、医用画像のセグメンテーションのためのラベル効率の高い方法論の調査は、白熱したトピックになります。最近の進歩は、多くの専門的でないシナリオで同等のセグメ

learning

dataset

gradient

arXiv

segmentation

arXiv reaDer
リンク
ブラインド画像超解像のための展開されたディープカーネル推定
arxiv_reader 2022/03/14
ブラインド画像超解像（BISR）は、未知のブラーカーネルとノイズによって劣化した低解像度の画像から高解像度の画像を再構成することを目的としています。画像劣化モデルを考慮せずにこの困難な問題に取り組むた

benchmark

dataset

super-resolution

arXiv

estimation

arXiv reaDer
リンク
CTフィルム写真からの医用画像の復元
コンピュータ断層撮影（CT）などの医用画像は病院のPACSにDICOM形式で保存されますが、多くの国では、セルフストレージや二次相談の目的で転送可能な媒体としてフィルムを印刷することは依然として非常に日常的です。また、携帯電話のカメラが普及しているため、CTフィルムの写真を撮るのは非常に一般的ですが、残念ながら幾何学的な変形や照明の変化に悩まされています。この研究では、文献で最初の試みであるCTフィルムを私たちの知る限りで回収する問題を研究します。まず、広く使用されているコンピューターグラフィックソフトウェアBlenderを使用して、約20,000枚の写真で構成される大規模なヘッドCTフィルムデータベースCTFilm20Kを構築します。また、幾何学的変形（3D座標、深度、法線、UVマップなど）および照明の変化（アルベドマップなど）に関連するすべての付随情報も記録します。次に、フィルム画像回
arxiv_reader 2022/03/14
コンピュータ断層撮影（CT）などの医用画像は病院のPACSにDICOM形式で保存されますが、多くの国では、セルフストレージや二次相談の目的で転送可能な媒体としてフィルムを印刷することは依然として非常に

arXiv

3D

CT

arXiv reaDer
リンク
LiftReg：制限された角度の2D/3D変形可能な登録
arxiv_reader 2022/03/14
2D/3D変形可能レジストレーションアプローチであるLiftRegを提案します。 LiftRegは、デジタル再構成されたX線写真（DRR）とコンピューター断層撮影（CT）の画像ペアのセットを使用してト

arXiv

CT

dataset

arXiv reaDer
リンク
フーリエドメイン分析によるディープビジョントランスのアンチオーバースムージング：理論から実践へ
Anti-Oversmoothing in Deep Vision Transf ormers via the Fourier Domain Analysis: From Theory to Practice Vision Transf ormer（ViT）は最近、コンピュータービジョンの問題で有望であることが実証されました。ただし、畳み込みニューラルネットワーク（CNN）とは異なり、ViTのパフォーマンスは、観察された注意の崩壊またはパッチの均一性のために、深さが増すにつれて急速に飽和することが知られています。いくつかの経験的な解決策にもかかわらず、このスケーラビリティの問題を研究する厳密なフレームワークは、とらえどころのないままです。この論文では、最初に、フーリエスペクトル領域からViTの特徴を分析するための厳密な理論フレームワークを確立します。自己注意メカニズムは本質的にローパスフィルタ
arxiv_reader 2022/03/14
Vision Transformer（ViT）は最近、コンピュータービジョンの問題で有望であることが実証されました。ただし、畳み込みニューラルネットワーク（CNN）とは異なり、ViTのパフォーマンスは

transformer

CNN

arXiv

pre-training

domain

attention

computer vision

arXiv reaDer
リンク
HDL：心臓分析のためのデジタルツインにおける心筋速度マップの合成のためのハイブリッドディープラーニング
arxiv_reader 2022/03/14
医療データに基づく合成デジタルツインは、デジタルヘルスケアにおける取得、ラベル付け、および意思決定手順を加速します。デジタルヘルスケアツインのコア部分はモデルベースのデータ合成です。これにより、実際に

learning

GAN

synthesis

simulation

arXiv

segmentation

arXiv reaDer
リンク
膠芽腫患者の効果的な治療計画のための人工知能ソリューション
Artificial Intelligence Solution for Effective Treatment Planning for Glioblastoma Patients 膠芽腫は、成人で最も一般的な悪性脳腫瘍です。世界では毎年約200000人が膠芽腫で亡くなっています。膠芽腫患者の生存期間の中央値は、最適な治療を行った場合は12か月、治療を行わなかった場合は約4か月です。膠芽腫は、血管原性浮腫に囲まれた、不規則な末梢増強を伴う不均一な壊死性腫瘤として現れる。現在の標準治療には、脳腫瘍のサブ領域の正確なセグメンテーションを必要とする外科的切除、放射線療法、および化学療法が含まれます。効果的な治療計画を立てるには、化学療法の陽性の予後因子であるメチルグアニンメチルトランスフェラーゼ（MGMT）のプロモーターのメチル化状態を特定することが不可欠です。ただし、脳腫瘍のセグメンテーショ
arxiv_reader 2022/03/14
膠芽腫は、成人で最も一般的な悪性脳腫瘍です。世界では毎年約200000人が膠芽腫で亡くなっています。膠芽腫患者の生存期間の中央値は、最適な治療を行った場合は12か月、治療を行わなかった場合は約4か月で

dataset

arXiv

segmentation

MRI

arXiv reaDer
リンク
音声生成用のリアルタイムMRIビデオの空気組織境界を改善するためのエラー訂正方式
An error correction scheme for improved air-tissue boundary in real-time MRI video for speech production 音声生成におけるリアルタイム磁気共鳴画像法（rtMRI）ビデオの空気組織境界（ATB）セグメンテーションで最高のパフォーマンスは、3次元畳み込みニューラルネットワーク（3D-CNN）モデルによって達成されることが知られています。ただし、このモデルの評価、および文献で報告されている他のATBセグメンテーション手法は、元の輪郭全体と予測された輪郭の間の動的タイムワーピング（DTW）距離を使用して行われます。このような評価尺度では、予測された輪郭の局所的なエラーをキャプチャできない場合があります。予測された輪郭を注意深く分析すると、contour1のvelum部分（上唇、硬口蓋、およびve
arxiv_reader 2022/03/14
音声生成におけるリアルタイム磁気共鳴画像法（rtMRI）ビデオの空気組織境界（ATB）セグメンテーションで最高のパフォーマンスは、3次元畳み込みニューラルネットワーク（3D-CNN）モデルによって達成

real time

CNN

arXiv

segmentation

detection

MRI

metric

video

arXiv reaDer
リンク
AGCN：生涯マルチラベル画像認識のための拡張グラフ畳み込みネットワーク
arxiv_reader 2022/03/14
生涯マルチラベル（LML）画像認識は、シーケンシャルマルチラベル画像認識データストリームにオンラインクラスインクリメンタル分類器を構築します。 LML画像認識の主な課題は、トレーニングデータの部分ラベ

arXiv reaDer

convolutional

augmentation

benchmark

arXiv

representation
リンク
顔のなりすまし防止のためのシャッフルスタイルアセンブリによるドメインの一般化
arxiv_reader 2022/03/14
多様なプレゼンテーション攻撃が絶えず出現しているため、一般化可能な顔のなりすまし防止（FAS）がますます注目を集めています。ほとんどの既存のメソッドは、完全な表現にドメイン一般化（DG）を実装します。

arXiv reaDer

benchmark

arXiv

domain

attention

representation

contrastive learning

face
リンク
TrueTypeトランスフォーマー：アウトライン形式での文字およびフォントスタイルの認識
arxiv_reader 2022/03/14
アウトライン形式で文字やフォントのスタイルを認識できるTrueTypeトランスフォーマー（T3）を提案します。 TrueTypeなどのアウトライン形式は、各文字をストロークの輪郭の制御点のシーケンスと

transformer

classification

arXiv reaDer

arXiv
リンク
StyleBabel：芸術的なスタイルのタグ付けとキャプション
arxiv_reader 2022/03/14
自然言語のキャプションと自由形式のタグのユニークなオープンアクセスデータセットであるStyleBabelを紹介します。これは、専門の芸術学校やデザイン学校で勉強している専門家から新しい参加型の方法で収

arXiv reaDer

embedding

arXiv

representation learning

transformer

dataset

captioning
リンク
代表的なスニペット知識伝播による弱く監視された時間的行動のローカリゼーション
arxiv_reader 2022/03/14
弱く監視された時間的アクションのローカリゼーションは、アクションの時間的境界をローカライズすると同時に、ビデオレベルのカテゴリラベルのみでカテゴリを識別することを目的としています。多くの既存の方法は、

arXiv reaDer

localization

benchmark

arXiv

action

classification

weakly-supervised

video
リンク
BEAT：会話型ジェスチャ合成のための大規模な意味論的および感情的なマルチモーダルデータセット
arxiv_reader 2022/03/14
マルチモーダルデータを条件とする現実的で鮮やかな人間のような合成会話ジェスチャを実現することは、利用可能なデータセット、モデル、および標準の評価指標がないため、未解決の問題です。これに対処するために、

arXiv reaDer

dataset

synthesis

arXiv

emotion

metric

human

face

gesture
リンク
点群セグメンテーションのための対照境界学習
arxiv_reader 2022/03/14
点群のセグメンテーションは、3D環境を理解する上で基本です。ただし、現在の3Dポイントクラウドセグメンテーション方法は、通常、シーン境界でのパフォーマンスが低く、全体的なセグメンテーションパフォーマン

arXiv reaDer

3D

learning

arXiv

representation

contrastive

segmentation

metric

point cloud
リンク
グループベースのセグメンテーションのための統合トランスフレームワーク：コセグメンテーション、コサリエンシー検出、ビデオ顕著オブジェクト検出
arxiv_reader 2022/03/14
私たちはダイナミックな世界に住んでいるため、人間は画像のグループまたはビデオのいくつかのフレームから学習することによってオブジェクトをマイニングする傾向があります。コンピュータビジョンの分野では、多く

detection

arXiv reaDer

real time

benchmark

arXiv

saliency

computer vision

transformer

segmentation
リンク
人体再形成のための構造認識フロー生成
arxiv_reader 2022/03/14
ボディの再形成は、ポートレート写真のレタッチにおける重要な手順です。人体の複雑な構造と多様な外観のために、既存の方法は、体の変形可能なモデルを介して3Dドメインにフォールバックするか、キーポイントベー

pose

arXiv reaDer

3D

arXiv

domain

attention

affinity

dataset

human
リンク
自動車レーダー探知ポイントによるディープインスタンスセグメンテーション
arxiv_reader 2022/03/14
自動車用レーダーは、全天候型で信頼性の高い環境認識を手頃なコストで提供しますが、レーダー検出ポイントが少ないため、セマンティックおよびジオメトリ情報を提供することはほとんどありません。近年の自動車用レ

detection

arXiv reaDer

real time

clustering

tracking

arXiv

classification

segmentation

sparse
リンク
マルチサイトおよびライフスパンの脳頭蓋骨ストリッピングのためのプラグアンドプレイシェイプリファインメントフレームワーク
arxiv_reader 2022/03/14
頭蓋骨のストリッピングは、脳の磁気共鳴（MR）画像の分析における重要な前提条件のステップです。多くの優れた作品やツールが提案されていますが、それらは一般化能力が低いという欠点があります。たとえば、特定

dataset

domain adaptation

arXiv reaDer

arXiv
リンク
拡散モデルサンプリングによるパフォーマンスと信頼性の高いアンダーサンプリングMR再構成に向けて
arxiv_reader 2022/03/14
アンダーサンプリングされた取得からの磁気共鳴（MR）画像再構成は、より速いスキャン時間を約束します。この目的のために、現在の最先端（SoTA）アプローチは、深いニューラルネットワークと教師ありトレーニ

pre-training

arXiv

arXiv reaDer

reconstruction

MRI
リンク
マルチビューステレオの深度推定の再考：統一された表現
arxiv_reader 2022/03/14
深さの推定は、既存の学習ベースのマルチビューステレオメソッドの回帰または分類の問題として解決されます。これらの2つの表現は最近優れたパフォーマンスを示しましたが、それでも明らかな欠点があります。たとえ

arXiv

benchmark

stereo

depth prediction

arXiv reaDer

estimation

learning

loss function

representation

classification
リンク
ローカル正則化とスパース化を使用した差分プライベート連合学習
arxiv_reader 2022/03/14
ユーザーレベルの差分プライバシー（DP）は、連合学習におけるユーザーのデータに固有の情報に、認証可能なプライバシー保証を提供します。ユーザーレベルのDPを保証する既存の方法では、精度が大幅に低下します

arXiv reaDer

arXiv

regularization

learning
リンク
- 2022年3月15日
- 2022年3月14日
- 2022年3月11日

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx