arxiv_readerのブックマーク / 2022年5月11日 - はてなブックマーク

arxiv_reader id:arxiv_reader

2022年5月11日のブックマーク (78件)

多元的な画像修復のためのトランスフォーマーでの情報損失を減らす
arxiv_reader 2022/05/11
トランスフォーマーは、最近、多元的な画像修復で大きな成功を収めています。ただし、既存のトランスベースのソリューションは各ピクセルをトークンと見なすため、2つの側面から情報損失の問題が発生します。1）効

quantization

transformer

CNN

dataset

arXiv

arXiv reaDer
リンク
視聴覚協会からの視覚スタイルの学習
arxiv_reader 2022/05/11
雨のパターンから雪のクランチまで、私たちが聞く音は、シーン内に現れる視覚的なテクスチャーを伝えることがよくあります。この論文では、ラベルのない視聴覚データから視覚スタイルを学習する方法を提示します。私

dataset

representation

arXiv

learning

arXiv reaDer
リンク
ビデオ超解像モデルのトレーニングを加速する
arxiv_reader 2022/05/11
畳み込みニューラルネットワーク（CNN）が最近、ビデオ超解像度（VSR）の高品質な再構築を実証したにもかかわらず、競争力のあるVSRモデルを効率的にトレーニングすることは依然として困難な問題です。通常

video

CNN

convolutional

arXiv

reconstruction

super-resolution

arXiv reaDer
リンク
MM-RealSR：実世界の超解像のためのメトリック学習ベースのインタラクティブ変調
arxiv_reader 2022/05/11
インタラクティブな画像復元は、復元強度を決定するいくつかの制御係数を調整することによって画像を復元することを目的としています。既存の方法は、既知の劣化タイプとレベルの監視下で制御可能な機能を学習するの

unsupervised

metric learning

estimation

arXiv

super-resolution

arXiv reaDer
リンク
カテゴリ直交オブジェクト機能は、オブジェクト分類用にトレーニングされたリカレントニューラルネットワークでの情報処理をガイドします
arxiv_reader 2022/05/11
リカレントニューラルネットワーク（RNN）は、視覚オブジェクトの分類タスクで、特に画像が乱雑になるなどの困難な状況で、フィードフォワードアーキテクチャよりも優れたパフォーマンスを発揮することが示されて

arXiv

RNN

arXiv reaDer
リンク
リプシッツ正則化による滑らかな神経機能の学習
arxiv_reader 2022/05/11
ニューラル陰的フィールドは、3D形状の有用な表現として最近登場しました。これらのフィールドは通常、潜在記述子と3D座標を陰関数値にマッピングするニューラルネットワークとして表されます。ニューラルフィー

regularization

3D

learning

reconstruction

arXiv

representation

point cloud

arXiv reaDer
リンク
光線空間埋め込みネットワークによるニューラルライトフィールドの学習
arxiv_reader 2022/05/11
ニューラルラディアンスフィールド（NeRF）は、最先端のビュー合成結果を生成します。ただし、レンダリングには時間がかかり、ボリュームレンダリング積分を概算するには、ピクセルごとに数百のネットワーク評価

embedding

manifold

dataset

synthesis

arXiv

representation

learning

arXiv reaDer
リンク
Webビデオから視覚的な質問に答えることを学ぶ
arxiv_reader 2022/05/11
視覚的な質問応答の最近の方法は、大規模な注釈付きデータセットに依存しています。ただし、ビデオの質問と回答を手動で注釈することは、面倒で費用がかかり、スケーラビリティを妨げます。この作業では、手動の注釈

video

transformer

dataset

bias

learning

arXiv

zero-shot

contrastive

arXiv reaDer
リンク
CTスキャンから抽出されたディープラーニングベースの機能を使用して、COVID-19患者の転帰を予測する
arxiv_reader 2022/05/11
COVID-19のパンデミックは、日常生活に大きな影響を及ぼしました。影響を受けた人々に必要な資源を提供することによって病気に取り組むことは最も重要です。ただし、要件を決定する要因の数を考えると、必要

metric

COVID-19

estimation

dataset

arXiv

learning

CT

arXiv reaDer
リンク
単一フレームでの時間情報のキャプチャ：行動認識のためのチャネルサンプリング戦略
arxiv_reader 2022/05/11
計算コストを増やすことなく、2Dネットワークでのビデオ分類のための時間情報をキャプチャする問題に対処します。既存のアプローチは、2Dネットワークのアーキテクチャを変更することに焦点を当てています（たと

optical flow

action recognition

video

classification

dataset

3D

arXiv

arXiv reaDer
リンク
KeypointNeRF：キーポイントの相対空間エンコーディングを使用した画像ベースのボリュームアバターの一般化
arxiv_reader 2022/05/11
ピクセル整列機能を使用した画像ベースのボリュームアバターは、目に見えないポーズやアイデンティティへの一般化を約束します。以前の作業では、グローバルな空間エンコーディングとマルチビューの幾何学的一貫性を

sparse

pose

3D

domain

human

reconstruction

arXiv

keypoint

arXiv reaDer
リンク
オートエンコーダベースのバックグラウンド再構成とバックグラウンドノイズ推定によるフォアグラウンドセグメンテーション
arxiv_reader 2022/05/11
何十年にもわたる研究の後でも、動的なシーンの背景の再構築と前景のオブジェクトのセグメンテーションは、照明の変化、カメラの動き、乱気流や樹木の移動によって引き起こされる背景ノイズなどのさまざまな課題のた

unsupervised

video

manifold

estimation

dataset

reconstruction

arXiv

segmentation

arXiv reaDer
リンク
単一のMRモダリティを解きほぐす
arxiv_reader 2022/05/11
医療画像から解剖学的およびコントラスト情報を解きほぐすことは最近注目を集めており、さまざまな画像分析タスクの利点を示しています。現在の方法は、解きほぐしのための誘導バイアスを提供するために、同じ基礎と

metric

disentangling

bias

arXiv

representation

attention

arXiv reaDer
リンク
NeRF-編集：神経放射輝度フィールドのジオメトリ編集
arxiv_reader 2022/05/11
暗黙的なニューラルレンダリング、特にNeural Radiance Field（NeRF）は、シーンの新しいビュー合成において大きな可能性を示しています。ただし、現在のNeRFベースの方法では、ユーザ

synthesis

mesh

representation

arXiv

arXiv reaDer
リンク
大規模なバッチトレーニングを使用したTransformerベースのクロスモーダルレシピ埋め込み
arxiv_reader 2022/05/11
この論文では、クロスモーダルレシピ検索フレームワーク、ACME〜（敵対的クロスモーダル埋め込み）およびHT〜（階層型トランスフォーマー）に触発された大規模バッチトレーニング用のトランスフォーマーベース

embedding

contrastive learning

adversarial

transformer

benchmark

arXiv

self-supervised

arXiv reaDer
リンク
ブラインド超解像の詳細：劣化モデル、ベースライン、およびパフォーマンスの上限
arxiv_reader 2022/05/11
劣化モデルは、ブラインド超解像（SR）で重要な役割を果たします。主にブラーの劣化を伴う従来の劣化モデルは、実際のシナリオをシミュレートするには単純すぎます。最近提案された実際の劣化モデルには、劣化タイ

super-resolution

arXiv

arXiv reaDer
リンク
シャドウ除去のためのシャドウ認識動的畳み込み
arxiv_reader 2022/05/11
収集された多くの画像には広範囲の影があり、汚染されていない画像は多くのダウンストリームマルチメディアタスクにとって非常に重要であるため、影の除去がますます注目を集めています。現在の方法では、シャドウ領

dataset

distillation

reconstruction

convolutional

arXiv

attention

arXiv reaDer
リンク
数ショットのセマンティックセグメンテーションのための非ターゲット知識の学習
arxiv_reader 2022/05/11
数ショットのセマンティックセグメンテーションの既存の研究は、ターゲットオブジェクト情報のマイニングにのみ焦点を当てていますが、特に背景（BG）や気を散らすオブジェクト（DO）を含む非ターゲット領域では

contrastive learning

few-shot

dataset

arXiv

semantic segmentation

arXiv reaDer
リンク
SVIP：ビデオの手順のシーケンス検証
arxiv_reader 2022/05/11
この論文では、同じアクションシーケンスを実行するポジティブビデオペアと、ステップレベルの変換を使用しながら同じタスクを実行するネガティブビデオペアを区別することを目的とした、新しいシーケンス検証タスク

metric

action recognition

video

detection

transformer

dataset

arXiv

segmentation

arXiv reaDer
リンク
ディープラーニングを使用した同一の画像検索
arxiv_reader 2022/05/11
近年、画像との相互作用が増加していることがわかっています。画像の類似性には、特定の参照画像を順守する類似した画像をフェッチすることが含まれます。目標は、クエリとして検索された画像が同様の画像になるかど

pre-training

dataset

benchmark

convolutional

arXiv

learning

arXiv reaDer
リンク
車の分類のためのハイブリッド量子ニューラルネットワークのハイパーパラメータ最適化
arxiv_reader 2022/05/11
画像認識は、機械学習アルゴリズムの主要なアプリケーションの1つです。それにもかかわらず、最新の画像認識システムで使用される機械学習モデルは、通常、調整にかなりの計算時間を必要とする数百万のパラメーター

classification

benchmark

arXiv

learning

arXiv reaDer
リンク
ResT V2：よりシンプル、高速、強力
arxiv_reader 2022/05/11
この論文では、視覚認識のための、よりシンプルで、より速く、より強力なマルチスケールビジョントランスフォーマーであるResTv2を提案します。 ResTv2は、ResTv1のEMSA構造を簡素化し（つま

detection

transformer

classification

arXiv

semantic segmentation

attention

arXiv reaDer
リンク
複雑なダイナミクス予測のためのディープネットワークによる物理モデルの拡張
arxiv_reader 2022/05/11
ダイナミクスの部分的な知識しか利用できない状況で複雑なダイナミクス現象を予測することは、さまざまな科学分野で蔓延している問題です。このコンテキストでは、純粋にデータ駆動型のアプローチでは間違いなく不十

learning

arXiv

arXiv reaDer
リンク
MNet：異方性医療画像セグメンテーションのための2D/3Dネットワークの再考
arxiv_reader 2022/05/11
シックスライススキャンの性質により、3D医療画像の深刻なスライス間不連続性が発生し、バニラ2D / 3D畳み込みニューラルネットワーク（CNN）は、スパーススライス間情報と高密度スライス内情報をバラン

sparse

embedding

CNN

dataset

3D

arXiv

representation

segmentation

arXiv reaDer
リンク
ランダム化された反復球面デコンボリューション情報に基づくトラクトグラムフィルタリングによる合理化の妥当性の評価
arxiv_reader 2022/05/11
トラクトグラフィーは、脳の接続性研究の不可欠な部分になっています。しかし、現在、信頼性の問題に直面しています。特に、最先端のトラクトグラフィー法によって生成されたトラクトグラムにおけるかなりの量の神経

arXiv

arXiv reaDer
リンク
YOLOv4での転移学習を使用したインドの食品大皿での物体検出
Object Detection in Indian Food Platters using Transfer Learning with YOLOv4 物体検出は、コンピュータビジョンでよく知られている問題です。それにもかかわらず、伝統的なインド料理でのその使用法と普及は限られています。特に、1枚の写真にあるインド料理を認識することは次の3つの理由で困難です。1。注釈付きのインド料理データセットの欠如2.料理間の境界がはっきりしない3.クラス内のばらつきが大きい。これらの問題を解決するには、包括的にラベル付けされたインド料理データセットであるIndianFood10を提供します。これには、主食のインド料理に頻繁に登場する10の食品クラスが含まれ、YOLOv4オブジェクト検出器モデルで転移学習を使用します。私たちのモデルは、10クラスのデータセットで91.8％の全体的なmAPスコアと0.9
arxiv_reader 2022/05/11
物体検出は、コンピュータビジョンでよく知られている問題です。それにもかかわらず、伝統的なインド料理でのその使用法と普及は限られています。特に、1枚の写真にあるインド料理を認識することは次の3つの理由で

YOLO

computer vision

detection

transfer learning

dataset

arXiv

arXiv reaDer
リンク
ランク付けの公平性を考慮した自己ペースの深い回帰フォレスト
arxiv_reader 2022/05/11
顔の年齢推定、頭の姿勢の推定、視線の推定などの問題を解決するために、最近、深い回帰フォレスト、深い神経決定フォレストなどの深い識別モデル（DDM）が広く研究されています。ノイズやバイアスのない大量の効

pose estimation

face

computer vision

bias

human

arXiv

learning

gaze

arXiv reaDer
リンク
GETAM：弱教師ありセマンティックセグメンテーションのための勾配加重要素ごとのトランスフォーマーアテンションマップ
arxiv_reader 2022/05/11
特に画像レベルのラベルを使用してピクセルレベルの予測を監視する場合、弱教師ありセマンティックセグメンテーション（WSSS）は困難です。それらのギャップを埋めるために、通常、クラスアクティベーションマッ

transformer

CNN

weakly-supervised

gradient

arXiv

semantic segmentation

attention

arXiv reaDer
リンク
ドメイン知識を使用した自己監視回帰学習：イメージングにおける自己監視ノイズ除去の改善への応用
arxiv_reader 2022/05/11
連続量を予測する回帰は、計算イメージングおよびコンピュータービジョンテクノロジーを使用するアプリケーションの中心的な部分です。それでも、特定の回帰タスク、画像のノイズ除去を除いて、回帰タスクの自己監視

computer vision

domain

arXiv

learning

self-supervised

denoising

arXiv reaDer
リンク
BCI：ピラミッドPix2pixによる乳がん免疫組織化学的画像の生成
arxiv_reader 2022/05/11
ヒト上皮成長因子受容体2（HER2）の発現の評価は、乳がんの正確な治療法を策定するために不可欠です。 HER2の日常的な評価は、非常に高価な免疫組織化学的手法（IHC）を使用して行われます。したがって

pose

dataset

benchmark

human

arXiv

arXiv reaDer
リンク
歩行者の検出可能性に対する部分的閉塞の影響
arxiv_reader 2022/05/11
脆弱な道路利用者を確実に検出することは、不均一な交通に自動運転車を配備するためのセーフティクリティカルな要件です。最も複雑な未解決の課題の1つは、別の前景オブジェクトによる障害物のために、ターゲットオ

classification

detection

benchmark

vehicle

occlusion

arXiv

pedestrian

arXiv reaDer
リンク
ドメインの一般化：調査
arxiv_reader 2022/05/11
配布外（OOD）データへの一般化は、人間にとって自然な機能ですが、マシンが再現するのは困難です。これは、ほとんどの学習アルゴリズムがソース/ターゲットデータのiid〜仮定に強く依存しているためです。こ

computer vision

transfer learning

OOD

arXiv

domain adaptation

reinforcement learning

augmentation

arXiv reaDer
リンク
ランドマークに適合したベースの機能マップによる非等角形状マッチング
arxiv_reader 2022/05/11
非等角ランドマーク保存非剛体形状マッチングのための原理的なアプローチを提案します。私たちの方法は機能マップフレームワークに基づいていますが、等長写像を促進するのではなく、ランドマークを正確に保存するほ

dataset

benchmark

landmark

mesh

arXiv

arXiv reaDer
リンク
不均一なぼかしを伴う深いモデルベースの超解像
arxiv_reader 2022/05/11
不均一なぼけを伴う超解像のための最先端の方法を提案します。単一画像の超解像法は、ぼやけた、サブサンプリングされた、ノイズの多い測定から高解像度の画像を復元しようとします。それらの印象的なパフォーマンス

super-resolution

arXiv

arXiv reaDer
リンク
マルチドメインからの自己監視学習のためのドメイン不変マスクオートエンコーダ
arxiv_reader 2022/05/11
学習した表現を大幅に異なる視覚領域にわたって一般化することは、人間の視覚システムの基本的でありながら重要な能力です。最近の自己監視学習方法は、トレーニングセットと同じドメインで評価セットを使用して良好

embedding

domain

human

reconstruction

arXiv

representation

learning

self-supervised

augmentation

arXiv reaDer
リンク
マルチモーダルビデオキャプションのためのエンドツーエンドの生成的事前トレーニング
arxiv_reader 2022/05/11
最近のビデオと言語の事前トレーニングフレームワークには、文を生成する機能がありません。マルチモーダルビデオキャプションなどの生成タスクに効果的に使用できる、ラベルのないビデオから学習するための新しい事

video

classification

benchmark

captioning

arXiv

action

learning

generative

arXiv reaDer
リンク
速く学ぶ、遅く学ぶ：補完的な学習システムに基づく一般的な継続的な学習方法
arxiv_reader 2022/05/11
人間は絶えず変化する環境から継続的に学習することに長けていますが、壊滅的な忘却を示す深いニューラルネットワークにとっては依然として課題です。補完的学習システム（CLS）理論は、脳内の高速インスタンスベ

learning

arXiv

benchmark

arXiv reaDer
リンク
医学的診断における説明可能な深層学習法：調査
Explainable Deep Learning Methods in Medical Diagnosis: A Survey ディープラーニングの目覚ましい成功により、医療診断への応用への関心が高まっています。厳しい最先端の深層学習モデルでさえ、さまざまなタイプの医療データの分類で人間レベルの精度を達成していますが、これらのモデルは、主に解釈可能性がないため、臨床ワークフローにほとんど採用されていません。ディープラーニングモデルのブラックボックス性により、これらのモデルの決定プロセスを説明するための戦略を考案する必要性が高まり、eXplainable Artificial Intelligence（XAI）のトピックが作成されました。これに関連して、視覚的、テキスト的、および例に基づく説明方法を含む、医療診断に適用されるXAIの徹底的な調査を提供します。さらに、この作業では、説明の品質
arxiv_reader 2022/05/11
ディープラーニングの目覚ましい成功により、医療診断への応用への関心が高まっています。厳しい最先端の深層学習モデルでさえ、さまざまなタイプの医療データの分類で人間レベルの精度を達成していますが、これらの

metric

classification

explainable

dataset

arXiv

learning

arXiv reaDer
リンク
WG-VITON：上着と下着の着用ガイド仮想試着
WG-VITON: Wearing-Guide Virtual Try-On for Top and Bottom Clothes 仮想試着（VITON）の研究は、生成ニューラルネットワークを利用してファッション製品を仮想的に探索する効果が示されています。VITONの最近の研究のいくつかは、複数の種類の衣服（たとえば、上下）を着用して人間の画像を合成しようとしました。服）。ただし、対象の人間の上下の服を交換する場合は、特定の服の組み合わせでさまざまな着方が可能です。本稿では、モデルの上下の服を同時に交換する際の着用スタイルのばらつきの問題に対処します。追加の入力バイナリマスクを利用して生成された画像の着用スタイルを制御するWearing-GuideVITON（つまり、WG-VITON）を紹介します。私たちの実験によると、WG-VITONは、与えられた上下の服を着ているモデルの画像を効果的に
arxiv_reader 2022/05/11
仮想試着（VITON）の研究は、生成ニューラルネットワークを利用してファッション製品を仮想的に探索する効果が示されています。VITONの最近の研究のいくつかは、複数の種類の衣服（たとえば、上下）を着用

human

generative

arXiv

arXiv reaDer
リンク
ストリーミングの自己中心的な行動予測に向けて
arxiv_reader 2022/05/11
自己中心的な行動予測は、過去のビデオ観察に基づいて、カメラ着用者が実行する可能性が高い将来の行動を予測するタスクです。実際のシステムでは、アクションが開始する前にそのような予測を出力することが基本です

video

knowledge distillation

CNN

benchmark

dataset

3D

arXiv

action

attention

arXiv reaDer
リンク
野生の動的な顔の表情認識のための時空間トランスフォーマー
Spatio-Temporal Transf ormer for Dynamic Facial Expression Recognition in the Wild 野生での動的な表情の以前の方法は、主に畳み込みニューラルネットワーク（CNN）に基づいており、そのローカル操作はビデオの長距離依存関係を無視します。この問題を解決するために、各フレーム内の識別機能をキャプチャし、フレーム間のコンテキスト関係をモデル化する時空間トランスフォーマー（STT）を提案します。時空間依存関係は、統合されたTransf ormerによってキャプチャおよび統合されます。具体的には、入力として複数のフレームで構成される画像シーケンスが与えられた場合、CNNバックボーンを利用して各フレームを視覚的特徴シーケンスに変換します。続いて、各ブロック内の空間的注意と時間的注意が、シーケンスレベルで時空間表現を学習するために
arxiv_reader 2022/05/11
野生での動的な表情の以前の方法は、主に畳み込みニューラルネットワーク（CNN）に基づいており、そのローカル操作はビデオの長距離依存関係を無視します。この問題を解決するために、各フレーム内の識別機能をキ

face

spatio-temporal

video

transformer

CNN

dataset

arXiv

representation

attention

arXiv reaDer
リンク
参照式の弱く監視されたセグメンテーション
arxiv_reader 2022/05/11
視覚的接地は、特定の参照式に対応する画像内の領域（ボックスまたはセグメント）をローカライズします。この作業では、参照式からの画像セグメンテーションに対処します。これは、これまで完全に監視された設定での

classification

weakly-supervised

dataset

arXiv

semantic segmentation

zero-shot

localization

arXiv reaDer
リンク
グローバルおよびローカル表現ガイド付き共同トレーニングによるノイズの多いラベル付きデータからのロバストな医用画像分類
arxiv_reader 2022/05/11
ディープニューラルネットワークは、さまざまな自然画像および医用画像のコンピューティングタスクで目覚ましい成功を収めています。ただし、これらの成果は、正確に注釈が付けられたトレーニングデータに不可欠です

classification

representation learning

dataset

arXiv

self-supervised

arXiv reaDer
リンク
分散安定化とマルチ周波数ノイズ除去ネットワークを備えた効率的なバースト生ノイズ除去
arxiv_reader 2022/05/11
スマートフォンの人気が高まるにつれ、高品質の画像をキャプチャすることはスマートフォンにとって非常に重要です。スマートフォンのカメラは、絞りが小さく、センサーセルが小さいため、暗い場所で画像にノイズが発

dataset

synthesis

arXiv

denoising

arXiv reaDer
リンク
TubeR：ビデオアクション検出用のTubelet Transformer
arxiv_reader 2022/05/11
TubeRを提案します：時空間ビデオアクション検出のためのシンプルなソリューション。オフラインの俳優検出器、または提案やアンカーなどの手動で設計された俳優の位置仮説に依存する既存の方法とは異なり、単一

spatio-temporal

detection

transformer

classification

dataset

arXiv

representation

action

localization

arXiv reaDer
リンク
スケルトンベースの相互支援された相互作用オブジェクトのローカリゼーションと人間の行動認識
arxiv_reader 2022/05/11
スケルトンデータは貴重な動き情報を運び、人間の行動認識で広く探求されています。しかし、動き情報だけでなく、環境との相互作用も、人の行動を認識するための識別的な手がかりを提供します。本論文では、骨格デー

action recognition

dataset

human

arXiv

learning

localization

arXiv reaDer
リンク
セマンティックセグメンテーションのためのクロスイメージリレーショナル知識蒸留
arxiv_reader 2022/05/11
セマンティックセグメンテーションのための現在の知識蒸留（KD）メソッドは、多くの場合、個々のデータサンプルから生成された教師の構造化された情報を模倣するように生徒を導きます。ただし、KDにとって価値の

knowledge distillation

dataset

arXiv

semantic segmentation

arXiv reaDer
リンク
特徴のバッグを使用したOCT画像の微小動脈瘤の自動検出
arxiv_reader 2022/05/11
糖尿病によって引き起こされる糖尿病性網膜症（DR）は、網膜血管の変化の結果として発生し、視覚障害を引き起こします。微小動脈瘤（MA）は、DRの初期の臨床的兆候であり、そのタイムリーな診断は、DRの発症

classification

detection

dataset

arXiv

arXiv reaDer
リンク
周期的信号のための非同期イベントベースのアルゴリズム
arxiv_reader 2022/05/11
この論文では、イベントカメラの新しい技術によって、既知の周波数を持つピクセルサイズの信号を検出するための単純なイベント指向アルゴリズムを提示します。さらに、ランダムな変動から目的の周期的な信号を除外す

detection

arXiv

arXiv reaDer
リンク
光子効率の良いイメージングのためのディープドメインの敵対的適応
arxiv_reader 2022/05/11
単一光子LiDARを使用した光子効率の高いイメージングでは、ピクセルあたりわずか数個の検出信号光子によってシーンの3D構造をキャプチャします。ただし、光子効率の高いイメージングのための既存の計算方法は

adversarial

dataset

LiDAR

3D

domain

arXiv

adaptation

arXiv reaDer
リンク
OTFPF：3DオーバーラップConvNeXtを使用した脳年齢推定のための最適なトランスポートベースの機能ピラミッド融合ネットワーク
arxiv_reader 2022/05/11
健康な脳の年代順の年齢は、T1強調磁気共鳴画像（T1 MRI）からディープニューラルネットワークを使用して予測でき、予測された脳年齢は、加齢に関連する疾患または障害を検出するための効果的なバイオマーカ

MRI

estimation

3D

arXiv

arXiv reaDer
リンク
共同音声ジェスチャキューを使用した話者抽出
arxiv_reader 2022/05/11
話者抽出は、マルチトーカー混合スピーチからターゲットスピーカーのクリーンなスピーチを抽出しようとします。事前に録音された音声サンプルまたはターゲットスピーカーの顔画像をスピーカーキューとして使用する研

face

video

gesture

human

arXiv

arXiv reaDer
リンク
UNITS：シーンテキスト検出のための教師なし中間トレーニングステージ
UNITS: Unsupervised Intermediate Training Stage for Scene Text Detection 最近のシーンテキストの検出方法は、ほとんどディープラーニングとデータ駆動型に基づいています。合成データは、注釈コストが高いため、事前トレーニングに一般的に採用されています。ただし、合成データと実際のデータの間には明らかなドメインの不一致があります。微調整段階で合成データによって初期化されたモデルを直接採用すると、パフォーマンスが最適化されない可能性があります。この論文では、シーンテキスト検出のための新しいトレーニングパラダイムを提案します。これは、実世界のデータへのバッファパスを構築し、事前トレーニング段階と微調整の間のギャップを緩和できる教師なし中間トレーニング段階（UNITS）を導入します。ステージ。教師なしの方法で実世界のデータから情報を認
arxiv_reader 2022/05/11
最近のシーンテキストの検出方法は、ほとんどディープラーニングとデータ駆動型に基づいています。合成データは、注釈コストが高いため、事前トレーニングに一般的に採用されています。ただし、合成データと実際のデ

pre-training

unsupervised

detection

dataset

synthesis

domain

arXiv

learning

arXiv reaDer
リンク
精密受粉のためのコンピュータービジョンを使用した空間モニタリングと昆虫行動分析
arxiv_reader 2022/05/11
昆虫は作物の最も重要な世界的な花粉交配者であり、自然の生態系の持続可能性を維持する上で重要な役割を果たしています。したがって、昆虫の受粉の監視と管理は、作物の生産と食料安全保障を改善するために不可欠で

metric

computer vision

video

arXiv

tracking

arXiv reaDer
リンク
セマンティックセグメンテーションのためのSTDC-MAネットワーク
arxiv_reader 2022/05/11
セマンティックセグメンテーションは、自動運転や高度道路交通システムに広く適用されており、空間的およびセマンティックな情報を強く要求する方法があります。ここでは、これらの要求を満たすためにSTDC-MA

arXiv

semantic segmentation

attention

autonomous driving

arXiv reaDer
リンク
EBBINNOT：固定ダイナミックビジョンセンサー用のハードウェア効率の高いハイブリッドイベントフレームトラッカー
arxiv_reader 2022/05/11
代替のセンシングパラダイムとして、ダイナミックビジョンセンサー（DVS）が最近検討され、従来のセンサーが高いデータレートと処理時間をもたらすシナリオに取り組んでいます。このホワイトペーパーでは、静止ニ

sparse

YOLO

detection

arXiv

tracking

learning

occlusion

arXiv reaDer
リンク
周波数注意を使用して、人の検出器に対して敵対的なパッチを強力にする
arxiv_reader 2022/05/11
ディープニューラルネットワーク（DNN）は、敵対的な攻撃に対して脆弱です。特に、オブジェクト検出器は、特定の敵対的なパッチを画像に適用することによって攻撃される可能性があります。ただし、パッチは前処理

YOLO

adversarial

detection

domain

human

arXiv

person

attention

DNN

arXiv reaDer
リンク
DeepTag: 基準マーカーの設計と検出のための一般的なフレームワーク
arxiv_reader 2022/05/11
通常、基準マーカーシステムは、マーカー、検出アルゴリズム、およびコーディングシステムで構成されます。マーカーの外観と検出の堅牢性は、通常、従来の低レベルの画像処理技術を使用して手作業で作成された既

pose

detection

dataset

arXiv

learning

arXiv reaDer
リンク
KEMP：長期軌道予測のためのキーフレームベースの階層的エンドツーエンドディープモデル
KEMP: Keyframe-Based Hierarchical End-to-End Deep Model for Long-Term Trajectory Prediction 道路エージェントの将来の軌道を予測することは、自動運転にとって重要なタスクです。 DenseTNTやPECNetなどの最近の目標ベースの軌道予測方法は、公開データセットの予測タスクで優れたパフォーマンスを示しています。ただし、通常、複雑な目標選択アルゴリズムと最適化が必要です。この作業では、軌道予測のための階層的なエンドツーエンドの深層学習フレームワークであるKEMPを提案します。フレームワークの中核となるのは、キーフレームベースの軌道予測です。キーフレームは、軌道の一般的な方向を追跡する代表的な状態です。 KEMPは、最初に道路コンテキストを条件とするキーフレームを予測し、次にキーフレームと道路コンテキスト
arxiv_reader 2022/05/11
道路エージェントの将来の軌道を予測することは、自動運転にとって重要なタスクです。 DenseTNTやPECNetなどの最近の目標ベースの軌道予測方法は、公開データセットの予測タスクで優れたパフォーマン

dataset

benchmark

arXiv

learning

trajectory

autonomous driving

arXiv reaDer
リンク
CoDo：検出のためのダウンストリームバックグラウンド不変性を使用した対照的な学習
CoDo: Contrastive Learning with Downstream Background Invariance for Detection 以前の自己監視学習研究は、主に画像レベルのインスタンス識別を口実タスクとして選択しました。教師あり学習方法に匹敵する素晴らしい分類パフォーマンスを実現します。ただし、オブジェクト検出などのダウンストリームタスクでの転送パフォーマンスが低下します。パフォーマンスのギャップを埋めるために、ダウンストリームバックグラウンド不変性（CoDo）を使用した対照学習と呼ばれる新しいオブジェクトレベルの自己監視学習方法を提案します。口実タスクは、さまざまな背景、特にダウンストリームデータセットのインスタンスロケーションモデリングに焦点を当てるように変換されます。背景不変性の能力は、物体検出に不可欠であると考えられています。最初に、データ拡張戦略を提案
arxiv_reader 2022/05/11
以前の自己監視学習研究は、主に画像レベルのインスタンス識別を口実タスクとして選択しました。教師あり学習方法に匹敵する素晴らしい分類パフォーマンスを実現します。ただし、オブジェクト検出などのダウンストリ

contrastive learning

detection

representation learning

transfer learning

classification

dataset

arXiv

self-supervised

augmentation

arXiv reaDer
リンク
堅牢性と固定されていない視差検索範囲を備えた新しいステレオマッチングパイプライン
arxiv_reader 2022/05/11
ステレオマッチングはさまざまなアプリケーションにとって不可欠な基盤ですが、ほとんどのステレオマッチング方法は一般化のパフォーマンスが低く、固定された視差検索範囲を必要とします。さらに、現在のステレオマ

monocular

synthesis

3D

arXiv

stereo

arXiv reaDer
リンク
乳房組織病理学の画像レベル分類における転移学習とアンサンブル学習の応用
arxiv_reader 2022/05/11
背景：乳がんは、世界中の女性で最も有病率が高いです。乳がんの分類と診断、およびその組織病理学的画像は、常に臨床上の懸念のホットスポットでした。コンピューター支援診断（CAD）では、従来の分類モデルは主

classification

transfer learning

transformer

dataset

arXiv

augmentation

arXiv reaDer
リンク
生地はいつベーグルになりますか？ ImageNetの残りの間違いを分析する
When does dough become a bagel? Analyzing the rem aining mistakes on ImageNet ImageNetデータセットの画像分類の精度は、過去10年間のコンピュータービジョンの進歩のバロメーターでした。最近のいくつかの論文では、ベンチマークがコミュニティにとってどの程度有用であるかについて疑問がありますが、今日の最大のモデルが90％以上のトップ1の精度を達成し、イノベーションがパフォーマンスの向上に貢献し続けています。 ImageNetの進捗状況をコンテキスト化し、今日の最先端モデルに対してより意味のある評価を提供するために、いくつかの上位モデルが犯す残りのすべての間違いを手動で確認および分類して、コンピュータビジョンで最もベンチマークされたデータセットの1つ。 ImageNetのマルチラベルサブセット評価に焦点を当てています
arxiv_reader 2022/05/11
ImageNetデータセットの画像分類の精度は、過去10年間のコンピュータービジョンの進歩のバロメーターでした。最近のいくつかの論文では、ベンチマークがコミュニティにとってどの程度有用であるかについて

computer vision

classification

dataset

benchmark

human

arXiv

arXiv reaDer
リンク
私の深さの根拠-真実は十分ですか？ HAMMER-DEnse3Dシーン回帰用の高精度マルチモーダルデータセット
arxiv_reader 2022/05/11
深度推定は、3Dコンピュータビジョンのコアタスクです。最近の方法では、さまざまな深度センサーモダリティでトレーニングされた単眼深度のタスクを調査しています。すべてのセンサーには、見積もりの性質によって

pose

computer vision

monocular

estimation

dataset

3D

ToF

arXiv

stereo

arXiv reaDer
リンク
VOS：仮想外れ値合成によってあなたが知らないことを学ぶ
arxiv_reader 2022/05/11
分散外（OOD）検出は、ニューラルネットワークの安全な展開における重要性から、最近大きな注目を集めています。重要な課題の1つは、モデルに未知のデータからの監視信号がないため、OODデータに対して自信過

regularization

detection

classification

OOD

dataset

synthesis

arXiv

learning

attention

arXiv reaDer
リンク
周波数バイアスは、一般的な破損や敵対的な摂動に対するニューラル画像分類器の堅牢性にどのように影響しますか？
周波数バイアスは、一般的な破損や敵対的な摂動に対するニューラル画像分類器の堅牢性にどのように影響しますか？ How Does Frequency Bias Affect the Robustness of Neural Image Classifiers against Common Corruption and Adversarial Perturbations? モデルの堅牢性は、実際のアプリケーションで機械学習モデルを確実にデプロイするために不可欠です。最近の研究によると、データ拡張により、モデルが低周波数領域の機能に過度に依存し、低周波数の破損に対するパフォーマンスが犠牲になり、周波数と堅牢性の関係が浮き彫りになる可能性があります。ここでは、さらに一歩進んで、ジャコビアンのレンズを通してモデルの周波数バイアスと、モデルの堅牢性への影響をより直接的に研究します。これを実現するために、
arxiv_reader 2022/05/11
モデルの堅牢性は、実際のアプリケーションで機械学習モデルを確実にデプロイするために不可欠です。最近の研究によると、データ拡張により、モデルが低周波数領域の機能に過度に依存し、低周波数の破損に対するパフ

regularization

adversarial

dataset

domain

bias

arXiv

learning

augmentation

arXiv reaDer
リンク
Surreal-GAN：不均一な疾患関連のイメージングパターンを明らかにするためのGANによる半教師あり表現学習
Surreal-GAN:Semi-Supervised Representation Learning via GAN for uncovering heterogeneous disease-related imaging patterns 多数の機械学習手法がイメージングデータに適用されており、神経疾患および神経精神疾患の臨床的に関連するイメージングシグネチャの構築が可能になっています。多くの場合、そのような方法は、病気の影響の不均一性を明示的にモデル化したり、解釈できない非線形モデルを介してそれにアプローチしたりしません。さらに、教師なし手法は、関心のある病状に関連する不均一性ではなく、脳の構造または機能に影響を与える妨害交絡因子によって引き起こされる不均一性を解析する可能性があります。一方、半教師ありクラスタリング手法は、疾患の不均一性が空間的および時間的に連続体に沿って広がるとい
arxiv_reader 2022/05/11
多数の機械学習手法がイメージングデータに適用されており、神経疾患および神経精神疾患の臨床的に関連するイメージングシグネチャの構築が可能になっています。多くの場合、そのような方法は、病気の影響の不均一性

regularization

unsupervised

representation learning

clustering

domain

GAN

arXiv

semi-supervised

arXiv reaDer
リンク
Image2Gif：ワーピングノードを使用した連続的なリアルなアニメーションの生成
Image2Gif: Generating Continuous Realistic Animations with Warping NODEs 限られた数の連続した観察から滑らかなアニメーションを生成することは、視覚において多くのアプリケーションを持っています。たとえば、1秒あたりのフレーム数を増やしたり、顔の感情の動きなど、最初と最後のフレームのみに基づいて新しい軌道を生成したりするために使用できます。離散的な観測データ（フレーム）にもかかわらず、新しい軌道を生成する問題は継続的な問題です。さらに、知覚的に現実的であるために、画像のドメインは、変化の軌跡によって大幅に変化してはなりません。この論文では、アニメーションの開始と終了を示す2つの（「離れた」）フレームを指定して、スムーズなアニメーション（ビデオフレーム補間）を連続的に生成するための新しいフレームワーク、WarpingNeur
arxiv_reader 2022/05/11
限られた数の連続した観察から滑らかなアニメーションを生成することは、視覚において多くのアプリケーションを持っています。たとえば、1秒あたりのフレーム数を増やしたり、顔の感情の動きなど、最初と最後のフレ

face

emotion

video

domain

GAN

arXiv

trajectory

arXiv reaDer
リンク
カスケードエピポーラRAFTを備えたマルチビューステレオ
マルチビューステレオ（MVS）は、複数のキャリブレーションされた画像から高密度点群などの3Dモデルを再構築する重要な3Dビジョンタスクです。オプティカルフロー用に開発されたRAFT（Recurrent All-Pairs Field Transf orms）アーキテクチャに基づく新しいアプローチであるCER-MVS（Cascaded Epipolar RAFT Multiview Stereo）を提案します。 CER-MVSは、RAFTに5つの新しい変更を導入します。エピポーラコストボリューム、コストボリュームカスケード、コストボリュームのマルチビュー融合、動的監視、および深度マップの多重解像度融合です。 CER-MVSは、マルチビューステレオでの以前の作業とは大きく異なります。 3Dコストボリュームを更新することによって動作する以前の作業とは異なり、CER-MVSは視差フィールドを更新する
arxiv_reader 2022/05/11
マルチビューステレオ（MVS）は、複数のキャリブレーションされた画像から高密度点群などの3Dモデルを再構築する重要な3Dビジョンタスクです。オプティカルフロー用に開発されたRAFT（Recurrent

optical flow

benchmark

3D

recurrent

arXiv

stereo

point cloud

arXiv reaDer
リンク
画像解析と自然言語処理を使用した皮膚病の診断
Skin disease diagnosis using image analysis and natural language processing ザンビアでは、医療スタッフが深刻に不足しており、各開業医が特定の地区の約17000人の患者に対応している一方で、他の患者は10km以上移動して基本的な医療サービスにアクセスしています。この研究では、臨床診断プロセスを実行できる深層学習モデルを実装します。この研究は、画像分析が臨床診断を実行できるかどうかを証明します。また、画像分析を使用して、一部のタスクをAIに委任することで、開業医の作業負荷を軽減できるかどうかを理解することもできます。この研究の成功は、ビジョン2030の国家目標の1つである、ザンビアへの医療サービスのアクセス可能性を高める可能性を秘めています。 In Zambia, there is a serious shortage
arxiv_reader 2022/05/11
ザンビアでは、医療スタッフが深刻に不足しており、各開業医が特定の地区の約17000人の患者に対応している一方で、他の患者は10km以上移動して基本的な医療サービスにアクセスしています。この研究では、臨

learning

arXiv

arXiv reaDer
リンク
米国北東部の農耕後の風景における低身長の「低木地」被覆タイプの分類とマッピング
arxiv_reader 2022/05/11
コンテキスト：新しい植物群落は、景観を再形成し、土地被覆の分類とマッピングに課題をもたらし、研究とスチュワードシップの取り組みを制約する可能性があります。米国北東部では、農業後の景観における二次林の代

satellite

learning

arXiv

classification

arXiv reaDer

pose

LiDAR
リンク
微分可能な電子顕微鏡シミュレーション：可視化のための方法と応用
Differentiable Electron Microscopy Simulation: Methods and Applications for Visualization 物理的な電子顕微鏡イメージングの結果と同様に、顕微鏡写真の視覚的なスタイルで原子モデルを描くことができる新しい顕微鏡シミュレーションシステムを提案します。このシステムはスケーラブルで、数十のウイルス粒子の電子顕微鏡のシミュレーションを表すことができ、以前の方法よりも高速に画像を合成します。その上、シミュレーターは、顕微鏡写真で信号とノイズの表現を形成する決定論的段階と確率論的段階の両方で微分可能です。この注目すべき特性は、最適化によって逆問題を解決する機能を備えているため、実際のデータから推定されたパラメーター設定を使用して顕微鏡シミュレーションを生成できます。この学習機能は、（1）シミュレートされた顕微鏡写真と
arxiv_reader 2022/05/11
物理的な電子顕微鏡イメージングの結果と同様に、顕微鏡写真の視覚的なスタイルで原子モデルを描くことができる新しい顕微鏡シミュレーションシステムを提案します。このシステムはスケーラブルで、数十のウイルス粒

simulation

detection

estimation

arXiv

representation

differentiable

learning

denoising

arXiv reaDer
リンク
HierAttn：皮膚病変診断のためのステージ注意とブランチ注意から表現を効果的に学ぶ
arxiv_reader 2022/05/11
皮膚病変の正確で偏りのない検査は、皮膚がんの早期診断と治療に不可欠です。皮膚の画像は、さまざまなデバイスを使用してさまざまな皮膚の色の患者から収集されるため、皮膚病変の視覚的特徴は大きく異なります。最

attention

representation

dataset

classification

arXiv

CNN

transformer

arXiv reaDer

learning
リンク
ResNet-LDDMM：深い残余ネットワークを使用したLDDMMフレームワークの進歩
arxiv_reader 2022/05/11
変形可能な登録では、幾何学的フレームワーク（つまり、大変形ディフェオモルフィックメトリックマッピングまたはLDDMM）は、形状または画像を比較、変形、平均化、および分析するための多数の手法に影響を与え

3D

loss function

metric

arXiv

arXiv reaDer

residual
リンク
モーションエンハンスメントとの注意深いクロスモーダルインタラクションによる圧縮ビデオアクション認識のための表現学習
arxiv_reader 2022/05/11
圧縮ビデオアクション認識は、生のビデオをまばらにサンプリングされたRGBフレームと圧縮されたモーションキュー（モーションベクトルや残差など）に置き換えることで、ストレージと計算のコストを大幅に削減する

attention

representation learning

video

arXiv

arXiv reaDer

augmentation

action recognition

benchmark

denoising
リンク
Learn-to-Raceチャレンジ2022：自律レースにおける安全な学習とクロスドメインの一般化のベンチマーク
arxiv_reader 2022/05/11
自動運転の学際的研究を促進し、現実的なベンチマークで最先端技術を進歩させることを目的とした、新しくリリースされたLearn-to-Race（L2R）シミュレーションフレームワークに基づいた、自動運転仮

autonomous driving

simulation

reinforcement learning

arXiv

arXiv reaDer

metric

vehicle

benchmark
リンク
AdaTriplet：法医学画像マッチングのための自動マージン学習による適応勾配トリプレット損失
arxiv_reader 2022/05/11
このホワイトペーパーでは、ディープニューラルネットワーク（DNN）を使用した法医学画像マッチング（FMIM）の課題に取り組んでいます。 FMIMは、コンテンツベースの画像検索（CBIR）の特定のケース

gradient

DNN

dataset

representation

arXiv

arXiv reaDer

learning

benchmark
リンク
投影ベースのキャンセル可能な生体認証スキームに対する認証攻撃（ロングバージョン）
arxiv_reader 2022/05/11
キャンセル可能な生体認証スキームは、パスワード、保存された秘密、塩などのユーザー固有のトークンを生体認証データと組み合わせることにより、安全な生体認証テンプレートを生成することを目的としています。この

arXiv

arXiv reaDer
リンク
- 2022年5月12日
- 2022年5月11日
- 2022年5月10日

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx