arxiv_readerのブックマーク / 2022年3月18日 - はてなブックマーク

arxiv_reader id:arxiv_reader

2022年3月18日のブックマーク (165件)

TensoRF：テンソル放射輝度フィールド
arxiv_reader 2022/03/18
放射輝度フィールドをモデル化および再構築するための新しいアプローチであるTensoRFを紹介します。純粋にMLPを使用するNeRFとは異なり、シーンの放射フィールドを4Dテンソルとしてモデル化します。

arXiv

reconstruction

arXiv reaDer

3D
リンク
AutoSDF：3Dの完了、再構築、生成のための形状事前分布
arxiv_reader 2022/03/18
強力な事前情報により、不十分な情報で推論を実行できます。この論文では、形状の完成、再構成、生成などのマルチモーダル3Dタスクを解決するために、3D形状の自己回帰事前分布を提案します。 3D形状の分布を

reconstruction

autoregressive

video

arXiv reaDer

3D

arXiv

representation

learning
リンク
マルチドメインのロングテール認識、不均衡なドメインの一般化およびそれ以降
arxiv_reader 2022/03/18
実際のデータは、多くの場合、不均衡なラベル分布を示します。データの不均衡に関する既存の研究は、単一ドメインの設定に焦点を当てています。つまり、サンプルは同じデータ分布からのものです。ただし、自然データ

domain

dataset

benchmark

arXiv reaDer

arXiv

learning
リンク
DetMatch：2Dおよび3Dの半教師ありオブジェクト検出では、2人の教師が1人より優れています
arxiv_reader 2022/03/18
多くの3D検出作業は、RGB画像と点群の間の補完的な関係を活用していますが、半教師ありオブジェクト認識のより広範なフレームワークの開発は、マルチモーダル融合の影響を受けません。現在の方法では、画像と点

localization

semi-supervised

dataset

detection

arXiv reaDer

3D

arXiv

point cloud

learning
リンク
データ効率の高い検出トランスに向けて
arxiv_reader 2022/03/18
検出トランスフォーマーは、サンプルが豊富なCOCOデータセットで競争力のあるパフォーマンスを実現しました。ただし、それらのほとんどは、Cityscapesなどの小さなサイズのデータセットで大幅なパフォ

transformer

dataset

sparse

arXiv reaDer

detection

R-CNN

augmentation

arXiv
リンク
点群DNNのグローバルな説明の視覚化
arxiv_reader 2022/03/18
自動運転とロボット工学の分野では、ポイントクラウドは、主流の3Dセンサーのほとんどからの生データとして優れたリアルタイムパフォーマンスを示しています。したがって、点群ニューラルネットワークは、近年人気

real time

autonomous driving

classification

arXiv reaDer

3D

DNN

arXiv

point cloud
リンク
Transframer：生成モデルを使用した任意のフレーム予測
arxiv_reader 2022/03/18
確率的フレーム予測に基づく画像モデリングとビジョンタスクのための汎用フレームワークを提示します。私たちのアプローチは、画像のセグメンテーションから、新しいビューの合成やビデオの補間まで、幅広いタスクを

computer vision

generative

transformer

semantic segmentation

sparse

U-Net

few-shot

arXiv reaDer

arXiv

optical flow
リンク
FERV39k：ビデオでの顔の表情認識のための大規模なマルチシーンデータセット
arxiv_reader 2022/03/18
顔の表情認識（FER）の現在のベンチマークは主に静止画像に焦点を当てていますが、ビデオ内のFERのデータセットは限られています。既存のメソッドのパフォーマンスが実際のアプリケーション指向のシーンで満足

dataset

video

benchmark

arXiv reaDer

face

arXiv
リンク
部屋の外を見る：単一の画像から一貫性のある長期3Dシーンビデオを合成する
arxiv_reader 2022/03/18
最近、単一画像からの新しいビュー合成が大きな注目を集めており、主に3Dディープラーニングとレンダリング技術によって進歩しています。ただし、ほとんどの作業は、比較的小さなカメラの動きの中で新しいビューを

transformer

autoregressive

video

arXiv reaDer

3D

trajectory

attention

synthesis

arXiv

learning
リンク
対照的な対になっていない翻訳を使用した合成から実領域への適応
arxiv_reader 2022/03/18
ロボット工学における深層学習モデルの有用性は、トレーニングデータの可用性に大きく依存しています。トレーニングデータの手動注釈は、多くの場合実行不可能です。合成データは実行可能な代替手段ですが、ドメイン

dataset

contrastive

robot

arXiv reaDer

3D

mesh

synthesis

arXiv

learning

domain adaptation
リンク
OOD検出とタスクマスキングに基づく継続学習
arxiv_reader 2022/03/18
既存の継続学習手法は、タスク増分学習（TIL）またはクラス増分学習（CIL）の問題のいずれかに焦点を当てていますが、両方には焦点を当てていません。 CILとTILは主に、TILのテスト中に各テストサン

detection

arXiv reaDer

OOD

arXiv

learning
リンク
Vox2Cortex：幾何学的ディープニューラルネットワークを使用した3DMRIスキャンからの皮質表面の高速明示的再構成
arxiv_reader 2022/03/18
脳磁気共鳴画像法（MRI）スキャンからの皮質表面の再構築は、皮質の厚さと溝の形態の定量分析に不可欠です。この目的のために従来の深層学習ベースのアルゴリズムパイプラインが存在しますが、2つの大きな欠点が

reconstruction

dataset

CNN

arXiv reaDer

3D

MRI

mesh

arXiv
リンク
模範的なトランスフォーマーを使用した効率的なビジュアルトラッキング
arxiv_reader 2022/03/18
より複雑で強力なニューラルネットワークモデルの設計により、視覚オブジェクト追跡の最先端が大幅に進歩しました。これらの進歩は、より深いネットワーク、または変圧器などの新しいビルディングブロックの導入に起

real time

transformer

dataset

arXiv reaDer

attention

arXiv

tracking
リンク
Deep Variational Autoencoders による画像の超解像度
arxiv_reader 2022/03/18
画像超解像（SR）技術は、低解像度画像から高解像度画像を生成するために使用されます。これまで、自己回帰モデルや生成的敵対的ネットワーク（GAN）などの深層生成モデルは、高解像度画像のモデリングに効果的

GAN

super-resolution

autoregressive

arXiv reaDer

arXiv

transfer learning
リンク
TO-Scene：3D卓上シーンを理解するための大規模データセット
arxiv_reader 2022/03/18
食事や執筆などの多くの基本的な屋内活動は、常にさまざまなテーブルトップ（コーヒーテーブル、ライティングデスクなど）で行われます。 3D屋内シーン解析アプリケーションで卓上シーンを理解することは不可欠で

dataset

semantic segmentation

detection

arXiv reaDer

3D

activity

arXiv

learning
リンク
RoRD：ローカルフィーチャマッチングのための回転ロバストな記述子と正投影ビュー
arxiv_reader 2022/03/18
一般的なコンピュータービジョンパイプラインでのローカル検出器と記述子の使用は、視点の変化と外観の変化が極端になるまでうまく機能します。この分野の過去の研究は、通常、この課題に対する2つのアプローチのい

computer vision

domain

dataset

benchmark

learning

detection

arXiv reaDer

augmentation

arXiv

pose estimation
リンク
ドメイン適応のための相互学習：サンプルサイクルを備えた自己蒸留画像デヘイズネットワーク
arxiv_reader 2022/03/18
ディープラーニングベースの方法は、画像の曇り除去に大きな成果をもたらしました。ただし、既存の曇り除去ネットワークのほとんどは、シミュレートされたぼんやりとした画像を使用したモデルのトレーニングに集中し

dataset

arXiv reaDer

synthesis

augmentation

arXiv

learning

domain adaptation
リンク
潜在的セマンティックコンポーネントを使用した教師なしディープハッシュ
arxiv_reader 2022/03/18
画像検索のレジームでは、教師なしの深いハッシュが高く評価されています。しかしながら、ほとんどの先行技術は、画像の背後にある意味論的構成要素およびそれらの関係を検出することができず、それにより、それらは

dataset

benchmark

arXiv reaDer

unsupervised

arXiv
リンク
ZebraPose：6DoFオブジェクトポーズ推定のための粗い表面から細かい表面へのエンコーディング
arxiv_reader 2022/03/18
画像から3Dへの対応を確立することは、長い間6DoFオブジェクトポーズ推定の重要なタスクでした。ポーズをより正確に予測するために、深く学習された密なマップが疎なテンプレートに取って代わりました。密な方

dataset

sparse

arXiv reaDer

3D

segmentation

arXiv

RGB-D

pose estimation

metric
リンク
顕著性ランキングのための双方向オブジェクトコンテキスト優先順位付け学習
arxiv_reader 2022/03/18
顕著性ランキングタスクは、人間が顕著性の程度に基づいてシーンのさまざまなオブジェクトに注意を向ける視覚的行動を研究するために最近提案されました。既存のアプローチは、オブジェクト-オブジェクトまたはオブ

saliency

human

arXiv reaDer

reasoning

attention

arXiv

representation

learning
リンク
実世界の水中画像を復元することを学ぶための媒体伝送マップの問題
arxiv_reader 2022/03/18
水中の視覚は、水中の探査、考古学、生態系などにとって本質的に重要です。低照度、光反射、散乱、吸収、および浮遊粒子は、必然的に水中画像の品質を著しく低下させ、水中画像から物体を認識する上で大きな課題を引

arXiv

learning

arXiv reaDer
リンク
単一の画像とビデオから新しいシーン構成を生成する
arxiv_reader 2022/03/18
トレーニング用の大規模なデータセットが与えられた場合、GANは画像合成タスクで驚くべきパフォーマンスを達成できます。ただし、過剰適合が頻繁に発生し、暗記またはトレーニングの相違につながるため、非常に低

generative

GAN

dataset

video

arXiv reaDer

synthesis

arXiv

learning
リンク
SPAA：ディープイメージ分類器に対するステルスプロジェクターベースの敵対的攻撃
arxiv_reader 2022/03/18
光ベースの敵対的攻撃は、空間拡張現実（SAR）技術を使用して、プロジェクターなどの制御可能な光源で物理的な光の状態を変更することにより、画像分類器をだまします。手作りの敵対オブジェクトを配置する物理攻

adversarial

arXiv reaDer

augmentation

arXiv

differentiable
リンク
空間変形のためのテキスト注意ネットワークロバストなシーンテキスト画像超解像
arxiv_reader 2022/03/18
シーンテキスト画像の超解像は、低解像度画像のテキストの解像度と読みやすさを向上させることを目的としています。深い畳み込みニューラルネットワーク（CNN）によって大幅な改善が達成されましたが、空間的に変

reconstruction

super-resolution

dataset

CNN

benchmark

arXiv reaDer

attention

arXiv

metric
リンク
高密度スケールの特徴融合とピクセルレベルの不均衡学習に基づく1段階のディープエッジ検出
arxiv_reader 2022/03/18
コンピュータビジョンの分野における基本的なタスクであるエッジ検出は、視覚シーンの認識と理解のための重要な前処理操作です。従来のモデルでは、生成されるエッジ画像はあいまいであり、エッジラインも非常に太い

computer vision

pre-training

dataset

benchmark

detection

arXiv reaDer

arXiv

loss function

learning
リンク
田田！ビデオ理解のための時間適応畳み込み
arxiv_reader 2022/03/18
空間畳み込みは、多くのディープビデオモデルで広く使用されています。これは基本的に時空間不変性を前提としています。つまり、異なるフレーム内のすべての場所に共有の重みを使用します。この作品は、ビデオ理解の

spatio-temporal

localization

action recognition

video

benchmark

arXiv reaDer

arXiv

convolutional
リンク
ニューラルパーツの事前情報：RGB-Dスキャンでパーツベースのオブジェクトの完成を最適化する方法を学ぶ
arxiv_reader 2022/03/18
3Dオブジェクト認識は、近年大幅な進歩を遂げており、実際の3Dスキャンベンチマークで優れたパフォーマンスを示していますが、オブジェクト間の類似性やオブジェクト機能などの高レベルのシーン理解の基礎となる

dataset

benchmark

arXiv reaDer

3D

reasoning

synthesis

arXiv

RGB-D

learning
リンク
ニューラルネットワークの事前トレーニングの事前としての断層撮影スライスの順序の使用
arxiv_reader 2022/03/18
コンピュータ断層撮影（CT）の技術的進歩により、膨大な量の3Dデータを取得できるようになりました。このようなデータセットの場合、ニューラルネットワークをトレーニングするための正確な3Dセグメンテーショ

localization

pre-training

sparse

arXiv reaDer

3D

segmentation

unsupervised

arXiv

COVID-19
リンク
歩行の変換：ビデオベースの時空間歩行分析
arxiv_reader 2022/03/18
単眼ビデオからの人間の姿勢推定は、人間の動きの科学とリハビリテーションに大きな期待を与える急速に進歩している分野です。この可能性は、出力が臨床的に意味があり、適切に較正されていることを保証する、より小

monocular

human pose estimation

video

arXiv reaDer

3D

arXiv

pose estimation
リンク
単一画像の両手再構成のための相互作用する注意グラフ
arxiv_reader 2022/03/18
グラフ畳み込みネットワーク（GCN）は、片手再構成タスクで大きな成功を収めましたが、GCNによる両手再構成の相互作用は未踏のままです。この論文では、単一のRGB画像から2つの相互作用する手を再構築する

GCN

reconstruction

occlusion

benchmark

arXiv reaDer

attention

arXiv

convolutional
リンク
生成モデルを使用した3Dメッシュの詳細なテクスチャ学習
arxiv_reader 2022/03/18
この論文では、マルチビュー画像とシングルビュー画像の両方から高品質のテクスチャ3Dモデルを再構築する方法を紹介します。再構成は適応問題として提起され、段階的に実行されます。最初の段階では正確なジオメト

GAN

reconstruction

dataset

arXiv reaDer

3D

adaptation

attention

mesh

arXiv

embedding
リンク
フーリエマスク：陰的ニューラルネットワークでのフーリエマッピングを使用したインスタンスのセグメンテーション
arxiv_reader 2022/03/18
インスタンスセグメンテーションマスクを生成するために暗黙の神経表現と組み合わせたフーリエ級数を使用するFourierMaskを提示します。フーリエマッピング（FM）を座標位置に適用し、マッピングされた

domain

dataset

arXiv reaDer

segmentation

R-CNN

arXiv

representation
リンク
ポスター：CTスキャンでの転移学習技術によるCOVID-19の診断：深層学習モデルの比較
arxiv_reader 2022/03/18
新しいコロナウイルス病（COVID-19）は、世界的に公衆衛生上の緊急事態を構成しています。これは、世界中で2億3000万人以上が感染している致命的な病気です。したがって、COVID-19の早期かつ揺

transfer learning

dataset

detection

arXiv reaDer

CT

arXiv

COVID-19
リンク
サイボーグ：セグメンテーションでのグラウンディングによる対照的にブートストラップオブジェクト表現
CYBORGS: Contrastively Bootstrapping Object Representations by Grounding in Segmentation 対照学習における最近の多くのアプローチは、ImageNetのような象徴的な画像での事前トレーニングとCOCOのような複雑なシーンでの事前トレーニングの間のギャップを埋めるために働いています。このギャップは主に、一般的に使用されるランダムなクロップ拡張が、さまざまなオブジェクトの混雑したシーン画像で意味的に一貫性のないコンテンツを取得するために存在します。以前の作品では、前処理パイプラインを使用して顕著なオブジェクトをローカライズしてトリミングを改善していますが、エンドツーエンドのソリューションはまだとらえどころのないものです。この作業では、表現とセグメンテーションの共同学習を通じてこの目標を達成するフレームワークを
arxiv_reader 2022/03/18
対照学習における最近の多くのアプローチは、ImageNetのような象徴的な画像での事前トレーニングとCOCOのような複雑なシーンでの事前トレーニングの間のギャップを埋めるために働いています。このギャッ

contrastive learning

localization

saliency

classification

detection

arXiv reaDer

segmentation

arXiv

representation
リンク
単一の粗点監視下でのオブジェクトのローカリゼーション
arxiv_reader 2022/03/18
低コストのデータ注釈の下で高性能のオブジェクトセンシングを追求するポイントベースのオブジェクトローカリゼーション（POL）は、ますます注目を集めています。ただし、ポイント注釈モードでは、注釈付きポイン

localization

dataset

weakly-supervised

arXiv reaDer

attention

arXiv

learning
リンク
物体検出における減量調整の再検討
arxiv_reader 2022/03/18
オブジェクト検出は、分類と回帰を同時に最適化する典型的なマルチタスク学習アプリケーションです。ただし、アンカーベースの方法では、分類の損失が常にマルチタスクの損失を支配し、タスクの一貫性のあるバランス

multi-task

dataset

classification

detection

arXiv reaDer

arXiv

loss function

learning
リンク
ReGO：風景画像のリファレンスガイド付きアウトペインティング
arxiv_reader 2022/03/18
この作品では、挑戦的でありながら実用的な風景画像の塗りつぶし作業に取り組むことを目指しています。最近、生成的敵対的学習は、与えられた画像の意味的に一貫したコンテンツを生成することにより、画像のアウトペ

generative

benchmark

adversarial

arXiv reaDer

arXiv

learning
リンク
用途の広い画像合成のための変調コントラスト
arxiv_reader 2022/03/18
画像間の類似性を認識することは、さまざまな視覚的生成タスクの根底にある長年の根本的な問題でした。主なアプローチは、ポイントごとの絶対偏差を計算することによって画像間の距離を測定します。これは、インスタ

contrastive learning

arXiv reaDer

synthesis

arXiv

metric
リンク
StyleMesh：屋内3Dシーン再構成のためのスタイル転送
arxiv_reader 2022/03/18
屋内シーンのメッシュ再構成にスタイル転送を適用します。これにより、お気に入りのアーティストのスタイルでペイントされた3D環境を体験するようなVRアプリケーションが可能になります。スタイル転送は通常2D

real time

pose

domain

sparse

arXiv reaDer

3D

mesh

arXiv
リンク
SeMask：セマンティックセグメンテーションのためのセマンティックマスクされたトランスフォーマー
arxiv_reader 2022/03/18
画像トランスフォーマーネットワークのエンコーダー部分で事前トレーニングされたバックボーンを微調整することは、セマンティックセグメンテーションタスクの従来のアプローチでした。ただし、このようなアプローチ

transformer

dataset

semantic segmentation

arXiv reaDer

attention

arXiv

metric
リンク
ビジュアルサウンドのローカライズは簡単な方法
教師なし視聴覚ソースのローカリゼーションは、トレーニングのためにグラウンドトゥルースのローカリゼーションに依存することなく、ビデオ内の可視音源をローカライズすることを目的としています。以前の作品は、多くの場合、ポジティブ（サウンド）領域の可能性が高い視聴覚類似性と、ネガティブ領域の可能性が低い類似性を求めています。ただし、手動の注釈がないと、発音している領域と鳴っていない領域を正確に区別することは困難です。この作業では、トレーニング中のポジティブおよび/またはネガティブ領域の構築に依存することなく、Easy Visual Sound Localization、つまりEZ-VSLのシンプルで効果的なアプローチを提案します。代わりに、関連する画像の少なくとも1つの場所に位置合わせされ、他の画像とは一致しないオーディオビジュアル表現を任意の場所で探すことにより、オーディオ空間と視覚空間を位置合わ
arxiv_reader 2022/03/18
教師なし視聴覚ソースのローカリゼーションは、トレーニングのためにグラウンドトゥルースのローカリゼーションに依存することなく、ビデオ内の可視音源をローカライズすることを目的としています。以前の作品は、多

localization

dataset

video

benchmark

arXiv reaDer

unsupervised

arXiv

representation
リンク
ビデオ注釈のない一時的に安定したビデオセグメンテーション
arxiv_reader 2022/03/18
一時的に一貫性のある高密度のビデオアノテーションは少なく、収集するのが困難です。対照的に、画像セグメンテーションデータセット（および事前にトレーニングされたモデル）はどこにでもあり、新しいタスクのラベ

pre-training

dataset

human

video

arXiv reaDer

segmentation

unsupervised

arXiv

optical flow
リンク
FlexConv：微分可能なカーネルサイズの連続カーネル畳み込み
arxiv_reader 2022/03/18
畳み込みニューラルネットワーク（CNN）を設計する場合、トレーニングの前に畳み込みカーネルのサイズ/ブレークを選択する必要があります。最近の研究では、CNNはさまざまなレイヤーでさまざまなカーネルサイ

dataset

CNN

benchmark

pooling

classification

arXiv reaDer

arXiv

differentiable
リンク
マルチモーダルBERTで構造知識を見つける
arxiv_reader 2022/03/18
この作業では、マルチモーダルBERTモデルの埋め込みで学習した知識を調査します。より具体的には、言語データの文法構造とオブジェクトを介して学習した構造を視覚データに格納する機能を調査します。その目標を

arXiv

arXiv reaDer

embedding
リンク
階層型リカレントネットワークを使用した複数のスケールでのビデオ予測
Video Prediction at Multiple Scales with Hierarchical Recurrent Networks 自律システムは、現在の環境を理解するだけでなく、たとえばキャプチャされたカメラフレームに基づいて、過去の状態を条件とする将来のアクションを予測できる必要があります。特定のタスクでは、近い将来、将来のビデオフレームなどの詳細な予測が必要になりますが、他のタスクでは、より長い期間のより抽象的な表現を予測することも有益です。ただし、既存のビデオ予測モデルは、主に短期間の詳細な結果の予測に焦点を合わせているため、ロボットの知覚と空間的推論には限られた用途しかありません。マルチスケール階層予測（MSPred）を提案します。これは、さまざまな時間スケールでさまざまなレベルの粒度の将来の可能な結果を同時に予測できる新しいビデオ予測モデルです。 MSPredは、
arxiv_reader 2022/03/18
自律システムは、現在の環境を理解するだけでなく、たとえばキャプチャされたカメラフレームに基づいて、過去の状態を条件とする将来のアクションを予測できる必要があります。特定のタスクでは、近い将来、将来のビ

pose

keypoint

action recognition

dataset

human

arXiv reaDer

reasoning

recurrent

arXiv

representation
リンク
たった1つのCLIPでのGANのワンショット適応
arxiv_reader 2022/03/18
新しいドメインの画像を生成するために、いくつかのターゲット画像を使用して事前にトレーニングされたジェネレータを微調整するための最近の多くの研究努力があります。残念ながら、これらの方法は、単一のターゲッ

one-shot

GAN

single-shot

pre-training

arXiv

contrastive

domain

regularization

loss function

arXiv reaDer
リンク
ビジュアルタスクにおける教師なしドメイン適応のカテゴリコントラスト
arxiv_reader 2022/03/18
教師なし表現学習のインスタンスコントラストは、近年大きな成功を収めています。この作業では、教師なしドメイン適応（UDA）でのインスタンス対照学習のアイデアを探求し、視覚的なUDAタスクのインスタンス識

detection

segmentation

domain adaptation

classification

arXiv

representation learning

unsupervised

contrastive learning

arXiv reaDer
リンク
インスタンスのバッグの集約により、自己管理型の蒸留が促進されます
arxiv_reader 2022/03/18
自己監視学習の最近の進歩は、特に対照的な学習ベースの方法で目覚ましい進歩を遂げました。これは、各画像とその拡張を個別のクラスと見なし、他のすべての画像と区別しようとします。ただし、エグザンプラが大量に

distillation

self-supervised

arXiv

representation

unsupervised

contrastive learning

arXiv reaDer
リンク
大きなシフトを伴うバースト画像再構成のための微分可能な2段階アライメントスキーム
A Differentiable Two-stage Alignment Scheme for Burst Image Reconstruction with Large Shift ノイズ除去とデモザイキングは、生データからクリーンなフルカラー画像を再構築するための2つの重要なステップです。最近、バースト画像、すなわちJDD-Bの共同ノイズ除去およびデモザイキング（JDD）は、単一の高品質画像を再構成するために短時間でキャプチャされた複数の生画像を使用することによって大きな注目を集めています。 JDD-Bの重要な課題の1つは、画像フレームの堅牢な配置にあります。機能領域の最先端の位置合わせ方法では、カメラやオブジェクトの動きによって大きなシフトが一般的に存在するバースト画像の時間情報を効果的に利用できません。さらに、最新のイメージングデバイスの解像度が高い（たとえば、4K）と、フレーム間
arxiv_reader 2022/03/18
ノイズ除去とデモザイキングは、生データからクリーンなフルカラー画像を再構築するための2つの重要なステップです。最近、バースト画像、すなわちJDD-Bの共同ノイズ除去およびデモザイキング（JDD）は、単

attention

denoising

arXiv

domain

differentiable

reconstruction

arXiv reaDer
リンク
PreTR：時空間非自己回帰軌道予測トランスフォーマー
arxiv_reader 2022/03/18
今日、私たちのモビリティシステムは、交通安全の向上を目指すインテリジェント車両の時代へと進化しています。それらの脆弱性のために、歩行者はこれらの開発から最も恩恵を受けるユーザーです。ただし、それらの軌

pedestrian

attention

transformer

arXiv

trajectory

spatio-temporal

bias

benchmark

dataset

arXiv reaDer
リンク
単項ペアワイズアテンションを使用した3D点群処理のための局所特徴学習の強化
arxiv_reader 2022/03/18
3D点群間の関係をモデル化するためのunary-pairwiseattention（UPA）という名前のシンプルで効果的な注意を示します。私たちのアイデアは、グローバルに動作する標準の自己注意（SA）

point cloud

learning

segmentation

attention

classification

arXiv

3D

arXiv reaDer
リンク
HybridCap：挑戦的な人間の動きの慣性支援単眼キャプチャ
HybridCap: Inertia-aid Monocular Capture of Challenging Human Motions 単眼3Dモーションキャプチャ（mocap）は、多くのアプリケーションに役立ちます。ただし、単一のカメラを使用すると、さまざまな体の部分のオクルージョンを処理できないことが多く、そのため、比較的単純な動きをキャプチャすることに制限されます。学習と最適化のフレームワークで、わずか4つの慣性計測ユニット（IMU）でカメラを補強する、HybridCapと呼ばれる軽量のハイブリッドモーションキャプチャ技術を紹介します。最初に、手足、体、根のトラッカー、および逆運動学ソルバーとして機能する協調ゲート付き回帰ユニット（GRU）ブロックに基づく、弱教師あり階層型モーション推論モジュールを採用します。私たちのネットワークは、粗いポーズから細かいポーズの推定によって、もっ
arxiv_reader 2022/03/18
単眼3Dモーションキャプチャ（mocap）は、多くのアプリケーションに役立ちます。ただし、単一のカメラを使用すると、さまざまな体の部分のオクルージョンを処理できないことが多く、そのため、比較的単純な動

tracking

recurrent

pose estimation

weakly-supervised

arXiv

3D

monocular

real time

dataset

arXiv reaDer
リンク
PanoFormer：屋内360深度推定用のパノラマトランス
arxiv_reader 2022/03/18
畳み込みニューラルネットワーク（CNN）に基づく既存のパノラマ深度推定方法は、パノラマ歪みの除去に重点を置いており、CNNの受容野が固定されているため、パノラマ構造を効率的に認識できません。この論文で

segmentation

transformer

metric

arXiv

CNN

estimation

domain

arXiv reaDer
リンク
SO（D）での深度降下同期
arxiv_reader 2022/03/18
ローテーショングループSO（D）での同期の堅牢な回復結果を提供します。特に、限られた割合の観測値が任意に破損する、敵対的な破損設定を検討します。接空間のTukeyの深さを利用する新しいアルゴリズムを提

adversarial

arXiv

arXiv reaDer
リンク
ART-SS：悪天候の影響を受けた画像の半教師あり復元のための適応拒否技術
arxiv_reader 2022/03/18
近年、畳み込みニューラルネットワークベースの単一画像の悪天候除去方法により、多くのベンチマークデータセットで大幅なパフォーマンスの向上が達成されました。ただし、これらの方法では、トレーニングのために大

semi-supervised

synthesis

arXiv

CNN

domain

benchmark

dataset

arXiv reaDer
リンク
オーバーサンプリングされたデータのプログレッシブサブサンプリング-定量的MRIへの適用
arxiv_reader 2022/03/18
PROSUB：プログレッシブサブサンプリングを紹介します。これは、情報の損失を最小限に抑えて、オーバーサンプリングされたデータセット（マルチチャネル3D画像など）をサブサンプリングする、深層学習ベース

NAS

learning

arXiv

3D

MRI

arXiv reaDer
リンク
クロスドメインオープンワールド認識のための対照学習
進化する能力は、知識が製造業者によって注入されたものに限定され続けることができない貴重な自律エージェントにとって基本的です。たとえば、ホームアシスタントロボットを考えてみましょう。要求に応じて新しいオブジェクトカテゴリを段階的に学習できるだけでなく、異なる環境（部屋）やポーズ（手持ち/床/家具の上）で同じオブジェクトを認識できる必要があります。未知のものを拒否します。その重要性にもかかわらず、このシナリオはロボットコミュニティへの関心を高め始めたばかりであり、関連する研究はまだ初期段階であり、既存の実験テストベッドがありますが、調整された方法はありません。この作業では、単一の対照的な目的を活用することにより、前述のすべての課題に一度に対処する最初の学習アプローチを提案します。新しいクラスを段階的に含めるのに完全に適した機能空間を学習し、さまざまな視覚領域にわたって一般化する知識を取り込むこ
arxiv_reader 2022/03/18
進化する能力は、知識が製造業者によって注入されたものに限定され続けることができない貴重な自律エージェントにとって基本的です。たとえば、ホームアシスタントロボットを考えてみましょう。要求に応じて新しいオ

arXiv reaDer

robot

arXiv

domain

contrastive learning

pose
リンク
非IID連合学習のためのデータフリー知識蒸留によるグローバルモデルの微調整
arxiv_reader 2022/03/18
連合学習（FL）は、プライバシーの制約下にある新しい分散学習パラダイムです。データの不均一性はFLの主な課題の1つであり、収束が遅くなり、パフォーマンスが低下します。ほとんどの既存のアプローチは、クラ

learning

knowledge distillation

arXiv

arXiv reaDer
リンク
敵対的に訓練されたCNNの特性について
arxiv_reader 2022/03/18
敵対的トレーニングは、現代のニューラルネットワークアーキテクチャにおける敵対的例に対して堅牢性を強化するための効果的なトレーニングパラダイムであることが証明されています。多くの努力にもかかわらず、敵対

learning

arXiv

adversarial

CNN

dataset

arXiv reaDer
リンク
インスタンス正規化を使用した深度認識ニューラルスタイル転送
arxiv_reader 2022/03/18
ニューラルスタイル転送（NST）は、ビジュアルメディアの芸術的な様式化に関係しています。それは、芸術的なイメージのスタイルを通常の写真に移すプロセスとして説明することができます。最近、多くの研究で、入

residual

depth prediction

convolutional

arXiv

loss function

arXiv reaDer
リンク
ボトムアップ機能の復元による測定シフトへのソースフリーの適応
arxiv_reader 2022/03/18
ソースフリードメイン適応（SFDA）は、適応中にソースドメインデータにアクセスすることなく、ソースドメインのラベル付きデータでトレーニングされたモデルをターゲットドメインのラベルなしデータに適応させる

domain adaptation

arXiv

approximation

synthesis

arXiv reaDer
リンク
多肢選択問題によるビデオテキスト検索の橋渡し
arxiv_reader 2022/03/18
検索用の転送可能なビデオテキスト表現を学習するためのモデルの事前トレーニングは、近年多くの注目を集めています。以前の主な作品は、効率的な検索のために主に2つの別々のエンコーダーを採用していますが、ビデ

zero-shot

attention

pre-training

arXiv

video

representation

action recognition

dataset

arXiv reaDer
リンク
オブジェクト検出のためのドメインの一般化
arxiv_reader 2022/03/18
ドメインの一般化は、ドメイン固有の機能を抑制しながらドメイン不変の機能の学習を促進することを目的としているため、モデルはこれまでに見られなかったターゲットドメインでうまく一般化できます。この論文では、

detection

learning

arXiv

representation

domain

dataset

arXiv reaDer
リンク
外科的ワークフロー認識：課題の分析からアーキテクチャ研究まで
arxiv_reader 2022/03/18
アルゴリズムによる外科ワークフローの認識は現在進行中の研究分野であり、腹腔鏡（内部）分析と手術室（外部）分析に分けることができます。これまでのところ、フレームレベルと追加の時間モデルを組み合わせて、さ

arXiv

arXiv reaDer
リンク
MVP-Net：大規模な点群のマルチビューポイントワイズセマンティックセグメンテーション
arxiv_reader 2022/03/18
3Dポイントクラウドのセマンティックセグメンテーションは、自動運転環境の認識に不可欠なタスクです。ほとんどの点ごとのポイントクラウドセマンティックセグメンテーション方法のパイプラインには、ポイントサン

point cloud

classification

arXiv

3D

autonomous driving

benchmark

dataset

arXiv reaDer

semantic segmentation
リンク
HDAM：畳み込みニューラルネットワーク用のヒューリスティック差分注意モジュール
arxiv_reader 2022/03/18
注意メカニズムは、畳み込みニューラルネットワークを強化するための最も重要な先験的知識の1つです。ほとんどの注意メカニズムは畳み込み層にバインドされており、ローカルまたはグローバルのコンテキスト情報を使

attention

arXiv

python

CNN

GA

arXiv reaDer
リンク
半教師ありドメインで一般化された医療画像セグメンテーションのための疑似ラベル品質の向上
arxiv_reader 2022/03/18
医療画像セグメンテーションアルゴリズムを目に見えない領域に一般化することは、コンピュータ支援診断と手術の重要な研究トピックです。ほとんどの既存の方法では、各ソースドメインに完全にラベル付けされたデータ

segmentation

semi-supervised

arXiv

domain

dataset

arXiv reaDer
リンク
ConAM：畳み込みニューラルネットワークの信頼性注意モジュール
arxiv_reader 2022/03/18
いわゆる「注意」は、畳み込みニューラルネットワークのパフォーマンスを向上させるための効率的なメカニズムです。コンテキスト情報を使用して入力を再調整し、有益な機能の伝播を強化します。ただし、注意メカニズ

attention

arXiv

python

CNN

arXiv reaDer
リンク
ディープフェイク画像の分析と検出のためのウェーブレットパケット
arxiv_reader 2022/03/18
ニューラルネットワークがリアルな人工画像を生成できるようになると、映画、音楽、ビデオゲームを改善し、インターネットをさらに創造的で刺激的な場所にする可能性があります。それでも、最新のテクノロジーは潜在

detection

interpretation

identification

arXiv

video

CNN

deepfake

representation

synthesis

arXiv reaDer
リンク
HSC4D：ウェアラブルIMUとLiDARを使用した、大規模な屋内と屋外の空間での人間中心の4Dシーンキャプチャ
HSC4D：ウェアラブルIMUとLiDARを使用した、大規模な屋内と屋外の空間での人間中心の4Dシーンキャプチャ HSC4D: Human-centered 4D Scene Capture in Large-scale Indoor-outdoor Space Using Wearable IMUs and LiDAR 大規模な屋内と屋外のシーン、多様な人間の動き、人間と環境の間の豊かな相互作用を含むダイナミックなデジタル世界を正確かつ効率的に作成するために、人間中心の4Dシーンキャプチャ（HSC4D）を提案します。 HSC4Dは、ボディに取り付けられたIMUとLiDARのみを使用しており、外部デバイスの制約がなくてもスペースがなく、事前に作成されたマップがなくてもマップがありません。 IMUは人間のポーズをキャプチャできますが、長期間の使用では常にドリフトすることを考慮して、LiDAR
arxiv_reader 2022/03/18
大規模な屋内と屋外のシーン、多様な人間の動き、人間と環境の間の豊かな相互作用を含むダイナミックなデジタル世界を正確かつ効率的に作成するために、人間中心の4Dシーンキャプチャ（HSC4D）を提案します。

LiDAR

robot

arXiv

autonomous driving

human

activity

localization

dataset

arXiv reaDer

pose
リンク
ビデオ復元のためのニューラル圧縮ベースの特徴学習
arxiv_reader 2022/03/18
時間的特徴を効率的に利用する方法は、ビデオの復元にとって非常に重要ですが、困難です。時間的特徴には通常、さまざまなノイズの多い無相関の情報が含まれており、現在のフレームの復元を妨げる可能性があります。

learning

denoising

quantization

arXiv

video

representation

compression

arXiv reaDer
リンク
X線画像での金属セグメンテーションを可能にするビジョントランスフォーマーのシミュレーション駆動型トレーニング
arxiv_reader 2022/03/18
X線ラジオグラフィーのいくつかの画像取得および処理ステップでは、金属インプラントの存在とその正確な位置に関する知識が非常に有益です（たとえば、線量調整、画像コントラスト調整）。正確な金属セグメンテーシ

segmentation

transformer

U-Net

arXiv

3D

CNN

dataset

CT

arXiv reaDer
リンク
マルチタスク自己監視によるきめ細かい異常検出
arxiv_reader 2022/03/18
ディープラーニングを使用して異常を検出することは、過去数年間で大きな課題になり、いくつかの分野でますます有望になっています。自己教師あり学習の導入は、単純な幾何学的変換認識タスクが使用される異常検出を

self-supervised

learning

anomaly detection

multi-task

arXiv

arXiv reaDer
リンク
不定期にサンプリングされたビデオデータの高速再帰的再構成のための新しい整合性チェック
Novel Consistency Check For Fast Recursive Reconstruction Of Non-Regularly Sampled Video Data クォーターサンプリングは、ピクセル数を増やすことなく、より高解像度の画像を取得できる新しいセンサー設計です。ビデオデータに使用する場合、4ピクセルのうち1ピクセルが各フレームで測定されます。事実上、これは不規則な時空間サブサンプリングにつながります。純粋に空間的または時間的なサブサンプリングと比較して、エイリアシングアーティファクトを減らすことができるため、これにより再構成の品質を向上させることができます。固定マスクを使用したこのようなセンサーデータの高速再構成のために、周波数選択的再構成（FSR）の再帰的バリアントが提案されました。ここでは、前のフレームで測定されたピクセルが現在のフレームに投影され、そ
arxiv_reader 2022/03/18
クォーターサンプリングは、ピクセル数を増やすことなく、より高解像度の画像を取得できる新しいセンサー設計です。ビデオデータに使用する場合、4ピクセルのうち1ピクセルが各フレームで測定されます。事実上、こ

arXiv

video

spatio-temporal

reconstruction

arXiv reaDer
リンク
詳細またはアーティファクト：現実的な画像の超解像への局所的に識別可能な学習アプローチ
arxiv_reader 2022/03/18
生成的敵対的ネットワーク（GAN）を備えた単一画像超解像（SISR）は、豊富な詳細を生成する可能性があるため、最近ますます注目を集めています。ただし、GANのトレーニングは不安定であり、生成された詳細

GAN

dataset

learning

residual

attention

super-resolution

arXiv

synthesis

reconstruction

arXiv reaDer
リンク
Deep-ASPECTS：脳卒中重症度測定のためのセグメンテーション支援モデル
arxiv_reader 2022/03/18
脳卒中は、脳内の動脈が破裂して出血したとき、または脳への血液供給が遮断されたときに発生します。破裂や閉塞により組織が死ぬため、血液や酸素が脳の組織に到達できなくなります。中大脳動脈（MCA）は最大の大

detection

segmentation

arXiv

CT

arXiv reaDer
リンク
産業品質管理のためのインタラクティブな説明AIシステム
An Interactive Explanatory AI System for Industrial Quality Control ディープニューラルネットワークアプローチなどの機械学習ベースの画像分類アルゴリズムは、決定の透明性と理解可能性が重要である業界の品質管理などの重要な設定でますます採用されるようになります。したがって、欠陥検出タスクをインタラクティブなヒューマンインザループアプローチに拡張することを目指しています。これにより、従来の純粋なデータ駆動型アプローチを超えて、豊富な背景知識と複雑な関係の推論を統合できます。（説明可能な）知識駆動型とデータ駆動型の両方の機械学習方法、特に帰納論理プログラミングと畳み込みニューラルネットワークの利点を人間の専門知識と組み合わせた、産業品質管理設定での分類のためのインタラクティブなサポートシステムのアプローチを提案しますと制御。結果と
arxiv_reader 2022/03/18
ディープニューラルネットワークアプローチなどの機械学習ベースの画像分類アルゴリズムは、決定の透明性と理解可能性が重要である業界の品質管理などの重要な設定でますます採用されるようになります。したがって、

detection

learning

explainable

classification

arXiv

human

CNN

domain

arXiv reaDer
リンク
ローカルに完全に接続されたレイヤーを使用して、不規則にサンプリングされた画像データを再構築するための新しいエンドツーエンドネットワーク
arxiv_reader 2022/03/18
クォーターサンプリングと3/4サンプリングは、ピクセル数を増やすことなく、より高解像度の画像を取得できる新しいセンサーの概念です。これは、各ピクセルのセンサー領域の1つの象限または3つの象限のみが光に

dataset

reconstruction

arXiv

arXiv reaDer
リンク
位相的エントロピー計算によるCNNユニットの定量的性能評価
arxiv_reader 2022/03/18
個々のネットワークユニットのステータスを特定することは、畳み込みニューラルネットワーク（CNN）のメカニズムを理解するために重要です。ただし、特に異なるネットワークモデルのユニットの場合、ユニットのス

CNN

representation

arXiv

arXiv reaDer
リンク
画像属性編集のための忠実度の高いGAN反転
arxiv_reader 2022/03/18
画像固有の詳細（背景、外観、照明など）を適切に保存して属性編集を可能にする、新しい高忠実度の生成的敵対的ネットワーク（GAN）反転フレームワークを紹介します。最初に、非可逆データ圧縮の観点から、忠実度

GAN

self-supervised

arXiv

face

domain

reconstruction

compression

arXiv reaDer
リンク
スタイル拡張と二重正規化による一般化可能なクロスモダリティ医療画像セグメンテーション
arxiv_reader 2022/03/18
医療画像のセグメンテーションについて、モデルがソースドメインのMR画像のみを使用してトレーニングされた場合、ターゲットドメインのCT画像を直接セグメント化するパフォーマンスはどうでしょうか。この設定、

augmentation

segmentation

batch normalization

domain adaptation

arXiv

MRI

dataset

CT

arXiv reaDer
リンク
熱位置符号化による衛星画像時系列の一般化された分類
arxiv_reader 2022/03/18
大規模な作物タイプの分類は、経済的および生態学的に重要なアプリケーションを使用したリモートセンシングの取り組みの中核となるタスクです。現在の最先端の深層学習手法は、自己注意に基づいており、衛星画像時系

satellite

learning

classification

arXiv

arXiv reaDer
リンク
UWED: 正確な 3D シーンの表現と完成のための符号なしディスタンスフィールド
arxiv_reader 2022/03/18
シーンの完了は、シーンの部分スキャンから欠落しているジオメトリを完了するタスクです。以前の方法の大部分は、ニューラルネットワークへの入力として3Dグリッド上の切り捨てられた符号付き距離関数（TSDF）

point cloud

LiDAR

arXiv

3D

representation

RGB-D

arXiv reaDer
リンク
追加の命令に値するデータサンプルの数は?
arxiv_reader 2022/03/18
最近導入された命令パラダイムは、専門家でないユーザーが自然言語で新しいタスクを定義することにより、NLPリソースを活用できるようにします。命令調整モデルは、（命令なしの）マルチタスク学習モデルを大幅に

learning

dataset

arXiv

arXiv reaDer
リンク
人間のようなバイアス：シーングラフ生成のための認知バイアスフレームワーク
arxiv_reader 2022/03/18
シーングラフの生成は、特定の認識パターンがないため、高度なタスクです（たとえば、「見る」と「近く」は視覚に関して目立った違いはありませんが、「近く」は異なる形態のエンティティ間で発生する可能性がありま

metric

arXiv

representation

bias

dataset

arXiv reaDer
リンク
最適な拒否機能が文字認識タスクに対応
本論文では、棄却関数により曖昧なサンプルを棄却するための最適な棄却法を提案する。この拒否関数は、Learning-with-Rejection（LwR）のフレームワークの下で分類関数と一緒にトレーニングされます。 LwRのハイライトは次のとおりです。（1）拒否戦略はヒューリスティックではないが、機械学習理論からの強い背景があります。（2）拒否関数は、分類用の特徴空間とは異なる任意の特徴空間でトレーニングできます。。後者は、拒否により適した機能スペースを選択できることを示しています。 LwRに関するこれまでの研究は理論的な側面のみに焦点を当てていましたが、実際のパターン分類タスクにLwRを利用することを提案します。さらに、分類と拒否のために異なるCNN層の特徴を使用することを提案します。 notMNIST分類と文字/非文字分類の広範な実験は、提案された方法が従来の拒否戦略よりも優れたパフォ
arxiv_reader 2022/03/18
本論文では、棄却関数により曖昧なサンプルを棄却するための最適な棄却法を提案する。この拒否関数は、Learning-with-Rejection（LwR）のフレームワークの下で分類関数と一緒にトレーニン

learning

classification

arXiv

CNN

arXiv reaDer
リンク
アクティブな視覚触覚オブジェクトの形状の完成
arxiv_reader 2022/03/18
オブジェクト形状の完成における最近の進歩により、視覚的な入力のみを使用した印象的なオブジェクトの再構築が可能になりました。ただし、自己閉塞のため、再構成は閉塞されたオブジェクト部分の不確実性が高く、把

point cloud

simulation

robot

arXiv

reconstruction

arXiv reaDer
リンク
MuKEA：知識ベースの視覚的質問応答のためのマルチモーダル知識抽出と蓄積
arxiv_reader 2022/03/18
知識ベースの視覚的な質問応答には、オープンエンドのクロスモーダルシーンの理解のために外部の知識を関連付ける機能が必要です。既存のソリューションの制限の1つは、テキストのみの知識ベースから関連する知識を

embedding

learning

explainable

pre-training

VQA

arXiv

representation

arXiv reaDer
リンク
MAMLのグローバルコンバージェンスと理論に着想を得たニューラルアーキテクチャによる少数のショット学習の検索
arxiv_reader 2022/03/18
モデルにとらわれないメタ学習（MAML）とその変形は、数ショット学習の一般的なアプローチになっています。ただし、ディープニューラルネット（DNN）の非凸性と、MAMLの2レベルの定式化により、DNNを

NAS

learning

DNN

arXiv

few-shot

benchmark

arXiv reaDer
リンク
自動車のジオローカリゼーションのための共同視覚パターン拡張生成トランスフォーマー学習
arxiv_reader 2022/03/18
巨大なジオタグ付き空中（衛星など）画像と照合することで地上カメラの地理的位置を推定することを目的としたクロスビュージオローカリゼーション（CVGL）は、ビュー間の外観の大幅な違いにより、依然として非常

satellite

learning

attention

transformer

arXiv

CNN

generative

benchmark

arXiv reaDer
リンク
ビジョントランスフォーマーは疑似相関に対してロバストですか？
arxiv_reader 2022/03/18
深部神経ネットワークは、平均的には保持されるが非定型のテストサンプルには保持されない疑似相関を学習する可能性があります。ビジョントランスフォーマー（ViT）モデルの最近の出現と同様に、そのようなアーキ

learning

pre-training

transformer

arXiv

CNN

benchmark

dataset

arXiv reaDer
リンク
AS-MLP：視覚のための軸方向シフトMLPアーキテクチャ
arxiv_reader 2022/03/18
この論文では、アキシャルシフトMLPアーキテクチャ（AS-MLP）を提案します。行列の転置と1つのトークン混合MLPを介した情報フローのためにグローバル空間機能がエンコードされるMLP-Mixerとは

detection

attention

transformer

arXiv

CNN

dataset

arXiv reaDer

semantic segmentation
リンク
オブジェクトベースの多様な入力によるターゲットを絞った敵対的な例の転送可能性の改善
arxiv_reader 2022/03/18
敵対的な例の転送可能性により、ブラックボックスモデルの欺瞞が可能になり、転送ベースの標的型攻撃は、その実用的な適用性のために多くの関心を集めています。転送の成功率を最大化するには、敵対的な例でソースモ

augmentation

classification

arXiv

3D

adversarial

face

dataset

arXiv reaDer
リンク
DRAG：プライバシーを侵害する画像検出のための動的な領域認識GCN
arxiv_reader 2022/03/18
ソーシャルメディアで画像を共有する日常の習慣は、プライバシーの漏洩について深刻な問題を引き起こします。この問題に対処するために、プライバシーを漏らす可能性のある画像を自動的に識別することを目的として、

detection

arXiv

convolutional

GCN

dataset

arXiv reaDer
リンク
MotionAug：人間の動きを予測するための物理的補正による拡張
arxiv_reader 2022/03/18
この論文は、物理的妥当性を課す多様性と運動補正を促進する運動合成を組み込んだ運動データ増強スキームを提示する。このモーション合成は、修正された変分オートエンコーダー（VAE）と逆運動学（IK）で構成さ

augmentation

simulation

learning

RNN

arXiv

convolutional

human

bias

synthesis

arXiv reaDer
リンク
SimVLM：弱い監視による単純な視覚言語モデルの事前トレーニング
arxiv_reader 2022/03/18
視覚的表現とテキスト表現の共同モデリングの最近の進歩により、ビジョン言語事前トレーニング（VLP）は、多くのマルチモーダルダウンストリームタスクで印象的なパフォーマンスを達成しました。ただし、クリーン

zero-shot

VQA

arXiv

representation

generative

benchmark

captioning

arXiv reaDer
リンク
コミュニティ主導の包括的な科学論文の要約：cvpaper.challengeからの洞察
arxiv_reader 2022/03/18
本稿では、ボランティア参加者による会議議事録の要約を書くことを含むグループ活動を紹介します。科学論文の急増は、科学文献を調査する必要のある研究者、特に非ネイティブスピーカーにとって大きな負担です。この

computer vision

activity

arXiv

arXiv reaDer
リンク
CrossLoc：マルチモーダル合成データによるスケーラブルな空中ローカリゼーション
arxiv_reader 2022/03/18
合成データの助けを借りて、現実世界のカメラのポーズを推定することを学ぶ視覚的位置特定システムを提示します。近年の大きな進歩にもかかわらず、視覚的ローカリゼーションへのほとんどの学習ベースのアプローチは

self-supervised

sim-to-real

pose estimation

arXiv

domain

benchmark

representation learning

localization

dataset

arXiv reaDer
リンク
ワンショットオブジェクト検出のためのセマンティックアラインメントフュージョントランス
arxiv_reader 2022/03/18
ワンショットオブジェクト検出は、特定の1つのインスタンスだけに従って新しいオブジェクトを検出することを目的としています。データが極端に不足している現在のアプローチでは、さまざまな機能の融合を検討して、

augmentation

one-shot

detection

attention

transformer

arXiv

benchmark

arXiv reaDer
リンク
deepNIR：ディープラーニング技術を使用して合成NIR画像と改良された果物検出システムを生成するためのデータセット
arxiv_reader 2022/03/18
この論文では、合成近赤外線（NIR）画像の生成とバウンディングボックスレベルの果物検出システムに利用されるデータセットを紹介します。 TensorflowやPytorchなどの高品質の機械学習フレーム

detection

learning

arXiv

synthesis

dataset

arXiv reaDer
リンク
連合学習によるニューラルネットワークベースの方法を使用した頭蓋内出血の検出
arxiv_reader 2022/03/18
頭蓋内出血は、頭蓋内で起こる出血であり、深刻な健康問題であり、迅速かつ集中的な治療が必要です。このような状態は伝統的に、高度に訓練された専門家が患者のコンピューター断層撮影（CT）スキャンを分析し、

detection

pooling

learning

classification

arXiv

convolutional

CT

arXiv reaDer
リンク
高品質の表面再構成のためのディープポイントクラウドの簡素化
arxiv_reader 2022/03/18
点群のサイズが大きくなると、3Dシーンのストレージ、送信、および計算の消費量が増加します。生データは冗長で、ノイズが多く、不均一です。したがって、コンパクトでクリーンで均一なポイントを実現するためにポ

point cloud

saliency

learning

arXiv

3D

mesh

reconstruction

arXiv reaDer
リンク
不均衡な学習における神経崩壊の誘発: ディープニューラルネットワークの最後に学習可能な分類子が本当に必要なのか?
arxiv_reader 2022/03/18
分類のための最新のディープニューラルネットワークは、通常、表現のバックボーンと各クラスのロジットを出力する線形分類器を共同で学習します。最近の研究では、バランスの取れたデータセットでのトレーニングの最

learning

classification

arXiv

gradient

representation

dataset

arXiv reaDer
リンク
エンコーダ-デコーダアーキテクチャおよびそれ以降の双方向スキップ接続に向けて
arxiv_reader 2022/03/18
U-Netは、フォワードスキップ接続を備えたエンコーダ-デコーダアーキテクチャとして、さまざまな医療画像分析タスクで有望な結果を達成しています。最近の多くのアプローチでは、U-Netをより複雑なビルデ

NAS

segmentation

recurrent

U-Net

arXiv

3D

benchmark

dataset

arXiv reaDer
リンク
UNIMO-2：エンドツーエンドの統一されたビジョン-言語に基づく学習
arxiv_reader 2022/03/18
Vision-Language Pre-training（VLP）は、さまざまなクロスモーダルダウンストリームタスクで優れたパフォーマンスを実現しました。ただし、ほとんどの既存の方法は、位置合わせされ

learning

pre-training

transformer

arXiv

representation

arXiv reaDer
リンク
STPLS3D：大規模な合成および実際の航空写真測量3D点群データセット
arxiv_reader 2022/03/18
さまざまな機能とスケールを持つさまざまな3Dデータセットが最近提案されていますが、個人が大規模なデータ収集、サニタイズ、および注釈のパイプライン全体を完了することは依然として困難です。さらに、作成され

point cloud

UAV

dataset

arXiv

3D

synthesis

reconstruction

arXiv reaDer
リンク
属性は、少数のショットの学習のためのトランスフォーマーでの学習とスペクトルトークンのプーリングを代理します
arxiv_reader 2022/03/18
このホワイトペーパーでは、属性サロゲート学習とスペクトルトークンプーリングを通じてデータ効率を向上させることができる、新しい階層的にカスケードされたトランスフォーマーを紹介します。ビジョントランスフォ

self-supervised

pooling

transformer

classification

arXiv

few-shot

CNN

benchmark

dataset

arXiv reaDer
リンク
異種ドキュメント画像からのロバストなテーブル検出と構造認識
Robust Table Detection and Structure Recognition from Heterogeneous Document Images テーブルの境界を検出し、異種のドキュメント画像からテーブルのセルラー構造を再構築するために、RobusTabNetという名前の新しいテーブル検出および構造認識アプローチを導入します。テーブル検出については、CornerNetを新しいリージョン提案ネットワークとして使用して、Faster R-CNNの高品質のテーブル提案を生成することを提案します。これにより、テーブル検出のFasterR-CNNのローカリゼーション精度が大幅に向上しました。その結果、私たちのテーブル検出アプローチは、軽量のResNet-18バックボーンネットワークのみを使用することにより、3つのパブリックテーブル検出ベンチマーク、つまりcTDaR TrackA
arxiv_reader 2022/03/18
テーブルの境界を検出し、異種のドキュメント画像からテーブルのセルラー構造を再構築するために、RobusTabNetという名前の新しいテーブル検出および構造認識アプローチを導入します。テーブル検出につい

detection

R-CNN

arXiv

CNN

benchmark

localization

dataset

arXiv reaDer
リンク
GLSD：グローバルな大規模船舶データベースとベースライン評価
arxiv_reader 2022/03/18
この論文では、船舶検出タスク用に特別に設計された、挑戦的なグローバルな大規模船舶データベース（GLSDと呼ばれる）を紹介します。設計されたGLSDデータベースには、152,576枚の画像から合計212

detection

classification

arXiv

arXiv reaDer
リンク
DU-VLG：デュアルシーケンス間事前トレーニングによるビジョンと言語の生成の統合
arxiv_reader 2022/03/18
モデル構造と事前トレーニングの目的の制限により、既存のビジョンと言語の生成モデルでは、双方向の生成を通じてペアワイズ画像とテキストを利用できません。本論文では、シーケンス生成問題として視覚と言語の生成

pre-training

denoising

arXiv

human

seq2seq

dataset

captioning

arXiv reaDer
リンク
潜像アニメーター：潜像ナビゲーションを介して画像をアニメーション化する方法を学ぶ
arxiv_reader 2022/03/18
深い生成モデルの目覚ましい進歩により、画像のアニメーション化はますます効率的になり、関連する結果はますます現実的になりました。現在のアニメーションアプローチは、一般的に、運転中のビデオから抽出された構

self-supervised

learning

arXiv

video

representation

generative

dataset

arXiv reaDer
リンク
データ：ドメイン対応およびタスク対応の自己監視学習
arxiv_reader 2022/03/18
最近、自己監視学習（SSL）によるラベルなしの大量データのトレーニングモデルと多くのダウンストリームタスクの微調整のパラダイムがトレンドになっています。ただし、トレーニングコストが高く、ダウンストリー

NAS

detection

self-supervised

pre-training

classification

arXiv

metric

domain

arXiv reaDer

semantic segmentation
リンク
多相画像セグメンテーションのための局所分散力項とその効率的な最小化ソルバーを備えたアクティブ輪郭モデル
An Active Contour Model with Local Variance Force Term and Its Efficient Minimization Solver for Multi-phase Image Segmentation この論文では、多相画像セグメンテーション問題に適用できる局所分散力（LVF）項を持つアクティブ輪郭モデルを提案します。 LVFを使用すると、提案されたモデルはノイズのある画像のセグメンテーションに非常に効果的です。このモデルを効率的に解くために、正則化項を特性関数で表し、反復畳み込みしきい値法（ICTM）、つまりICTM-LVFの修正に基づいて最小化アルゴリズムを設計します。この最小化アルゴリズムは、特定の条件下でエネルギー減衰特性を享受し、セグメンテーションで非常に効率的なパフォーマンスを発揮します。アクティブコンターモデルの初期化の問
arxiv_reader 2022/03/18
この論文では、多相画像セグメンテーション問題に適用できる局所分散力（LVF）項を持つアクティブ輪郭モデルを提案します。 LVFを使用すると、提案されたモデルはノイズのある画像のセグメンテーションに非常

segmentation

arXiv

synthesis

regularization

arXiv reaDer
リンク
HybridNets：エンドツーエンドの知覚ネットワーク
arxiv_reader 2022/03/18
エンドツーエンドネットワークは、マルチタスクにおいてますます重要になっています。この顕著な例の1つは、自動運転における運転知覚システムの重要性の高まりです。この論文は、マルチタスクのためのエンドツーエ

detection

dataset

segmentation

arXiv

autonomous driving

real time

loss function

arXiv reaDer
リンク
StyleHEAT：事前にトレーニングされたStyleGANを介したワンショットの高解像度編集可能な話す顔の生成
StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via Pre-trained StyleGAN ワンショットトーキングフェイス生成は、ビデオまたはオーディオセグメントによって駆動される、任意のポートレート画像から高品質のトーキングフェイスビデオを合成することを目的としています。難しい品質要因の1つは、出力ビデオの解像度です。解像度が高いほど、詳細がわかります。この作業では、事前にトレーニングされたStyleGANの潜在特徴空間を調査し、いくつかの優れた空間変換プロパティを発見します。観察の結果、事前にトレーニングされたStyleGANを使用して、トレーニングデータセットの解像度の限界を突破する可能性を探ります。事前にトレーニングされたStyleGANに基づく新しい統合フレームワークを提案します。これ
arxiv_reader 2022/03/18
ワンショットトーキングフェイス生成は、ビデオまたはオーディオセグメントによって駆動される、任意のポートレート画像から高品質のトーキングフェイスビデオを合成することを目的としています。難しい品質要因の1

GAN

one-shot

pre-training

arXiv

3D

domain

synthesis

disentangling

dataset

arXiv reaDer
リンク
P2M：リソースに制約のあるTinyMLアプリケーションのメモリ内ピクセル処理パラダイム
arxiv_reader 2022/03/18
最先端の高解像度カメラから生成された膨大な量のデータを処理する需要は、新しいエネルギー効率の高いオンデバイスAIソリューションを動機付けています。このようなカメラの視覚データは通常、センサーピクセルア

embedding

batch normalization

arXiv

CNN

domain

dataset

arXiv reaDer
リンク
内部不一致ベースのOOD検出器を介した一般化されたゼロショット学習のための意味多様性転送ネットワーク
arxiv_reader 2022/03/18
ゼロショット学習（ZSL）は、目に見えないクラスのオブジェクトを認識することを目的としています。カーネルの問題は、視覚的機能と意味的機能の間に適切なマッピングを確立することにより、知識を目に見えるクラ

zero-shot

detection

learning

classification

arXiv

OOD

bias

domain

dataset

arXiv reaDer
リンク
ECONet：落書きベースのインタラクティブセグメンテーションのための効率的な畳み込みオンライン尤度ネットワーク
arxiv_reader 2022/03/18
CT画像のCOVID-19に関連する肺病変の自動セグメンテーションには、大量の注釈付きボリュームが必要です。注釈は専門家の知識を必要とし、完全に手動のセグメンテーション方法で取得するには時間がかかりま

learning

segmentation

COVID-19

arXiv

CNN

synthesis

CT

arXiv reaDer

pose
リンク
乳房超音波画像の分類のためのビジョントランスフォーマー
arxiv_reader 2022/03/18
医療用超音波（US）イメージングは、その使いやすさ、低コスト、および安全性により、乳がんイメージングの主要なモダリティになっています。過去10年間で、畳み込みニューラルネットワーク（CNN）が視覚アプ

augmentation

transformer

classification

arXiv

metric

CNN

arXiv reaDer
リンク
静脈攻撃データベースの広範な脅威分析と比較スコアの融合による攻撃検出
Extensive Threat Analysis of Vein Attack Databases and Attack Detection by Fusion of Comparison Scores 過去10年間で、指と手の静脈の生体認証の領域でのプレゼンテーション攻撃の検出に関して多くの多大な貢献がもたらされました。これらの貢献の中で、プライベートまたは研究コミュニティに公開されているさまざまな攻撃データベースを見つけることができます。ただし、使用された攻撃サンプルが実際に現実的な静脈認識システムを欺く能力を持っているかどうかは常に示されているわけではありません。以前の研究に触発されて、この研究は、3つの公的に利用可能な指静脈攻撃データベースと1つの私的な背側手静脈データベースを含む体系的な脅威評価を提供します。そのために、14の異なる静脈認識スキームが攻撃サンプルに直面し、誤って
arxiv_reader 2022/03/18
過去10年間で、指と手の静脈の生体認証の領域でのプレゼンテーション攻撃の検出に関して多くの多大な貢献がもたらされました。これらの貢献の中で、プライベートまたは研究コミュニティに公開されているさまざまな

detection

arXiv

biometrics

domain

arXiv reaDer
リンク
3D-UCaps：ボリューム画像セグメンテーション用の3DカプセルUnet
arxiv_reader 2022/03/18
医療画像のセグメンテーションは、これまで畳み込みニューラルネットワーク（CNN）で有望な結果を達成してきました。ただし、従来のCNNでは、そのプーリング層が位置などの重要な情報を破棄する傾向があること

pooling

segmentation

arXiv

3D

CNN

representation

dataset

arXiv reaDer
リンク
Point-Unet：ボリュームセグメンテーションのためのコンテキストアウェアポイントベースのニューラルネットワーク
arxiv_reader 2022/03/18
ディープラーニングを使用した医療画像分析が最近普及しており、医療画像セグメンテーションとその兄弟であるボリューム画像セグメンテーションを含むさまざまなダウンストリームタスクで優れたパフォーマンスを示し

point cloud

segmentation

metric

arXiv

3D

sparse

domain

benchmark

arXiv reaDer
リンク
対照的な敵対的訓練における認知的不協和緩和によるロバスト性
arxiv_reader 2022/03/18
この論文では、対照学習（CL）と敵対的トレーニング（AT）を組み合わせることにより、高いクリーン精度を維持しながら、敵対的攻撃に対するモデルの敵対的ロバスト性を高める新しいニューラルネットワークトレー

embedding

self-supervised

classification

arXiv

adversarial

representation

dataset

contrastive learning

arXiv reaDer
リンク
医用画像アプリケーションにおける数ショット学習のためのNASのメタ学習
arxiv_reader 2022/03/18
深層学習手法は、機械学習のタスクの解決に成功しており、非構造化データから特徴を自動的に抽出できるため、多くの分野で画期的な成果を上げています。ただし、それらのパフォーマンスは、適切なネットワークアーキ

computer vision

NAS

detection

segmentation

classification

arXiv

few-shot

reconstruction

arXiv reaDer
リンク
医療画像セグメンテーションのためのCapsNet
arxiv_reader 2022/03/18
畳み込みニューラルネットワーク（CNN）は、非構造化データから特徴を自動的に抽出する機能により、医療画像のセグメンテーションを含むコンピュータービジョンのタスクの解決に成功しています。ただし、CNNは

computer vision

pooling

segmentation

classification

arXiv

3D

CNN

representation learning

arXiv reaDer
リンク
ABN：一時的なアクション提案を生成するためのエージェント対応境界ネットワーク
arxiv_reader 2022/03/18
時間的アクション提案生成（TAPG）は、トリミングされていないビデオのアクションの時間的間隔を推定することを目的としています。これは困難ですが、ビデオ分析と理解の多くのタスクで重要な役割を果たします。

detection

learning

action

arXiv

video

human

representation

dataset

arXiv reaDer
リンク
教師なし解剖学的特徴蒸留によるヒト精子頭部形態分類の改善
arxiv_reader 2022/03/18
男性不妊症の増加に伴い、精子頭部の形態分類は、正確でタイムリーな臨床診断のために重要になります。最近の深層学習（DL）形態分析手法は、有望なベンチマーク結果を達成しますが、限られた、場合によってはノイ

distillation

learning

classification

arXiv

human

benchmark

dataset

unsupervised

arXiv reaDer
リンク
ツイートとビデオを使用したマルチメディアサマリーの作成
arxiv_reader 2022/03/18
大統領選挙討論会やテレビ番組などの人気のあるテレビ番組が放映されている間、人々はそれらについてリアルタイムで解説を提供します。この論文では、ソーシャルメディアの解説とビデオを組み合わせて、放映されたイ

real time

video

arXiv

arXiv reaDer
リンク
超解像のための真の詳細復元に向けて：ベンチマークと品質指標
arxiv_reader 2022/03/18
超解像（SR）は、近年広く研究されているトピックになっています。 SRメソッドは、全体的な画像とビデオの品質を向上させ、さらなるコンテンツ分析の新しい可能性を生み出すことができます。しかし、SRの主流

super-resolution

metric

arXiv

video

face

benchmark

dataset

arXiv reaDer
リンク
ハイブリッドピクセル-軽量画像の超解像のためのシャッフルされていないネットワーク
arxiv_reader 2022/03/18
畳み込みニューラルネットワーク（CNN）は、画像の超解像（SR）で大きな成功を収めています。ただし、ほとんどのディープCNNベースのSRモデルは、高パフォーマンスを得るために大規模な計算を行います。多

dataset

super-resolution

arXiv

CNN

benchmark

reconstruction

arXiv reaDer
リンク
一時的な行動提案生成のためのエージェント-環境ネットワーク
arxiv_reader 2022/03/18
時間的アクション提案の生成は、トリミングされていないビデオ内の人間のアクションを含む時間的間隔をローカライズすることを目的とした、不可欠でやりがいのあるタスクです。既存のアプローチのほとんどは、アクシ

attention

action

arXiv

video

human

dataset

arXiv reaDer
リンク
関節腔の狭小化と組み合わせたX線撮影による変形性膝関節症の重症度の自動評価
Automated Grading of Radiographic Knee Osteoarthritis Severity Combined with Joint Space Narrowing 膝X線での変形性膝関節症（KOA）の重症度の評価は、人工膝関節全置換術を使用するための中心的な基準です。ただし、この評価は、不正確な基準と非常に高いリーダー間のばらつきに悩まされています。 KOAの重症度のアルゴリズムによる自動評価は、その使用の適切性を高めることにより、膝関節置換術の全体的な結果を改善する可能性があります。放射線写真の前後（PA）ビューからKOAを自動的に評価するための新しい深層学習ベースの5ステップアルゴリズムを提案します。（1）画像の前処理（2）YOLO v3-Tinyモデルを使用した画像内の膝関節の位置特定、（3）畳み込みニューラルネットワークベースの分類器を使用した変
arxiv_reader 2022/03/18
膝X線での変形性膝関節症（KOA）の重症度の評価は、人工膝関節全置換術を使用するための中心的な基準です。ただし、この評価は、不正確な基準と非常に高いリーダー間のばらつきに悩まされています。 KOAの重

learning

segmentation

arXiv

YOLO

CNN

localization

dataset

arXiv reaDer
リンク
ビデオアクション認識用のゲートシフトヒューズ
arxiv_reader 2022/03/18
畳み込みニューラルネットワークは、画像認識の事実上のモデルです。ただし、ビデオ認識用の2DCNNの単純な拡張である3DCNNは、標準のアクション認識ベンチマークで同じ成功を収めていません。 3D CN

arXiv

3D

spatio-temporal

video

CNN

action recognition

benchmark

dataset

arXiv reaDer
リンク
Sat-NeRF：一時的なオブジェクトを使用したマルチビュー衛星写真測量の学習とRPCカメラを使用したシャドウモデリング
arxiv_reader 2022/03/18
野生のマルチビュー衛星写真測量を学習するための新しいエンドツーエンドモデルであるSatelliteNeuralRadiance Field（Sat-NeRF）を紹介します。 Sat-NeRFは、ニュー

satellite

learning

arXiv

stereo

arXiv reaDer
リンク
非剛体3D登録の調査
arxiv_reader 2022/03/18
非剛体レジストレーションは、非剛体の方法でソースサーフェスとターゲットサーフェスの間のアライメントを計算します。過去10年間で、時変表面を測定できる3Dセンシング技術の進歩により、非剛体レジストレーシ

dataset

arXiv

3D

benchmark

reconstruction

arXiv reaDer
リンク
単一のハイパーネットワークで複数の画像再構成を計算する
arxiv_reader 2022/03/18
ディープラーニングベースの手法は、圧縮センシングなどの幅広い画像再構成タスクで最先端の結果を実現します。これらのメソッドには、ほとんどの場合、最適化された損失関数のさまざまな項のバランスをとる重み係数

dataset

learning

super-resolution

denoising

arXiv

MRI

loss function

reconstruction

arXiv reaDer
リンク
双曲線の不確実性を意識したセマンティックセグメンテーション
arxiv_reader 2022/03/18
セマンティックセグメンテーション（SS）は、各ピクセルを事前定義されたクラスの1つに分類することを目的としています。このタスクは、自動運転車や自律型ドローンで重要な役割を果たします。 SSでは、多くの

dataset

classification

arXiv

drone

loss function

arXiv reaDer

semantic segmentation
リンク
レイヤーアンサンブル：セグメンテーションの深層学習におけるシングルパスの不確実性推定
arxiv_reader 2022/03/18
深層学習における不確実性の推定は、臨床現場でAIアルゴリズムを安全に利用する必要があるため、医療画像分析の主要な研究分野になっています。不確実性推定のほとんどのアプローチでは、複数のネットワークのテス

learning

segmentation

metric

arXiv

3D

estimation

arXiv reaDer
リンク
ニューラルアダプティブSCEneトレース
arxiv_reader 2022/03/18
暗黙のニューラルネットワークを使用したニューラルレンダリングは、シーン再構築の魅力的な提案として最近浮上しており、高い計算コストではありますが、優れた品質を実現しています。このようなメソッドの最新世代

UAV

arXiv

representation

reconstruction

arXiv reaDer
リンク
SC2 ベンチマーク: 分割コンピューティングの教師あり圧縮
arxiv_reader 2022/03/18
スプリットコンピューティングは、モバイルデバイスとより強力なエッジサーバーの間でニューラルネットワークの実行を（たとえば、分類タスクのために）分散します。ネットワークを分割する簡単な代替手段は、完全な

classification

arXiv

knowledge distillation

python

dataset

compression

arXiv reaDer
リンク
オープンソース実装による内視鏡ビデオに合わせたリアルタイム領域追跡アルゴリズム
arxiv_reader 2022/03/18
蛍光トレーサーの投与中に取得されたマルチスペクトルビデオなどのビデオデータソースでは、時間分解データの抽出には通常、動きの補正が必要です。これは手作業で行うことができますが、これは困難ですが、既成のオ

tracking

arXiv

video

python

real time

arXiv reaDer
リンク
フーリエマスクによる人工ニューラルネットワークのロバスト性と一般化の理解
Understanding robustness and generalization of artificial neural networks through Fourier masks 多くの分野で人工ニューラルネットワーク（ANN）が大成功を収めているにもかかわらず、それらの計算の特性と、一般化や堅牢性などの主要なプロパティの起源は未解決の問題のままです。最近の文献は、優れた一般化特性を備えた堅牢なネットワークは、画像内の低周波数の処理に偏る傾向があることを示唆しています。周波数バイアス仮説をさらに調査するために、トレーニングされたネットワークのパフォーマンスを維持するために必要な基本的な入力周波数を強調する変調マスクを学習できるアルゴリズムを開発します。これは、入力周波数のこのような変調に関して損失に不変性を課すことによって実現されます。最初に、この方法を使用して、敵対的に訓練さ
arxiv_reader 2022/03/18
多くの分野で人工ニューラルネットワーク（ANN）が大成功を収めているにもかかわらず、それらの計算の特性と、一般化や堅牢性などの主要なプロパティの起源は未解決の問題のままです。最近の文献は、優れた一般化

augmentation

bias

arXiv

arXiv reaDer
リンク
DePS：denovoペプチドシーケンシングのための改良された深層学習モデル
arxiv_reader 2022/03/18
質量分析データからのdenovoペプチドシーケンシングは、タンパク質同定の重要な方法です。最近、さまざまな深層学習アプローチがde novoペプチドシーケンシングに適用され、DeepNovoV2は代表

learning

identification

arXiv

dataset

arXiv reaDer
リンク
その微細構造から摩擦攪拌溶接銅接合部の溶接効率を予測するためのコンピュータビジョンアルゴリズム
Computer Vision Algorithm for Predicting the Welding Efficiency of Friction Stir Welded Copper Joints from its Microstructures 摩擦攪拌溶接は堅牢な接合プロセスであり、機械的および微細構造の特性を強化するために、この分野で多数のAIベースのアルゴリズムが開発されています。畳み込みニューラルネットワーク（CNN）は、画像データを入力として使用する人工ニューラルネットワークです。人工ニューラルネットワークと同じで、学習全体で決定される重み、ニューロン（アクティブ化された関数）、および目標（損失関数）で構成されます。 CNNは、画像認識、セマンティックセグメンテーション、画像認識、ローカリゼーションなど、さまざまなアプリケーションで利用されています。現在の作業では、300
arxiv_reader 2022/03/18
摩擦攪拌溶接は堅牢な接合プロセスであり、機械的および微細構造の特性を強化するために、この分野で多数のAIベースのアルゴリズムが開発されています。畳み込みニューラルネットワーク（CNN）は、画像データを

computer vision

learning

arXiv

CNN

localization

loss function

arXiv reaDer

semantic segmentation
リンク
困惑の例
いくつかの例は、他の例よりも人間が分類しやすいものです。同じことがディープニューラルネットワーク（DNN）にも当てはまります。例の複雑さという用語は、例を分類することの難しさのレベルを指すために使用します。本論文では、例の困惑を測定し、どの要因が高い例の困惑に寄与するかを調査する方法を提案する。関連するコードとリソースは、https：//github.com/vaynexie/Example-Perplexityで入手できます。 Some examples are easier for humans to classify than others. The same should be true for deep neural networks (DNNs). We use the term example perplexity to refer to the level of diffi
arxiv_reader 2022/03/18
いくつかの例は、他の例よりも人間が分類しやすいものです。同じことがディープニューラルネットワーク（DNN）にも当てはまります。例の複雑さという用語は、例を分類することの難しさのレベルを指すために使用し

DNN

classification

arXiv

arXiv reaDer
リンク
ビデオ生成のための拡散確率モデリング
arxiv_reader 2022/03/18
ノイズ除去拡散確率モデルは、知覚メトリックでGANと競合する有望な新しいクラスの生成モデルです。この論文では、ビデオを順次生成する可能性を探ります。ニューラルビデオ圧縮の最近の進歩に触発されて、ノイズ

GAN

residual

denoising

metric

arXiv

video

generative

dataset

compression

arXiv reaDer
リンク
スクリーニングマンモグラフィでの乳がん検出を強化するための自己監視ディープラーニング
Self-Supervised Deep Learning to Enhance Breast Cancer Detection on Screening Mammography ディープラーニングを人工知能（AI）システムに適用する際の主な制限は、高品質のキュレートされたデータセットの不足です。この問題に対処するために、強力な拡張ベースの自己監視学習（SSL）手法を調査します。例として乳がんの検出を使用して、最初にマンモグラム固有の変換パラダイムを特定し、次に、さまざまなアプローチを表す4つの最近のSSLメソッドを体系的に比較します。事前にトレーニングされたモデルを、均一に並べて表示されたパッチの予測から画像全体に変換する方法と、分類パフォーマンスを向上させる注意ベースのプーリング方法を開発します。最良のSSLモデルは、ベースラインの監視ありモデルを大幅に上回っています。最高のSSLモデ
arxiv_reader 2022/03/18
ディープラーニングを人工知能（AI）システムに適用する際の主な制限は、高品質のキュレートされたデータセットの不足です。この問題に対処するために、強力な拡張ベースの自己監視学習（SSL）手法を調査します

computer vision

augmentation

detection

self-supervised

pooling

learning

classification

arXiv

dataset

arXiv reaDer
リンク
CaRTS：視覚および運動学データからの因果関係駆動型ロボットツールのセグメンテーション
arxiv_reader 2022/03/18
ロボット支援手術中のロボットツールのビジョンベースのセグメンテーションにより、拡張現実フィードバックなどのダウンストリームアプリケーションが可能になり、ロボットの運動学の不正確さが許容されます。ディー

augmentation

segmentation

synthesis

arXiv

estimation

occlusion

benchmark

dataset

arXiv reaDer
リンク
可変シーンのニューラルグローバルイルミネーションのためのアクティブな探索
arxiv_reader 2022/03/18
ニューラルレンダリングアルゴリズムは、通常、多数のグラウンドトゥルース画像の照明のニューラル表現を学習することにより、フォトリアリスティックレンダリングの根本的に新しいアプローチを導入します。与えられ

learning

representation

arXiv

arXiv reaDer
リンク
多様で精選された臨床画像セットでの皮膚科AIパフォーマンスの格差
Disparities in Dermatology AI Performance on a Diverse, Curated Clinical Image Set 皮膚科医療へのアクセスは大きな問題であり、推定30億人が世界的に医療へのアクセスを欠いています。人工知能（AI）は、皮膚病のトリアージに役立つ可能性があります。ただし、ほとんどのAIモデルは、さまざまな肌の色や珍しい病気の画像で厳密に評価されていません。このコンテキストでのアルゴリズムパフォーマンスの潜在的なバイアスを確認するために、多様な皮膚科画像（DDI）データセットをキュレートしました。この656枚の画像のデータセットを使用して、最先端の皮膚科AIモデルのパフォーマンスがDDIで大幅に低下し、受信者動作曲線下面積（ROC-AUC）がモデルと比較して27〜36％低下することを示します。元のテスト結果。すべてのモデルは、DD
arxiv_reader 2022/03/18
皮膚科医療へのアクセスは大きな問題であり、推定30億人が世界的に医療へのアクセスを欠いています。人工知能（AI）は、皮膚病のトリアージに役立つ可能性があります。ただし、ほとんどのAIモデルは、さまざま

arXiv reaDer

bias

dataset

arXiv
リンク
微生物学的オブジェクトをカウントするための自己正規化密度マップ（SNDM）
Self-Normalized Density Map (SNDM) for Counting Microbiological Objects 画像上の微生物学的オブジェクトをカウントするための密度マップ（DM）アプローチの統計的特性が詳細に研究されています。 DMはU^2-Netによって与えられます。ディープニューラルネットワークの2つの統計的手法が利用されます。ブートストラップとモンテカルロ（MC）ドロップアウトです。 DM予測の不確実性を詳細に分析することで、DMモデルの欠陥をより深く理解することができます。私たちの調査に基づいて、ネットワーク内の自己正規化モジュールを提案します。 Self-Normalized Density Map（SNDM）と呼ばれる改良されたネットワークモデルは、出力密度マップをそれ自体で修正して、画像内のオブジェクトの総数を正確に予測できます。 SNDMア
arxiv_reader 2022/03/18
画像上の微生物学的オブジェクトをカウントするための密度マップ（DM）アプローチの統計的特性が詳細に研究されています。 DMはU^2-Netによって与えられます。ディープニューラルネットワークの2つの統

arXiv

arXiv reaDer
リンク
マルチモーダル取扱説明書の順序付けによるマルチモーダル手続き的知識の理解
arxiv_reader 2022/03/18
順序付けられていないイベントを順序付ける機能は、実際のタスク手順を理解して推論するために不可欠なスキルです。これらの手順はテキストと画像の組み合わせで伝達されることが多いため、時間的な常識とマルチモー

arXiv

benchmark

dataset

human

arXiv reaDer

learning

reasoning
リンク
グラフフロー：デュアル効率的な医療画像セグメンテーションのためのクロスレイヤーグラフフロー蒸留
arxiv_reader 2022/03/18
深い畳み込みニューラルネットワークの開発により、医療画像のセグメンテーションは、近年、一連のブレークスルーを達成しました。ただし、高性能の畳み込みニューラルネットワークは、常に多数のパラメーターと高価

arXiv

segmentation

dataset

CNN

arXiv reaDer

knowledge distillation

adversarial

unsupervised

semi-supervised
リンク
ビデオコーディングにおける学習されたループ内フィルタリングの複雑さの軽減
arxiv_reader 2022/03/18
ビデオコーディングでは、出力用にフレームを保存する前に、再構築されたビデオフレームにループ内フィルタを適用して、知覚品質を向上させます。従来のインループフィルターは、手作りの方法で得られます。最近、注

arXiv

attention

identification

CNN

video

arXiv reaDer

pruning
リンク
2Dモデルから転送された知識によるデータ効率の高い3D学習者
arxiv_reader 2022/03/18
登録された3Dポイントクラウドの収集とラベル付けにはコストがかかります。その結果、トレーニング用の3Dリソースは、通常、対応する2D画像と比較して量が制限されます。この作業では、RGB-D画像を介して

arXiv

semantic segmentation

dataset

RGB-D

semi-supervised

pre-training

arXiv reaDer

point cloud

augmentation

3D
リンク
Motif Mining：リミックスされた画像コンテンツの検索と要約
arxiv_reader 2022/03/18
インターネットでは、画像は静的ではなくなりました。それらは動的コンテンツになりました。カメラと使いやすい編集ソフトウェアを備えたスマートフォンが利用できるため、画像をオンザフライでリミックス（つまり、

arXiv

human

arXiv reaDer

computer vision
リンク
ハイパースペクトル画像分類のためのセンターマスク事前トレーニングを備えたマルチスケール畳み込みトランスフォーマー
arxiv_reader 2022/03/18
ハイパースペクトル画像（HSI）は、広い巨視的視野を持っているだけでなく、豊富なスペクトル情報を含んでおり、ハイパースペクトル画像関連の研究の主な用途の1つであるスペクトル情報から表面オブジェクトの種

arXiv

embedding

reconstruction

CNN

self-supervised

pre-training

arXiv reaDer

transformer

classification

domain
リンク
固有のニューラルフィールド：多様体の学習関数
arxiv_reader 2022/03/18
ニューラルフィールドは、新しいビュー合成、ジオメトリ再構築、および生成モデリングでの優れたパフォーマンスにより、コンピュータビジョンコミュニティで大きな注目を集めています。それらの利点のいくつかは、健

arXiv

computer vision

attention

embedding

synthesis

reconstruction

arXiv reaDer

generative

manifold

point cloud
リンク
GPV-Pose：ジオメトリに基づくポイントワイズ投票によるカテゴリレベルのオブジェクトポーズ推定
arxiv_reader 2022/03/18
6Dオブジェクトのポーズ推定は最近大きな飛躍を遂げましたが、ほとんどのメソッドはまだ1つまたは少数の異なるオブジェクトしか処理できないため、アプリケーションが制限されます。この問題を回避するために、カ

arXiv

benchmark

6D

pose estimation

representation

arXiv reaDer

real time

learning

metric

3D
リンク
CDGNet：人間の構文解析のためのクラス配布ガイド付きネットワーク
arxiv_reader 2022/03/18
人間の構文解析の目的は、画像内の人間を構成要素に分割することです。このタスクには、クラスに従って人間の画像の各ピクセルにラベルを付けることが含まれます。人体は階層的に構造化された部分で構成されているた

arXiv

human

arXiv reaDer
リンク
バイモーダルディープネットワークを介してアートワークに描かれたオブジェクトの関連付けと意味を抽出する
arxiv_reader 2022/03/18
ファインアートの絵画やデッサンなどの「作成された」画像に描かれたオブジェクトの連想と単純な意味を学習する問題に対処するために、深いネットワークに基づく新しいバイモーダルシステムを提示します。私たちの全

arXiv

learning

metric

arXiv reaDer
リンク
SimMatch：類似性マッチングを使用した半教師あり学習
arxiv_reader 2022/03/18
ラベル付けされたデータをほとんど使用せずに学習することは、コンピュータービジョンおよび機械学習の研究コミュニティでは長年の問題でした。この論文では、意味的類似性とインスタンス類似性を同時に考慮する、新

arXiv

benchmark

regularization

computer vision

dataset

pre-training

arXiv reaDer

learning

augmentation

semi-supervised
リンク
カーネルを31x31にスケールアップする：CNNでの大規模カーネル設計の再検討
arxiv_reader 2022/03/18
現代の畳み込みニューラルネットワーク（CNN）の大規模カーネル設計を再検討します。ビジョントランスフォーマー（ViT）の最近の進歩に触発されて、このペーパーでは、小さなカーネルのスタックの代わりにいく

arXiv

CNN

bias

arXiv reaDer

transformer
リンク
トレーニングプロトコルの問題：トレーニングプロトコル検索による正確なシーンテキスト認識に向けて
arxiv_reader 2022/03/18
ディープラーニングの時代におけるシーンテキスト認識（STR）の開発は、主にSTRモデルの新しいアーキテクチャに焦点が当てられてきました。ただし、トレーニングプロトコル（つまり、STRモデルのトレーニン

arXiv

learning

arXiv reaDer
リンク
FaceFormer：トランスフォーマーを使用した音声駆動の3D顔アニメーション
arxiv_reader 2022/03/18
音声駆動の3D顔アニメーションは、人間の顔の複雑なジオメトリと3Dオーディオビジュアルデータの限られた可用性のために困難です。以前の作品は通常、限られたコンテキストで短いオーディオウィンドウの音素レベ

arXiv

autoregressive

attention

human

self-supervised

representation

pre-training

arXiv reaDer

transformer

3D
リンク
- 2022年3月21日
- 2022年3月18日
- 2022年3月17日

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx