arxiv_readerのブックマーク / 2022年5月10日 - はてなブックマーク

arxiv_reader id:arxiv_reader

2022年5月10日のブックマーク (188件)

FlowBot3D：アーティキュレートされたオブジェクトを操作するための3Dアーティキュレーションフローの学習
arxiv_reader 2022/05/10
ロボットが見えないクラスのオブジェクトをアーティキュレートできるように一般化する、3Dアーティキュレートされたオブジェクトを認識して操作する新しい方法を探ります。さまざまな関節式オブジェクトのパーツの

3D

learning

arXiv reaDer

simulation

arXiv

robot

point cloud
リンク
教師なし方法での組織病理学的染色翻訳におけるドメインシフトの測定に向けて
arxiv_reader 2022/05/10
デジタル組織病理学におけるドメインシフトは、異なる染色またはスキャナーが使用された場合、染色の変換中などに発生する可能性があります。ソースデータでトレーニングされたディープニューラルネットワークは、ド

domain

metric

arXiv reaDer

arXiv

unsupervised
リンク
事前にトレーニングされたオブジェクト検出器を超えて：画像キャプションのためのクロスモーダルテキストおよびビジュアルコンテキスト
arxiv_reader 2022/05/10
視覚的なキャプションは大幅に進歩しており、主に事前トレーニングされた機能と、自己回帰モデルへの豊富な入力として機能する後の固定オブジェクト検出器に依存しています。ただし、このような方法の主な制限は、モ

captioning

metric

dataset

pre-training

arXiv reaDer

arXiv

detection
リンク
胸部X線画像でのCOVID-19検出：CNNアーキテクチャとアンサンブルの比較
arxiv_reader 2022/05/10
COVID-19は、最初の検出からわずか4か月で、すぐに世界的大流行になりました。その広がりを減らすために、この病気をできるだけ早く検出することが重要です。胸部X線（CXR）画像の使用は、逆転写ポリメ

classification

COVID-19

dataset

arXiv reaDer

CNN

arXiv

detection
リンク
RGB-Dカメラと3Dプリントマーカーを使用した新しい拡張現実超音波フレームワーク
arxiv_reader 2022/05/10
目的。 3D操作スペースで超音波画像を見つけて追跡する機能は、複数の臨床アプリケーションにとって非常に有益です。これは多くの場合、正確であるが高価な光学的または電磁的追跡システムを使用してプローブを追

localization

3D

augmentation

arXiv reaDer

tracking

RGB-D

video

arXiv

pose

point cloud
リンク
ALGAN：潜在変数を介して疑似異常データを生成することによる異常検出
arxiv_reader 2022/05/10
異常なデータがほとんど表示されず、収集が困難な多くの異常検出タスクでは、通常のデータのみを使用したトレーニングが重要です。事前の知識を使用して異常なデータを手動で作成することは可能ですが、ユーザーの偏

GAN

dataset

arXiv reaDer

arXiv

anomaly detection

bias
リンク
自動車のイベントデータでのスパイキングニューラルネットワークによる物体検出
arxiv_reader 2022/05/10
自動車に組み込まれたアルゴリズムには、遅延、精度、消費電力の点で非常に高い制約があります。この作業では、スパイキングニューラルネットワーク（SNN）をイベントカメラからのデータに直接トレーニングして、

classification

learning

dataset

sparse

arXiv reaDer

SNN

arXiv

gradient

detection
リンク
パノプティックニューラルフィールド：セマンティックオブジェクトを意識したニューラルシーン表現
arxiv_reader 2022/05/10
Panoptic Neural Fields（PNF）を紹介します。これは、シーンをオブジェクト（モノ）と背景（モノ）のセットに分解する、オブジェクトを意識したニューラルシーン表現です。各オブジェクト

self-supervised

3D

semantic segmentation

synthesis

arXiv reaDer

depth prediction

representation

arXiv

panoptic segmentation

pose
リンク
SAN-Net: 自己適応正規化による脳卒中病変セグメンテーションのための目に見えない部位への一般化の学習
arxiv_reader 2022/05/10
脳卒中はさまざまな脳血管疾患の主な原因であるため、医用画像分野の磁気共鳴（MR）画像での自動脳卒中病変セグメンテーションにはかなりの関心が寄せられています。このタスクではディープラーニングベースのモデ

metric

segmentation

benchmark

MRI

dataset

augmentation

U-Net

arXiv reaDer

arXiv
リンク
HierAttn：皮膚病変診断のためのステージ注意とブランチ注意から表現を効果的に学ぶ
arxiv_reader 2022/05/10
皮膚病変の正確で偏りのない検査は、皮膚がんの早期診断と治療に不可欠です。皮膚の画像は、さまざまなデバイスを使用してさまざまな皮膚の色の患者から収集されるため、皮膚病変の視覚的特徴は大きく異なります。最

classification

learning

dataset

transformer

arXiv reaDer

attention

CNN

representation

arXiv
リンク
胸部X線写真の異常検出のための解剖学を意識した自己監視学習
arxiv_reader 2022/05/10
異常を正確に検出するには、多数のラベル付き医療画像が不可欠ですが、手動による注釈付けは手間と時間がかかります。自己監視学習（SSL）は、手動の注釈なしでデータ固有の機能を学習するためのトレーニング方法

self-supervised

segmentation

dataset

augmentation

arXiv reaDer

representation

arXiv

anomaly detection

unsupervised
リンク
無人航空機のシャムオブジェクト追跡: レビューと包括的な分析
arxiv_reader 2022/05/10
無人航空機（UAV）ベースの視覚オブジェクト追跡は、その汎用性と有効性により、幅広いアプリケーションを可能にし、リモートセンシングの分野でますます注目を集めています。ディープラーニングの革新的なトレン

learning

UAV

arXiv reaDer

tracking

face

attention

arXiv
リンク
TGANet：ポリープセグメンテーションを改善するためのテキストガイドによる注意
arxiv_reader 2022/05/10
結腸内視鏡検査はゴールドスタンダードの手順ですが、オペレーターに大きく依存します。前癌性前駆体である自動ポリープセグメンテーションは、結腸癌の見逃し率とタイムリーな治療を早期に最小限に抑えることができ

classification

segmentation

learning

embedding

dataset

arXiv reaDer

attention

representation

arXiv
リンク
有害なミームの検出と理解：調査
arxiv_reader 2022/05/10
オンラインでの有害なコンテンツの自動識別は、ソーシャルメディアプラットフォーム、政策立案者、および社会にとって大きな関心事です。研究者は、テキスト、ビジュアル、およびオーディオコンテンツを研究しました

arXiv

arXiv reaDer

dataset

identification
リンク
SwinIQA：圧縮画像品質評価のために学習したSwin距離
arxiv_reader 2022/05/10
画像圧縮は、マルチメディアの保存と送信にとって非常に重要であるため、最近広く関心を集めています。一方、圧縮画像の信頼性の高い画質評価（IQA）は、さまざまな圧縮アルゴリズムのパフォーマンスを検証するの

compression

metric

dataset

transformer

arXiv reaDer

attention

representation

arXiv
リンク
CoCoLoT：長期的なビジュアルトラッキングにおける補完的なトラッカーの組み合わせ
arxiv_reader 2022/05/10
さまざまなアルゴリズムのアンサンブルの補完的な機能を組み合わせる方法は、視覚的なオブジェクトの追跡において中心的な関心事でした。このような問題については大きな進歩が見られましたが、短期間の追跡シナリオ

arXiv

arXiv reaDer

tracking

benchmark
リンク
距離保存品質と線形割り当てソートを使用したグリッドレイアウトの評価と生成の改善
arxiv_reader 2022/05/10
類似性でソートされた画像を使用すると、より多くの画像を同時に表示でき、ストックフォトエージェンシーやeコマースアプリケーションに非常に役立ちます。視覚的にソートされたグリッドレイアウトは、グリッド上の

arXiv

arXiv reaDer

human

metric
リンク
場所認識のためのシャムネットワークの一般化された対照最適化
arxiv_reader 2022/05/10
視覚的な場所の認識は、コンピュータビジョンにおける挑戦的なタスクであり、カメラベースのローカリゼーションおよびナビゲーションシステムの重要なコンポーネントです。最近、畳み込みニューラルネットワーク（C

localization

contrastive

dataset

arXiv reaDer

CNN

arXiv

computer vision
リンク
ディープネットワークに基づくトウモロコシ病害認識のための効果的なスキーム
arxiv_reader 2022/05/10
過去数十年で、トウモロコシ製品の栽培面積は、人間、家畜、および家禽の食糧サイクルにおけるその重要な役割のために増加しました。さらに、植物の病気は食品の安全性に影響を与え、農産物の質と量の両方を大幅に低

pre-training

augmentation

arXiv reaDer

convolutional

arXiv

transfer learning

detection
リンク
敵対的学習を使用した産業モニタリングのための代替データ拡張
arxiv_reader 2022/05/10
目視検査ソフトウェアは、製造業において品質管理とプロセス監視の重要な要素になっています。セマンティックセグメンテーションモデルは、より正確な検査を可能にするため、重要性を増しています。ただし、これらの

GAN

learning

dataset

augmentation

semantic segmentation

U-Net

sparse

arXiv reaDer

arXiv

computer vision
リンク
教師なし個人の再識別のためのクラスター誘導非対称対照学習
arxiv_reader 2022/05/10
教師なし人物再識別（Re-ID）は、教師なし設定でさまざまなカメラビューからの歩行者画像を照合することを目的としています。教師なし個人のRe-IDの既存の方法は、通常、クラスタリングからの疑似ラベルに

benchmark

re-id

dataset

augmentation

arXiv reaDer

pedestrian

arXiv

clustering

contrastive learning

unsupervised
リンク
PAMI-AD：監視ビデオで部分注意とモーション情報を利用するアクティビティ検出器
arxiv_reader 2022/05/10
監視ビデオでのアクティビティ検出は、小さなオブジェクト、複雑なアクティビティカテゴリ、トリミングされていない性質などによって引き起こされる困難なタスクです。既存の方法は、提案が不正確、分類子が不十分、

localization

dataset

activity

arXiv reaDer

video

attention

arXiv

detection
リンク
視覚的な質問応答のためのオブジェクトグラフと関係グラフの共同学習
arxiv_reader 2022/05/10
シーングラフを介して視覚的な質問応答（VQA）をモデル化すると、推論の精度と解釈可能性を大幅に向上させることができます。ただし、既存のモデルは、属性または関係を含む複雑な推論の質問に対する回答が不十分

reasoning

learning

VQA

dataset

arXiv reaDer

representation

arXiv
リンク
MFGNet：RGB-Tトラッキング用の動的モダリティ対応フィルター生成
arxiv_reader 2022/05/10
多くのRGB-Tトラッカーは、アダプティブ重み付け方式（またはアテンションメカニズム）を利用して、堅牢な機能表現を実現しようとします。これらの作業とは異なり、実際の追跡でさまざまな入力画像の畳み込みカ

classification

benchmark

RNN

residual

augmentation

arXiv reaDer

tracking

attention

arXiv

convolutional
リンク
マルチメソッドフュージョンを使用したペアの画像から画像への翻訳品質評価
arxiv_reader 2022/05/10
合成された画像をどのように評価するのが最善かは、画像から画像への変換において長年の問題であり、今日までほとんど解決されていません。この論文は、対になったソースと変換の間の画質の信号を組み合わせて、仮想

arXiv

arXiv reaDer

metric
リンク
ResNet-LDDMM：深い残余ネットワークを使用したLDDMMフレームワークの進歩
arxiv_reader 2022/05/10
変形可能な登録では、幾何学的フレームワーク（つまり、大変形ディフェオモルフィックメトリックマッピングまたはLDDMM）は、形状または画像を比較、変形、平均化、および分析するための多数の手法に影響を与え

metric

3D

residual

arXiv reaDer

arXiv

loss function
リンク
誘引と分散: ソースフリードメイン適応のためのシンプルなアプローチ
arxiv_reader 2022/05/10
シンプルで効果的なソースフリードメイン適応（SFDA）メソッドを提案します。 SFDAを教師なしクラスタリングの問題として扱い、機能空間内のローカルネイバーは他の機能よりも類似した予測を持つ必要がある

domain adaptation

arXiv reaDer

arXiv

clustering

contrastive learning

unsupervised
リンク
NeuralHDHair：暗黙のニューラル表現を使用した単一画像からの自動高忠実度ヘアモデリング
arxiv_reader 2022/05/10
間違いなく、忠実度の高い3Dヘアは、デジタル人間にとって不可欠な役割を果たします。ただし、既存の単眼ヘアモデリング手法は、デジタルシステムに展開するのが難しいか（たとえば、複雑なユーザーインタラクショ

3D

arXiv reaDer

representation

arXiv

monocular
リンク
リモートセンシングセマンティックセグメンテーションのための改良されたフローワープモジュール
arxiv_reader 2022/05/10
リモートセンシングセマンティックセグメンテーションは、特定のラベルが付いた航空写真の各ピクセルを自動的に割り当てることを目的としています。この手紙では、リモートセンシングのセマンティックセグメンテーシ

dataset

semantic segmentation

arXiv reaDer

CNN

arXiv
リンク
手話辞書による手話スポッティングのスケールアップ
arxiv_reader 2022/05/10
この作業の焦点は手話の発見です-孤立した手話のビデオを考えると、私たちの仕事は、それが継続的な、関節のある手話ビデオで署名されているかどうか、そしてどこで署名されているかを特定することです。このサイン

benchmark

contrastive

learning

dataset

arXiv reaDer

video

arXiv

estimation
リンク
人間と物体の相互作用をより適切に検出するためのカテゴリ対応トランスフォーマーネットワーク
arxiv_reader 2022/05/10
静止画像を理解するには、人間と関連するオブジェクトの相互作用を認識しながらローカライズすることを目的とした、人間とオブジェクトの相互作用（HOI）の検出が不可欠です。最近、トランスベースのモデルは、H

localization

human

transformer

arXiv reaDer

attention

representation

arXiv

detection
リンク
透視投影による 3D 顔再構成に向けて: 単眼画像から 6DoF の顔姿勢を推定
arxiv_reader 2022/05/10
3D顔再構成では、フィッティングプロセスを簡素化するために、正射影を透視投影に置き換えるために広く採用されています。この近似は、カメラと顔の間の距離が十分に離れている場合にうまく機能します。ただし、顔

reconstruction

3D

dataset

mesh

arXiv reaDer

face

approximation

arXiv

pose
リンク
教師なしドメイン適応のためのクロスドメイン対照学習
arxiv_reader 2022/05/10
教師なしドメイン適応（UDA）は、完全にラベル付けされたソースドメインから学習した知識を別のラベル付けされていないターゲットドメインに転送することを目的としています。ほとんどの既存のUDAメソッドは、

classification

self-supervised

benchmark

domain adaptation

dataset

arXiv reaDer

representation

arXiv

contrastive learning

unsupervised
リンク
バーチャルリアリティでの固定とサッカードの識別
arxiv_reader 2022/05/10
視線認識は、認知および視覚処理の理解を深めるために、眼球運動データの量を大幅に減らすことができます。視線認識は、仮想現実における目ベースのインタラクションアプリケーションの必須の前提条件です。ただし、

classification

metric

identification

arXiv reaDer

gaze

arXiv

pose
リンク
Deep-ASPECTS：脳卒中重症度測定のためのセグメンテーション支援モデル
arxiv_reader 2022/05/10
脳卒中は、脳内の動脈が破裂して出血したとき、または脳への血液供給が遮断されたときに発生します。破裂や閉塞により組織が死ぬため、血液や酸素が脳の組織に到達できなくなります。中大脳動脈（MCA）は最大の大

CT

segmentation

arXiv reaDer

arXiv

detection
リンク
学習した層ごとの重要性による混合精度ニューラルネットワークの量子化
arxiv_reader 2022/05/10
混合精度量子化（MPQ）の指数関数的に大きな離散探索空間は、各層の最適なビット幅を決定することを困難にします。以前の作品は通常、トレーニングセットの反復検索方法に頼っています。これは数百または数千のG

arXiv

arXiv reaDer

metric

quantization
リンク
SmoothNets：差別化されたプライベートディープラーニングのためのCNNアーキテクチャ設計の最適化
arxiv_reader 2022/05/10
差分プライバシーを使用してディープニューラルネットワークをトレーニングするためにおそらく最も広く使用されているアルゴリズムはDPSGDであり、サンプルごとの勾配のクリッピングとノイズ処理が必要です。こ

benchmark

learning

dataset

arXiv reaDer

CNN

arXiv
リンク
弱く監視されたオブジェクト検出における監視の救済
arxiv_reader 2022/05/10
最近、弱く監視された物体検出〜（WSOD）が注目されています。ただし、バウンディングボックスによる監視がないため、完全に監視されたオブジェクト検出（FSOD）よりも精度がはるかに低くなり、現在、最新の

weakly-supervised

semi-supervised

arXiv reaDer

attention

arXiv

detection
リンク
複雑なポーズでのシングルビューの3Dボディとクロスの再構築
arxiv_reader 2022/05/10
単一画像からの3D人間形状再構成の最近の進歩は、いわゆる陰関数をモデル化する深いネットワークを活用して、空間内の任意に密集した3Dポイントの占有状態を学習するという印象的な結果を示しています。ただし、

reconstruction

3D

human

arXiv reaDer

representation

arXiv

pose
リンク
TimeMatch：時間シフト推定による教師なしクロスリージョン適応
arxiv_reader 2022/05/10
作物の生物季節学の複雑な時間的パターンをキャプチャする深層学習モデルの最近の開発により、衛星画像時系列（SITS）からの作物分類が大幅に進歩しました。ただし、トレーニング領域とは空間的に異なるターゲッ

classification

learning

domain adaptation

satellite

dataset

arXiv reaDer

arXiv

estimation

unsupervised
リンク
PS-Net: ダイナミック MR イメージングのための学習済み部分分離モデル
arxiv_reader 2022/05/10
低ランクの正則化によって駆動される深層学習法は、動的磁気共鳴（MR）イメージングで魅力的なパフォーマンスを実現しています。ただし、これらの方法のほとんどは、手作りの核ノルムによる低ランクの事前分布を表

learning

dataset

arXiv reaDer

regularization

arXiv
リンク
バウンディングボックスを超えて：オブジェクト検出のためのマルチモーダル知識学習
arxiv_reader 2022/05/10
マルチモーダル監視は、多くの視覚言語理解タスクで有望な結果を達成しました。言語は、インスタンスを認識および特定するためのヒントまたはコンテキストとして重要な役割を果たします。ただし、人間が注釈を付けた

localization

learning

dataset

arXiv reaDer

arXiv

detection
リンク
点群を理解するための統一されたクエリベースのパラダイム
arxiv_reader 2022/05/10
3D点群の理解は、自動運転とロボット工学の重要な要素です。この論文では、検出、セグメンテーション、分類などの3D理解タスクのための新しい埋め込みクエリパラダイム（EQ-パラダイム）を紹介します。 EQ

autonomous driving

classification

3D

embedding

semantic segmentation

detection

arXiv reaDer

representation

arXiv

point cloud
リンク
半教師ありドメイン適応のためのマルチレベルの一貫性学習
arxiv_reader 2022/05/10
半教師ありドメイン適応（SSDA）は、完全にラベル付けされたソースドメインから学習した知識を、ほとんどラベル付けされていないターゲットドメインに適用することを目的としています。この論文では、SSDAの

benchmark

contrastive

learning

domain adaptation

dataset

semi-supervised

arXiv reaDer

representation

arXiv

clustering
リンク
拡張：畳み込みニューラルネットワークでの有効性への洞察
arxiv_reader 2022/05/10
拡張は、パフォーマンスを向上させる上で重要なエッジをモデルに提供するため、ニューラルネットワークのパフォーマンスを決定する重要な要素です。モデルの堅牢性を高める能力は、2つの要因、つまり、モデルアーキ

learning

dataset

augmentation

arXiv reaDer

arXiv

convolutional
リンク
ビデオ質問応答のためのマルチスケールサンプリングを備えたマルチレベル階層ネットワーク
arxiv_reader 2022/05/10
ビデオ質問応答（VideoQA）は、視覚的理解と自然言語処理のマルチモーダルな組み合わせを考えると、困難です。ほとんどの既存のアプローチは、さまざまな時間スケールでの視覚的外観-動き情報を無視しますが

reasoning

recurrent

learning

embedding

dataset

transformer

arXiv reaDer

video

representation

arXiv
リンク
リモートセンシング画像の超解像を推測するためのデジタル表面モデルの活用
arxiv_reader 2022/05/10
自然画像に適用された多数の成功した超解像再構成（SRR）モデルにもかかわらず、リモートセンシング画像へのそれらの適用は貧弱な結果を生み出す傾向があります。リモートセンシング画像は、多くの場合、自然画像

reconstruction

LiDAR

dataset

arXiv reaDer

arXiv

super-resolution
リンク
マスクされたCo-attentionalTransformerは、縦方向の画像と解剖学的にガイドされたMRIから100倍の超高速/低線量の全身PETを再構成します
arxiv_reader 2022/05/10
がんの子供たちの診断、治療の監視、監視には多大な価値がありますが、陽電子放出断層撮影（PET）による全身の病期分類は時間がかかり、かなりの放射線被曝を伴います。 100倍（標準臨床線量の1％）の超低用

reconstruction

reasoning

learning

MRI

transformer

arXiv reaDer

arXiv
リンク
インクリメンタル-DETR：自己監視学習によるインクリメンタル少数ショットオブジェクト検出
arxiv_reader 2022/05/10
インクリメンタルな数ショットのオブジェクト検出は、基本クラスの知識を忘れることなく、新しいクラスからのいくつかのラベル付けされたトレーニングデータだけで新しいクラスを検出することを目的としています。関

self-supervised

learning

knowledge distillation

arXiv reaDer

few-shot

arXiv

detection
リンク
並列MRI再構成のためのK空間および画像ドメイン協調エネルギーベースモデル
arxiv_reader 2022/05/10
磁気共鳴（MR）画像の取得時間を短縮すると、MR検査がより利用しやすくなる可能性があります。深層学習モデルを含む先行技術は、長いMRIイメージング時間の問題を解決することに専念してきました。最近、深い

generative

domain

reconstruction

learning

MRI

arXiv reaDer

arXiv
リンク
クロスドメインオブジェクト検出のための分離された適応
arxiv_reader 2022/05/10
画像内に複数のオブジェクトが存在し、ラベルのないターゲットドメインでは各オブジェクトの場所が不明であるため、クロスドメインオブジェクトの検出はオブジェクトの分類よりも困難です。その結果、検出器の転送性

classification

adversarial

benchmark

domain adaptation

dataset

arXiv reaDer

arXiv

detection
リンク
言語命令によってカテゴリレベルのオブジェクトを取得するための6-DoFオブジェクトのポーズの学習
arxiv_reader 2022/05/10
この論文は、自由形式の言語の指示によって既知のカテゴリーから把握しているオブジェクトのタスクを研究します。このタスクには、コンピュータービジョン、自然言語処理、およびロボット工学の技術が必要です。私た

localization

computer vision

learning

human

arXiv reaDer

video

arXiv

robot

pose

point cloud
リンク
私はあなたが描くものを知っています：いくつかのフリーハンドスケッチを条件とした把握検出の学習
arxiv_reader 2022/05/10
この論文では、フリーハンドのスケッチを理解することによってターゲットの把握を生成する問題に関心があります。スケッチは、言語を定式化できない人や、テキストによる説明がその場で利用できない場合に役立ちます

learning

dataset

arXiv reaDer

representation

arXiv

robot

detection
リンク
複雑な値の畳み込みニューラルネットワークによる大気乱流の除去
arxiv_reader 2022/05/10
大気の乱気流は視覚的なイメージを歪め、人間と機械の両方による情報の解釈には常に問題があります。大気の乱流歪みを除去するための最もよく開発されたアプローチは、モデルベースです。ただし、これらの方法では、

human

arXiv reaDer

real time

video

attention

CNN

arXiv

interpretation
リンク
多様な構造のための写真から形状への材料移動
フォトリアリスティックなリライト可能なマテリアルを3D形状に自動的に割り当てる方法を紹介します。この方法では、実際のオブジェクトとセグメンテーションを使用した3Dオブジェクトの写真エグザンプラを入力として受け取り、そのエグザンプラを使用して、形状のパーツへのマテリアルの割り当てをガイドします。これにより、結果の形状の外観が可能な限り類似します。模範。この目標を達成するために、私たちの方法は、画像変換ニューラルネットワークと材料割り当てニューラルネットワークを組み合わせます。画像変換ネットワークは、色をエグザンプラから3D形状の投影に変換し、パーツのセグメンテーションを投影からエグザンプラに変換します。次に、材料予測ネットワークは、翻訳された画像と材料の知覚的類似性に基づいて、現実的な材料のコレクションから投影されたパーツに材料を割り当てます。私たちの方法の重要なアイデアの1つは、変換ネット
arxiv_reader 2022/05/10
フォトリアリスティックなリライト可能なマテリアルを3D形状に自動的に割り当てる方法を紹介します。この方法では、実際のオブジェクトとセグメンテーションを使用した3Dオブジェクトの写真エグザンプラを入力と

arXiv

arXiv reaDer

3D

segmentation
リンク
適度に教師あり学習：定義、フレームワーク、および一般性
arxiv_reader 2022/05/10
教師あり学習（SL）は、多くの人工知能（AI）アプリケーションで目覚ましい成功を収めています。現在の文献では、トレーニングデータセット用に作成されたグラウンドトゥルースラベルのプロパティを参照すること

learning

arXiv

arXiv reaDer

weakly-supervised
リンク
空中画像からの建物のセグメンテーションを使用したレバノンのソーラールーフトップポテンシャル評価
arxiv_reader 2022/05/10
全国レベルで太陽光発電の屋上ポテンシャルを推定することは、すべての国が太陽光発電を効率的に利用するための基本的な構成要素です。ソーラールーフトップの潜在的な評価は、建物の形状、場所、周辺施設などのいく

localization

segmentation

satellite

arXiv reaDer

approximation

arXiv
リンク
意味論的ビデオコーディング：AIタスクの構造化ビットストリームに静的-動的手がかりを注入する
arxiv_reader 2022/05/10
従来のメディアコーディングスキームは、通常、画像/ビデオをセマンティック不明のバイナリストリームにエンコードしますが、ビットストリームレベルでダウンストリームのインテリジェントタスクを直接サポートする

segmentation

residual

optical flow

detection

arXiv reaDer

video

action recognition

arXiv

pose estimation
リンク
トライアングルアタック：クエリ効率の高い意思決定ベースの敵対的攻撃
arxiv_reader 2022/05/10
意思決定ベースの攻撃は、ターゲットモデルをブラックボックスと見なし、ハード予測ラベルにのみアクセスするため、実際のアプリケーションに深刻な脅威をもたらします。最近、クエリの数を減らすために多大な努力が

adversarial

dataset

arXiv reaDer

arXiv

pose
リンク
VisionTransformerの行方向のアクセラレータ
arxiv_reader 2022/05/10
自然言語処理の成功を受けて、ビジョンアプリケーション用のトランスフォーマーは、その優れたパフォーマンスにより、近年大きな注目を集めています。ただし、視覚用の既存の深層学習ハードウェアアクセラレータは、

learning

transformer

arXiv reaDer

attention

arXiv
リンク
ハードウェアロバストなIn-RRAM-オブジェクト検出のためのコンピューティング
arxiv_reader 2022/05/10
インメモリコンピューティングは、その高度な並列コンピューティング、低電力、および低エリアコストにより、最近、ディープラーニングハードウェアアクセラレータの人気のあるアーキテクチャになりつつあります。た

classification

bias

arXiv reaDer

arXiv

convolutional

batch normalization

detection
リンク
非局所グラフ-画像ラベリングのための偏微分方程式と高次の幾何学的統合
A Nonlocal Graph-PDE and Higher-Order Geometric Integration for Image Labeling この論文では、グラフ上のメトリックデータにラベルを付けるための新しい非局所偏微分方程式（PDE）を紹介します。 PDEは、J。〜Math。〜Imaging \＆Vision 58（2）、2017で導入された割り当てフローアプローチの非局所再パラメータ化として導出されます。このパラメータ化により、PDEを数値的に解くことは、非凸ポテンシャルに関するリーマン勾配流。このポテンシャルのエントロピー正規化凸関数差（DC）分解を考案し、割り当てフローを統合するための基本的な幾何学的オイラースキームが確立されたDCプログラミングスキームによってPDEを解くことと同等であることを示します。さらに、幾何学的統合の観点から、新しい加速DCプログラミング
arxiv_reader 2022/05/10
この論文では、グラフ上のメトリックデータにラベルを付けるための新しい非局所偏微分方程式（PDE）を紹介します。 PDEは、J。〜Math。〜Imaging \＆Vision 58（2）、2017で導入

arXiv

arXiv reaDer

metric

gradient
リンク
異種グラフ畳み込みネットワークを使用したクエリ適応型少数ショットオブジェクト検出
arxiv_reader 2022/05/10
少数ショットオブジェクト検出（FSOD）は、いくつかの例を使用して、見たことのないオブジェクトを検出することを目的としています。この分野では、クエリ画像と数ショットのクラスの例を一致させる方法を学習す

metric

GCN

benchmark

learning

arXiv reaDer

few-shot

representation

arXiv

detection
リンク
プライベートアイ: ビデオ会議における眼鏡の反射による文字画面の覗き見の限界について
arxiv_reader 2022/05/10
COVID-19が、対面式の会議や電話から、日常のコミュニケーションや機密性の高いビジネスのためのビデオ会議へと大きく変化した後、個人的なビデオ会議は新しい標準になりました。眼鏡やその他の反射物が無意

reconstruction

COVID-19

human

arXiv reaDer

video

arXiv
リンク
生成モデルのリバースエンジニアリング：生成された画像からモデルのハイパーパラメータを推測する
arxiv_reader 2022/05/10
最先端の（SOTA）生成モデル（GM）は、人間が本物の写真と区別するのが難しい写真のようにリアルな画像を合成できます。操作されたメディアを特定して理解することは、GMの潜在的な誤用に関する社会的懸念を

generative

benchmark

dataset

human

arXiv reaDer

deepfake

arXiv

estimation

loss function

detection
リンク
シーンの曖昧性解消による人種的に偏りのない肌の色調推定に向けて
arxiv_reader 2022/05/10
仮想顔のアバターは、没入型コミュニケーション、ゲーム、メタバースでますます重要な役割を果たすため、それらが包括的であることが重要です。これには、年齢、性別、民族に関係なく、アルベドで表される外観を正確

metric

3D

benchmark

dataset

arXiv reaDer

face

attention

arXiv

estimation
リンク
医用画像処理タスクの気孔の不確実性の低減に向けて
arxiv_reader 2022/05/10
医療診断などのセーフティクリティカルなアプリケーションでは、モデルの予測に関連する確実性は、その精度と同じくらい重要です。したがって、不確実性の推定と削減が重要な役割を果たします。予測の不確実性は、デ

self-supervised

reconstruction

segmentation

benchmark

dataset

augmentation

arXiv reaDer

arXiv

estimation
リンク
NoiseChiselを使用して低表面輝度の世界を切り開く
arxiv_reader 2022/05/10
NoiseChiselは、形態に関する最小限の仮定で、非常に低い信号対雑音比（S / N）機能を検出するプログラムです。これは2015年に導入され、GNU Astronomy Utilities（Gn

arXiv

arXiv reaDer

segmentation
リンク
ソルガム穂検出のための高解像度UAV画像生成
arxiv_reader 2022/05/10
ソルガム植物の穂（または頭）の数は、植物の成長と穀物収量の推定にとって重要な表現型の特徴です。無人航空機（UAV）を使用すると、ソルガムの画像を大規模に収集して分析することができます。ディープラーニン

GAN

learning

UAV

dataset

augmentation

arXiv reaDer

arXiv

estimation

synthesis

detection
リンク
パッチワーピングによるニューラル陰的表面ジオメトリの改善
arxiv_reader 2022/05/10
ニューラル陰関数曲面は、マルチビュー3D再構成の重要な手法になっていますが、精度は限られています。この論文では、これはニューラルネットワークで高周波テクスチャを学習してレンダリングすることが難しいため

3D

reconstruction

benchmark

dataset

arXiv reaDer

occlusion

arXiv

unsupervised
リンク
オブジェクトライトフィールドの教師なし発見と構成
arxiv_reader 2022/05/10
連続的および離散的の両方のニューラルシーン表現は、3Dシーン理解のための強力な新しいパラダイムとして最近浮上しました。最近の取り組みは、オブジェクト中心のニューラルシーン表現の教師なし発見に取り組んで

3D

reconstruction

learning

dataset

arXiv reaDer

representation

arXiv

synthesis

unsupervised
リンク
スパースシナプスバーストを伴うドメイン転送の下での継続的な学習
arxiv_reader 2022/05/10
既存のマシンは、予測と制御を容易にするために作成された機能固有のツールです。明日のマシンは、その可変性、回復力、および自律性において、生物学的システムに近い可能性があります。しかし、最初に、彼らは、恣

domain

learning

dataset

pre-training

activity

sparse

arXiv reaDer

CNN

arXiv
リンク
Highdicom：病理学および放射線学における画像注釈と機械学習モデル出力の標準化されたエンコーディングのためのPythonライブラリ
arxiv_reader 2022/05/10
機械学習は、病理学および放射線学における画像ベースの診断に革命をもたらしています。 MLモデルは、研究環境で有望な結果を示していますが、相互運用性の欠如は、臨床統合と評価の主要な障壁となっています。

learning

python

arXiv reaDer

representation

arXiv
リンク
マシンビジョンがリンパ組織病理学画像分析のために何ができるか：包括的なレビュー
arxiv_reader 2022/05/10
過去10年間で、マシンビジョン（MV）の計算能力は継続的に改善され、画像分析アルゴリズムは急速に開発されました。同時に、組織病理学的スライスをデジタル画像として保存することができます。したがって、MV

classification

segmentation

learning

arXiv reaDer

arXiv

detection
リンク
360-DFPE：直接フロアプラン推定のための単眼360レイアウトの活用
arxiv_reader 2022/05/10
アクティブなセンサーや3D情報に依存せずに、入力として360度の画像を直接取得するシーケンシャルフロアプラン推定方法である360-DFPEを紹介します。私たちのアプローチは、単眼のビジュアルSLAMソ

3D

reconstruction

identification

odometry

monocular

arXiv reaDer

SLAM

arXiv

pose

point cloud
リンク
SoftPool ++：ポイントクラウド完了のためのエンコーダーデコーダーネットワーク
SoftPool++: An Encoder-Decoder Network for Point Cloud Completion 点群補完のタスクのための新しい畳み込み演算子を提案します。私たちのアプローチの顕著な特徴の1つは、関連する作業とは逆に、最大プーリングまたはボクセル化操作を必要としないことです。代わりに、エンコーダーに埋め込まれた点群を学習するために使用された提案された演算子は、特徴のアクティブ化のソフトプーリングを介して点群から順列不変の特徴を抽出します。これらの機能は、デコーダーアーキテクチャに渡されます。エンコーダーでの圧縮により、このタイプのアーキテクチャーの一般的な制限は、入力形状構造の一部を失う傾向があることです。エンコーダーとデコーダーの対応するレイヤー間のリンクが確立される、ポイントクラウド用に特別に考案されたスキップ接続を使用することにより、この制限を克服す
arxiv_reader 2022/05/10
点群補完のタスクのための新しい畳み込み演算子を提案します。私たちのアプローチの顕著な特徴の1つは、関連する作業とは逆に、最大プーリングまたはボクセル化操作を必要としないことです。代わりに、エンコーダー

compression

embedding

dataset

arXiv reaDer

arXiv

convolutional

point cloud
リンク
深層学習ベースの医用画像分類のための高周波コンテンツの保存
arxiv_reader 2022/05/10
胸部X線写真は、複数の重大な病気（肺炎、心不全、肺がんなど）の診断に使用されます。このため、これらのデータの自動または半自動分析システムが特に重要です。大量の胸部X線写真を効率的に分析することで、医師

classification

benchmark

identification

dataset

arXiv reaDer

CNN

arXiv
リンク
ConvMAE：マスクされた畳み込みとマスクされたオートエンコーダーの出会い
arxiv_reader 2022/05/10
ビジョントランスフォーマー（ViT）は、さまざまなビジョンタスクに広く採用されているアーキテクチャーになります。機能の事前トレーニングとマルチスケールハイブリッドコンボリューショントランスフォーマーア

classification

transformer

semantic segmentation

arXiv reaDer

representation

arXiv

convolutional

detection
リンク
ミックスアップによるレシピ検索のための言語間適応
arxiv_reader 2022/05/10
クロスモーダルレシピ検索は、トレーニング用の大規模なペアデータの可用性のおかげで、近年研究の注目を集めています。それにもかかわらず、教師あり学習のために料理の大部分をカバーする適切なレシピと画像のペア

learning

domain adaptation

embedding

dataset

arXiv reaDer

attention

arXiv

unsupervised
リンク
WKGM: 並列画像再構成のための重み K 空間生成モデル
arxiv_reader 2022/05/10
パラレルイメージング（PI）は、磁気共鳴イメージング（MRI）を加速する上で最も重要で成功した開発の1つです。最近、深層学習PIは、MRIを加速するための効果的な手法として登場しました。それにもかかわ

generative

domain

reconstruction

learning

MRI

dataset

arXiv reaDer

arXiv
リンク
LF-VIO：負の平面を備えた大型視野カメラ用の視覚オドメトリフレームワーク
arxiv_reader 2022/05/10
視覚オドメトリは、自動運転やロボット工学の分野で大きな注目を集めています。視野（FoV）のサイズは、視覚オドメトリ（VO）および視覚オドメトリ（VIO）で重要な役割を果たします。これは、大きなFoVに

autonomous driving

benchmark

dataset

odometry

arXiv reaDer

real time

attention

arXiv

pose
リンク
OMG：自然言語ベースの車両検索のために複数の粒度を観察する
arxiv_reader 2022/05/10
自然言語の説明によって追跡車両を取得することは、スマートシティの構築において重要な役割を果たします。これは、監視ビデオで追跡された車両のセットから、指定されたテキストに最適なものを見つけることを目的と

vehicle

contrastive

embedding

arXiv reaDer

video

representation

arXiv

loss function
リンク
テキスト認識のためのマルチモーダル半教師あり学習
arxiv_reader 2022/05/10
最近まで、公開されている実世界のテキスト画像の数は、シーンのテキスト認識機能をトレーニングするには不十分でした。したがって、最新のトレーニング方法のほとんどは、合成データに依存しており、完全に監視され

self-supervised

benchmark

augmentation

representation learning

semi-supervised

arXiv reaDer

regularization

arXiv

synthesis
リンク
場所認識のためのハードポジティブの敵対的学習
arxiv_reader 2022/05/10
場所認識のための画像検索方法は、推論時にジオタグ付き画像をフェッチするために使用されるグローバル画像記述子を学習します。最近の研究では、ローカリゼーションの精度と可視性の変化（照明や視点など）に対する

localization

self-supervised

adversarial

benchmark

learning

dataset

augmentation

arXiv reaDer

arXiv
リンク
ゼロとR2D2：大規模な中国のクロスモーダルベンチマークとビジョン言語フレームワーク
arxiv_reader 2022/05/10
大規模な事前トレーニングデータセットに依存するビジョン言語事前トレーニング（VLP）は、さまざまなダウンストリームタスクで最高のパフォーマンスを示しています。この意味で、VLPには、完全で公正なベンチ

distillation

benchmark

contrastive

learning

dataset

pre-training

arXiv reaDer

representation

arXiv
リンク
拡散モデルによる制御された画像生成のための入力ノイズの調整について
arxiv_reader 2022/05/10
条件付き画像生成は、画像編集、ストックフォトの生成、および3Dオブジェクト生成におけるいくつかのブレークスルーへの道を開きました。これは、拡散モデルに基づく新しい最先端の方法の台頭に伴い、引き続き重要

arXiv

arXiv reaDer
リンク
教師なし個人の再識別のためのハードサンプルガイド付きハイブリッドコントラスト学習
arxiv_reader 2022/05/10
教師なし個人の再識別（Re-ID）は、コンピュータービジョンにおける有望で非常に困難な研究問題です。ラベルのないデータを使用して堅牢で識別可能な機能を学習することは、Re-IDにとって最も重要です。最

benchmark

person

re-id

arXiv reaDer

attention

arXiv

contrastive learning

computer vision

unsupervised
リンク
マルチフォーカス画像の超解像フュージョンのためのディープフュージョンプリアー
arxiv_reader 2022/05/10
この論文は、マルチフォーカス画像融合（MFIF）とブラインド超解像（SR）の問題をマルチフォーカス画像超解像融合（MFISRF）タスクとして統合し、ディープフュージョンプライア（DFP）という名前の新

learning

embedding

arXiv reaDer

arXiv

loss function

gradient

unsupervised
リンク
二重最適化ステージベースの教師なし学習アプローチを使用した指静脈識別のための完全に自動化されたバイナリパターン抽出
arxiv_reader 2022/05/10
今日、指静脈識別は、潜在的な生体認証フレームワークソリューションとして人気を集めています。機械学習ベースの教師なし、教師なし、および深層学習アルゴリズムは、現時点で指静脈の検出と認識に大きな影響を与え

localization

estimation

identification

learning

unsupervised

dataset

arXiv reaDer

arXiv

clustering

detection
リンク
適応型赤外線および可視画像の超解像融合のためのデータセットフリーの自己監視解きほぐし学習法
arxiv_reader 2022/05/10
この研究は、自己監視解きほぐし学習（SDL）という名前の物理モデルに基づく新しい一般的なデータセットのない自己監視学習フレームワークを提案し、生成ネットワークとRetinexでSDLフレームワークを適

generative

self-supervised

learning

disentangling

dataset

arXiv reaDer

arXiv

super-resolution

loss function
リンク
開集合オブジェクト検出のための低密度潜在領域の拡張
arxiv_reader 2022/05/10
最新のオブジェクト検出器は、クローズセットのセットアップの下で目覚ましい進歩を遂げました。ただし、未知のカテゴリのオブジェクトは既存の既知のクラスに誤って分類されることが多いため、オープンセットオブジ

benchmark

arXiv reaDer

arXiv

contrastive learning

detection
リンク
ステレオ画像修復のための反復ジオメトリ対応クロスガイダンスネットワーク
Iterative Geometry-Aware Cross Guidance Network for Stereo Image Inpainting 現在、単一画像の修復は、深い畳み込みニューラルネットワークに基づいて有望な結果を達成しています。ただし、領域が欠落しているステレオ画像への修復は十分に検討されていません。これも重要ですが、異なる問題です。ステレオ画像の修復の重要な要件の1つは、ステレオの一貫性です。これを実現するために、反復ジオメトリ対応クロスガイダンスネットワーク（IGGNet）を提案します。 IGGNetには、Geometry-Aware Attention（GAA）モジュールとIterative Cross Guidance（ICG）戦略という2つの重要な要素が含まれています。 GAAモジュールは、エピポーラジオメトリの手がかりに依存し、あるビューから別のビューへのジ
arxiv_reader 2022/05/10
現在、単一画像の修復は、深い畳み込みニューラルネットワークに基づいて有望な結果を達成しています。ただし、領域が欠落しているステレオ画像への修復は十分に検討されていません。これも重要ですが、異なる問題で

stereo

learning

arXiv reaDer

attention

CNN

arXiv
リンク
共面性を意識したGANによる教師なしホモグラフィ推定
arxiv_reader 2022/05/10
画像ペアからホモグラフィを推定することは、画像の位置合わせにおける基本的な問題です。教師なし学習方法は、その有望なパフォーマンスとラベルのないトレーニングにより、この分野でますます注目を集めています。

GAN

learning

dataset

transformer

arXiv reaDer

attention

arXiv

estimation

unsupervised
リンク
PGADA：サポートクエリシフトの下での数ショット学習のための摂動に基づく敵対的アラインメント
arxiv_reader 2022/05/10
いくつかのショットの学習方法は、データを低次元の埋め込みスペースに埋め込み、次に、見えないクエリデータを見えるサポートセットに分類することを目的としています。これらの作業は、サポートセットとクエリセッ

classification

adversarial

self-supervised

benchmark

embedding

dataset

augmentation

arXiv reaDer

few-shot

arXiv
リンク
インフォグラフィックウィザード：柔軟なインフォグラフィックオーサリングとデザイン探索
arxiv_reader 2022/05/10
インフォグラフィックは、人間の知覚の特定の設計原則に従った情報の美的視覚表現です。インフォグラフィックのデザインは、プロのデザイナーにとってさえ、非専門家にとって退屈なプロセスであり、時間がかかる可能

dataset

human

arXiv reaDer

representation

arXiv
リンク
深く圧縮された画像潜像テンソルのRD最適化されたTrit-Planeコーディング
arxiv_reader 2022/05/10
DPICTは、きめ細かいスケーラビリティをサポートする最初の学習ベースの画像コーデックです。このホワイトペーパーでは、DPICTの2つの主要コンポーネントであるトリットプレーンスライシングとレート歪み

arXiv

arXiv reaDer
リンク
指紋テンプレートの可逆性：特徴点と詳細なテンプレート
arxiv_reader 2022/05/10
指紋認識の成功の多くは、特徴点に基づく指紋表現に起因しています。細目テンプレートを反転して忠実度の高い指紋画像を取得することはできないと考えられていましたが、この仮定は誤りであることが示されています。

reconstruction

learning

embedding

arXiv reaDer

representation

arXiv
リンク
LDC-VAE：変分オートエンコーダへの潜在分布一貫性アプローチ
arxiv_reader 2022/05/10
生成モデルの重要な側面として、変分オートエンコーダー（VAE）は多くの研究関心を集め、多くの成功したアプリケーションに到達しました。ただし、証拠の下限（ELBO）を最適化するときに、学習した潜在分布と

generative

dataset

arXiv reaDer

approximation

arXiv

gradient
リンク
周期的シフトウィンドウに注意を払った変圧器の追跡
arxiv_reader 2022/05/10
Transformerアーキテクチャは、効果的なアテンションメカニズムにより、ビジュアルオブジェクトトラッキングで大きな強みを発揮しています。既存のトランスベースのアプローチは、平坦化された画像の特徴

benchmark

dataset

transformer

arXiv reaDer

tracking

attention

arXiv
リンク
少数ショット画像生成の詳細
arxiv_reader 2022/05/10
現代のGANは、高品質で多様な画像の生成に優れています。ただし、事前にトレーニングされたGANを小さなターゲットデータ（たとえば、10ショット）で転送する場合、ジェネレータはトレーニングサンプルを複製

GAN

domain

adaptation

dataset

arXiv reaDer

few-shot

arXiv

contrastive learning
リンク
継続的な微調整のための表現シフトの緩和
arxiv_reader 2022/05/10
継続学習の実際的な設定を研究します。事前にトレーニングされたモデルを継続的に微調整します。以前の作業では、新しいタスクのトレーニング時に、以前のデータの機能（最後から2番目のレイヤー表現）が変化するこ

dataset

pre-training

arXiv reaDer

representation

arXiv

batch normalization
リンク
視聴覚イベントのローカリゼーションのための過去と未来のモーションガイドネットワーク
arxiv_reader 2022/05/10
近年、視聴覚イベントのローカリゼーションが大きな注目を集めています。オーディオビジュアルイベントを含むセグメントを検出し、トリミングされていないビデオからイベントカテゴリを認識することが目的です。既存

localization

weakly-supervised

dataset

arXiv reaDer

video

attention

arXiv
リンク
ハイパースペクトルアンミキシングのための高速で構造化されたブロックタームテンソル分解
arxiv_reader 2022/05/10
多重線形ランク-（L_r、L_r、1）項（または略して「LL1テンソル分解」）を使用したブロック項テンソル分解モデルは、線形混合モデルでのハイパースペクトルアンミキシング（HU）の貴重な代替手段を提供

arXiv

arXiv reaDer

gradient
リンク
顔のプレゼンテーション攻撃検出のための1クラスの知識蒸留
arxiv_reader 2022/05/10
顔提示攻撃検出（PAD）は、顔認識システムのセキュリティを強化するために、研究コミュニティによって広く研究されてきました。既存の方法は、トレーニングデータと同様の分布のデータをテストすることで良好なパ

unsupervised

domain adaptation

knowledge distillation

face recognition

arXiv reaDer

representation

arXiv

detection
リンク
マルチビューステレオのためのノンパラメトリック深度分布モデリングベースの深度推論
arxiv_reader 2022/05/10
最近のコストボリュームピラミッドベースのディープニューラルネットワークは、マルチビューステレオからの深度推論に高解像度画像を効率的に活用する可能性を解き放ちました。一般に、これらのアプローチは、各ピク

stereo

benchmark

sparse

arXiv reaDer

depth prediction

arXiv
リンク
現実世界の顔の超解像のための半循環敵対的ネットワーク
arxiv_reader 2022/05/10
実世界の顔の超解像（SR）は、非常に不適切な画像復元タスクです。フルサイクルのCycle-GANアーキテクチャは、フェイスSRで有望なパフォーマンスを実現するために広く採用されていますが、同じ劣化ブラ

GAN

domain

metric

reconstruction

dataset

arXiv reaDer

face

arXiv

super-resolution

synthesis
リンク
SparseTT：スパーストランスフォーマーを使用したビジュアルトラッキング
arxiv_reader 2022/05/10
トランスフォーマーはビジュアルトラッキングタスクに正常に適用され、トラッキングパフォーマンスを大幅に向上させています。長期的な依存関係をモデル化するために設計された自己注意メカニズムは、トランスフォー

classification

transformer

sparse

arXiv reaDer

tracking

attention

arXiv
リンク
RoViST：ビジュアルストーリーテリングのためのロバストなメトリクスの学習
arxiv_reader 2022/05/10
ビジュアルストーリーテリング（VST）は、特定の画像シーケンスを説明するストーリー段落を生成するタスクです。ほとんどの既存のストーリーテリングアプローチは、BLEUやCIDErなどの従来の自然言語生成

metric

learning

dataset

human

arXiv reaDer

arXiv
リンク
OctAttention：点群圧縮のためのOctreeベースの大規模コンテキストモデル
arxiv_reader 2022/05/10
点群圧縮では、点群分布をモデル化するために十分なコンテキストが重要です。ただし、以前のボクセルベースの方法で収集されたコンテキストは、まばらな点群を処理するときに減少します。この問題に対処するために、

compression

benchmark

LiDAR

dataset

sparse

arXiv reaDer

attention

representation

arXiv

point cloud
リンク
ビデオオブジェクトセグメンテーションのための反復動的埋め込み
arxiv_reader 2022/05/10
時空間メモリ（STM）ベースのビデオオブジェクトセグメンテーション（VOS）ネットワークは通常、数フレームごとにメモリバンクを増やし続け、優れたパフォーマンスを示します。ただし、1）ビデオの長さが長く

segmentation

recurrent

embedding

arXiv reaDer

video

spatio-temporal

arXiv
リンク
3Dミトコンドリアインスタンスセグメンテーションのための高度なディープネットワーク
arxiv_reader 2022/05/10
電子顕微鏡（EM）画像からのミトコンドリアインスタンスのセグメンテーションは、深層学習法の導入以来、目覚ましい進歩を遂げています。この論文では、ラットとヒトのサンプルからの3Dミトコンドリアインスタン

denoising

3D

segmentation

learning

human

arXiv reaDer

arXiv

convolutional
リンク
低信頼性の選択と校正：デュアルチャネル整合性ベースのグラフ畳み込みネットワーク
arxiv_reader 2022/05/10
グラフ畳み込みネットワーク（GCN）は、ノード分類タスクで優れた結果を達成しましたが、低いラベル率でのモデルのパフォーマンスは依然として不十分です。グラフの半教師あり学習（SSL）のこれまでの研究では

classification

GCN

benchmark

learning

embedding

dataset

semi-supervised

arXiv reaDer

arXiv
リンク
Boosting-GNN：不均衡なノード分類でのグラフネットワークのブースティングアルゴリズム
arxiv_reader 2022/05/10
グラフニューラルネットワーク（GNN）は、グラフデータの表現に広く使用されています。ただし、既存の研究では理想的なバランスの取れたデータセットのみが考慮されており、不均衡なデータセットが考慮されること

classification

GCN

dataset

arXiv reaDer

representation

GNN

arXiv

synthesis

transfer learning
リンク
敵対的生成ネットワークを使用したエンドツーエンドのラビング復元
arxiv_reader 2022/05/10
修復物をこすることは、世界の文化史を保存するために重要です。本論文では、不完全な摩擦文字を復元するためのRubbingGANモデルを提案する。具体的には、Zhang Menglong Beiから文字を

GAN

arXiv

arXiv reaDer

dataset
リンク
分離結合ネットワーク：サブピクセル融合による自己監視ハイパースペクトル画像超解像
arxiv_reader 2022/05/10
最近、高空間分解能マルチスペクトル（MS）画像を使用して、ハイパースペクトル（HS）画像を超解像するために多大な努力が払われています。ほとんどの以前の作品は、通常、多種多様なピクセルレベルの事前情報に

self-supervised

learning

dataset

arXiv reaDer

arXiv

super-resolution
リンク
クラスセグメンテーションアプリケーションのための合成点群生成
arxiv_reader 2022/05/10
インフラストラクチャの劣化を特定するために必要な面倒なプロセスのため、産業施設のメンテナンスはますます危険になっています。デジタルツインは、インフラストラクチャの継続的なデジタル表現を監視することによ

3D

segmentation

arXiv reaDer

representation

arXiv

synthesis

point cloud
リンク
ScanQA：空間シーンを理解するための3D質問応答
arxiv_reader 2022/05/10
3D質問応答（3D-QA）の新しい3D空間理解タスクを提案します。 3D-QAタスクでは、モデルはリッチRGB-D屋内スキャンの3Dシーン全体から視覚情報を受け取り、3Dシーンに関する特定のテキストの

3D

identification

VQA

embedding

dataset

arXiv reaDer

RGB-D

arXiv
リンク
因子グラフを使用したカテゴリに依存しない関節式オブジェクトトラッキング
arxiv_reader 2022/05/10
人間中心の環境に配置されたロボットは、ドア、食器洗い機、キャビネットなど、さまざまな関節式オブジェクトを操作する必要がある場合があります。アーティキュレートされたオブジェクトには、多くの場合、カテゴリ

6D

metric

arXiv reaDer

tracking

RGB-D

arXiv

robot

pose
リンク
UAVベースの3D再構築のための視点とパスプランニングに関するレビュー
arxiv_reader 2022/05/10
無人航空機（UAV）は、さまざまなアプリケーションのデータキャプチャセンサーを搭載するために広く使用されているプラットフォームです。この成功の理由は、UAVの高い機動性、自律的なデータ取得を実行する機

3D

reconstruction

UAV

dataset

arXiv reaDer

attention

arXiv
リンク
スマートフォンベースの角膜トポグラファー用の円錐角膜分類器
arxiv_reader 2022/05/10
円錐角膜は、角膜の変形につながる重度の眼疾患です。それは10〜25歳の人々に影響を与え、その人口統計における失明の主な原因です。角膜トポグラフィーは円錐角膜診断のゴールドスタンダードです。これは、角膜

metric

dataset

arXiv reaDer

CNN

arXiv

transfer learning
リンク
GenISP：ローライトマシンコグニションのためのニューラルISP
arxiv_reader 2022/05/10
暗い場所での物体検出は、多くの実用的な意味合いを持つ挑戦的ですが重要な問題です。最近のいくつかの研究では、暗い場所では、生の画像データを使用するオブジェクト検出器は、従来のISPパイプラインで処理され

dataset

pre-training

arXiv reaDer

representation

arXiv

detection
リンク
ブロック変調ビデオ圧縮：リソースが限られたプラットフォーム向けの超低複雑度画像圧縮エンコーダ
arxiv_reader 2022/05/10
リソースが限られたプラットフォームでの画像とビデオの圧縮を検討します。エンコーディングの複雑さO（1）を備えたBlock Modulating Video Compression（BMVC）という名前

compression

quantization

arXiv reaDer

real time

video

CNN

arXiv
リンク
多様体から逃げないでください：GANの潜在空間でローカル座標を発見する
arxiv_reader 2022/05/10
GANの潜在空間の解きほぐし特性の発見は、意味的に意味のある方向を見つけるために多くの研究を動機付けました。この論文では、解きほぐし特性が潜在空間の幾何学と密接に関連していることを示唆している。この点

GAN

metric

disentangling

manifold

arXiv reaDer

arXiv

unsupervised
リンク
インテリジェントなシングルピクセルイメージングで三目並べゲームをプレイする
arxiv_reader 2022/05/10
シングルピクセルイメージング（SPI）は、2次元ピクセル化センサーをシングルピクセル検出器とパターン照明に置き換えることによる新しい光学イメージング技術です。 SPIは、画像の取得と処理に関連するさま

arXiv

arXiv reaDer

human

detection
リンク
リソースに制約のあるデバイス用の二値化畳み込みニューラルネットワークを使用した不整脈分類器
arxiv_reader 2022/05/10
心電図信号を監視することは、不整脈の診断にとって非常に重要です。近年、深層学習と畳み込みニューラルネットワークが心不整脈の分類に広く使用されています。しかし、ECG信号検出に適用される既存のニューラル

classification

compression

learning

arXiv reaDer

real time

CNN

arXiv

detection
リンク
高密度からスパースへのディープドメイン適応によるロバストな3Dオブジェクト認識に向けて
arxiv_reader 2022/05/10
3次元（3D）オブジェクト認識は、自動運転車やロボットなどのインテリジェントな自律エージェントが非構造化環境で効果的に動作するために不可欠です。ほとんどの最先端のアプローチは、比較的高密度の点群に依存

vehicle

3D

unsupervised

domain adaptation

sparse

arXiv reaDer

arXiv

robot

point cloud
リンク
不均一な2D画像コレクションからの共同ディープマルチグラフマッチングと3Dジオメトリ学習
arxiv_reader 2022/05/10
グラフマッチングは、ノード属性とエッジ属性の両方が一致するように、グラフの頂点間の対応を確立することを目的としています。ディープグラフマッチングの定式化に基づいて画像のキーポイント間の対応を見つけるた

3D

learning

arXiv reaDer

GNN

arXiv
リンク
セマンティックセグメンテーションのためのクラス間距離の蒸留
arxiv_reader 2022/05/10
知識の蒸留は、計算コストを削減するためにセマンティックセグメンテーションで広く採用されています。セマンティックセグメンテーションの以前の知識の蒸留方法は、ピクセル単位の特徴の位置合わせとクラス内の特徴

benchmark

dataset

knowledge distillation

semantic segmentation

arXiv reaDer

arXiv
リンク
OCTA画像における血管セグメンテーションのための画像倍率ネットワーク
arxiv_reader 2022/05/10
光コヒーレンストモグラフィー血管造影（OCTA）は、網膜微小血管系を視覚化するためのミクロンレベルの解像度を可能にする新しい非侵襲的イメージングモダリティです。 OCTA画像の網膜血管セグメンテーショ

segmentation

dataset

U-Net

arXiv reaDer

arXiv
リンク
スケルトンレベルからピクセルレベルの調整可能な血管セグメンテーションのためのラベル敵対的学習
arxiv_reader 2022/05/10
あなたはあなたのケーキを持ってそれを食べることもできます。光コヒーレンストモグラフィー血管造影（OCTA）画像における微小血管のセグメンテーションは依然として困難です。スケルトンレベルのセグメンテーシ

adversarial

segmentation

learning

dataset

arXiv reaDer

arXiv
リンク
マルチインフォメーションフュージョンディープセマンティックセグメンテーションネットワークを使用した自動速度ピッキング
arxiv_reader 2022/05/10
地震データ処理の重要なステップである速度ピッキングは、何十年にもわたって研究されてきました。手動ピッキングは、プレスタックギャザーの速度スペクトルから正確なノーマルムーブアウト（NMO）速度を生成でき

learning

dataset

semantic segmentation

arXiv reaDer

arXiv
リンク
クラスが不均衡なかろうじて監視された膝のセグメンテーションのためのラベル分布の較正
arxiv_reader 2022/05/10
3D膝MR画像のセグメンテーションは、変形性関節症の評価にとって重要です。他の医療データと同様に、膝のMR画像のボリュームごとのラベリングは、専門知識が要求され、時間がかかります。したがって、半教師あ

3D

segmentation

learning

MRI

semi-supervised

arXiv reaDer

arXiv

loss function

unsupervised
リンク
in vivo および in silico での超高速画像分類
arxiv_reader 2022/05/10
人間は画像をしっかりと分類することができ、たとえば、わずか120ミリ秒で短時間点滅した画像から動物の存在を検出できます。当初は神経科学に触発され、深層学習アルゴリズムは過去10年間に文字通り開花し、現

arXiv

arXiv reaDer

CNN

detection
リンク
一般化可能な画像分類のための比較知識翻訳
arxiv_reader 2022/05/10
ディープラーニングは最近、大量の注釈に大きく依存する画像分類タスクで驚くべきパフォーマンスを達成しました。ただし、既存の深層学習モデルの分類メカニズムは、人間の認識メカニズムとは対照的であるように思わ

classification

adversarial

learning

arXiv reaDer

arXiv
リンク
圧縮されたビデオの詳細な品質評価：主観的および客観的研究
arxiv_reader 2022/05/10
ビデオコーディングプロセスでは、圧縮されたビデオの知覚品質は、完全参照品質評価メトリックによって評価されます。ただし、完璧な品質のリファレンスビデオを入手することは困難です。この問題を解決するには、サ

metric

3D

learning

VQA

human

arXiv reaDer

video

CNN

arXiv
リンク
適応型コンテキスト学習とキーフィルター選択を備えたUAVオブジェクト追跡のためのスパース正規化相関フィルター
arxiv_reader 2022/05/10
最近、相関フィルターは、その高いフレームレート、堅牢性、および低い計算リソースにより、無人航空機（UAV）の追跡に広く適用されています。ただし、境界効果とフィルターの破損という2つの固有の欠陥があるた

learning

UAV

dataset

sparse

arXiv reaDer

tracking

regularization

occlusion

arXiv
リンク
合成データセットを使用したディープニューラルネットワークにおける顕著性手法の説明可能性の定量化
arxiv_reader 2022/05/10
事後分析は、eXplainable人工知能（XAI）研究で人気のあるカテゴリです。特に、ヒートマップを生成する方法は、ブラックボックスモデルであるディープニューラルネットワーク（DNN）を説明するため

localization

explainable

dataset

saliency

arXiv reaDer

DNN

arXiv

synthesis
リンク
深い畳み込みニューラルネットワークのための補助ゲーティング構造による自動ブロックワイズ剪定
arxiv_reader 2022/05/10
畳み込みニューラルネットワークは、深層学習タスクで普及しています。ただし、モバイルデバイスで作業する場合、コストの問題が大きくなります。ネットワークプルーニングは、このような問題を処理するためのモデル

classification

compression

pruning

learning

knowledge distillation

arXiv reaDer

CNN

arXiv
リンク
時空間 EPI 再構成による GAN ベースのマルチビュービデオコーディング
arxiv_reader 2022/05/10
複数の視点を導入すると、必然的にビデオシーンを保存および送信するためのビットレートが増加します。圧縮されたビットレートを削減するために、研究者は圧縮および配信中に中間の視点をスキップし、最終的にサイド

GAN

compression

reconstruction

learning

arXiv reaDer

video

spatio-temporal

arXiv

convolutional
リンク
SepViT：分離可能なビジョントランスフォーマー
arxiv_reader 2022/05/10
ビジョントランスフォーマーは、一連のビジョンタスクで一般的な成功を収めています。ただし、多くの場合、高性能を実現するには膨大な量の計算が必要であり、リソースに制約のあるデバイスに展開するのは面倒です。

classification

benchmark

embedding

transformer

semantic segmentation

arXiv reaDer

attention

arXiv

convolutional

detection
リンク
深い特徴の融合と確率推定に基づく効率的なVVCイントラ予測
arxiv_reader 2022/05/10
増え続けるマルチメディアトラフィックは、効果的なマルチメディアコーデックの重要性を強調しています。その中で、最新の不可逆ビデオコーディング標準であるVersatile Video Coding（VVC

arXiv reaDer

video

arXiv

estimation

convolutional
リンク
SPQE：画像の超解像のための構造と知覚に基づく品質評価
arxiv_reader 2022/05/10
画像の超解像（SR）技術は、画像の解像度を向上させることにより、画像の視覚的品質を大幅に向上させました。また、これらのアルゴリズムまたは生成された画像を評価するための効率的なSR画像品質評価（SR-I

metric

learning

dataset

arXiv reaDer

arXiv

super-resolution
リンク
グラフフロー：デュアル効率的な医療画像セグメンテーションのためのクロスレイヤーグラフフロー蒸留
arxiv_reader 2022/05/10
深い畳み込みニューラルネットワークの開発により、医療画像のセグメンテーションは、近年、一連のブレークスルーを達成しました。ただし、高性能の畳み込みニューラルネットワークは、常に多数のパラメーターと高い

adversarial

segmentation

dataset

knowledge distillation

semi-supervised

arXiv reaDer

CNN

arXiv

unsupervised
リンク
高効率で統一された中国のナンバープレートの検出と認識
Unified Chinese License Plate Detection and Recognition with High Efficiency 最近、深層学習ベースの方法は、ナンバープレート（LP）の検出および認識タスクで優れたパフォーマンスに達しました。ただし、大規模で代表的なデータセットが十分にないため、中国のLPの堅牢なモデルを構築することは依然として困難です。この作業では、既存の公開ベンチマークの補足として、多目的中国のLP画像を含むChinese Road Plate Dataset（CRPD）という名前の新しいデータセットを提案します。画像は主に詳細な注釈付きの電子監視システムでキャプチャされます。私たちの知る限り、CRPDは、頂点の注釈が付いた最大のパブリック多目的中国LPデータセットです。 CRPDでは、高効率の統合された検出および認識ネットワークがベースラインと
arxiv_reader 2022/05/10
最近、深層学習ベースの方法は、ナンバープレート（LP）の検出および認識タスクで優れたパフォーマンスに達しました。ただし、大規模で代表的なデータセットが十分にないため、中国のLPの堅牢なモデルを構築する

benchmark

dataset

arXiv reaDer

real time

arXiv

detection
リンク
転移学習に基づく実用性指向の水中画質評価
arxiv_reader 2022/05/10
普及している画像アプリケーションは、画像品質評価（IQA）技術がますます重要な問題になっている、視覚ベースのタスクを大幅に促進しています。マルチメディアシステムでユーザーが楽しむために、IQAは画像の

arXiv reaDer

arXiv

transfer learning

computer vision

detection
リンク
モーションエンハンスメントとの注意深いクロスモーダルインタラクションによる圧縮ビデオアクション認識のための表現学習
arxiv_reader 2022/05/10
圧縮ビデオアクション認識は、生のビデオをまばらにサンプリングされたRGBフレームと圧縮されたモーションキュー（モーションベクトルや残差など）に置き換えることで、ストレージと計算のコストを大幅に削減する

benchmark

representation learning

augmentation

arXiv reaDer

video

attention

action recognition

arXiv

denoising
リンク
多方向オブジェクト検出のためのグラフ融合ネットワーク
arxiv_reader 2022/05/10
オブジェクト検出では、非最大抑制（NMS）メソッドが広く採用され、検出された密なボックスの水平方向の重複を削除して、最終的なオブジェクトインスタンスを生成します。ただし、高密度の検出ボックスの品質が低

metric

GCN

dataset

arXiv reaDer

arXiv

clustering

convolutional

detection
リンク
モンテカルロ木探索とターゲットモーションモデリングによるマルチターゲットアクティブオブジェクトトラッキング
arxiv_reader 2022/05/10
この作業では、環境内に複数のターゲットと複数のカメラが存在するマルチターゲットアクティブオブジェクトトラッキング（AOT）に専念します。目標は、すべてのカメラの全体的なターゲットカバレッジを最大化する

reinforcement learning

action

arXiv reaDer

tracking

arXiv

estimation
リンク
大雨の除去から細部の復元まで：より速くより良いネットワーク
arxiv_reader 2022/05/10
大雨による濃い雨の蓄積は、画像を大幅に洗い流し、画像の背景の詳細を破壊する可能性があります。既存の大雨除去モデルは大雨除去のパフォーマンスを向上させますが、それらのほとんどは雨のない画像の詳細な再構成

reconstruction

benchmark

residual

dataset

pre-training

arXiv reaDer

attention

arXiv

loss function
リンク
薄膜トランジスタ（TFT）イメージセンサーを使用したディープラーニング対応の細菌コロニーの検出と分類
Deep Learning-enabled Detection and Classification of Bacterial Colonies using a Thin Film Transistor (TFT) Image Sensor 大腸菌（E.coli）などの病原菌の早期発見と特定は、公衆衛生にとって不可欠な課題です。細菌コロニーを検出するための従来の培養ベースの方法は、通常、最終的な読み取り値を取得するのに24時間以上かかります。ここでは、環境保護庁（EPA）が承認した方法と比較して、約12時間節約できる薄膜トランジスタ（TFT）ベースのイメージセンサーアレイを活用した細菌コロニー形成単位（CFU）検出システムを示します。このCFU検出システムの有効性を実証するために、サンプルの視野が約10 cm ^ 2のTFTイメージセンサーを使用して、レンズフリーのイメージングモダリティが
arxiv_reader 2022/05/10
大腸菌（E.coli）などの病原菌の早期発見と特定は、公衆衛生にとって不可欠な課題です。細菌コロニーを検出するための従来の培養ベースの方法は、通常、最終的な読み取り値を取得するのに24時間以上かかりま

classification

identification

arXiv reaDer

arXiv

detection
リンク
理論的保証を備えたグラフニューラルネットワークへの構造摂動ベースのブラックボックス攻撃の盗賊
arxiv_reader 2022/05/10
グラフニューラルネットワーク（GNN）は、ノード分類やグラフ分類などの多くのグラフベースのタスクで最先端のパフォーマンスを実現しています。ただし、最近の多くの研究では、攻撃者がグラフ構造をわずかに混乱

classification

dataset

arXiv reaDer

GNN

arXiv
リンク
BiCo-Net：グローバルに回帰し、ロバストな6Dポーズ推定のためにローカルで一致
arxiv_reader 2022/05/10
堅牢な6Dポーズ関数を学習する際の課題は、1）重度のオクルージョンと2）深度画像の系統的なノイズにあります。ポイントペア機能の成功に触発されて、このペーパーの目標は、モデルとカメラ空間の間で方向付けら

6D

learning

dataset

sparse

arXiv reaDer

RGB-D

pose estimation

occlusion

arXiv

point cloud
リンク
購入するように私を引き付けます：マルチモーダルマルチ構造化情報を使用した広告コピーライティングの生成
Attract me to Buy: Advertisement Copywriting Generation with Multimodal Multi-structured Information 最近、オンラインショッピングは徐々に世界中の人々の一般的な買い物方法になりました。素晴らしい商品広告は、多くの場合、より多くの人々を購入に引き付けます。これらの広告は、視覚的な空間情報やきめ細かい構造情報など、商品のマルチモーダルマルチ構造情報を適切に統合します。ただし、従来のマルチモーダルテキスト生成は、存在および発生したものの従来の記述に焦点を合わせており、現実の世界での広告コピーライティングの要件とは一致しません。広告のコピーライティングは、鮮やかな言語スタイルと忠実さのより高い要件を持っているからです。残念ながら、再利用可能な評価フレームワークが不足しており、データセットが不足してい
arxiv_reader 2022/05/10
最近、オンラインショッピングは徐々に世界中の人々の一般的な買い物方法になりました。素晴らしい商品広告は、多くの場合、より多くの人々を購入に引き付けます。これらの広告は、視覚的な空間情報やきめ細かい構造

captioning

metric

reasoning

dataset

arXiv reaDer

video

arXiv
リンク
MAE自己監視とポイントライン弱い監視パラダイムに基づくメニスカスの自動セグメンテーション
Automatic segmentation of meniscus based on MAE self-supervision and point-line weak supervision paradigm ディープラーニングに基づく医療画像のセグメンテーションは、データセットが不十分で、ラベル付けに時間がかかるという問題に直面することがよくあります。この論文では、膝関節画像に自己監視方式MAE（Masked Autoencoders）を導入して、セグメンテーションモデルに適切な初期重みを提供し、モデルの小さなデータセットへの適応性を向上させます。次に、ラベリングの時間を短縮するために、ポイントとラインの組み合わせに基づくメニスカスセグメンテーションの弱く監視されたパラダイムを提案します。弱いラベルに基づいて、疑似ラベルを生成するための領域成長アルゴリズムを設計します。最後に、自己監視
arxiv_reader 2022/05/10
ディープラーニングに基づく医療画像のセグメンテーションは、データセットが不十分で、ラベル付けに時間がかかるという問題に直面することがよくあります。この論文では、膝関節画像に自己監視方式MAE（Mask

self-supervised

weakly-supervised

segmentation

learning

dataset

arXiv reaDer

arXiv
リンク
クロスデバイス実世界画像超解像のための二重敵対的適応
arxiv_reader 2022/05/10
高度なイメージングプロセスにより、異なるカメラでキャプチャされた同一のシーンは、異なるイメージングパターンを示し、異なるデバイスからの画像でトレーニングされた超解像（SR）モデルに異なる熟練度をもたら

adversarial

domain adaptation

arXiv reaDer

video

attention

arXiv

super-resolution

unsupervised
リンク
自律UAVのための地形マッピングと着陸地点検出の最適化
arxiv_reader 2022/05/10
次世代の火星回転翼航空機は、機内での自律的な危険回避着陸を必要とします。この目的のために、この作業は、継続的なマルチ解像度の高さマップの再構築と安全な着陸地点の検出を実行するシステムを提案します。運動

reconstruction

segmentation

UAV

arXiv reaDer

arXiv

synthesis

detection
リンク
優れた視覚的ガイダンスにより、より優れた抽出機能が実現：マルチモーダルエンティティおよび関係抽出のための階層的な視覚的プレフィックス
arxiv_reader 2022/05/10
マルチモーダル固有表現抽出（MNERおよびMRE）は、情報抽出における基本的かつ重要なブランチです。ただし、MNERおよびMREの既存のアプローチでは、通常、無関係なオブジェクト画像がテキストに組み込

benchmark

dataset

arXiv reaDer

representation

arXiv
リンク
ノイズ除去による正則化を使用した教師なしディープアンロール再構成
Unsupervised Deep Unrolled Reconstruction Using Regularization by Denoising ディープラーニング手法は、さまざまなコンピュータービジョンタスクでうまく使用されています。その成功に触発されて、深層学習が磁気共鳴画像法（MRI）再構成で探求されてきました。特に、深層学習とモデルベースの最適化手法を統合することには、かなりの利点があります。ただし、通常、高品質の再構成には大量のラベル付きトレーニングデータが必要であり、これは一部のMRIアプリケーションでは困難です。本論文では、教師なしノイズ除去ネットワークとプラグアンドプレイ法を組み合わせることにより、MR画像再構成のための解釈可能な教師なし学習を可能にするDURED-Netという名前の新しい再構成法を提案した。イメージング物理学を利用する明示的な事前分布を追加することに
arxiv_reader 2022/05/10
ディープラーニング手法は、さまざまなコンピュータービジョンタスクでうまく使用されています。その成功に触発されて、深層学習が磁気共鳴画像法（MRI）再構成で探求されてきました。特に、深層学習とモデルベー

reconstruction

learning

MRI

arXiv reaDer

regularization

arXiv

denoising

computer vision

unsupervised
リンク
分布外検出のための標準スケーリング
arxiv_reader 2022/05/10
Out-of-Distribution（OoD）入力は、データセットの真の基礎となる分布に属さない例です。調査によると、ディープニューラルネットはOoD入力に対して自信を持って誤予測を引き起こします。

metric

dataset

arXiv reaDer

representation

arXiv

OOD

detection
リンク
TopTemp：テンパートポロジーからの沈殿物構造の解析
arxiv_reader 2022/05/10
技術の進歩は、新しい材料または材料特性の改善をもたらす新しい製造プロセスの開発によって部分的に可能になります。新しい製造方法論の開発と評価は、高度な製造プロセスパラメータと結果として生じる微細構造との

classification

domain

learning

arXiv reaDer

representation

arXiv
リンク
EVIMO2：単眼またはステレオアルゴリズムを使用した屋内シーンでのモーションセグメンテーション、オプティカルフロー、モーションからの構造、および視覚オドメトリのためのイベントカメラデータセット
arxiv_reader 2022/05/10
新しいイベントカメラデータセットであるEVIMO2が導入されました。これは、より複雑なシナリオで、より優れたカメラからより多くのデータを提供することにより、人気のあるEVIMOデータセットを改善します

segmentation

benchmark

dataset

optical flow

odometry

monocular

arXiv reaDer

arXiv

pose
リンク
ノイズの多いぼやけた画像の非ブラインドぼけ除去方法の比較分析
arxiv_reader 2022/05/10
画像のぼけとは、画像の全体的な鮮明さが低下する画像の劣化を指します。画像のぼやけはいくつかの要因によって引き起こされます。さらに、画像取得プロセス中に、ノイズが画像に追加される場合があります。このよう

identification

arXiv reaDer

convolutional

arXiv

denoising
リンク
LatentKeypointGAN：潜在キーポイントを介した画像の制御-拡張要約
LatentKeypointGAN: Controlling Images via Latent Keypoints -- Extended Abstract 敵対的生成ネットワーク（GAN）は、写真のようにリアルな画像を生成できるようになりました。ただし、画像コンテンツを最適に制御する方法は、未解決の課題です。 LatentKeypointGANを紹介します。これは、生成されたオブジェクトとそれぞれのパーツの位置とスタイルを制御する、一連のキーポイントと関連する外観の埋め込みを内部条件とする2段階のGANです。私たちが取り組む主な困難は、ドメインの知識と監視信号がほとんどない状態で、画像を空間的要因と外観要因に解きほぐすことです。 LatentKeypointGANは、異なる画像から目と口を組み合わせてポートレートを生成するなど、キーポイントの埋め込みを再配置および交換することで、生成さ
arxiv_reader 2022/05/10
敵対的生成ネットワーク（GAN）は、写真のようにリアルな画像を生成できるようになりました。ただし、画像コンテンツを最適に制御する方法は、未解決の課題です。 LatentKeypointGANを紹介しま

GAN

domain

keypoint

self-supervised

disentangling

embedding

human

arXiv reaDer

arXiv

pose
リンク
ローカル記述子学習によるグローバルマルチモーダル2D/3D登録
arxiv_reader 2022/05/10
マルチモーダル登録は、多くの画像誘導手順、特に解剖学的コンテキストを必要とする超音波誘導介入に必要なステップです。そのような登録アルゴリズムの多くはすでに利用可能ですが、超音波画像の困難な外観とそれら

keypoint

learning

dataset

arXiv reaDer

arXiv
リンク
EdgeViTs：ビジョントランスフォーマーを備えたモバイルデバイス上の競合する軽量CNN
arxiv_reader 2022/05/10
ビジョントランスフォーマー（ViT）などの自己注意ベースのモデルは、コンピュータービジョンの畳み込みニューラルネットワーク（CNN）に代わる非常に競争力のあるアーキテクチャとして登場しました。自己注意

transformer

arXiv reaDer

CNN

arXiv

computer vision
リンク
ptychographyアルゴリズムの設計と実装のためのモジュラーソフトウェアフレームワーク
arxiv_reader 2022/05/10
計算手法は、プチコグラフィーなどの影響の大きい顕微鏡技術を推進しています。ただし、コードの多くの部分が再構築を高速化するためにハードウェアに近いプログラミング構造で記述されているため、新しいアルゴリズ

reconstruction

dataset

arXiv reaDer

arXiv

synthesis
リンク
VFHQ：ビデオフェイス超解像のための高品質データセットとベンチマーク
arxiv_reader 2022/05/10
既存のビデオ顔超解像（VFSR）メソッドのほとんどは、話者識別用に特別に設計されたVoxCeleb1でトレーニングおよび評価されており、このデータセットのフレームは低品質です。結果として、このデータセ

benchmark

identification

dataset

arXiv reaDer

video

face

arXiv

super-resolution
リンク
COVID-19の診断と鑑別のための高解像度胸部CTスキャン画像データセット
arxiv_reader 2022/05/10
COVID-19のパンデミックの間、コンピューター断層撮影（CT）はCOVID-19患者を診断するための良い方法です。 HRCT（High-Resolution Computed Tomography

CT

learning

COVID-19

dataset

arXiv reaDer

arXiv
リンク
Mixed-UNet：マルチスケール推論による弱く監視されたセマンティックセグメンテーションのための洗練されたクラスアクティベーションマッピング
arxiv_reader 2022/05/10
深層学習技術は、特に磁気共鳴画像法（MRI）スキャンまたはコンピューター断層撮影（CT）スキャンでの正確で信頼性の高い画像セグメンテーションを通じて、医用画像処理に大きな可能性を示しています。これによ

localization

weakly-supervised

CT

reasoning

MRI

dataset

human

semantic segmentation

arXiv reaDer

arXiv
リンク
RCMNet：深層学習モデルが白血病のCAR-T療法を支援します
arxiv_reader 2022/05/10
急性白血病は、死亡率の高い血液がんの一種です。現在の治療法には、骨髄移植、支持療法、および化学療法が含まれます。病気の満足のいく寛解は達成することができますが、再発のリスクはまだ高いです。したがって、

classification

identification

dataset

transformer

arXiv reaDer

CNN

arXiv

transfer learning
リンク
OpenPodcar：自動運転車の研究のためのオープンソース車両
arxiv_reader 2022/05/10
OpenPodcarは、低コストのオープンソースハードウェアおよびソフトウェアであり、既製のハードキャノピーのモビリティスクータードナー車両に基づく自律型車両研究プラットフォームです。ハードウェアとソ

human

simulation

vehicle

arXiv

robot

pose

arXiv reaDer
リンク
https://arxiv-check-250201.firebaseapp.com/each/2205.04449v2
arxiv_reader 2022/05/10
この論文は、画像の不確実性を意識した比較のための内省的ディープメトリック学習（IDML）フレームワークを提案します。従来のディープメトリック学習方法は、不確実性レベルに関係なく、画像間に自信のある意味

classification

dataset

arXiv

arXiv reaDer

embedding

metric learning
リンク
MixAugment＆Mixup：顔の表情を認識するための拡張方法
arxiv_reader 2022/05/10
自動顔の表情認識（FER）は、顔の表情が人間のコミュニケーションの中心的な役割を果たして以来、過去20年間でますます注目を集めています。ほとんどのFER手法では、データ分析に関して強力なツールであるデ

face

classification

augmentation

human

arXiv

pose

loss function

DNN

attention

arXiv reaDer
リンク
画像超解像トランスでより多くのピクセルを有効化
arxiv_reader 2022/05/10
トランスフォーマーベースの方法は、画像の超解像などの低レベルの視覚タスクで優れたパフォーマンスを示しています。ただし、これらのネットワークは、アトリビューション分析を通じて、限られた空間範囲の入力情報

super-resolution

pre-training

reconstruction

arXiv

transformer

attention

arXiv reaDer
リンク
キーポイントベースのハンドジェスチャ認識のためのRGB画像からの3D手のポーズと形状の推定
arxiv_reader 2022/05/10
2D画像から手の3Dポーズを推定することは、十分に研究された問題であり、仮想現実、拡張現実、手のジェスチャ認識などのいくつかの現実のアプリケーションの要件です。現在、合理的な推定値は、特にマルチタスク

3D

dataset

augmentation

gesture

arXiv

pose estimation

multi-task

benchmark

loss function

arXiv reaDer
リンク
深層学習画像のカラー化のためのさまざまな損失の分析
arxiv_reader 2022/05/10
画像のカラー化は、現実的な方法でグレースケール画像に色情報を追加することを目的としています。最近の方法は、主にディープラーニング戦略に依存しています。画像を自動的に色付けする方法を学びながら、目的の色

GAN

metric

arXiv

learning

loss function

arXiv reaDer
リンク
Transframer：生成モデルを使用した任意のフレーム予測
arxiv_reader 2022/05/10
確率的フレーム予測に基づく画像モデリングとビジョンタスクのための汎用フレームワークを提示します。私たちのアプローチは、画像のセグメンテーションから、新しいビューの合成やビデオの補間まで、幅広いタスクを

computer vision

optical flow

generative

arXiv

sparse

few-shot

transformer

U-Net

semantic segmentation

arXiv reaDer
リンク
TeamX @ DravidianLangTech-ACL2022：トロールベースのミーム分類の比較分析
arxiv_reader 2022/05/10
オンラインでの偽のニュース、プロパガンダ、誤報、偽情報、および有害なコンテンツの拡散は、ソーシャルメディアプラットフォーム、政府機関、政策立案者、および社会全体の間で懸念を引き起こしました。これは、そ

arXiv reaDer

dataset

classification

arXiv
リンク
有害なミームにおける実体の役割の検出：技術とその限界
arxiv_reader 2022/05/10
有害または虐待的なオンラインコンテンツは時間の経過とともに増加しており、ソーシャルメディアプラットフォーム、政府機関、および政策立案者に対する懸念が高まっています。このような有害または虐待的なコンテン

augmentation

arXiv

COVID-19

attention

arXiv reaDer
リンク
個人の再識別のためのオンライン教師なしドメイン適応
arxiv_reader 2022/05/10
個人の再識別（Person Re-ID）のための教師なしドメインの適応は、ラベル付きのソースドメインで学習した知識をラベルなしのターゲットドメインに転送するタスクです。この問題に対処する最近の論文のほ

unsupervised

arXiv

person

re-id

benchmark

domain adaptation

arXiv reaDer
リンク
因果推論と視覚表現学習の出会い：前向き研究
arxiv_reader 2022/05/10
視覚表現学習は、視覚理解、ビデオ理解、マルチモーダル分析、人間とコンピューターの相互作用、都市コンピューティングなど、さまざまな実世界のアプリケーションに遍在しています。ビッグデータ時代に大量のマルチ

attention

video

arXiv reaDer

benchmark

dataset

reasoning

OOD

representation learning

bias

arXiv
リンク
アヌビス：スケルトン行動認識データセット、レビュー、ベンチマーク
arxiv_reader 2022/05/10
スケルトンベースの行動認識は、行動認識のサブエリアとして、急速に注目と人気を集めています。タスクは、人間のアーティキュレーションポイントによって実行されるアクションを認識することです。他のデータモダリ

attention

arXiv reaDer

benchmark

dataset

representation

action recognition

3D

arXiv

human
リンク
UnrealNAS：非現実的なデータでニューラルアーキテクチャを検索できますか？
arxiv_reader 2022/05/10
ニューラルアーキテクチャ検索（NAS）は、ディープニューラルネットワーク（DNN）の自動設計で大きな成功を収めています。ただし、データを使用してネットワークアーキテクチャを検索する最善の方法はまだ不明

differentiable

arXiv reaDer

DNN

dataset

arXiv

NAS
リンク
深層学習に基づく単一画像のかすみ除去に関する包括的な調査と分類
arxiv_reader 2022/05/10
畳み込みニューラルネットワークの開発に伴い、何百もの深層学習ベースのデヘイズ手法が提案されてきました。このホワイトペーパーでは、教師あり、半教師あり、教師なしのデヘイズに関する包括的な調査を提供します

arXiv reaDer

learning

dataset

unsupervised

loss function

CNN

metric

semi-supervised

arXiv
リンク
マルチモーダル航空写真オブジェクト分類のためのシーンクラスタリングベースの疑似ラベリング戦略
arxiv_reader 2022/05/10
自動目標認識（ATR）のマルチモーダル航空写真オブジェクト分類（MAVOC）は、重要で困難な問題ですが、研究されています。この論文は、最初に、きめの細かいデータ、クラスの不均衡、およびさまざまな撮影条

arXiv reaDer

dataset

clustering

bias

classification

arXiv
リンク
マルチスケールスパース畳み込みニューラルネットワークを使用した点群セマンティックセグメンテーション
arxiv_reader 2022/05/10
点群には、無秩序、非構造化、まばらさの特徴があります。画像処理における畳み込みニューラルネットワークの優れたパフォーマンスのおかげで、点群の非構造的性質の問題を目指して、解決策の1つは点群から特徴を抽

sparse

arXiv reaDer

arXiv

point cloud

3D

attention

semantic segmentation

CNN
リンク
より適切に監視するために近くを見る：コンポーネントベースのディスクリミネーターによるワンショットフォント生成
arxiv_reader 2022/05/10
複雑な構造の文字が大量にあるため、自動フォント生成は依然として困難な研究課題です。通常、スタイル/コンテンツの参照（数ショット学習と呼ばれる）として使用できるサンプルはごくわずかであるため、ローカルの

one-shot

arXiv reaDer

arXiv

GAN

few-shot

learning

adversarial

synthesis
リンク
ドメイン適応型検出トランスの転送可能性の改善
arxiv_reader 2022/05/10
DETRスタイルの検出器は、ドメイン内のシナリオの中で際立っていますが、ドメインシフト設定でのそれらのプロパティは十分に検討されていません。このホワイトペーパーでは、2つの調査結果に基づいて、ドメイン

detection

arXiv reaDer

transformer

arXiv

benchmark

domain

adaptation
リンク
- 2022年5月11日
- 2022年5月10日
- 2022年5月9日

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx