arxiv_readerのブックマーク / 2022年1月11日 - はてなブックマーク

arxiv_reader id:arxiv_reader

2022年1月11日のブックマーク (143件)

ビデオの連続性を利用した自己監視型時空間表現学習
arxiv_reader 2022/01/11
最近の自己監視ビデオ表現学習方法は、速度、時間的順序など、ビデオの本質的な特性を調査することによって大きな成功を収めています。この作業は、ビデオの本質的であるが十分に調査されていない特性であるビデオの

approximation

arXiv reaDer

localization

action recognition

self-supervised

video

representation learning

arXiv
リンク
デュアルカメラSLAMを使用した反復環境での高解像度生態系マッピング
arxiv_reader 2022/01/11
運動からの構造（SfM）技術は、環境モニタリングを含む多くのドメインの画像から3Dマップを作成するためにますます使用されています。ただし、SfM手法は、主にグローバルに異なる画像の特徴に依存しているた

trajectory

SLAM

arXiv reaDer

localization

video

monocular

3D

arXiv

domain
リンク
GMFIM：プライバシー保護のための生成的なマスクガイド付き顔画像操作モデル
arxiv_reader 2022/01/11
ソーシャルメディアのウェブサイトやアプリケーションの使用は非常に人気があり、人々はこれらのネットワークで写真を共有しています。これらのネットワーク上の人々の写真の自動認識とタグ付けはプライバシー保護の

arXiv reaDer

dataset

GAN

loss function

person

face recognition

arXiv

human
リンク
PVT：ポイントクラウド学習用のポイントボクセルトランスフォーマー
arxiv_reader 2022/01/11
最近開発された純粋なTransformerアーキテクチャは、畳み込みニューラルネットワークと比較して点群学習ベンチマークで有望な精度を達成しています。ただし、既存のポイントクラウドトランスフォーマーは

CNN

arXiv reaDer

point cloud

semantic segmentation

benchmark

transformer

arXiv

classification

sparse

attention
リンク
PQ-Transformer：点群からの3Dオブジェクトとレイアウトを共同で解析する
arxiv_reader 2022/01/11
点群からの3Dシーンの理解は、さまざまなロボットアプリケーションにとって重要な役割を果たします。残念ながら、現在の最先端の方法では、オブジェクトの検出や部屋のレイアウトの推定など、さまざまなタスクに個

detection

estimation

arXiv reaDer

loss function

point cloud

benchmark

transformer

3D

real time

arXiv
リンク
COIN：VQA解釈のための反事実的画像生成
arxiv_reader 2022/01/11
自然言語処理とコンピュータビジョンベースのモデルの大幅な進歩により、ビジュアル質問応答（VQA）システムはよりインテリジェントで高度になっています。ただし、比較的複雑な質問を処理する場合は、依然として

VQA

arXiv reaDer

computer vision

interpretation

arXiv

metric
リンク
血管の屈曲度を測定する際の転移学習の影響の分析
arxiv_reader 2022/01/11
デジタル画像で血管を特徴づけることは、多くの種類の病気の診断だけでなく、血管系に関する現在の研究を支援するためにも重要です。血管の自動分析では、通常、画像または一連の画像内の血管の識別またはセグメンテ

pre-training

CNN

segmentation

transfer learning

arXiv reaDer

identification

estimation

augmentation

arXiv
リンク
深層学習に基づく歩行認識：調査
arxiv_reader 2022/01/11
一般に、生物測定に基づく制御システムは、適切に動作するために個々の期待される行動または協力に依存しない場合があります。代わりに、そのようなシステムは、不正アクセスの試みに対する悪意のある手順を認識して

arXiv reaDer

dataset

learning

computer vision

detection

arXiv

classification

human
リンク
時間分解3D超音波で追跡するための表現学習技術の比較
arxiv_reader 2022/01/11
3D超音波（3DUS）は、電離放射線を使用せずにリアルタイムで体積画像を提供できるため、放射線治療のターゲット追跡にとってより興味深いものになります。基準を使用せずに追跡に使用できる可能性があります。

tracking

arXiv reaDer

dataset

representation learning

3D

real time

arXiv

metric
リンク
過剰適合の回避：畳み込みニューラルネットワークの正則化手法に関する調査
arxiv_reader 2022/01/11
画像分類やオブジェクト検出などのいくつかの画像処理タスクは、畳み込みニューラルネットワーク（CNN）を使用して大幅に改善されました。 ResNetやEfficientNetと同様に、多くのアーキテクチ

CNN

arXiv reaDer

dataset

regularization

detection

arXiv

classification
リンク
安価な操作による異種デバイス上のGhostNets
arxiv_reader 2022/01/11
畳み込みニューラルネットワーク（CNN）をモバイルデバイスに展開することは、メモリと計算リソースが限られているため困難です。ニューラルアーキテクチャの設計ではめったに調査されていない特徴マップの冗長性

arXiv

benchmark

CNN

arXiv reaDer
リンク
画像内の重なり合ったオブジェクトをより適切にセグメント化するための凹点検出の改善
arxiv_reader 2022/01/11
この論文は、画像上の重なり合うオブジェクトをセグメント化するための最初のステップとして、最先端の凹点検出方法を改善する方法を提示します。これは、オブジェクトの輪郭の曲率の分析に基づいています。この方法

synthesis

dataset

arXiv reaDer

detection

arXiv
リンク
心房細動研究のための左心房LGEMRIの医療画像分析：レビュー
arxiv_reader 2022/01/11
後期ガドリニウム造影磁気共鳴画像法（LGE MRI）は、左心房（LA）の瘢痕を視覚化および定量化するために一般的に使用されます。瘢痕の位置と程度は、心房細動（AF）の病態生理学と進行に関する重要な情報

arXiv

MRI

segmentation

arXiv reaDer
リンク
頭蓋骨癒合症の無放射線評価および分類のための統計的形状モデル
arxiv_reader 2022/01/11
頭蓋顔面奇形の評価には、まばらにしか入手できない患者データが必要です。統計形状モデルは、一般的なデータセット上の既存の方法の比較を可能にする現実的で合成的なデータを提供します。頭蓋骨癒合症患者の最初の

synthesis

dataset

arXiv reaDer

3D

arXiv

classification

human
リンク
アクション認識のための階層グラフ畳み込みスケルトントランスフォーマー
arxiv_reader 2022/01/11
グラフ畳み込みネットワーク（GCN）は、スケルトンベースの行動認識の主要な方法として登場しました。ただし、それでも2つの問題、つまり、近隣制約と絡み合った時空間特徴表現に悩まされています。ほとんどの研

disentangling

arXiv reaDer

representation

action recognition

GCN

transformer

arXiv

attention
リンク
位相相関ネットワークによる教師なし画像分解
arxiv_reader 2022/01/11
シーンをオブジェクトコンポーネントに分解する機能は、自律エージェントにとって望ましいプロパティであり、周囲で推論して行動することができます。最近、教師なしの方法でデータからオブジェクト中心の表現を学習

segmentation

arXiv reaDer

dataset

unsupervised

representation

benchmark

arXiv
リンク
悪天候時の視覚：自律レースでの堅牢な知覚のためのさまざまなオブジェクト検出器を備えたCycleGANを使用した拡張
arxiv_reader 2022/01/11
自動運転システムでは、知覚（環境からの特徴やオブジェクトの識別）が非常に重要です。自律走行では、高速でマージンが小さいため、迅速で正確な検出システムが必要です。レース中、天候が急激に変化し、知覚が著し

synthesis

identification

arXiv reaDer

dataset

augmentation

autonomous driving

detection

arXiv
リンク
ディープラーニングを使用した小さなオブジェクトの検出
arxiv_reader 2022/01/11
現在、ドローンなどのUAVは、アリエル画像からのキャプチャやターゲット検出など、さまざまな目的で広く使用されています。これらの小型アリエル車両に公衆が簡単にアクセスできると、深刻なセキュリティ上の脅威

vehicle

YOLO

arXiv reaDer

learning

UAV

drone

detection

arXiv

metric
リンク
高速MRI用のSwinTransformer
arxiv_reader 2022/01/11
磁気共鳴画像法（MRI）は、高解像度で再現性のある画像を生成できる重要な非侵襲的臨床ツールです。しかし、高品質のMR画像には長いスキャン時間が必要であり、患者の倦怠感や不快感を引き起こし、患者の自発的

segmentation

arXiv reaDer

reconstruction

convolutional

benchmark

transformer

arXiv

residual

MRI
リンク
Multi-Colorspace fusedEfficientNetを使用して自然画像とコンピューター生成画像を区別する
arxiv_reader 2022/01/11
自然画像と写実的なコンピュータ生成画像を区別する問題は、自然画像とコンピュータグラフィックス、または自然画像とGAN画像のいずれかに一度に対処します。しかし、実際の画像フォレンジックシナリオでは、ほと

transfer learning

saliency

arXiv reaDer

dataset

GAN

arXiv

classification

human
リンク
https://arxiv-check-250201.firebaseapp.com/each/2201.03215v2
arxiv_reader 2022/01/11
本稿では、2017年と2018年に約12万人の受験者を対象に行われた新しい日本の大学入試の試験で手書きの記述的回答を自動的に採点する実験を紹介します。約40万の回答があり、2,000万文字以上あります

pre-training

dataset

arXiv reaDer

BERT

arXiv

human
リンク
アクショントランスフォーマー：短時間のポーズベースの人間の行動認識のための自己注意モデル
arxiv_reader 2022/01/11
純粋に注意に基づくディープニューラルネットワークは、設計者からの最小限のアーキテクチャの優先順位に依存して、いくつかのドメインにわたって成功しています。 Human Action Recognitio

arXiv reaDer

action recognition

convolutional

benchmark

pose

transformer

recurrent

real time

arXiv

attention
リンク
なぜそう深いのか：視覚的な場所認識のために以前に訓練されたモデルの強化に向けて
arxiv_reader 2022/01/11
ループ閉鎖検出のための深層学習ベースの画像検索技術は、満足のいくパフォーマンスを示しています。ただし、さまざまな地理的地域で以前にトレーニングされたモデルに基づいて高レベルのパフォーマンスを達成するこ

detection

pre-training

tracking

arXiv reaDer

localization

SLAM

real time

arXiv
リンク
学習可能な辞書を介したモデルベースの画像信号プロセッサ
arxiv_reader 2022/01/11
デジタルカメラは、画像信号プロセッサ（ISP）を使用して、センサーのRAW読み取り値をRGB画像に変換します。画像のノイズ除去や色覚恒常などの計算写真タスクは、RAWドメインで一般的に実行されます。こ

reconstruction

arXiv reaDer

representation

learning

augmentation

domain

arXiv

denoising
リンク
COVID-19患者のCTスキャンにおける肺、病変および病変タイプの自動セグメンテーションのための深層学習法の比較研究
arxiv_reader 2022/01/11
COVID-19に関する最近の研究は、CTイメージングが疾患の理解を助けることに加えて、疾患の進行を評価し、診断を支援するための有用な情報を提供することを示唆しています。胸部CTスキャンを使用してC

segmentation

COVID-19

arXiv reaDer

dataset

CT

learning

arXiv

human
リンク
ハイパースペクトル画像の超解像のためのフィードバック洗練されたローカル-グローバルネットワーク
arxiv_reader 2022/01/11
深層学習技術の開発により、畳み込みニューラルネットワークに基づくマルチスペクトル画像超解像法は最近大きな進歩を遂げました。ただし、単一のハイパースペクトル画像の超解像は、ハイパースペクトルデータの高次

CNN

arXiv reaDer

representation

learning

recurrent

super-resolution

arXiv
リンク
疑似残差によって導かれる高精度深度マップのエンドツーエンドのロスレス圧縮
arxiv_reader 2022/01/11
空間情報を表す基本的なデータ形式として、深度マップは信号処理やコンピュータビジョンの分野で広く使用されています。レーザースキャナーやLiDARなどの機器の急速な開発により、大量の高精度深度マップが作成

LiDAR

arXiv reaDer

learning

computer vision

arXiv

residual

compression
リンク
ラベル関係グラフ階層的マルチグラニュラリティ分類のための強化された階層的残余ネットワーク
arxiv_reader 2022/01/11
階層型マルチグラニュラリティ分類（HMC）は、階層型マルチグラニュラリティラベルを各オブジェクトに割り当て、ラベル階層のエンコードに重点を置きます。たとえば、["Albatross&quot

identification

arXiv reaDer

dataset

learning

arXiv

residual

classification
リンク
PGGANet：個人の再識別のためのポーズガイド付きグラフ注意ネットワーク
arxiv_reader 2022/01/11
人物再識別（reID）は、さまざまなカメラで撮影された画像から人物を取得することを目的としています。深層学習ベースのreIDメソッドの場合、ローカル機能をグローバル機能と一緒に使用すると、人物検索の堅

pre-training

arXiv reaDer

dataset

representation

convolutional

re-id

pose

arXiv

human

attention
リンク
MyoPS：3シーケンスの心臓磁気共鳴画像を組み合わせた心筋病理セグメンテーションのベンチマーク
MyoPS: A Benchmark of Myocardial Pathology Segmentation Combining Three-Sequence Cardiac Magnetic Resonance Images 心筋梗塞に苦しむ患者の診断と治療管理には心筋の生存能力の評価が不可欠であり、心筋の病理の分類がこの評価の鍵となります。この作業は、医療画像分析の新しいタスクを定義します。つまり、MICCAI 2020と組み合わせてMyoPSチャレンジで最初に提案された3シーケンス心臓磁気共鳴（CMR）画像を組み合わせた心筋病理セグメンテーション（MyoPS）を実行します。 45のペアで事前に位置合わせされたCMR画像を提供し、病理学のセグメンテーションのために3つのCMRシーケンスからの補足情報をアルゴリズムが組み合わせることができるようにしました。この記事では、課題の詳細を示し
arxiv_reader 2022/01/11
心筋梗塞に苦しむ患者の診断と治療管理には心筋の生存能力の評価が不可欠であり、心筋の病理の分類がこの評価の鍵となります。この作業は、医療画像分析の新しいタスクを定義します。つまり、MICCAI 2020

segmentation

arXiv reaDer

learning

benchmark

augmentation

arXiv

MRI

classification
リンク
非ラテンシーンのテキスト認識の精度の向上に向けて
arxiv_reader 2022/01/11
シーンテキストの認識は、複数のフォント、単純な語彙統計、更新されたデータ生成ツール、書記体系などのいくつかの要因により、非ラテン語よりもラテン語で著しく優れています。このホワイトペーパーでは、英語のデ

synthesis

dataset

arXiv reaDer

learning

arXiv
リンク
インドの言語でのシーンテキスト認識のための転移学習
Transfer Learning for Scene Text Recognition in Indian Languages 複数のスクリプト、フォント、テキストサイズ、向きなどの複雑さのため、リソースの少ないインドの言語でのシーンテキスト認識は困難です。この作業では、英語から2つの一般的なインドの言語までのディープシーンテキスト認識ネットワークのすべてのレイヤーの転移学習の力を調査します。一般化を確実にするために、従来のCRNNモデルとSTAR-Netで実験を行います。さまざまなスクリプトでの変更の影響を調べるために、最初にUnicodeフォントを使用してレンダリングされた合成単語画像で実験を実行します。英語モデルをインド言語の単純な合成データセットに転送することは実用的ではないことを示します。代わりに、n-gram分布と母音や結合文字などの視覚的特徴が類似しているため、インドの言語
arxiv_reader 2022/01/11
複数のスクリプト、フォント、テキストサイズ、向きなどの複雑さのため、リソースの少ないインドの言語でのシーンテキスト認識は困難です。この作業では、英語から2つの一般的なインドの言語までのディープシーンテ

transfer learning

synthesis

dataset

arXiv reaDer

benchmark

arXiv
リンク
CNN を結合した Swin Transformer により、VHR 画像道路抽出用の強力なコンテキストエンコーダが実現
arxiv_reader 2022/01/11
ディープラーニングに基づく自動道路抽出またはセグメンテーションでは大きな進歩が見られましたが、結果の完全性と接続性に関してはまだ改善の余地があります。これは主に、クラス内の大きな差異、あいまいなクラス

segmentation

arXiv reaDer

dataset

learning

occlusion

transformer

arXiv

metric
リンク
歩行者検出：ドメインの一般化、CNN、トランスフォーマーなど
arxiv_reader 2022/01/11
歩行者検出は、オブジェクトトラッキングからビデオ監視、そして最近では自動運転に至るまで、多くの視覚ベースのアプリケーションの基礎となっています。オブジェクト検出における深層学習の急速な発展により、歩行

pre-training

CNN

tracking

arXiv reaDer

pedestrian

benchmark

transformer

autonomous driving

detection

arXiv
リンク
TFS認識：MPHの調査] {タイの指文字認識：MediaPipe手の可能性の調査
arxiv_reader 2022/01/11
タイの指文字（TFS）標識認識は、主要な聴覚人口に橋渡しをする難聴者のコミュニティに利益をもたらす可能性があります。アルファベットの数が比較的多いため、TFSは複数の署名スキームを採用しています。より

arXiv reaDer

occlusion

detection

arXiv

classification
リンク
NeoNav：予想される次の観測の生成による視覚ナビゲーションの一般化の改善
arxiv_reader 2022/01/11
期待される次の観測を考えることによって導かれるエージェントを学習することにより、視覚ナビゲーションのクロスターゲットおよびクロスシーンの一般化を改善することを提案します。これは、NeoNavと呼ばれ

Bayesian

synthesis

arXiv reaDer

learning

generative

benchmark

action

arXiv
リンク
クロスイメージ解きほぐしによる実世界の低照度画像の強化
arxiv_reader 2022/01/11
暗い場所で撮影された画像は、視界が悪く、実際のノイズなどのさまざまな画像アーチファクトが発生します。既存の監視された啓発アルゴリズムは、実際に準備するのが難しいピクセル整列トレーニング画像ペアの大規模

disentangling

arXiv reaDer

dataset

unsupervised

domain

arXiv

weakly-supervised
リンク
監視されていない人の再識別のためのマルチレベルの注意
arxiv_reader 2022/01/11
注意メカニズムは、追加情報を導入することなくニューラルネットワークで優れたパフォーマンスを発揮するため、ディープラーニングで広く使用されています。しかし、教師なしの人の再識別では、多頭の自己注意によっ

identification

arXiv reaDer

dataset

unsupervised

pedestrian

learning

person

re-id

arXiv

attention
リンク
天体画像の大規模なカタログに注釈を付けるためにディープニューラルネットワークを使用する場合の体系的なバイアス
arxiv_reader 2022/01/11
ディープ畳み込みニューラルネットワーク（DCNN）は、ノンパラメトリックな性質、優れたパフォーマンス、TensorFlowなどのライブラリを介したアクセス性により、自動画像アノテーションの最も一般的な

bias

CNN

arXiv reaDer

arXiv

classification
リンク
人間の視覚認知プロセスを模倣し、テクスチャ-形状バイアスを正規化するようにCNNを教える
arxiv_reader 2022/01/11
コンピュータビジョンの最近の実験は、畳み込みニューラルネットワーク（CNN）を使用するモデルの最高の結果の主な理由としてテクスチャバイアスを示しており、これらのネットワークが形状を使用してオブジェクト

bias

metric

CNN

arXiv reaDer

computer vision

arXiv

classification

human

attention
リンク
離散フーリエ変換の量子化されたノイズの多いサンプルからの信号再構成
arxiv_reader 2022/01/11
この論文では、離散フーリエ変換（DFT）の1ビットまたは2ビットのノイズの多い観測からの信号再構成のためのアルゴリズムの2つのバリエーションを提示します。 DFTの1ビットの観測値はその実数部の符号に

estimation

reconstruction

quantization

arXiv reaDer

benchmark

arXiv

metric
リンク
相互情報量の最大化によるドメインプライベート表現の保持
arxiv_reader 2022/01/11
教師なしドメイン適応の最近の進歩は、ドメイン不変表現を抽出することによってドメインの発散を軽減することで、ラベルのないデータドメインへのモデルの一般化を大幅に改善できることを示しています。それにもかか

dataset

arXiv reaDer

unsupervised

representation

domain adaptation

arXiv
リンク
ImageSubject：被験者検出のための大規模なデータセット
arxiv_reader 2022/01/11
主な被写体は、写真家が強調したいオブジェクトであるため、通常、画像やビデオに存在します。人間の視聴者はそれらを簡単に識別できますが、アルゴリズムはそれらを他のオブジェクトと混同することがよくあります。

saliency

arXiv reaDer

localization

dataset

video

detection

arXiv

human
リンク
半教師ありセマンティックセグメンテーションのための3段階の自己トレーニングフレームワーク
arxiv_reader 2022/01/11
セマンティックセグメンテーションはコミュニティで広く調査されており、最先端の技術は教師ありモデルに基づいています。これらのモデルは、高品質のセグメンテーションマスクの大規模なセットを必要とするという犠

multi-task

arXiv reaDer

semi-supervised

semantic segmentation

arXiv
リンク
深い陰的場を使用した点群からのコンパクトな建物モデルの再構築
arxiv_reader 2022/01/11
3次元（3D）の建物モデルは、多くの実際のアプリケーションでますます重要な役割を果たしますが、建物のコンパクトな表現を取得することは未解決の問題です。この論文では、点群からコンパクトで防水性のある多角

embedding

synthesis

approximation

reconstruction

arXiv reaDer

representation

point cloud

3D

arXiv
リンク
カテゴリ分布の形態
arxiv_reader 2022/01/11
カテゴリ分布は、マルチクラスセグメンテーションにおける不確実性の自然な表現です。 2クラスの場合、カテゴリ分布はベルヌーイ分布になり、グレースケール形態がさまざまな有用な操作を提供します。一般的なケー

bias

arXiv reaDer

representation

U-Net

arXiv

attention
リンク
空中監視の状態：調査
arxiv_reader 2022/01/11
空中プラットフォームと画像センサーの急速な出現により、規模、機動性、展開、および秘密の観測機能における前例のない利点により、新しい形態の空中監視が可能になっています。このホワイトペーパーでは、コンピュ

arXiv reaDer

dataset

drone

UAV

computer vision

arXiv
リンク
Task2Sim：効果的な事前トレーニングと合成データからの転送に向けて
arxiv_reader 2022/01/11
Imagenetまたは実像の他の大規模なデータセットでの事前トレーニングモデルは、キュレーションコスト、プライバシー、使用権、および倫理的問題に関連する欠点を伴いますが、コンピュータビジョンに大きな進

one-shot

pre-training

synthesis

arXiv reaDer

dataset

simulation

pose

computer vision

domain

arXiv
リンク
ピンホールモデルカメラで見た点構成の一般的な変形
arxiv_reader 2022/01/11
この論文は、運動からの構造の問題からの次の非剛体構造の理論的研究です。パラメトリックに変形する点のセットの単眼ビューから何を計算できますか？キャリブレーションされたカメラとキャリブレーションされていな

monocular

arXiv

arXiv reaDer
リンク
反復畳み込みニューラルネットワークを使用した拡散強調イメージングのためのロバストな部分フーリエ再構成
arxiv_reader 2022/01/11
目的：滑らかでない位相変化を伴う拡散強調（DW）画像に適用可能なロバストな部分フーリエ（PF）再構成のアルゴリズムを開発すること。方法：展開された近位分割アルゴリズムに基づいて、データ整合性操作と反復

CNN

reconstruction

arXiv reaDer

regularization

recurrent

arXiv
リンク
スケールの不確実性に基づく胸部CT画像からのCOVID-19感染セグメンテーション
arxiv_reader 2022/01/11
本論文では、COVID-19患者のCTボリュームから肺の感染領域のセグメンテーション方法を提案します。 COVID-19は世界中に広がり、多くの感染した患者と死を引き起こしました。 COVID-19の

segmentation

COVID-19

arXiv reaDer

CT

3D

arXiv
リンク
フォントのマルチ陰的ニューラル表現
arxiv_reader 2022/01/11
フォントはドキュメント全体に遍在しており、さまざまなスタイルがあります。それらは、ネイティブのベクター形式で表されるか、固定解像度の画像を生成するためにラスタライズされます。最初のケースでは、非標準の

synthesis

reconstruction

representation

arXiv reaDer

arXiv
リンク
COVID-19症例のCTボリュームからの肺感染症と正常領域のセグメンテーション
arxiv_reader 2022/01/11
この論文は、COVID-19患者のCTボリュームからの感染と肺の正常領域の自動セグメンテーション方法を提案します。 2019年12月から、新しいコロナウイルス病2019（COVID-19）が世界中に広

segmentation

COVID-19

arXiv reaDer

CT

convolutional

arXiv

activity

pooling
リンク
デジタルフォレンジック調査における年齢推定のための人工知能の適用
arxiv_reader 2022/01/11
児童の性的虐待と搾取（CSAE）の犠牲者の正確な年齢推定は、最も重要なデジタルフォレンジックの課題の1つです。捜査官は、画像を見て性的発達段階やその他の人間の特徴を解釈することにより、犠牲者の年齢を判

bias

pre-training

estimation

dataset

arXiv reaDer

arXiv

face

human
リンク
クリーンでノイズの多いサンプルに対するセマンティクス主導の注意深い数ショット学習
arxiv_reader 2022/01/11
過去数年にわたって、数ショット学習（FSL）は、ラベル付けされたトレーニング例への依存を最小限に抑えることに向けて大きな注目を集めてきました。 FSLに固有の問題は、クラスごとのトレーニングサンプルが

few-shot

synthesis

arXiv reaDer

representation

learning

arXiv

attention
リンク
ポーズの解きほぐしによる部分点群からの自己監視特徴学習
arxiv_reader 2022/01/11
点群での自己監視学習は、点群タスクでのラベル効率とドメインギャップの問題に対処するため、最近多くの注目を集めています。この論文では、部分的な点群から有益な表現を学習するための新しい自己監視フレームワー

segmentation

arXiv reaDer

reconstruction

LiDAR

representation learning

point cloud

pose

arXiv

attention
リンク
ビジョントランスフォーマーを使用した合成InSARからの学習：火山の不安検出の事例
arxiv_reader 2022/01/11
干渉合成開口レーダ（InSAR）データの地盤変形の形で、噴火に先立つ火山不安の初期兆候を検出することは、火山災害を評価するために重要です。この作業では、これをInSAR画像のバイナリ分類問題として扱い

detection

CNN

synthesis

arXiv reaDer

dataset

representation

transformer

domain adaptation

arXiv

classification
リンク
階層グラフ-人間の動きの生成モデリングのための畳み込み変分オートエンコーディング
arxiv_reader 2022/01/11
人間の動きのモデルは、通常、軌道予測またはアクション分類のいずれかに焦点を合わせていますが、両方に焦点を当てることはめったにありません。人間の動きの顕著な不均一性と複雑な構成性により、各タスクは、実際

trajectory

CNN

arXiv reaDer

action

learning

generative

OOD

arXiv

classification

human
リンク
動的視覚認識のためのGlanceおよびFocusネットワーク
arxiv_reader 2022/01/11
空間的冗長性は視覚認識タスクに広く存在します。つまり、画像またはビデオフレームの識別機能は通常、ピクセルのサブセットにのみ対応し、残りの領域は目前のタスクとは無関係です。したがって、すべてのピクセルを

pre-training

saliency

arXiv reaDer

representation

video

reinforcement learning

arXiv

classification

human
リンク
ThreshNet: しきい値メカニズムを使用して接続を削減する効率的な DenseNet
arxiv_reader 2022/01/11
コンピュータビジョンタスクにおけるニューラルネットワークの継続的な開発により、ますます多くのネットワークアーキテクチャが目覚ましい成功を収めています。最先端のニューラルネットワークアーキテクチャの1つ

dataset

arXiv reaDer

convolutional

computer vision

arXiv

compression
リンク
MaskMTL：深いマルチタスク学習によるマスクされた顔画像の属性予測
arxiv_reader 2022/01/11
ランドマークのない顔画像の属性を予測すること自体が困難な作業であり、マスクの使用により顔が遮られるとさらに複雑になります。本人確認または個人用電子機器への安全なログインを利用するスマートアクセスコント

COVID-19

multi-task

arXiv reaDer

dataset

learning

benchmark

landmark

arXiv

face
リンク
顔認識システムに関する調査
arxiv_reader 2022/01/11
顔認識は、最も成功したテクノロジーの1つであることが証明されており、異種ドメインに影響を与えています。ディープラーニングは、畳み込みベースのアーキテクチャにより、コンピュータービジョンタスクで最も成功

arXiv reaDer

learning

face recognition

computer vision

domain

arXiv
リンク
限られたトレーニングデータでの画像分類のためのスライスされたワッサースタイン空間での不変符号化
arxiv_reader 2022/01/11
ディープ畳み込みニューラルネットワーク（CNN）は、最先端の汎用エンドツーエンド画像分類システムであると広く考えられています。ただし、トレーニングデータが限られている場合はパフォーマンスが低下すること

CNN

arXiv reaDer

learning

python

augmentation

classification

arXiv
リンク
安定した画像再構成のための強化された全変動最小化
arxiv_reader 2022/01/11
全変動（TV）の正則化により、画像処理タスクのさまざまな変分モデルが驚異的に向上しました。画像強調の初期の文献の後方拡散プロセスをTV正則化と組み合わせることを提案し、結果として得られる強化TV最小化

synthesis

reconstruction

arXiv reaDer

regularization

arXiv
リンク
MAXIM：画像処理用の多軸MLP
arxiv_reader 2022/01/11
トランスフォーマーと多層パーセプトロン（MLP）モデルの最近の進歩により、コンピュータービジョンタスク用の新しいネットワークアーキテクチャ設計が提供されます。これらのモデルは、画像認識などの多くの視覚

arXiv reaDer

benchmark

transformer

computer vision

arXiv

denoising

attention
リンク
Tiny AdversarialMulit-客観的なワンショットニューラルアーキテクチャ検索
arxiv_reader 2022/01/11
限られた計算コストとエネルギー消費のために、モバイルデバイスに展開されるほとんどのニューラルネットワークモデルは小さいです。ただし、小さなニューラルネットワークは一般に攻撃に対して非常に脆弱です。現在

arXiv

NAS

adversarial

arXiv reaDer
リンク
Box2Seg：ボックスレベルの監視による3D点群のセマンティクスの学習
arxiv_reader 2022/01/11
現実的な問題ではありますが、ラベルの数が少ない非構造化3D点群から密な点ごとのセマンティクスを学習することは、文献では十分に検討されていません。既存の弱教師ありメソッドは、ポイントレベルのアノテーショ

arXiv reaDer

learning

point cloud

semantic segmentation

benchmark

3D

arXiv

weakly-supervised
リンク
自動胸部X線レポート生成に対する対照的な注意
arxiv_reader 2022/01/11
最近、与えられた胸部X線画像の説明を自動的に生成することを目的とした胸部X線レポートの生成は、ますます研究の関心を集めています。胸部X線レポート生成の重要な課題は、異常な領域を正確にキャプチャして説明

bias

arXiv reaDer

dataset

attention

contrastive

arXiv

metric
リンク
O2NA：制御可能なビデオキャプションのためのオブジェクト指向の非自己回帰アプローチ
arxiv_reader 2022/01/11
ビデオキャプションは、ビデオの理解と言語の生成を組み合わせたものです。ほぼすべてのオブジェクトの詳細を含む静止画像を説明する画像キャプションとは異なり、ビデオキャプションは通常、フレームのシーケンスを

bias

arXiv reaDer

dataset

video

autoregressive

captioning

benchmark

arXiv
リンク
ACE-Net：アンカーと輪郭の推定による細かいレベルの顔の位置合わせ
arxiv_reader 2022/01/11
細かいレベルの顔の位置合わせタスクのために、新しい顔のアンカーと輪郭の推定フレームワークであるACE-Netを提案します。 ACE-Netは、定義のあいまいさや矛盾を克服しながら、従来の顔のランドマー

estimation

synthesis

arXiv reaDer

dataset

landmark

arXiv

face

weakly-supervised
リンク
エッジデバイスでの視線推定の実用化のためのカメラ位置の解決
arxiv_reader 2022/01/11
ほとんどの視線推定研究は、カメラが視線を完全に捉える設定条件でのみ機能します。彼らは、人の特定の位置にカメラを正しく設定する方法を文字通り指定していません。本論文では、論理的なカメラ設定位置を用いた視

few-shot

estimation

edge device

arXiv reaDer

gaze

learning

person

arXiv
リンク
CSWin Transformer：クロスシェイプウィンドウを備えたGeneral VisionTransformerバックボーン
arxiv_reader 2022/01/11
汎用ビジョンタスク用の効率的で効果的なTransformerベースのバックボーンであるCSWinTransformerを紹介します。 Transformerの設計における難しい問題は、グローバルな自己

arXiv reaDer

dataset

semantic segmentation

transformer

detection

arXiv
リンク
MR画像再構成のための1D確率的アンダーサンプリングパターン最適化
arxiv_reader 2022/01/11
磁気共鳴画像法（MRI）は、3D臨床シナリオでは、主に長いスキャン時間によって制限され、人間の組織の動きのアーチファクトに対して脆弱です。したがって、k空間アンダーサンプリングは、視覚的に貧弱なMR画

reconstruction

arXiv reaDer

differentiable

learning

domain

3D

arXiv

MRI

human
リンク
特異性を維持するRGB-D顕著性検出
arxiv_reader 2022/01/11
RGBおよび深度画像での顕著な物体検出（SOD）は、その有効性と深度キューを便利にキャプチャできるようになったため、ますます多くの研究関心を集めています。既存のRGB-DSODモデルは通常、2つのモダ

saliency

arXiv reaDer

representation

learning

benchmark

detection

arXiv

RGB-D
リンク
画像の記憶可能性を推定するための深層学習における新しい技術の採用
arxiv_reader 2022/01/11
さまざまな研究により、画像の記憶力は人々の間で一貫しており、したがって画像の固有の特性として扱うことができることが示唆されています。コンピュータビジョンモデルを使用して、人々が何を覚えているか、または

CNN

estimation

arXiv reaDer

dataset

learning

computer vision

arXiv

residual
リンク
AdvSim：自動運転車のセーフティクリティカルシナリオの生成
arxiv_reader 2022/01/11
自動運転システムが改善されるにつれて、自律スタックが失敗する可能性のあるシナリオをシミュレートすることがより重要になります。従来、これらのシナリオは、グラウンドトゥルースアクターの状態を入力として受け

LiDAR

arXiv reaDer

occlusion

adversarial

arXiv

vehicle
リンク
コンピュータビジョンによるUAVベースの作物画像からの農業植物のカタログ化とデータフレームワークの確立
arxiv_reader 2022/01/11
現代の農業におけるUAVベースの画像検索により、空間的に参照される大量の作物画像データを収集できます。ただし、大規模な実験では、UAV画像には、複雑なキャノピーアーキテクチャに大量の作物が含まれている

identification

arXiv reaDer

dataset

learning

UAV

spatio-temporal

computer vision

interpretation

arXiv
リンク
Head-to-Tail クロススケールフュージョンによる焦点ぼけ除去顕微鏡
arxiv_reader 2022/01/11
顕微鏡画像の鮮明さは、生物学の研究と診断に不可欠です。細胞または分子レベルで顕微鏡画像を撮影する場合、機械的ドリフトが発生し、対抗するのが困難で広範囲になる可能性があります。このような問題は、焦点が合

arXiv

U-Net

convolutional

arXiv reaDer
リンク
低温電子顕微鏡法における体積再構成のための深層生成モデリング
arxiv_reader 2022/01/11
低温電子顕微鏡法（クライオEM）を使用した溶液中の生体分子の高解像度イメージングにおける最近の進歩により、分子体積の再構築への新しい扉が開かれ、生物学、化学、および薬理学研究のさらなる進歩が期待されて

reconstruction

arXiv reaDer

unsupervised

learning

generative

arXiv

face
リンク
ビジュアルパーサー：トランスフォーマーを使用して部分全体の階層を表す
arxiv_reader 2022/01/11
人間の視覚は、シーン全体から階層情報の一部全体をキャプチャすることができます。このホワイトペーパーでは、トランスフォーマーを使用してこのような階層を明示的に構築するビジュアルパーサー（ViP）について

CNN

segmentation

arXiv reaDer

representation

transformer

detection

arXiv

classification

attention
リンク
デカップリングにより、弱く監視されたローカル機能が改善されます
arxiv_reader 2022/01/11
弱く教師あり学習は、ローカル機能メソッドが、対応が密にラベル付けされた大規模なデータセットを取得する際の障害を克服するのに役立ちます。ただし、弱い教師ありは検出と記述のステップによって引き起こされる損

arXiv reaDer

dataset

learning

pose

detection

arXiv

weakly-supervised
リンク
マシンビジョンを使用した偽のヒルサ魚の検出
arxiv_reader 2022/01/11
ヒルサはバングラデシュの国産魚です。バングラデシュはこの魚を輸出することで多くの外貨を稼いでいます。残念ながら、最近では、悪意のあるビジネスマンが利益を得るために偽のヒルサ魚を売っています。イワシとサ

detection

arXiv

classification

arXiv reaDer
リンク
制約のないシナリオでの画像ベースの自動ダイヤルメーター読み取り
arxiv_reader 2022/01/11
アナログメーターをスマートメーターに置き換えることは、費用がかかり、手間がかかり、発展途上国では完全にはほど遠いです。パラナ（コペル）（ブラジル）のエネルギー会社は、月に400万を超えるメーターの読み

YOLO

dataset

arXiv reaDer

arXiv

human
リンク
スケルトンベースの行動認識のための時空間タプルトランスフォーマー
arxiv_reader 2022/01/11
スケルトンベースのアクション認識タスクでは、関節間の依存関係をキャプチャすることが重要です。トランスフォーマーは、重要な関節の相関関係をモデル化する大きな可能性を示しています。ただし、既存のTrans

arXiv reaDer

dataset

action recognition

spatio-temporal

transformer

arXiv
リンク
クロスシナリオビデオの時間的接地のためのサンプルの重要性の学習
arxiv_reader 2022/01/11
時間的グラウンディングのタスクは、特定のセンテンスクエリを使用して、トリミングされていないビデオ内のビデオモーメントを特定することを目的としています。この論文は、初めて、一時的な接地タスクに固有のいく

bias

arXiv reaDer

video

learning

arXiv
リンク
医用画像からの自動レポート生成のための深層学習と説明可能性に関する調査
arxiv_reader 2022/01/11
医師は毎年、患者からの画像ベースの診断に対する需要の高まりに直面しています。これは、最近の人工知能手法で対処できる問題です。これに関連して、（1）データセット、（2）アーキテクチャ設計、（3）説明可能

dataset

arXiv reaDer

learning

arXiv

face

metric
リンク
2D画像のセマンティックセグメンテーションのためのディープラーニングベースのアーキテクチャに関する調査
arxiv_reader 2022/01/11
セマンティックセグメンテーションは、画像のピクセル単位のラベリングです。問題はピクセルレベルで定義されているため、画像クラスラベルのみを決定することはできませんが、元の画像のピクセル解像度でそれらをロ

CNN

arXiv reaDer

learning

semantic segmentation

arXiv
リンク
ロボットピッキングアプリケーション用のRGB-Dセンサーを使用したキノコの検出、位置特定、および3Dポーズ推定
arxiv_reader 2022/01/11
本論文では、低コストの民生用RGB-Dセンサーから取得したRGB-Dデータを使用して、きのこ検出、位置特定、および3Dポーズ推定アルゴリズムを提案します。 RGBと深度情報をさまざまな目的で使用します

segmentation

arXiv reaDer

localization

pose estimation

3D

detection

arXiv

RGB-D
リンク
UAV車両の再識別のための自己整合空間特徴抽出ネットワーク
arxiv_reader 2022/01/11
固定監視カメラによって収集されたデータセットを使用して実行される既存の車両再識別（ReID）タスクと比較すると、無人航空機（UAV）の車両ReIDはまだ十分に調査されておらず、より困難な場合があります

segmentation

arXiv reaDer

dataset

unsupervised

representation

loss function

UAV

re-id

arXiv
リンク
動的単一ピクセルイメージングおよびセンシングのための加重エンコーディング最適化
arxiv_reader 2022/01/11
単一ピクセル検出を使用して、エンコードとデコードの両方を共同で最適化するエンドツーエンドのニューラルネットワークにより、高精度のイメージングと高レベルのセマンティックセンシングが可能になります。ただし

dataset

arXiv reaDer

detection

arXiv

classification
リンク
SGUIE-Net：マルチスケール知覚によるセマンティックアテンションガイド付き水中画像エンハンスメント
arxiv_reader 2022/01/11
波長に依存する光の減衰、屈折、散乱により、水中画像は通常、色の歪みや細部のぼやけに悩まされます。ただし、参照として歪みのない画像を使用した水中画像のペアの数が限られているため、さまざまな劣化タイプのデ

dataset

arXiv reaDer

learning

arXiv

attention
リンク
CrossMoDA 2021チャレンジ：前庭神経鞘腫および蝸牛セグメンテーションのためのクロスモダリティドメイン適応技術のベンチマーク
arxiv_reader 2022/01/11
ドメインアダプテーション（DA）は、最近、医用画像コミュニティに強い関心を寄せています。画像セグメンテーションにはさまざまなDA手法が提案されていますが、これらの手法のほとんどは、プライベートデータセ

segmentation

arXiv reaDer

dataset

unsupervised

benchmark

domain adaptation

arXiv

MRI
リンク
スペクトルデータと完全に接続されたニューラルネットワークを使用したハイパースペクトル画像の分類
arxiv_reader 2022/01/11
深層学習法を使用することにより、1次元および2次元信号に対して高い分類性能が達成されることが観察されます。これに関連して、ほとんどの研究者は深層学習法を使用してハイパースペクトル画像を分類しようとしま

DNN

CNN

arXiv reaDer

learning

3D

arXiv

classification
リンク
空間スペクトル全変動正規化を伴う非凸局所低ランクおよびスパース分離を使用したハイパースペクトル画像ノイズ除去
arxiv_reader 2022/01/11
この論文では、HSIノイズ除去のためのロバストな主成分分析への新しい非凸アプローチを提案します。これは、低ランク成分とスパース成分のそれぞれについて、ランクと列ごとのスパース性の両方に対してより正確な

approximation

arXiv reaDer

regularization

arXiv

denoising

sparse
リンク
BIGPrior：画像復元における事前の幻覚とデータ忠実度の学習の分離に向けて
arxiv_reader 2022/01/11
従来の画像復元アルゴリズムは、暗黙的または明示的にさまざまな事前情報を使用します。それらの事前設計は手動で設計され、対応する重みはヒューリスティックに割り当てられます。したがって、深層学習法はしばしば

Bayesian

arXiv reaDer

learning

generative

arXiv

denoising

metric
リンク
インスタンス検索のためのディープラーニング：調査
arxiv_reader 2022/01/11
近年、ソーシャルメディアプラットフォーム、医用画像処理、ロボット工学などの多くの分野から、膨大な量のビジュアルコンテンツが生成され、共有されています。この豊富なコンテンツの作成と共有により、特に類似し

embedding

arXiv reaDer

learning

benchmark

real time

arXiv
リンク
プロアクティブなサイバー脅威インテリジェンスのための生成的敵対的学習によるダークウェブテキストベースのCAPTCHAの対抗
arxiv_reader 2022/01/11
大規模なダークウェブ（DW）プラットフォームの自動監視は、プロアクティブなサイバー脅威インテリジェンス（CTI）を開発するための最初のステップです。表層ウェブからデータを収集するための効率的な方法はあ

segmentation

arXiv reaDer

dataset

GAN

learning

benchmark

arXiv

human
リンク
RARA：フォアグラウンドキューに従うゼロショットSim2Realビジュアルナビゲーション
arxiv_reader 2022/01/11
シミュレーションと実世界の間のギャップは、コンピュータービジョンと強化学習における多くの機械学習のブレークスルーを実世界に適用することを制限します。この作業では、カメラベースのナビゲーションの特定のケ

arXiv reaDer

simulation

regularization

reinforcement learning

computer vision

augmentation

arXiv

zero-shot
リンク
開腹手術の縫合スキルのビデオベースの完全自動評価
arxiv_reader 2022/01/11
この研究の目的は、リソースが限られている状況や国内の設定で医学生を訓練するための新しい信頼性の高い開腹手術縫合シミュレーションシステムを開発することでした。つまり、ツールと手の位置を特定するためのアル

YOLO

multi-task

arXiv reaDer

localization

video

simulation

detection

arXiv

metric
リンク
ペアワイズクラスバランスによるロングテールインスタンスセグメンテーションの緩和
arxiv_reader 2022/01/11
ロングテールインスタンスのセグメンテーションは、クラス間のトレーニングサンプルの極端な不均衡のため、困難な作業です。それは、尾のあるものに対して頭のクラス（大多数のサンプルを含む）の深刻なバイアスを引

bias

segmentation

arXiv reaDer

learning

regularization

arXiv
リンク
ロバストなユーザー支援マルチセグメンテーションのためのベースライン統計手法
arxiv_reader 2022/01/11
最近、さまざまなタイプのユーザー支援を歓迎および活用するいくつかの画像セグメンテーション方法が開発されました。これらの方法では、画像オブジェクト上に境界ボックスを描画したり、落書きを描画したり、画像の

arXiv

segmentation

arXiv reaDer
リンク
監視されたクロスモーダル検索のための視覚言語事前訓練モデルの包括的な経験的研究
arxiv_reader 2022/01/11
Cross-Modal Retrieval（CMR）は、マルチモーダルコンピューティングと情報検索全体にわたる重要な研究トピックであり、あるタイプのデータをクエリとして使用して別のタイプの関連データを

pre-training

arXiv reaDer

dataset

unsupervised

representation

loss function

learning

benchmark

arXiv
リンク
ディープニューラルネットワーク分類器を使用した医用画像のセグメンテーションへのスニークアタック
arxiv_reader 2022/01/11
現在の深層学習セグメンテーションモデル（UNetやバリアントなど）を使用する代わりに、トレーニング済みの畳み込みニューラルネットワーク（CNN）分類器を使用してセグメンテーション問題にアプローチします

CNN

segmentation

arXiv reaDer

arXiv

classification
リンク
ビジョントランスフォーマーに対するQuadTreeの注目
arxiv_reader 2022/01/11
トランスフォーマーは、長距離の依存関係をキャプチャする機能のおかげで、多くのビジョンタスクで成功しています。ただし、それらの2次計算の複雑さは、オブジェクト検出、特徴マッチング、ステレオなどの高密度予

arXiv reaDer

semantic segmentation

stereo

pose

transformer

detection

arXiv

classification

attention
リンク
SMURF: 典型性分析によるキャプション評価のための意味論的および言語学的な理解不能な融合
arxiv_reader 2022/01/11
ビジュアルキャプションには無限の性質があるため、評価が難しい領域になっています。提案されたモデルの大部分は、人間の相関関係を改善するための特殊なトレーニングに依存しているため、採用、一般化可能性、お

arXiv reaDer

dataset

benchmark

captioning

arXiv

human

metric
リンク
磁気共鳴画像法に基づく神経膠腫の等級付けのための専門家の知識に基づく幾何学的表現学習
arxiv_reader 2022/01/11
ラジオミクスとディープラーニングは、神経膠腫の自動評価で高い人気を示しています。ラジオミクスは、神経膠腫のグレードに関する専門知識を定量的に説明する手作りの特徴を抽出できます。ディープラーニングは、最

segmentation

arXiv reaDer

representation learning

manifold

arXiv

classification
リンク
3D点群に基づくリアルタイムのレール認識
正確な鉄道の位置は、安全監視のための鉄道支援運転システムの重要な部分です。 LiDARは、特に暗闇やひどい気象条件で、鉄道環境の3D情報を運ぶ点群を取得できます。本論文では、点群の無秩序、不均一な密度、大量の量などの課題を解決するために、3D点群に基づくリアルタイムのレール認識方法を提案した。ボクセルダウンサンプリング法は、鉄道の点群の密度バランスをとるために最初に提示され、ピラミッドパーティションは、3Dスキャン領域を異なるボリュームのボクセルに分割するように設計されています。次に、特徴エンコーディングモジュールを開発して、最も近い隣接点を見つけ、中心点の局所的な幾何学的特徴を集約します。最後に、マルチスケールニューラルネットワークを提案して、各ボクセルとレール位置の予測結果を生成します。実験は、鉄道の3D点群データの9つのシーケンスの下で実行されます。結果は、この方法が直線、曲線、およ
arxiv_reader 2022/01/11
正確な鉄道の位置は、安全監視のための鉄道支援運転システムの重要な部分です。 LiDARは、特に暗闇やひどい気象条件で、鉄道環境の3D情報を運ぶ点群を取得できます。本論文では、点群の無秩序、不均一な密度

arXiv reaDer

LiDAR

point cloud

3D

real time

arXiv
リンク
画像の美的品質評価のための疑似ラベリングとメタリウェイト学習
Pseudo-labelling and Meta Reweighting Learning for Image Aesthetic Quality Assessment 画像の美的品質評価のタスクでは、美的データセットの正規分布のため、高スコア領域と低スコア領域の両方に到達することは困難です。ラベル付けのエラーを減らし、通常のデータ分布の問題を解決するために、AMD-CRと呼ばれる分類と回帰を使用した新しい美的混合データセットを提案し、トレーニングデータの損失を異なる方法で再重み付けするメタ再重み付けネットワークをトレーニングします。さらに、二項分類タスクの疑似ラベルに基づいて、さまざまな段階に応じたトレーニング戦略を提供し、分類および回帰タスクのさまざまな段階に応じた美的トレーニングに使用します。ネットワーク構造の構築では、入力画像の任意のサイズに適応できる美的適応ブロック（AAB）構
arxiv_reader 2022/01/11
画像の美的品質評価のタスクでは、美的データセットの正規分布のため、高スコア領域と低スコア領域の両方に到達することは困難です。ラベル付けのエラーを減らし、通常のデータ分布の問題を解決するために、AMD-

arXiv reaDer

dataset

learning

UAV

arXiv

classification

attention
リンク
ニューラルネットワークのリフレーミング：過剰な表現における深層構造
arxiv_reader 2022/01/11
従来の浅い表現学習手法と比較して、ディープニューラルネットワークはほぼすべてのアプリケーションベンチマークで優れたパフォーマンスを実現しています。しかし、それらの明確な経験的利点にもかかわらず、それら

approximation

arXiv reaDer

dataset

representation learning

benchmark

recurrent

adversarial

arXiv
リンク
ディープニューラルネットワークにおけるブロックウォルシュ-アダマール変換ベースのバイナリ層
arxiv_reader 2022/01/11
畳み込みは、現代のディープニューラルネットワークのコアオペレーションです。畳み込みをフーリエ変換領域で実装できることはよく知られています。この論文では、フーリエ変換の代わりにバイナリブロックウォルシュ

arXiv reaDer

convolutional

domain

arXiv

denoising

pooling
リンク
SUPER-ADAM：適応勾配のより高速で普遍的なフレームワーク
arxiv_reader 2022/01/11
適応勾配法は、多くの機械学習の問題を解決するための優れたパフォーマンスを示しています。複数の適応勾配法が最近研究されましたが、それらは主に経験的または理論的側面のいずれかに焦点を当てており、特定の適応

gradient

arXiv

learning

arXiv reaDer
リンク
機械学習によるUAVベースの航空写真からの自動樹木カウントソフトウェアの開発
arxiv_reader 2022/01/11
無人航空機（UAV）は、軍事、セキュリティ、監視、緊急援助、観光、農業、林業などの多くのアプリケーション分野でうまく使用されています。この研究は、UAVによって取得された高解像度画像から、シイルト大学

arXiv reaDer

dataset

learning

UAV

detection

arXiv

classification
リンク
BottleFit：効果的かつ効率的なスプリットコンピューティングのためのディープニューラルネットワークでの圧縮表現の学習
arxiv_reader 2022/01/11
ミッションクリティカルなアプリケーションではディープニューラルネットワーク（DNN）を使用する必要がありますが、モバイルデバイスで継続的に実行すると、エネルギー消費量が大幅に増加します。エッジオフロー

DNN

dataset

arXiv reaDer

representation

learning

arXiv

compression

classification
リンク
交通事故の早期予測のための説明可能な人工知能（XAI）に向けて
arxiv_reader 2022/01/11
交通事故の予測は、安全が保証された運転体験を提供するための自動運転システム（ADS）の重要な機能です。事故予測モデルは、事故が発生する前に迅速かつ正確に予測することを目的としています。事故予測の既存の

tracking

saliency

arXiv reaDer

dataset

spatio-temporal

explainable

recurrent

arXiv

human

attention
リンク
機械のビデオコーディング：SIFT機能の部分的な送信
Video Coding for Machines: Partial transmission of SIFT features この論文は、人間と機械によるデコードされたビデオの消費に関連するビデオコーディングの新しいパラダイムである機械のビデオコーディングを扱っています。このようなタスクでは、圧縮されたビデオと機能の共同送信が考慮されます。このホワイトペーパーでは、機能の考慮事項をSIFTキーポイントに焦点を当てます。それらは、元のビデオから抽出されたSIFTキーポイントと比較して、キーポイントの数とそのパラメーターが失われた状態で、デコードされたビデオから抽出できます。このような損失は、量子化パラメータとビットレートの関数としてHEVCとVVCについて調査されます。本論文では、残余特徴データを圧縮ビデオと一緒に送信することを提案する。したがって、強く圧縮されたビデオの場合でも、すべて
arxiv_reader 2022/01/11
この論文は、人間と機械によるデコードされたビデオの消費に関連するビデオコーディングの新しいパラダイムである機械のビデオコーディングを扱っています。このようなタスクでは、圧縮されたビデオと機能の共同送信

quantization

keypoint

arXiv reaDer

video

arXiv

residual
リンク
ビデオを探索、編集、送信するためのビデオ固有のオートエンコーダ
arxiv_reader 2022/01/11
人間のユーザーがビデオを探索、編集、効率的に送信できるようにするビデオ固有のオートエンコーダーを研究しています。以前の研究では、これらの問題（およびサブ問題）を独自に検討し、さまざまな定式化を提案して

arXiv reaDer

representation

video

manifold

arXiv

human

sparse
リンク
GPU-Net：より多様な機能を備えた軽量U-Net
arxiv_reader 2022/01/11
画像セグメンテーションは医用画像分野で重要なタスクであり、多くの畳み込みニューラルネットワーク（CNN）ベースの方法が提案されており、その中でU-Netとそのバリアントは有望なパフォーマンスを示してい

CNN

segmentation

arXiv reaDer

U-Net

arXiv

pooling
リンク
メルローリザーブ：ビジョンと言語と音によるニューラルスクリプトの知識
arxiv_reader 2022/01/11
人間として、私たちはすべての感覚を通して世界をナビゲートし、それぞれからの知覚入力を使用して他の感覚を修正します。オーディオ、字幕、ビデオフレームから学習する新しいトレーニング目標を通じて、時間の経過

arXiv reaDer

representation

reasoning

video

benchmark

arXiv

zero-shot
リンク
肝腫瘍のセグメンテーションとマルチモダリティ非造影MRIの検出のための統一された敵対的学習
arxiv_reader 2022/01/11
マルチモダリティ非造影磁気共鳴画像法（NCMRI）を使用した肝腫瘍（血管腫および肝細胞癌（HCC））の同時セグメンテーションと検出は、臨床診断に不可欠です。ただし、次の理由により、依然として困難な作業

segmentation

arXiv reaDer

multi-task

learning

adversarial

detection

arXiv

MRI
リンク
自然画像からの落書き監視によるデジタル病理学のより少ないラベルでの学習
arxiv_reader 2022/01/11
デジタルパソロジー（DP）ドメインで深層学習モデルをトレーニングする際の重要な課題は、医療専門家による高い注釈コストです。この問題に取り組む1つの方法は、注釈のコストがかなり安い自然画像ドメイン（NI

transfer learning

segmentation

arXiv reaDer

dataset

domain

arXiv

classification
リンク
FlexHDR：柔軟なHDRイメージングのためのアライメントと露出の不確実性のモデリング
FlexHDR: Modelling Alignment and Exposure Uncertainties for Flexible HDR Imaging ハイダイナミックレンジ（HDR）イメージングは、最新のデジタル写真パイプラインで基本的に重要であり、画像全体の照明が変化しても、露出の良い領域で高品質の写真を作成するために使用されます。これは通常、異なる露出で撮影された複数の低ダイナミックレンジ（LDR）画像をマージすることによって実現されます。ただし、露出過度の領域と、補正が不十分なモーションによるミスアライメントエラーは、ゴースティングなどのアーティファクトを引き起こします。この論文では、高品質のHDR結果を生成するために、アライメントと露出の不確実性を具体的にモデル化する新しいHDRイメージング技術を紹介します。フレームを単一の高品質HDR画像に堅牢にマージする、HDR対応
arxiv_reader 2022/01/11
ハイダイナミックレンジ（HDR）イメージングは、最新のデジタル写真パイプラインで基本的に重要であり、画像全体の照明が変化しても、露出の良い領域で高品質の写真を作成するために使用されます。これは通常、異

arXiv

attention

arXiv reaDer
リンク
マイクロドージング：GANベースの圧縮のための知識蒸留
Microdosing: Knowledge Distillation for GAN based Compression 最近、学習した画像とビデオの圧縮に大きな進歩が見られました。特に、Generative Adversarial Networksの使用は、低ビットレート体制で印象的な結果をもたらしました。ただし、モデルサイズは、現在の最先端の提案では依然として重要な問題であり、既存のソリューションでは、デコード側でかなりの計算作業が必要です。これにより、現実的なシナリオでの使用とビデオ圧縮への拡張が制限されます。このホワイトペーパーでは、知識の蒸留を活用して、元のパラメータ数の何分の1かで同等の機能を備えた画像デコーダを取得する方法を示します。画像コーディングのサイド情報を使用したシーケンスの特殊化など、ソリューションのいくつかの側面を調査します。最後に、得られた利点をビデオ圧縮の設
arxiv_reader 2022/01/11
最近、学習した画像とビデオの圧縮に大きな進歩が見られました。特に、Generative Adversarial Networksの使用は、低ビットレート体制で印象的な結果をもたらしました。ただし、モデ

arXiv reaDer

GAN

video

knowledge distillation

arXiv

compression
リンク
少数のサンプルでモデルを圧縮する：模倣してから置き換える
arxiv_reader 2022/01/11
少数のサンプルの圧縮は、大きな冗長モデルを、サンプルが少ない小さなコンパクトなモデルに圧縮することを目的としています。これらの限られた少数のサンプルを使用してモデルを直接微調整すると、モデルは過剰適合

reconstruction

arXiv reaDer

unsupervised

arXiv

compression

pruning
リンク
体積データから等値面を抽出するための2つの方法とそれらの比較
Two Methods for Iso-Surface Extraction from Volumetric Data and Their Comparison 体積データから等表面を抽出するには、さまざまな方法があります。マーチングキューブ法、四面体法、レイトレーシング法が主に使用されます。計算速度を上げ、メモリ要件を減らすための多くの特定の手法があります。等値面抽出の精度も非常に重要ですが、通常は言及されていません。選択した方法の比較は、等値面抽出プロセス時間、生成された三角形の数、球の近似に基づく半径、面積、および体積の誤差の推定など、さまざまな側面で行われました。驚くべきことに、実験により、抽出された精度と抽出された等値面の人間の知覚との間に直接的な関係がないことが証明されました There are various methods for extracting iso-surfac
arxiv_reader 2022/01/11
体積データから等表面を抽出するには、さまざまな方法があります。マーチングキューブ法、四面体法、レイトレーシング法が主に使用されます。計算速度を上げ、メモリ要件を減らすための多くの特定の手法があります。

arXiv

arXiv reaDer

approximation

human

estimation
リンク
2020年代のConvNet
arxiv_reader 2022/01/11
視覚認識の「狂騒の20年代」は、最先端の画像分類モデルとしてConvNetsにすぐに取って代わったVision Transformers（ViTs）の導入から始まりました。一方、バニラViTは、オブジ

transformer

arXiv reaDer

convolutional

detection

bias

computer vision

face

classification

semantic segmentation

arXiv
リンク
言語主導のセマンティックセグメンテーション
arxiv_reader 2022/01/11
言語駆動型セマンティック画像セグメンテーションの新しいモデルであるLSegを紹介します。 LSegは、テキストエンコーダーを使用して、入力画像のピクセルごとの高密度埋め込みを計算するトランスフォーマー

arXiv reaDer

contrastive

zero-shot

few-shot

semantic segmentation

representation

arXiv

embedding
リンク
Head2Toe：より良い伝達学習のための中間表現の利用
arxiv_reader 2022/01/11
転送学習方法は、データが豊富なソースドメインで事前トレーニングされたモデルを使用して、データが不足しているターゲットドメインのパフォーマンスを向上させることを目的としています。費用対効果の高い戦略であ

domain

arXiv reaDer

transfer learning

classification

OOD

representation

arXiv
リンク
FabricFlowNet：フローベースのポリシーを使用した両手での布の操作
arxiv_reader 2022/01/11
布の変形能のために困難な作業である、目標指向の布操作の問題に対処します。私たちの洞察は、オプティカルフローは、ビデオの動きの推定に通常使用される手法であり、観察画像と目標画像全体で対応する布のポーズを

arXiv reaDer

pose

estimation

optical flow

sim-to-real

action

video

representation

arXiv
リンク
画像からの母集団レベルの形状統計と解剖学的セグメンテーションの学習：共同深層学習モデル
arxiv_reader 2022/01/11
統計的形状モデリングは、解剖学的集団の定量分析に不可欠なツールです。点群統計モデル（PDM）は、対応の密集したセットを介して解剖学的表面を表現します。これは、後続のアプリケーション向けの直感的で使いや

arXiv reaDer

dataset

learning

segmentation

representation

arXiv
リンク
https://arxiv-check-250201.firebaseapp.com/each/2201.03454v3
arxiv_reader 2022/01/11
顔認識システム（FRS）は、モーフィング攻撃に対して脆弱であることがわかっています。モーフィングされた顔画像は、寄与データ主体からの顔画像をブレンドすることによって生成されます。この作品は、3Dで顔の

arXiv reaDer

detection

dataset

3D

human

benchmark

metric

point cloud

arXiv

face recognition
リンク
GlassNet：ロバストな画像ガラス検出のためのラベルデカップリングベースの3ストリームニューラルネットワーク
arxiv_reader 2022/01/11
既存のオブジェクト検出方法のほとんどは、透明なガラスが画像内の背後にある任意のオブジェクトと同じ外観を共有するため、不十分なガラス検出結果を生成します。オブジェクトの境界を補助的な監視として使用する従

arXiv reaDer

detection

dataset

benchmark

arXiv
リンク
DiffSDFSim：暗黙の形状を持つ微分可能な剛体ダイナミクス
arxiv_reader 2022/01/11
微分可能な物理学は、シーンの理解と相互作用についての推論のためのコンピュータビジョンとロボット工学の強力なツールです。既存のアプローチは、単純な形状または事前にわかっている形状のオブジェクトに限定され

reasoning

synthesis

arXiv reaDer

differentiable

computer vision

trajectory

simulation

arXiv
リンク
画像レベルの教師ありを使用した 20,000 クラスの検出
arxiv_reader 2022/01/11
現在のオブジェクト検出器は、検出データセットの規模が小さいため、語彙のサイズが制限されています。一方、画像分類子は、データセットが大きく、収集が容易であるため、語彙がはるかに大きいと考えられます。 D

arXiv reaDer

detection

dataset

benchmark

classification

arXiv
リンク
密輸品の高度に乱雑なインスタンスを認識するための新しいインクリメンタル学習駆動型インスタンスセグメンテーションフレームワーク
arxiv_reader 2022/01/11
手荷物のX線スキャンから雑然とした密輸品をスクリーニングすることは、専門のセキュリティスタッフにとってさえ厄介な作業です。このホワイトペーパーでは、従来のエンコーダ-デコーダアーキテクチャを拡張して、

arXiv reaDer

detection

dataset

learning

Bayesian

semantic segmentation

representation

arXiv
リンク
ビデオテキストモデリングに基づくビデオ要約
arxiv_reader 2022/01/11
最新のビデオ要約方法は、トレーニングのために大量の注釈付きデータを必要とするディープニューラルネットワークに基づいています。ただし、ビデオ要約用の既存のデータセットは小規模であるため、ディープモデルの

arXiv reaDer

dataset

learning

classification

video

self-supervised

representation

arXiv
リンク
セグメンテーションパフォーマンスに対する事前ベースの損失の影響：ベンチマーク
arxiv_reader 2022/01/11
今日、ディープ畳み込みニューラルネットワーク（CNN）は、さまざまな画像モダリティとタスクで、医療画像セグメンテーションの最先端のパフォーマンスを実証しています。初期の成功にもかかわらず、セグメンテー

arXiv reaDer

dataset

loss function

segmentation

benchmark

CNN

representation

arXiv
リンク
空中シーン解析：タイルレベルのシーン分類からピクセル単位のセマンティックラベリングまで
arxiv_reader 2022/01/11
空中画像が与えられると、空中シーン解析（ASP）は、画像のすべてのピクセルにセマンティックラベルを割り当てるなどして、画像コンテンツのセマンティック構造を解釈することを目的としています。データ駆動型手

multi-task

arXiv reaDer

interpretation

dataset

learning

benchmark

classification

CNN

arXiv
リンク
線形変分状態空間フィルタリング
教師なし学習、識別、および生のピクセルからの潜在マルコフ状態空間モデルのフィルタリングのための新しい方法である変分状態空間フィルター（VSSF）を紹介します。異種センサー構成の下での潜在状態空間推論のための理論的に健全なフレームワークを提示します。結果として得られるモデルは、トレーニング中に使用されるセンサー測定値の任意のサブセットを統合できるため、半教師あり状態表現の学習が可能になり、学習された潜在状態空間の特定のコンポーネントが解釈可能な測定値と一致するようになります。このフレームワークから、線形潜在ダイナミクスとガウス分布パラメーター化を使用したこのモデルの明示的なインスタンス化であるL-VSSFを導出します。いくつかの異なるテスト環境にわたって、トレーニングデータセットのシーケンス長を超えて潜在空間でフィルタリングするL-VSSFの機能を実験的に示します。 We introduce
arxiv_reader 2022/01/11
教師なし学習、識別、および生のピクセルからの潜在マルコフ状態空間モデルのフィルタリングのための新しい方法である変分状態空間フィルター（VSSF）を紹介します。異種センサー構成の下での潜在状態空間推論の

semi-supervised

arXiv reaDer

unsupervised

dataset

learning

identification

representation

arXiv
リンク
変化検出のための変圧器ベースのシャムネットワーク
arxiv_reader 2022/01/11
このホワイトペーパーでは、同時登録されたリモートセンシング画像のペアからの変化検出（CD）用のトランスベースのシャムネットワークアーキテクチャ（ChangeFormerと略記）を紹介します。完全畳み込

transformer

arXiv reaDer

convolutional

detection

dataset

arXiv
リンク
HWRCNet：CNN-BiLSTMネットワークを使用したJPEG圧縮ドメインでの手書き単語認識
arxiv_reader 2022/01/11
ディープラーニングを使用した画像からの手書き単語認識は、有望なパフォーマンスを備えた活発な研究分野です。実際のシナリオでは、セキュリティ上の理由から、圧縮ドメインで手書き画像を処理する必要がある場合が

domain

arXiv reaDer

RNN

learning

CNN

arXiv
リンク
GAT-CADNet：CAD図面でのパノプティコンシンボルスポッティングのためのグラフアテンションネットワーク
arxiv_reader 2022/01/11
コンピューター支援設計（CAD）図面からグラフィックシンボルを見つけることは、多くの産業用アプリケーションにとって不可欠です。ラスターイメージとは異なり、CAD図面は、セグメント、円弧、円などの幾何学

arXiv reaDer

detection

benchmark

attention

arXiv
リンク
D-Former：3D医療画像セグメンテーション用のU字型拡張トランス
arxiv_reader 2022/01/11
コンピュータ支援医療画像セグメンテーションは、標的臓器および組織の形状および体積の臨床的に有用な情報を取得するために、診断および治療に広く適用されてきました。過去数年間、畳み込みニューラルネットワーク

transformer

arXiv reaDer

U-Net

computer vision

MRI

3D

segmentation

CNN

arXiv
リンク
SAC-GAN：自動運転のための構造を意識した画像から画像への構成
arxiv_reader 2022/01/11
自動運転アプリケーションの画像拡張への構成的アプローチを提示します。これは、オブジェクト画像から背景シーン画像にトリミングされたパッチとして表されるオブジェクト（車両や歩行者など）をシームレスに構成す

augmentation

transformer

differentiable

arXiv reaDer

pedestrian

dataset

vehicle

arXiv
リンク
- 2022年1月12日
- 2022年1月11日
- 2022年1月10日

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx