arxiv_readerのブックマーク / 2022年1月25日 - はてなブックマーク

arxiv_reader id:arxiv_reader

2022年1月25日のブックマーク (171件)

医用画像におけるトランスフォーマー：調査
arxiv_reader 2022/01/25
自然言語タスクで前例のない成功を収めた後、トランスフォーマーはいくつかのコンピュータービジョンの問題にうまく適用され、最先端の結果を達成し、研究者に畳み込みニューラルネットワーク（CNN）の優位性を事

transformer

detection

arXiv reaDer

identification

reconstruction

computer vision

CNN

segmentation

arXiv
リンク
深い畳み込みニューラルネットワークを使用した組織病理学的画像分類における前処理の重要性
arxiv_reader 2022/01/25
この研究の目的は、ヨーネ病と無傷の腸を持つ動物から撮影された組織病理学的画像から病気を診断するための代替のハイブリッドソリューション法を提案することです。詳細には、ハイブリッド方式は、より良い結果を得

classification

detection

arXiv reaDer

computer vision

CNN

dataset

arXiv

learning
リンク
RePaint：ノイズ除去拡散確率モデルを使用した修復
arxiv_reader 2022/01/25
自由形式の修復は、任意のバイナリマスクで指定された領域の画像に新しいコンテンツを追加するタスクです。ほとんどの既存のアプローチは、マスクの特定の分布をトレーニングします。これにより、一般化機能が見えな

arXiv reaDer

generative

face

autoregressive

GAN

arXiv

denoising
リンク
ディーププライアと劣化モデルの反転によるハイパースペクトル画像の超解像
arxiv_reader 2022/01/25
空間解像度に関するハイパースペクトルイメージングシステムの固有のハードウェア制限を克服するために、融合ベースのハイパースペクトル画像（HSI）超解像がますます注目を集めています。この手法は、HR HS

arXiv reaDer

super-resolution

interpretation

CNN

gradient

domain

arXiv

learning

attention
リンク
一般化可能なマルチソースの人の再識別のための新しい混合正規化方法
arxiv_reader 2022/01/25
個人の再識別（Re-ID）は、監視ありシナリオで大きな成功を収めました。ただし、モデルが表示されたソースドメインに過剰適合しているため、監視ありモデルを任意の表示されていないドメインに直接転送すること

augmentation

arXiv reaDer

regularization

re-id

dataset

benchmark

domain

arXiv

person
リンク
MMLatch：マルチモーダル感情分析のためのボトムアップトップダウンフュージョン
arxiv_reader 2022/01/25
マルチモーダル融合の現在の深層学習アプローチは、高レベルおよび中レベルの潜在的モダリティ表現（後期/中期融合）または低レベルの感覚入力（初期融合）のボトムアップ融合に依存しています。人間の知覚のモデル

representation

arXiv reaDer

human

arXiv

learning
リンク
Spectral-PQ：RGB 4：4：4ビデオデータ用の新しいスペクトル感度指向の知覚圧縮技術
arxiv_reader 2022/01/25
人間の視覚系（HVS）のスペクトル感度と色覚の間には本質的な関係があります。これらの絡み合った現象は、知覚圧縮研究では見過ごされがちです。一般に、以前に提案されたほとんどの視覚的ロスレス圧縮技術は、輝

video

arXiv reaDer

compression

human

arXiv

quantization
リンク
スケーラブルで回転的に等変な球形CNNのための球上の散乱ネットワーク
arxiv_reader 2022/01/25
球体上にネイティブに構築された畳み込みニューラルネットワーク（CNN）が最近開発され、球形データの分析に非常に効果的であることが示されています。効率的なフレームワークが定式化されていますが、それでも球

arXiv reaDer

representation

arXiv

CNN
リンク
顔の属性に基づくうつ病認識を検索する神経アーキテクチャ
arxiv_reader 2022/01/25
最近の研究では、うつ病は人間の顔の属性から部分的に反映される可能性があることが示されています。顔の属性にはさまざまなデータ構造があり、さまざまな情報が含まれているため、既存のアプローチでは、それぞれか

arXiv reaDer

NAS

GNN

convolutional

CNN

dataset

face

human

arXiv
リンク
マルチビュー心エコー検査による心筋梗塞の早期発見
arxiv_reader 2022/01/25
心筋梗塞（MI）は、心筋に栄養を与える冠状動脈の閉塞が原因で発生する世界の主要な死亡原因です。 MIの早期診断とその局在化は、早期の治療的介入を促進することにより、心筋障害の程度を軽減することができま

detection

arXiv reaDer

dataset

localization

benchmark

arXiv

learning
リンク
パッチはあなたが必要とするすべてですか？
arxiv_reader 2022/01/25
畳み込みネットワークは長年にわたってビジョンタスクの主要なアーキテクチャでしたが、最近の実験では、Transformerベースのモデル、特にVision Transformer（ViT）が一部の設定で

transformer

arXiv reaDer

embedding

convolutional

arXiv
リンク
強化学習における時間的に調整された探索のための生成的計画
arxiv_reader 2022/01/25
標準のモデルフリー強化学習アルゴリズムは、予想される将来の収益を最大化するために、現在のタイムステップで実行されるアクションを生成するポリシーを最適化します。柔軟性はありますが、シングルステップの性質

arXiv reaDer

generative

interpretation

action

face

benchmark

arXiv

reinforcement learning
リンク
回帰によるホットリフレッシュモデルのアップグレード-画像検索における互換性のあるトレーニングの軽減
arxiv_reader 2022/01/25
画像検索システムのホットリフレッシュモデルのアップグレードのタスクは、業界で重要な役割を果たしますが、これまで学界で調査されたことはありません。従来のコールドリフレッシュモデルのアップグレードでは、ギ

arXiv reaDer

pose

benchmark

arXiv

landmark
リンク
ディープリソグラフィーシミュレーターを最新の状態に保つ：グローバル-ローカル形状ベースのノベルティ検出とアクティブラーニング
arxiv_reader 2022/01/25
学習ベースの事前シミュレーション（すなわち、レイアウトから製造へ）モデルは、ICレイアウトからその製造された回路への製造によって引き起こされる形状変形を予測するために提案されています。このようなモデル

detection

arXiv reaDer

arXiv

learning

pre-training
リンク
マルチスケール注意による視覚的場所認識のための意味論の学習
arxiv_reader 2022/01/25
この論文では、視覚的場所認識（VPR）のタスクに取り組みます。ここでの目標は、巨大なジオタグ付きギャラリーに対して特定のクエリ画像の正しいGPS座標を取得することです。最近の研究では、セマンティック情

arXiv reaDer

embedding

dataset

segmentation

arXiv

learning

attention
リンク
画像データ拡張のための特徴変換
arxiv_reader 2022/01/25
畳み込みニューラルネットワーク（CNN）の問題は、適切な堅牢性を取得するために大規模なデータセットが必要になることです。小さなデータセットでは、過剰適合する傾向があります。 CNNのこの欠点を克服する

classification

augmentation

arXiv reaDer

CNN

dataset

benchmark

arXiv
リンク
マルチモーダル医療セグメンテーションマップのための形状一貫性のある生成的敵対的ネットワーク
arxiv_reader 2022/01/25
対になっていないデータセットのドメイン間での画像変換は、最近関心を集め、大幅に改善されています。医用画像には、非常に異なる特性を持つ複数の画像モダリティがあります。私たちの目標は、セマンティックセグメ

CT

3D

semantic segmentation

adaptation

arXiv reaDer

MRI

domain

dataset

GAN

arXiv
リンク
どのスタイルが私を魅力的にしますか？ StyleGANでの解釈可能な制御の発見と反事実的説明
arxiv_reader 2022/01/25
GANの意味的に解きほぐされた潜在部分空間は、画像生成において豊富な解釈可能な制御を提供します。この論文には、StyleGAN2を使用した顔生成のシナリオにおける意味潜在的部分空間分析に関する2つの貢

detection

arXiv reaDer

disentangling

CNN

face

GAN

arXiv

landmark
リンク
目に見えないプライバシーを保護する画像ドメインからのベッド内の人間の姿勢推定
arxiv_reader 2022/01/25
医療アプリケーションは、コンピュータビジョンの急速な進歩から大きな恩恵を受けています。特に患者のモニタリングを考慮すると、ベッド内の人間の姿勢の推定は、病状の評価に潜在的な価値を持つ重要な健康関連の指

occlusion

arXiv reaDer

pose estimation

self-supervised

computer vision

metric

domain

arXiv

learning

human pose estimation
リンク
マルチモーダルグラウンディングにおけるデータセット間のシフトを評価するための質問の生成
arxiv_reader 2022/01/25
視覚的質問応答（VQA）は、入力画像に関する自然言語の質問に答えるマルチモーダルタスクです。クロスデータセット適応方法により、より大きなトレインサンプルを含むソースデータセットから、トレーニングセット

OOD

adaptation

arXiv reaDer

VQA

dataset

domain

arXiv
リンク
手書きの単語から取り消し線を削除するためのペアの画像から画像への翻訳
arxiv_reader 2022/01/25
たとえば遺伝的批判の目的で、打ち抜かれた手書きの単語を書き写すことは、重ねられたストロークの邪魔な特性のために、人間と機械の両方に挑戦をもたらす可能性があります。このペーパーでは、手書きの単語から取り

arXiv reaDer

pose

synthesis

convolutional

dataset

arXiv
リンク
自動運転のための空間コンテキストディープネットワークベースのマルチモーダル歩行者検出
arxiv_reader 2022/01/25
歩行者検出は、自動運転システムの最も重要なモジュールです。この目的でカメラが一般的に使用されますが、夜間の暗い場所での運転シナリオでは、カメラの品質が大幅に低下します。一方、赤外線カメラの画像の品質は

RNN

detection

pedestrian

arXiv reaDer

embedding

dataset

benchmark

arXiv

autonomous driving

attention
リンク
ERQA：ビデオ超解像のためのエッジ復元品質評価
arxiv_reader 2022/01/25
ビデオ超解像（VSR）の人気が高まっているにもかかわらず、アップスケールされたフレームで復元された詳細の品質を評価する良い方法はまだありません。一部のSRメソッドでは、間違った数字またはまったく異なる

video

arXiv reaDer

super-resolution

face

metric

benchmark

arXiv
リンク
SEN12MS-CR-TS：マルチモーダルマルチテンポラルクラウド除去のためのリモートセンシングデータセット
arxiv_reader 2022/01/25
宇宙搭載衛星を介して収集されたすべての光学観測の約半分は、もやや雲の影響を受けています。その結果、雲量は、私たちの惑星の継続的かつシームレスな監視のリモートセンシング実践者の能力に影響を与えます。この

arXiv reaDer

satellite

reconstruction

seq2seq

arXiv
リンク
集約されたデータセットで順次トレーニングされたエンドツーエンドの個人検索
arxiv_reader 2022/01/25
ビデオ監視アプリケーションでは、人物検索は、人物を検出し、再識別（re-ID）の目的でシルエットから特徴を抽出するという難しいタスクです。単一の深い畳み込みニューラルネットワークアーキテクチャを介して

video

detection

pedestrian

arXiv reaDer

re-id

CNN

dataset

arXiv

person

multi-task
リンク
できれば説明してください！特徴づけられたインスタンスレベルの人間の構文解析
arxiv_reader 2022/01/25
人物検索やオンラインファッションなどのいくつかのコンピュータビジョンアプリケーションは、人間の説明に依存しています。したがって、インスタンスレベルの人間解析（HP）の使用は、人のセマンティック属性と身

transformer

arXiv reaDer

computer vision

dataset

localization

human

arXiv

person

multi-task
リンク
教師なしノイズ除去学習のための最適なトランスポート
arxiv_reader 2022/01/25
最近、教師なしノイズ除去学習で多くの進歩が見られました。ただし、既存の方法は、多かれ少なかれ、信号および/または劣化モデルに関するいくつかの仮定に依存しているため、実際のパフォーマンスが制限されます。

learning

arXiv reaDer

unsupervised

synthesis

reconstruction

arXiv

denoising
リンク
AutoSeg-自動病理セグメンテーションのための誘導バイアスの操作
arxiv_reader 2022/01/25
医用画像では、非監視、半監視、または自己監視の病理検出は、異常または分布外の検出方法でアプローチされることが多く、その誘導バイアスは病理の検出に意図的に向けられていないため、これには最適ではありません

OOD

detection

arXiv reaDer

self-supervised

bias

dataset

segmentation

arXiv
リンク
歴史的文書分類におけるテキスト行の重要性
arxiv_reader 2022/01/25
この論文では、ブルノ工科大学でICDAR 2021の歴史的文書分類に関する競争のために準備されたシステム、その設計につながる実験、および主な調査結果について説明します。解決されたタスクには、スクリプト

classification

arXiv reaDer

localization

loss function

weakly-supervised

arXiv
リンク
畳み込みニューラルネットワークのための一貫した相対的信頼性とラベルフリーモデル選択
arxiv_reader 2022/01/25
この手紙は、深い畳み込みニューラルネットワーク（CNN）による画像分類に関するものです。焦点は次の質問にあります。候補CNNモデルのセットが与えられた場合、現在のタスクに最適な一般化プロパティを持つ適

classification

arXiv reaDer

CNN

metric

dataset

benchmark

arXiv
リンク
RGB-D顕著な物体検出のためのマルチスケール反復精密化ネットワーク
arxiv_reader 2022/01/25
RGB-D情報を活用した広範な研究は、顕著な物体検出に活用されています。ただし、顕著な視覚的手がかりは、さまざまな機能レベルでのセマンティックギャップのために、RGB画像のさまざまなスケールと解像度で

saliency

detection

arXiv reaDer

dataset

RGB-D

arXiv

attention
リンク
ロングテールおよび浅い顔の学習のためのマルチエージェントセミシャムトレーニング
arxiv_reader 2022/01/25
深い畳み込みニューラルネットワークと大規模なデータセットの最近の開発により、深い顔認識は目覚ましい進歩を遂げ、さまざまなアプリケーションで広く使用されています。ただし、既存の公開顔データセットとは異な

arXiv reaDer

face recognition

CNN

dataset

loss function

arXiv

learning
リンク
自己監視型マルチセンサー変更検出
arxiv_reader 2022/01/25
ほとんどの変更検出方法は、変更前と変更後の画像が同じセンサーによって取得されることを前提としています。ただし、自然災害などの多くの実際のシナリオでは、発生の前後に利用可能な最新の画像を使用する方が実用

contrastive learning

detection

arXiv reaDer

generative

self-supervised

unsupervised

synthesis

clustering

arXiv
リンク
ディープラーニングベースの人間のポーズ推定：調査
arxiv_reader 2022/01/25
人間の姿勢の推定は、画像やビデオなどの入力データから人体の部分を特定し、人体の表現（たとえば、体の骨格）を構築することを目的としています。過去10年間でますます注目を集めており、人間とコンピューターの

3D

representation

augmentation

arXiv reaDer

pose estimation

dataset

metric

arXiv

attention

human pose estimation
リンク
希少なトレーニングデータからのデータ整合性のある教師あり学習と敵対的学習を使用したスパースビューコーンビームCT再構成
arxiv_reader 2022/01/25
オブジェクトを介した限られた一連の投影からのCT画像の再構成は、医用画像から産業環境に至るまでのいくつかのアプリケーションで重要です。利用可能な投影の数が減少するにつれて、FDKアルゴリズムやモデルベ

CT

3D

arXiv reaDer

adversarial

reconstruction

dataset

arXiv

learning

attention
リンク
MRI超解像のための知覚cGAN
arxiv_reader 2022/01/25
高解像度の磁気共鳴（MR）画像のキャプチャは時間のかかるプロセスであるため、救急医療や小児患者には適していません。対照的に、低解像度のMRイメージングは、高解像度のMRイメージングよりも高速ですが、よ

arXiv reaDer

super-resolution

MRI

GAN

arXiv
リンク
バスケットベースのSoftmax
arxiv_reader 2022/01/25
Softmaxベースの損失は、顔認識や再識別などのさまざまなタスクで最先端のパフォーマンスを実現しています。ただし、これらのメソッドは、グローバルラベルが付いたクリーンなデータセットに大きく依存してい

arXiv reaDer

face recognition

re-id

dataset

arXiv

learning
リンク
パイプラインのバイアス除去により、X線ベースの肺結節検出のための深層学習モデルの一般化が改善されます
arxiv_reader 2022/01/25
肺がんは世界中のがんによる死亡の主な原因であり、良好な予後は早期診断にかかっています。残念ながら、肺がんの早期診断のためのスクリーニングプログラムはまれです。これは、リスクのあるグループが医療施設から

classification

detection

arXiv reaDer

bias

dataset

pruning

segmentation

arXiv

learning
リンク
場所認識のためのシャムネットワークの一般化された対照最適化
arxiv_reader 2022/01/25
視覚的な場所の認識は、コンピュータビジョンにおける挑戦的なタスクであり、カメラベースのローカリゼーションおよびナビゲーションシステムの重要なコンポーネントです。最近、畳み込みニューラルネットワーク（C

arXiv reaDer

contrastive

computer vision

CNN

localization

dataset

arXiv
リンク
自己監視学習によるビデオでの一貫した3D手の再構成
arxiv_reader 2022/01/25
単眼ビデオから正確で一貫性のある3D手を再構築する方法を紹介します。検出された2D手のキーポイントと画像テクスチャは、3D手の形状とテクスチャに関する重要な手がかりを提供し、3D手の注釈の要件を軽減ま

monocular

3D

arXiv reaDer

self-supervised

pose

keypoint

reconstruction

dataset

benchmark

arXiv
リンク
神経微分方程式によるプログレッシブ画像超解像
arxiv_reader 2022/01/25
神経常微分方程式に基づいて、入力低解像度（LR）画像から高解像度（HR）画像を段階的に復元する画像超解像（SR）タスクの新しいアプローチを提案します。特に、SR問題を初期値問題として新たに定式化します

arXiv reaDer

domain

arXiv

super-resolution
リンク
フル解像度フレームワークでの畳み込みニューラルネットワークによるパンシャープン
arxiv_reader 2022/01/25
近年、ディープラーニングベースのパンシャープンへの関心が高まっています。これまでのところ、研究は主にアーキテクチャに焦点を当ててきました。それにもかかわらず、モデルトレーニングも同様に重要な問題です。

arXiv reaDer

domain

arXiv

CNN
リンク
ニューラルネットワーク正則化のための部分グラフ推論
arxiv_reader 2022/01/25
レギュラライザーは、ディープニューラルネットワークが機能の共適応を防ぐのに役立ちます。ドロップアウトは、一般的に使用される正則化手法として、ネットワークの最適化中にニューロンのアクティブ化を確率的に無

representation

arXiv reaDer

regularization

reasoning

dataset

arXiv
リンク
深部強化学習を使用した加速された血管内超音波イメージング
arxiv_reader 2022/01/25
血管内超音波（IVUS）は、血管内から取得した一連の超音波スライスを作成することにより、血管疾患の治療に独自の視点を提供します。ただし、従来のハンドヘルド超音波とは異なり、細いカテーテルは、先端のトラ

arXiv reaDer

MRI

arXiv

reinforcement learning
リンク
メモ：適応と増強によるテスト時間の堅牢性
arxiv_reader 2022/01/25
ディープニューラルネットワークは、分布内のテストポイントで優れた精度を達成できますが、多くのアプリケーションでは、入力の予期しない摂動、ドメインの変化、またはその他の分布シフトの原因に直面しても、堅牢

transformer

augmentation

adaptation

arXiv reaDer

face

benchmark

domain

arXiv
リンク
Wi-Fiチャネル状態情報を使用した監視ビデオストリームでの偽造攻撃の検出
arxiv_reader 2022/01/25
サイバーセキュリティ違反は、監視ビデオストリームを偽造攻撃にさらし、その下で本物のストリームが改ざんされて不正な活動を隠します。従来のビデオフォレンジックアプローチでは、比較的長いビデオクリップの時空

real time

video

detection

arXiv reaDer

activity

pose

localization

human

arXiv
リンク
混合交通における協調運転自動化を可能にするサイバーモビリティミラー: コシミュレーションプラットフォーム
arxiv_reader 2022/01/25
自動化と接続性を備えたConnectedand Automated Vehicles（CAV）は、Cooperative Driving Automation（CDA）の革新的なプロモーターとなること

real time

detection

3D

pedestrian

simulation

arXiv reaDer

LiDAR

reconstruction

vehicle

arXiv
リンク
重複するKet拡張を伴う要素ごとの重み付き低ランクテンソルトレインによる効果的なテンソル完了
arxiv_reader 2022/01/25
近年、高次のテンソルデータを処理する際の効率と有効性から、テンソルトレイン（TT）形式に基づくテンソル補完のアプリケーションが増えています。ただし、TT分解を使用する既存のテンソル補完方法には、2つの

arXiv reaDer

synthesis

arXiv

augmentation
リンク
UniFormer：視覚認識のための畳み込みと自己注意の統合
arxiv_reader 2022/01/25
これらの視覚データには大きなローカル冗長性と複雑なグローバル依存性があるため、画像やビデオから識別表現を学習することは困難な作業です。畳み込みニューラルネットワーク（CNN）とビジョントランスフォーマ

transformer

detection

semantic segmentation

arXiv reaDer

pose estimation

affinity

convolutional

CNN

representation learning

arXiv
リンク
カメラプロジェクションロスによるカメラキャリブレーション
arxiv_reader 2022/01/25
カメラのキャリブレーションは、3D再構築、ロボット相互作用のための手と目の協調、自動運転などのさまざまなタスクで必要です。この作業では、外因性（ベースライン、ピッチ、および並進）、内因性（焦点距離）を

3D

representation

arXiv reaDer

synthesis

reconstruction

dataset

estimation

arXiv

autonomous driving

multi-task
リンク
4-D ライトフィールドからのオクルージョンを意識した教師なし深度の学習
arxiv_reader 2022/01/25
深度の推定は、4 次元ライトフィールドの処理と分析における基本的な問題です。最近の教師あり学習ベースのライトフィールド深度推定方法は、従来の最適化ベースの方法の精度と効率を大幅に改善していますが、

occlusion

arXiv reaDer

unsupervised

depth prediction

synthesis

dataset

domain

estimation

arXiv

learning
リンク
マルチモーダルイメージングコンピュータ支援診断のための相互注意ベースのハイブリッド次元ネットワーク
arxiv_reader 2022/01/25
マルチモーダル3Dコンピューター支援診断に関する最近の研究は、3D畳み込みニューラルネットワーク（CNN）がより多くのパラメーターをもたらし、医用画像が不足している場合に競争力のある自動診断モデルを取

classification

3D

arXiv reaDer

convolutional

CNN

dataset

pre-training

arXiv

attention
リンク
教師なしドキュメントスタイルガイドによるクロスドメインドキュメントレイアウト分析
arxiv_reader 2022/01/25
ドキュメントレイアウト分析（DLA）は、ドキュメント画像を高レベルのセマンティック領域（つまり、図、表、テキスト、背景）に分解することを目的としています。ドキュメントオブジェクトはレイアウト、サイズ、

contrastive learning

arXiv reaDer

unsupervised

synthesis

arXiv
リンク
ウォームスタートを活用した胸部X線レポート生成の改善
Improving Chest X-Ray Report Generation by Leveraging Warm-Starting 患者の胸部X線（CXR）からレポートを自動的に生成することは、臨床的作業負荷を軽減し、患者のケアを改善するための有望なソリューションです。ただし、主にエンコーダーからデコーダーへのモデルである現在のCXRレポートジェネレーターは、臨床現場で展開するための診断精度に欠けています。 CXRレポートの生成を改善するために、最近のオープンソースコンピュータービジョンと、Vision Transf ormer（ViT）やPubMedBERTなどの自然言語処理チェックポイントを使用してエンコーダーとデコーダーをウォームスタートすることを調査します。この目的のために、各チェックポイントは、自然言語生成と臨床効果（CE）メトリックを使用して、MIMIC-CXRおよびIUX線
arxiv_reader 2022/01/25
患者の胸部X線（CXR）からレポートを自動的に生成することは、臨床的作業負荷を軽減し、患者のケアを改善するための有望なソリューションです。ただし、主にエンコーダーからデコーダーへのモデルである現在のC

transformer

arXiv reaDer

generative

computer vision

convolutional

metric

dataset

arXiv

pre-training
リンク
混合画像改ざん技術の詳細なローカリゼーション
arxiv_reader 2022/01/25
画像改ざんのメカニズムの増加につながる技術の進歩に伴い、不正検出方法は、その洗練度に合わせてアップグレードし続ける必要があります。現在の方法の問題の1つは、関心のある領域を特定するために画像から抽出す

classification

detection

arXiv reaDer

localization

R-CNN

arXiv

learning
リンク
コイル感度のないジョイントチャネル並列MRI再構成のための最適制御フレームワーク
arxiv_reader 2022/01/25
目標：この作業は、離散時間最適制御フレームワークを組み込んだ、新しいキャリブレーション不要の高速並列MRI（pMRI）再構成法の開発を目的としています。再構成モデルは、マルチコイル画像のチャネル間で共

arXiv reaDer

regularization

reconstruction

convolutional

MRI

dataset

domain

arXiv

learning
リンク
高速MRI再構成：トランスフォーマーはどれほど強力ですか？
arxiv_reader 2022/01/25
磁気共鳴画像法（MRI）は、臓器の構造と代謝の臨床的調査に広く使用されている非放射性および非侵襲性の方法であり、本質的に長いスキャン時間があります。スキャンプロセスを加速するために、k空間アンダーサン

transformer

arXiv reaDer

reconstruction

MRI

CNN

metric

GAN

arXiv

learning
リンク
予測されたIoUとアンカーIoUを組み合わせることによるオブジェクト検出のための動的ラベル割り当て
arxiv_reader 2022/01/25
ラベルの割り当ては、最新のオブジェクト検出モデルで重要な役割を果たします。検出モデルは、異なるラベル割り当て戦略でまったく異なるパフォーマンスをもたらす可能性があります。アンカーベースの検出モデルの場

classification

arXiv reaDer

detection

arXiv
リンク
MISeval：医療画像セグメンテーション評価用のメトリックライブラリ
arxiv_reader 2022/01/25
正確なパフォーマンス評価は、深層学習ベースの医療画像セグメンテーションモデルなどの医療における最新の人工知能アルゴリズムを評価するために重要です。ただし、Pythonには、標準化された再現可能な評価の

arXiv reaDer

python

metric

segmentation

arXiv
リンク
AttentionHTR：Attention Encoder-DecoderNetworksに基づく手書きテキスト認識
arxiv_reader 2022/01/25
この作品は、手書きの単語認識のための注意ベースのシーケンス間モデルを提案し、HTRシステムのデータ効率の高いトレーニングのための転移学習を探求します。トレーニングデータの不足を克服するために、この作業

arXiv reaDer

pre-training

transfer learning

dataset

seq2seq

arXiv

attention
リンク
Stganographyとビジュアル暗号化による患者のプライバシー保護に関する調査
arxiv_reader 2022/01/25
この調査では、患者のプライバシーを保護するために、ステガノグラフィと視覚的暗号化手法の30のモデルについて説明しました。

arXiv reaDer

arXiv
リンク
TransMorph：教師なし医療画像レジストレーション用のトランスフォーマー
arxiv_reader 2022/01/25
過去10年間、畳み込みニューラルネットワーク（ConvNets）は、医療画像分析の研究の主要な焦点でした。ただし、ConvNetのパフォーマンスは、画像内の長距離の空間的関係を明確に考慮していないため

transformer

Bayesian

3D

arXiv reaDer

unsupervised

MRI

CNN

arXiv
リンク
連合学習に関する包括的な調査：概念と応用
arxiv_reader 2022/01/25
このホワイトペーパーでは、コンポーネント、課題、アプリケーション、およびFL環境に重点を置いて、連合学習（FL）の包括的な研究を提供します。 FLは、実際のモデルの複数のフィールドとドメインに適用でき

arXiv reaDer

domain

arXiv

learning
リンク
vCLIMB：新しいビデオクラスのインクリメンタルラーニングベンチマーク
arxiv_reader 2022/01/25
継続学習（CL）は、ビデオドメインでは十分に検討されていません。いくつかの既存の作品には、タスク全体でクラス分布が不均衡な分割が含まれているか、不適切なデータセットで問題を調査しています。新しいビデオ

video

arXiv reaDer

regularization

dataset

benchmark

domain

arXiv

learning
リンク
ReconFormer：RecurrentTransformerを使用した加速MRI再構成
ReconFormer: Accelerated MRI Reconstruction Using Recurrent Transf ormer 加速磁気共鳴画像（MRI）再構成プロセスは、k空間での過度のアンダーサンプリング操作のために、困難な不適切な逆問題です。本論文では、高度にアンダーサンプリングされたk空間データから高出生性磁気共鳴画像を繰り返し再構成できるMRI再構成のための反復変圧器モデル、すなわちReconFormerを提案する。特に、提案されたアーキテクチャは、Recurrent Pyramid Transf ormer Layers（RPTL）に基づいて構築されています。これは、すべてのアーキテクチャユニットで固有のマルチスケール情報と、反復状態を介した深い特徴相関の依存関係を共同で活用します。さらに、提案されたReconFormerは、パラメータ効率のために反復構造を採用し
arxiv_reader 2022/01/25
加速磁気共鳴画像（MRI）再構成プロセスは、k空間での過度のアンダーサンプリング操作のために、困難な不適切な逆問題です。本論文では、高度にアンダーサンプリングされたk空間データから高出生性磁気共鳴画像

transformer

recurrent

arXiv reaDer

reconstruction

MRI

dataset

arXiv
リンク
シングルビュー画像からの教師なし重度変形メッシュ再構成（DMR）
arxiv_reader 2022/01/25
マルチビュー画像またはビデオからの剛体の3D再構成の教師あり学習で多くの進歩が見られました。ただし、教師なしの方法でシングルビューRGB画像からひどく変形したオブジェクトを再構成することはより困難です

video

3D

arXiv reaDer

unsupervised

mesh

reconstruction

dataset

arXiv

learning
リンク
Sketch2PQ：単一のスケッチによるフリーフォーム平面四辺形メッシュ設計
arxiv_reader 2022/01/25
自由形式の建築モデリングプロセスには、コンセプトデザインとデジタルモデリングという2つの重要な段階が含まれることがよくあります。最初の段階では、建築家は通常、全体的な3D形状とパネルレイアウトを物理的

real time

3D

arXiv reaDer

mesh

synthesis

dataset

arXiv
リンク
POTHER：COVID-19検出のためのパッチ投票による深層学習ベースの胸部X線バイアス分析
arxiv_reader 2022/01/25
人々の生活に壊滅的な影響を及ぼし続けているCOVID-19との闘いにおける重要なステップは、重度のCOVID-19症状のある診療所にいる患者の効果的なスクリーニングです。胸部X線撮影は有望なスクリーニ

classification

detection

arXiv reaDer

bias

explainable

pre-training

COVID-19

arXiv

learning

attention
リンク
トランスベースのSAR画像スペックル除去
arxiv_reader 2022/01/25
合成開口レーダー（SAR）画像は通常、スペックルと呼ばれる乗法性ノイズによって劣化し、SAR画像の処理と解釈が困難になります。この論文では、SAR画像のスペックル除去のためのトランスベースのネットワー

arXiv reaDer

interpretation

synthesis

CNN

loss function

arXiv
リンク
3Dオブジェクト検出モデルと方法の調査と体系化
arxiv_reader 2022/01/25
このホワイトペーパーでは、入力データからデータ表現、特徴抽出、実際の検出モジュールまで、パイプライン全体をカバーする3Dオブジェクト検出の最近の開発に関する包括的な調査を提供します。基本的な概念を含め

detection

representation

3D

arXiv reaDer

arXiv
リンク
ImageNet-Oでの分布外検出
arxiv_reader 2022/01/25
アウトオブディストリビューション（OOD）検出は、機械学習システムを堅牢にするための重要な部分です。 ImageNet-Oデータセットは、さまざまなシステムやアプリケーションで広く使用されているIma

OOD

detection

arXiv reaDer

generative

dataset

arXiv

learning
リンク
通常のデバイスで1000倍高速なカメラとマシンビジョン
デジタルカメラでは、大きな制限があります。フィルムカメラから継承された画像とビデオの形式により、急速に変化するフォトニックの世界をキャプチャできなくなります。ここでは、光子の蓄積がしきい値に達したかどうかを各ビットが表すビットシーケンス配列であるvidarを提示し、いつでもシーンの放射輝度を記録および再構築します。民生用CMOSセンサーと集積回路のみを採用することで、従来のカメラの1,000倍の速さのバイダーカメラを開発しました。バイダーを生物学的視覚のスパイクトレインとして扱うことにより、機械の速度と生物学的視覚のメカニズムを組み合わせたスパイキングニューラルネットワークベースのマシンビジョンシステムをさらに開発し、人間の1,000倍の高速物体検出と追跡を実現しました。ヴィジョン。副審とターゲットポインティングシステムでのバイダーカメラとスーパービジョンシステムの有用性を示します。私たち
arxiv_reader 2022/01/25
デジタルカメラでは、大きな制限があります。フィルムカメラから継承された画像とビデオの形式により、急速に変化するフォトニックの世界をキャプチャできなくなります。ここでは、光子の蓄積がしきい値に達したかど

video

detection

arXiv reaDer

tracking

SNN

human

arXiv
リンク
ディープRGBTトラッキングの調査
RGBTトラッキングで短絡された可視（RGB）および熱赤外線（TIR）電磁波を使用した視覚オブジェクトトラッキングは、最近、トラッキングコミュニティでますます注目を集めています。深層学習の急速な発展を考慮して、最近の深層ニューラルネットワークベースのRGBTトラッカーの調査をこの論文で提示します。まず、このカテゴリに分類されるRGBTトラッカーについて簡単に紹介します。次に、いくつかの挑戦的なベンチマークでの既存のRGBTトラッカー間の比較が統計的に行われます。具体的には、MDNetアーキテクチャとシャムアーキテクチャは、RGBTコミュニティの2つの主流フレームワークであり、特に前者です。 MDNetに基づくトラッカーはより高いパフォーマンスを実現し、シャムベースのトラッカーはリアルタイムの要件を満たします。要約すると、大規模なデータセットLasHeRが公開されているため、リアルタイムでよ
arxiv_reader 2022/01/25
RGBTトラッキングで短絡された可視（RGB）および熱赤外線（TIR）電磁波を使用した視覚オブジェクトトラッキングは、最近、トラッキングコミュニティでますます注目を集めています。深層学習の急速な発展を

real time

transformer

arXiv reaDer

tracking

dataset

benchmark

arXiv

learning

attention
リンク
クイックシフト画像セグメンテーションのハイパーパラメータをスケーリングする方法
arxiv_reader 2022/01/25
クイックシフトは、画像セグメンテーションの一般的なアルゴリズムであり、多くのアプリケーションで前処理ステップとして使用されます。残念ながら、この方法で生成されるスーパーピクセルの数と形状に対するハイパ

arXiv reaDer

segmentation

arXiv
リンク
ウェーブレット-画像分類のためのCNNに注意
畳み込みニューラルネットワーク（CNN）に基づく特徴学習手法は、画像分類タスクで大きな成果を上げることに成功しています。ただし、固有のノイズおよびその他のいくつかの要因により、畳み込み特徴統計の有効性が弱まる可能性があります。この論文では、周波数領域で離散ウェーブレット変換（DWT）を調査し、高周波領域でのみ注意を実装する新しいウェーブレット注意（WA）ブロックを設計します。これに基づいて、画像分類のためのウェーブレット注意畳み込みニューラルネットワーク（WA-CNN）を提案します。具体的には、WA-CNNは、特徴マップを低周波成分と高周波成分に分解して、基本オブジェクトの構造、詳細情報、ノイズをそれぞれ格納します。次に、WAブロックを利用して、さまざまな注意要因を使用して高周波ドメインの詳細情報をキャプチャしますが、低周波ドメインの基本的なオブジェクト構造を予約します。 CIFAR-10
arxiv_reader 2022/01/25
畳み込みニューラルネットワーク（CNN）に基づく特徴学習手法は、画像分類タスクで大きな成果を上げることに成功しています。ただし、固有のノイズおよびその他のいくつかの要因により、畳み込み特徴統計の有効性

classification

arXiv reaDer

CNN

dataset

benchmark

domain

arXiv

learning

attention
リンク
スペクトル、確率、および詳細なメトリック学習：チュートリアルと調査
arxiv_reader 2022/01/25
これは、計量学習に関するチュートリアルと調査論文です。アルゴリズムは、スペクトル学習、確率学習、および詳細なメトリック学習に分けられます。まず、距離計量、マハラノビス距離、および一般化されたマハラノビ

Bayesian

metric learning

adaptation

arXiv reaDer

few-shot

adversarial

reconstruction

loss function

arXiv
リンク
ロボット自律のためのナビゲーション指向のシーン理解：自己中心的画像における運転性のセグメント化の学習
arxiv_reader 2022/01/25
この作品は、車載カメラで撮影した画像のみに頼り、屋外ロボットナビゲーションのシーン理解に取り組んでいます。従来の視覚シーンの理解は、特定の記述カテゴリに基づいて環境を解釈します。ただし、そのような表現

representation

robot

arXiv reaDer

domain

dataset

segmentation

estimation

arXiv

learning
リンク
ビデオはグラフです：ビデオアクション認識のための構造化グラフモジュール
arxiv_reader 2022/01/25
アクション認識の分野では、ビデオクリップは常に後続の処理のために順序付けられたフレームとして扱われます。時空間知覚を実現するために、既存のアプローチでは、隣接する時間的相互作用を畳み込み層に埋め込むこ

video

arXiv reaDer

convolutional

dataset

benchmark

spatio-temporal

arXiv

action recognition
リンク
コンパクトな2次画像勾配方向による顔認識
Face recognition via compact second order image gradient orientations 画像勾配方向に基づく従来の部分空間学習アプローチは、一次勾配情報のみを使用します。ただし、人間の視覚システム（HVS）に関する最近の研究では、神経画像が風景または表面であり、その幾何学的特性を2次勾配情報で取得できることが明らかになっています。 2次画像勾配方向（SOIGO）は、顔画像のノイズの悪影響を軽減できます。 SOIGOの冗長性を減らすために、SOIGOに線形複素主成分分析（PCA）を適用することにより、コンパクトSOIGO（CSOIGO）を提案します。協調表現ベースの分類（CRC）アルゴリズムと組み合わせることで、CSOIGOの分類パフォーマンスがさらに向上します。 CSOIGOは、実際の変装、合成されたオクルージョン、および混合バリエーショ
arxiv_reader 2022/01/25
画像勾配方向に基づく従来の部分空間学習アプローチは、一次勾配情報のみを使用します。ただし、人間の視覚システム（HVS）に関する最近の研究では、神経画像が風景または表面であり、その幾何学的特性を2次勾配

classification

representation

occlusion

arXiv reaDer

face recognition

gradient

human

arXiv

learning
リンク
校正されたプルーフオブワークによるモデル抽出のコストの増加
arxiv_reader 2022/01/25
モデル抽出攻撃では、攻撃者は、パブリックAPIを介して公開された機械学習モデルを繰り返しクエリし、取得した予測に基づいて自分のモデルを調整することで、それを盗むことができます。モデルの盗難を防ぐために

arXiv reaDer

arXiv

learning
リンク
学習主導の非可逆画像圧縮;包括的な調査
arxiv_reader 2022/01/25
画像処理とコンピュータビジョン（CV）の分野では、機械学習（ML）アーキテクチャが広く適用されています。畳み込みニューラルネットワーク（CNN）は、さまざまな画像処理の問題を解決し、画像圧縮の問題を解

RNN

arXiv reaDer

compression

computer vision

CNN

domain

clustering

GAN

arXiv

learning
リンク
変化する環境におけるメモリ効率的で効果的な視覚的場所認識のためのバイナリニューラルネットワーク
arxiv_reader 2022/01/25
視覚場所認識（VPR）は、視覚データを使用する前に場所が訪問されたかどうかを判断するロボットの機能です。 VPRの従来の手作りの方法は、極端な環境の外観の変化の下では失敗しますが、畳み込みニューラルネ

drone

robot

arXiv reaDer

CNN

arXiv
リンク
デュアルメモリ再帰的自己組織化ネットワークを使用した生涯にわたる3Dオブジェクト認識と把握合成
arxiv_reader 2022/01/25
人間は、非定常的かつ連続的な条件下で以前に得られた知識を忘れることなく、生涯にわたる設定で新しいオブジェクトを認識して操作することを学びます。自律システムでは、エージェントは、新しいオブジェクトカテゴ

RNN

3D

representation

arXiv reaDer

synthesis

dataset

arXiv

learning
リンク
FN-Net：ノイズをフィルタリングして外れ値を削除します
arxiv_reader 2022/01/25
2つの画像間の対応を確立することは、コンピュータビジョンの重要な研究の方向性です。 2つの画像間の関係を推定する場合、外れ値によって乱されることがよくあります。本論文では、外れ値のノイズをフィルタリン

arXiv reaDer

pose estimation

computer vision

CNN

dataset

arXiv

denoising
リンク
アクティブな歩行者の安全のためのセンサーフュージョンドライバー支援システムの設計
arxiv_reader 2022/01/25
この論文では、カメラと1D光検出および物体検出用の測距（ライダー）センサーを組み合わせたセンサー融合検出システムの並列アーキテクチャを紹介します。このシステムには、オプティカルフローに基づく方法とLI

detection

pedestrian

arXiv reaDer

LiDAR

optical flow

spatio-temporal

vehicle

arXiv
リンク
マルチモーダルRGB-Dビデオでのビジュアルオブジェクトトラッキング：レビュー
arxiv_reader 2022/01/25
ビジュアルオブジェクトトラッキングの開発は、何十年も続いています。近年、低コストのRGBDセンサーが広く利用できるようになるにつれて、RGB-Dビデオでの視覚オブジェクト追跡のタスクが大きな注目を集め

video

arXiv reaDer

tracking

RGB-D

dataset

arXiv

attention
リンク
UAV-Viewジオローカリゼーションのためのトランスベースの機能セグメンテーションとリージョンアラインメント方法
arxiv_reader 2022/01/25
クロスビュージオローカリゼーションは、無人航空機（UAV）や衛星などの異なるビューからの同じ地理的画像を照合するタスクです。最も難しい課題は、位置のシフトと距離とスケールの不確実性です。既存の方法は、

drone

representation

arXiv reaDer

UAV

satellite

localization

segmentation

arXiv
リンク
階層的分解を介してCNNを深く説明する
arxiv_reader 2022/01/25
コンピュータビジョンでは、CNNを説明するためのいくつかの帰属方法は、中間機能がネットワーク予測にどのように影響するかを研究しようとします。ただし、通常、中間機能間の機能階層は無視されます。このホワイ

computer vision

arXiv reaDer

arXiv

CNN
リンク
拒否環境におけるビジョンベースのUAVローカリゼーションシステム
無人航空機（UAV）のローカリゼーション機能は、グローバルナビゲーション衛星システム（GNSS）の拒否環境で重要です。このホワイトペーパーの目的は、純粋に視覚的なアプローチでUAV自体の位置を特定する問題を調査することです。このタスクは主に、UAVがGNSS信号を取得しないときにカメラによって取得された画像を介して、対応する地理タグ付き衛星画像を照合することを指します。衛星画像は、UAV画像と位置情報の間のブリッジです。ただし、UAVに基づく以前のクロスビューデータセットのサンプリングポイントは、空間分布が離散的であり、クラス間の関係は確立されていません。 UAVのローカリゼーションの実際のプロセスでは、空間内でのUAVの動きが連続しているため、近接位置分布のクラス間機能の類似性は小さいはずです。これを考慮して、本論文では、実際のアプリケーションシナリオで空間距離とスケール変換によって引き
arxiv_reader 2022/01/25
無人航空機（UAV）のローカリゼーション機能は、グローバルナビゲーション衛星システム（GNSS）の拒否環境で重要です。このホワイトペーパーの目的は、純粋に視覚的なアプローチでUAV自体の位置を特定する

metric learning

arXiv reaDer

UAV

satellite

bias

dataset

localization

arXiv
リンク
半教師あり継続学習の勾配を予測するための学習
arxiv_reader 2022/01/25
機械知能の重要な課題は、以前に習得した知識を忘れることなく、新しい視覚的概念を学ぶことです。継続的な学習は、この課題に取り組むことを目的としています。ただし、既存の教師あり継続学習と人間のようなインテ

classification

arXiv reaDer

adversarial

semi-supervised

gradient

human

arXiv

learning
リンク
教師あり学習の残りを最小化することを学ぶ
arxiv_reader 2022/01/25
深層学習法の学習プロセスは、通常、モデルのパラメーターを複数の反復で更新します。各反復は、テイラー級数展開の1次近似と見なすことができます。高次の項で構成される残りの部分は、簡単にするために、通常、学

classification

video

detection

arXiv reaDer

approximation

gradient

arXiv

learning
リンク
MERANet：3D残余注意ネットワークを使用した顔のマイクロエクスプレッション認識
arxiv_reader 2022/01/25
マイクロエクスプレッションは、感情検出におけるその高い客観性により、感情コンピューティングにおける有望なモダリティとして浮上しています。深層学習モデルによって提供されるより高い認識精度にもかかわらず、

classification

detection

3D

arXiv reaDer

benchmark

dataset

residual

spatio-temporal

arXiv

attention
リンク
DyStyle：マルチ属性条件付きスタイル編集のための動的ニューラルネットワーク
arxiv_reader 2022/01/25
StyleGANのセマンティックな可制御性は、絶え間ない研究によって強化されています。既存の弱い監視方法は、1つの属性に沿ってスタイルコードを操作するのにうまく機能しますが、複数の属性を操作する精度は

contrastive learning

arXiv reaDer

generative

disentangling

arXiv
リンク
ARCH ++：アニメーション対応の服を着た人間の再構築の再考
arxiv_reader 2022/01/25
任意の服のスタイルで3Dアバターを再構築するための画像ベースの方法であるARCH ++を紹介します。再構築されたアバターは、入力ビューからの表示領域と非表示領域の両方で、アニメーションに対応し、非常に

3D

arXiv reaDer

pose

reconstruction

benchmark

human

arXiv
リンク
顔検索を改善するための平均バイアスReLUベースのCNN記述子
arxiv_reader 2022/01/25
AlexNet、GoogleNet、VGGNetなどを含む畳み込みニューラルネットワーク（CNN）は、非常に識別力のある多くのコンピュータービジョン問題の特徴を抽出します。あるデータセットでトレーニン

representation

arXiv reaDer

computer vision

CNN

dataset

face

arXiv

pre-training
リンク
早期行動予測のための豊富な行動意味一貫性知識
arxiv_reader 2022/01/25
初期のアクション予測は、アクション実行の一部からのみ人間のアクションを認識することを目的としています。これは、多くの実用的なアプリケーションにとって重要なビデオ分析タスクです。ほとんどの以前の作品は、

video

arXiv reaDer

distillation

action

benchmark

human

arXiv

learning
リンク
テキストからビデオへの検索のための読書戦略に触発された視覚表現学習
arxiv_reader 2022/01/25
この論文は、テキストからビデオへの検索のタスクを目的としています。自然言語の文の形式でクエリが与えられると、ラベルのない多数のビデオから、与えられたクエリに意味的に関連するビデオを検索するように求めら

video

arXiv reaDer

dataset

representation learning

arXiv

pre-training
リンク
敵対的にロバストなディープニューラルネットワークのアーキテクチャ要素の調査
arxiv_reader 2022/01/25
ディープニューラルネットワーク（DNN）は、敵対的な攻撃に対して脆弱であることが知られています。敵対的に頑強なDNNを訓練するために、さまざまな防御方法が提案されており、その中で敵対的な訓練は有望な結

arXiv reaDer

DNN

adversarial

arXiv
リンク
隠されたデザインのアートワークのための混合X線画像分離
arxiv_reader 2022/01/25
この論文では、表面の絵画と隠された絵画の両方からの貢献を含む、表面下のデザインが隠された絵画のX線画像に焦点を当てます（たとえば、絵画サポートの再利用またはアーティストによる構成の改訂から派生）特徴。

arXiv reaDer

self-supervised

synthesis

arXiv

learning
リンク
トランスフォーマーによるライトフィールド画像の超解像
arxiv_reader 2022/01/25
ライトフィールド（LF）画像の超解像（SR）は、低解像度の画像から高解像度のLF画像を再構成することを目的としています。 CNNベースの方法はLF画像SRで顕著なパフォーマンスを達成しましたが、これら

transformer

arXiv reaDer

super-resolution

dataset

arXiv
リンク
AC-CovidNet：胸部X線画像でCovid-19を認識するための注意誘導対照CNN
arxiv_reader 2022/01/25
Covid-19の世界的大流行は、世界中の医療システムを荒廃させ続けています。現在、Covid-19検査は費用と時間がかかります。胸部X線（CXR）検査は、高速でスケーラブルな非侵襲的な方法です。 C

detection

arXiv reaDer

contrastive

CNN

dataset

COVID-19

arXiv

attention
リンク
シーケンシャルフィーチャアソシエーションと深度ヒント拡張を使用した単眼3Dオブジェクト検出
arxiv_reader 2022/01/25
路上オブジェクトの幾何学的特性を予測することを目的とした単眼3Dオブジェクト検出は、自動運転のインテリジェント知覚システムの有望な研究トピックです。ほとんどの最先端の方法は、キーポイントベースのパラダ

monocular

recurrent

detection

3D

augmentation

arXiv reaDer

convolutional

benchmark

arXiv

autonomous driving
リンク
感情認識のための事前に訓練された視聴覚トランスフォーマー
arxiv_reader 2022/01/25
このホワイトペーパーでは、人間の行動を理解するために、VoxCeleb2データセットの4000人近くの有名人からの500k以上の発話でトレーニングされた事前トレーニング済みのオーディオビジュアルトラン

transformer

classification

arXiv reaDer

emotion

dataset

face

human

arXiv

pre-training
リンク
ODoSフィルターと形状の特徴に基づくCT画像の肺裂セグメンテーション
arxiv_reader 2022/01/25
肺の解剖学的構造に関する先験的な知識は、肺疾患の診断において重要な役割を果たします。 CT画像では、さまざまな要因により、肺裂のセグメンテーションは手ごわい使命です。課題に対処するために、ODoSフィ

CT

3D

arXiv reaDer

dataset

segmentation

arXiv
リンク
LSNet：リモートセンシング画像の変化を検出するための非常に軽量なシャムネットワーク
arxiv_reader 2022/01/25
シャムネットワークは、リモートセンシング画像（RSI）の変化検出の主流になりつつあります。ただし、近年、より複雑な構造、モジュール、およびトレーニングプロセスの開発により、モデルが煩雑になり、大規模な

detection

arXiv reaDer

convolutional

dataset

arXiv
リンク
ビデオキャプションとアプリケーションの統合アプローチ
物理コンピューティングインフラストラクチャ、データ収集、およびアルゴリズムは、最近、画像やビデオから情報を抽出するために大幅な進歩を遂げました。画像キャプションとビデオキャプションの成長は特に顕著です。ただし、ビデオキャプションの進歩のほとんどは、依然として短いビデオで行われています。この調査では、ビデオフレーム全体の小さなサブセットであるキーフレームのみを使用して、より長いビデオにキャプションを付けます。キーフレームの数に応じて、数千のフレームを処理する代わりに、数フレームのみが処理されます。多くのフレームの計算とキャプション処理の速度の間にはトレードオフがあります。この調査のアプローチは、ユーザーが実行時間と精度の間のトレードオフを指定できるようにすることです。さらに、画像、ビデオ、自然言語をリンクすることで、多くの実用的なメリットと即時の実用的なアプリケーションが提供されると私たちは
arxiv_reader 2022/01/25
物理コンピューティングインフラストラクチャ、データ収集、およびアルゴリズムは、最近、画像やビデオから情報を抽出するために大幅な進歩を遂げました。画像キャプションとビデオキャプションの成長は特に顕著です

video

arXiv reaDer

captioning

arXiv

learning
リンク
メタユニバースの作成における生成的敵対的ネットワークアプリケーション
arxiv_reader 2022/01/25
生成的敵対的ネットワーク（GAN）は、多くの重要で斬新なアプリケーションで使用される機械学習手法です。たとえば、画像科学では、GANは、画像データセット、人間の顔の写真、画像とビデオのキャプション、画

human

video

3D

arXiv reaDer

captioning

dataset

face

GAN

arXiv

learning
リンク
グラフニューラルネットワークを使用したマルチロボット協働知覚
arxiv_reader 2022/01/25
空中ロボットの群れなどのマルチロボットシステムは、エージェント間の連携を可能にすることにより、単一のロボットと比較して、いくつかのタスクで追加の柔軟性、回復力、および堅牢性を提供するのに自然に適してい

monocular

semantic segmentation

robot

occlusion

arXiv reaDer

GNN

estimation

arXiv
リンク
データ効率の高いトレーニングとCNNのバイアスの低減による赤外線画像の背景不変分類
arxiv_reader 2022/01/25
畳み込みニューラルネットワークは画像内のオブジェクトを非常に正確に分類できますが、ネットワークの注意が必ずしもシーンの意味的に重要な領域にあるとは限らないことはよく知られています。ネットワークは、関心

classification

arXiv reaDer

bias

CNN

human

arXiv

attention
リンク
セマンティックセグメンテーションのための分解された行と列のクエリによるデュアルフラット化トランスフォーマー
arxiv_reader 2022/01/25
セマンティックセグメンテーションなどの高密度予測タスクでは、長距離依存性のある高解像度の機能を取得することが重要です。サイズh×w（hw≪HW）の低解像度の特徴マップからサイズH×Wの高解像度出力を生

transformer

semantic segmentation

arXiv reaDer

pooling

dataset

arXiv
リンク
MIDAS：自然な眼球運動パターンからの深層学習による人間の行動意図予測
arxiv_reader 2022/01/25
眼球運動は、人間の脳の注意メカニズムへの窓として長い間研究されており、斬新なスタイルのヒューマンマシンインターフェースとしてアクセスできるようになっています。しかし、私たちが見つめているものすべてが、

classification

arXiv reaDer

gesture

gaze

action

CNN

LSTM

human

arXiv

learning
リンク
LiMoSeg：リアルタイムの鳥瞰図ベースのLiDARモーションセグメンテーション
arxiv_reader 2022/01/25
移動物体の検出とセグメンテーションは、自動運転パイプラインの重要なタスクです。車両周辺の静的および移動コンポーネントを検出して分離することは、経路計画および位置特定タスクで特に重要です。この論文は、光

real time

classification

detection

augmentation

arXiv reaDer

LiDAR

segmentation

arXiv

autonomous driving
リンク
視聴覚キューを使用した自殺評価のための人工知能: レビュー
arxiv_reader 2022/01/25
自殺による死は、世界の主要な死因の7番目です。人工知能（AI）、特に画像と音声の処理におけるAIアプリケーションの最近の進歩は、自殺リスク評価に革命を起こす有望な機会を生み出しました。その後、精神疾患

arXiv reaDer

detection

arXiv
リンク
適応された人間のポーズ：ゼロの実際の3Dポーズデータを使用した単眼3D人間のポーズ推定
arxiv_reader 2022/01/25
推論モデルの最終的な目標は、実際のアプリケーションで堅牢で機能することです。ただし、トレーニングとテストデータドメインのギャップは、モデルのパフォーマンスに悪影響を与えることがよくあります。この問題は

monocular

3D

adaptation

arXiv reaDer

pose estimation

synthesis

dataset

domain

arXiv

human pose estimation
リンク
低データレジームでの画像分類のための補助分類器GANの可能性の調査
arxiv_reader 2022/01/25
生成的敵対的ネットワーク（GAN）は、データセットを拡張し、画像分類タスクで畳み込みニューラルネットワーク（CNN）のパフォーマンスを向上させる可能性を示しています。ただし、CNNの補足をトレーニング

classification

arXiv reaDer

synthesis

CNN

dataset

gradient

GAN

arXiv
リンク
顔のロバストな対になっていない単一画像の超解像
顔のクラス固有の単一画像超解像（SISR）メソッドの敵対的攻撃を提案します。 Fast Gradient Sign Method（FGSM）やProjected Gradient Descent（PGD）法などの既存の攻撃は、これらのネットワークでは高速ですが効果がないか、効果的ですが非常に低速です。このようなネットワークのトレーニングに使用されるMSE損失がさまざまな劣化の下でトレースされる表面を綿密に検査することにより、そのパラメーター化可能な特性を特定することができました。このプロパティを活用して、複数の勾配上昇ステップ（高速）を必要とせずに最適な劣化（効果的）を見つけることができる敵対的攻撃を提案します。私たちの実験は、提案された方法が、対になっていない顔面およびクラス固有のSISRのタスクに対して、FGSMやPGDなどの最先端の敵対的攻撃よりも優れた速度と有効性のトレードオフを達
arxiv_reader 2022/01/25
顔のクラス固有の単一画像超解像（SISR）メソッドの敵対的攻撃を提案します。 Fast Gradient Sign Method（FGSM）やProjected Gradient Descent（PG

arXiv reaDer

super-resolution

adversarial

face

gradient

arXiv
リンク
医用画像のマージンを意識したクラス内ノベルティ識別
arxiv_reader 2022/01/25
従来の異常検出方法はクラス間の変動の検出に焦点を合わせていますが、医用画像の新規性の識別は本質的にクラス内の検出の問題です。たとえば、正常な胸部X線と一般的な肺の異常でトレーニングされた機械学習モデル

OOD

anomaly detection

arXiv reaDer

identification

pose

embedding

dataset

arXiv

learning

pre-training
リンク
フェイスマスク閉塞下での閉塞不変顔認識に関する包括的研究
arxiv_reader 2022/01/25
フェイスマスクは、パンデミックの時期に成長する日常生活に欠かせない衛生器具であり、現在の顔認識システムにとって大きな脅威です。マスクは顔の広い範囲の細部を破壊し、人間でも認識しにくくします。評価レポー

occlusion

arXiv reaDer

face recognition

pose

arXiv

learning
リンク
Alpha-IoU：バウンディングボックス回帰のためのユニオン損失をめぐる権力交差のファミリー
arxiv_reader 2022/01/25
バウンディングボックス（bbox）回帰は、コンピュータービジョンの基本的なタスクです。これまでのところ、bbox回帰で最も一般的に使用される損失関数は、Intersection over Union（

detection

arXiv reaDer

regularization

computer vision

dataset

benchmark

loss function

arXiv
リンク
射影された劣勾配法の暗黙のバイアスは、未知の余次元の部分空間の証明可能なロバストな回復を与えます
arxiv_reader 2022/01/25
ロバスト部分空間回復（RSR）は、ロバスト表現学習の基本的な問題です。ここでは、部分空間の直交補空間の基底を回復することを目的とし、相対次元の高い部分空間の処理に適した、二重主成分追跡（DPCP）アプ

arXiv reaDer

bias

regularization

representation learning

arXiv
リンク
LTC-GIF：長編スポーツ動画のクリック数を増やす
arxiv_reader 2022/01/25
このホワイトペーパーでは、静的なサムネイルやアニメーションGIFなど、パーソナライズされた芸術的なメディアを提示することで、ユーザーを引き付け、動画の視聴回数を増やすための軽量な方法を提案します。この

arXiv reaDer

video

arXiv
リンク
大規模なカラー画像およびビデオの修復のための非局所的でロバストなクォータニオン行列補完
arxiv_reader 2022/01/25
以前の画像非局所自己相似性（NSS）は、局所パッチが画像全体に多くの非局所類似パッチを持っていることが多く、画像処理のために最近提案された多くの機械加工学習アルゴリズムに広く適用されているという事実を

video

representation

arXiv reaDer

approximation

arXiv

learning
リンク
表現を探る：補助分類器生成的敵対的ネットワークを使用した顔の表情の生成
arxiv_reader 2022/01/25
顔の表情は、意味のある情報の転送のために人間がシームレスに実行する非言語コミュニケーションの形式です。ほとんどの文献は顔の表情の認識の側面を扱っていますが、生成モデルの出現により、一連の表情の単なる分

classification

arXiv reaDer

face

GAN

arXiv
リンク
LTC-SUM：2DCNNを使用した軽量のクライアント駆動型パーソナライズされたビデオ要約フレームワーク
arxiv_reader 2022/01/25
この論文は、フル機能の長さのビデオのための新しい軽量サムネイルコンテナベースの要約（LTC-SUM）フレームワークを提案します。このフレームワークは、エンドユーザーデバイスの計算リソースを使用して、同

arXiv reaDer

video

arXiv

CNN
リンク
Phase-SLAM：モバイル構造化光照明システムのフェーズベースの同時ローカリゼーションとマッピング
arxiv_reader 2022/01/25
構造化光照明（SLI）システムは、位相三角測量による信頼性の高い屋内高密度3Dスキャンに使用されています。ただし、360度の3D再構築用のモバイルSLIシステムでは、3D点群の登録が必要であり、計算が

detection

3D

point cloud

simulation

arXiv reaDer

pose estimation

odometry

reconstruction

localization

arXiv
リンク
ノイズドメインシフト下でのロバスト性と不確実性キャリブレーションのための多様なガウスノイズ整合性正則化
arxiv_reader 2022/01/25
ディープニューラルネットワークは、トレインとテストの分布が一致する場合に高い予測精度を実現します。ただし、実際には、この設定から逸脱してパフォーマンスが大幅に低下するさまざまなタイプの破損が発生します

classification

augmentation

arXiv reaDer

regularization

adversarial

benchmark

domain

arXiv
リンク
マルチモーダルテキスト認識ネットワーク：視覚的機能と意味的機能の間のインタラクティブな拡張
arxiv_reader 2022/01/25
言語知識は、文字シーケンスを洗練するためのセマンティクスを提供することにより、シーンのテキスト認識に大きなメリットをもたらしました。ただし、言語知識は出力シーケンスに個別に適用されているため、以前の方

benchmark

arXiv reaDer

arXiv
リンク
堅牢な糖尿病性網膜症分類のための不確実性を意識した深層学習法
arxiv_reader 2022/01/25
網膜画像からの糖尿病性網膜症の自動分類は、深いニューラルネットワークを使用して広く研究されており、印象的な結果が得られています。ただし、分類の不確実性を推定する臨床的必要性があります。これは、現代のニ

classification

Bayesian

arXiv reaDer

dataset

benchmark

estimation

arXiv

learning
リンク
組織病理学的画像におけるセマンティック間ドメインの敵対
arxiv_reader 2022/01/25
コンピュータビジョンでは、データシフトが安全で堅牢な深層学習アプリケーションの主要な障壁であることが証明されています。医療アプリケーションでは、組織病理学的画像はデータシフトに関連していることが多く、

arXiv reaDer

adversarial

computer vision

dataset

domain

arXiv

learning
リンク
ビュー合成のためのコンテンツ認識ワーピング
arxiv_reader 2022/01/25
既存の画像ベースのレンダリング方法は、通常、深度ベースの画像ワーピング操作を採用して、新しいビューを合成します。この論文では、従来のワーピング操作の本質的な制限は、限定された近傍であり、距離ベースの補

occlusion

arXiv reaDer

synthesis

dataset

arXiv
リンク
https://arxiv-check-250201.firebaseapp.com/each/2112.02814v4
arxiv_reader 2022/01/25
オブジェクト検出は、深いニューラルネットワークと大量の注釈付きデータによって大きな進歩を遂げました。ただし、現在の検出方法は、深刻な過剰適合の問題のために注釈付きデータが不足しているシナリオに直接転送

classification

zero-shot

detection

arXiv reaDer

few-shot

semi-supervised

one-shot

localization

weakly-supervised

arXiv
リンク
低照度画像強調のための線形アレイネットワーク
arxiv_reader 2022/01/25
畳み込みニューラルネットワーク（CNN）ベースの方法は、その卓越したパフォーマンスにより、低照度の画像強調タスクを支配してきました。ただし、畳み込み演算はローカルスライディングウィンドウメカニズムに基

arXiv reaDer

computer vision

convolutional

CNN

arXiv
リンク
合成データによる群集カウントの強化と分析
arxiv_reader 2022/01/25
この記事では、大規模で正確なラベリング、パラメーター化された実現、および高い忠実度を備えた、シミュレートされた群集カウントデータセットCrowdXを提案します。このデータセットをデータ拡張として使用し

arXiv reaDer

synthesis

dataset

benchmark

human

arXiv

pre-training
リンク
BBA-net：群衆を数えるための二支店アテンションネットワーク
arxiv_reader 2022/01/25
群集カウントの分野では、現在の主流のCNNベースの回帰手法は、各人の位置を見つけることなく、歩行者の密度情報を抽出するだけです。これにより、ネットワークの出力に誤った応答が含まれていることがよくありま

person

pedestrian

adaptation

arXiv reaDer

interpretation

dataset

arXiv

attention
リンク
逆手続きファサードモデリングのための洗練された窓構造の半教師あり敵対的認識
arxiv_reader 2022/01/25
深層学習の方法はデータを大量に消費することで有名であり、多数のラベル付きサンプルが必要です。残念ながら、大量のインタラクティブなサンプルラベリングの取り組みにより、特に異種サンプルを必要とする3Dモデ

classification

3D

arXiv reaDer

semi-supervised

CNN

dataset

GAN

estimation

arXiv

learning
リンク
Parallel Rectangle Flip Attack：オブジェクト検出に対するクエリベースのブラックボックス攻撃
arxiv_reader 2022/01/25
物体検出は、自動運転などの多くのセーフティクリティカルなタスクで広く使用されています。ただし、特にブラックボックス攻撃の実際のシナリオでは、攻撃者が予測された境界ボックスのクエリフィードバックと、攻撃

classification

detection

arXiv reaDer

adversarial

anchor free

arXiv

autonomous driving
リンク
メタデータを使用したビデオファイルのフォレンジック分析
arxiv_reader 2022/01/25
ビデオコンテンツを操作する前例のない容易さと能力は、操作されたメディアの急速な普及につながりました。近年、ビデオ編集ツールの利用可能性が大幅に向上し、フォトリアリスティックな変更を簡単に生成できるよう

classification

video

representation

arXiv reaDer

arXiv
リンク
定量的位相イメージングのための回折全光コンピューティング
arxiv_reader 2022/01/25
定量的位相イメージング（QPI）は、標本の光路長情報を提供するラベルフリーの計算イメージング技術です。最新の実装では、オブジェクトの定量的位相画像は、多くの場合反復アルゴリズムを使用して、コンピュータ

arXiv reaDer

arXiv

learning
リンク
Text2Video：パーソナライズされた音素ポーズ辞書を使用したテキスト駆動型トーキングヘッドビデオシンセサイザー
arxiv_reader 2022/01/25
ディープラーニングテクノロジーの進歩に伴い、オーディオまたはテキストからの自動ビデオ生成は、新たな有望な研究トピックになっています。この論文では、テキストからビデオを合成するための新しいアプローチを紹

video

arXiv reaDer

pose

synthesis

dataset

face

benchmark

GAN

arXiv

learning
リンク
2D / 3Dデータに基づくオブジェクトの分類と検出の調査
arxiv_reader 2022/01/25
最近、ディープニューラルネットワークベースのアルゴリズムを使用することにより、オブジェクトの分類、検出、およびセマンティックセグメンテーションソリューションが大幅に改善されています。ただし、2D画像ベ

classification

detection

semantic segmentation

3D

point cloud

arXiv reaDer

RGB-D

arXiv

autonomous driving

sparse
リンク
画像セット分類への応用を伴うSPD行列の協調表現
arxiv_reader 2022/01/25
協調表現ベースの分類（CRC）は、その閉じた形式の分析ソリューションにより、過去数年間で目覚ましい進歩を示しました。ただし、既存のCRCメソッドでは、非線形変分情報を直接処理することはできません。最近

classification

representation

arXiv reaDer

manifold

computer vision

dataset

arXiv
リンク
ディープネットワークによる対称性の認識：フィードフォワードアーキテクチャの不十分さと反復接続による改善
arxiv_reader 2022/01/25
対称性は、自然界に遍在し、多くの種の視覚系によって認識されます。これは、環境内の生態学的に重要なクラスのオブジェクトの検出を容易にするためです。対称性の知覚は、画像領域間の長距離の空間依存性の抽象化を

recurrent

DNN

arXiv reaDer

convolutional

human

arXiv

learning
リンク
デュアルエネルギーCTにおける高品質の画像領域材料分解のための改良された反復ニューラルネットワーク
arxiv_reader 2022/01/25
デュアルエネルギーコンピュータ断層撮影（DECT）は、材料の分解を必要とする多くのアプリケーションで広く使用されています。画像領域法は、高エネルギーおよび低エネルギーの減衰画像から材料画像を直接分解す

CT

arXiv reaDer

reconstruction

CNN

arXiv
リンク
CM-Net：同心マスクベースの任意の形状のテキスト検出
arxiv_reader 2022/01/25
最近、任意の形の高速テキスト検出が魅力的な研究トピックになっています。ただし、ほとんどの既存の方法は非リアルタイムであり、インテリジェントシステムでは不十分な場合があります。いくつかのリアルタイムテキ

real time

detection

representation

arXiv reaDer

dataset

arXiv
リンク
類似性を意識した機能拡張を備えた数ショットのオブジェクトカウント
arxiv_reader 2022/01/25
数ショットカウントは、同じクラスの少数のエグザンプラのみが与えられた場合に、画像内の任意のクラスのオブジェクトをカウントすることを目的としています。既存の相関ベースの数ショットカウントアプローチは、相

arXiv reaDer

few-shot

distillation

benchmark

arXiv
リンク
大規模なシーンのSAR画像での強化されたオブジェクト検出のための効率的な表現の学習
arxiv_reader 2022/01/25
複雑な大規模なシーンの合成開口レーダー（SAR）画像でターゲットを検出し、認識することは困難な問題です。最近開発された深層学習アルゴリズムは、SAR画像の固有の機能を自動的に学習できますが、データが限

detection

YOLO

representation

augmentation

arXiv reaDer

synthesis

adversarial

dataset

arXiv

learning
リンク
モダリティバンク：医療データを共有せずに、データセンター全体でマルチモダリティ画像を学習する
arxiv_reader 2022/01/25
マルチモダリティ画像は広く使用されており、医療画像分析のための包括的な情報を提供します。ただし、すべての機関間ですべてのモダリティを取得することはコストがかかり、臨床現場では不可能なことがよくあります

arXiv reaDer

arXiv

learning
リンク
グラフベースの知識補足ネットワークを介した合成開口レーダー画像からの変化検出
Change Detection from Synthetic Aperture Radar Images via Graph-Based Knowledge Supplement Network 合成開口レーダー（SAR）の画像変化の検出は、リモートセンシング画像分析の分野で重要でありながら困難な作業です。以前のほとんどの作品は、疑似ラベル付きサンプルを使用して後続のトレーニングとテストをガイドする自己監視方式を採用しています。ただし、ディープネットワークでは通常、パラメータの最適化のために多くの高品質のサンプルが必要です。疑似ラベルのノイズは、必然的に最終的な変化検出のパフォーマンスに影響を与えます。この問題を解決するために、グラフベースの知識補足ネットワーク（GKSNet）を提案します。具体的には、既存のラベル付きデータセットから識別情報を追加知識として抽出し、ノイズの多いサンプルの
arxiv_reader 2022/01/25
合成開口レーダー（SAR）の画像変化の検出は、リモートセンシング画像分析の分野で重要でありながら困難な作業です。以前のほとんどの作品は、疑似ラベル付きサンプルを使用して後続のトレーニングとテストをガイ

detection

arXiv reaDer

self-supervised

synthesis

dataset

arXiv
リンク
FedMed-GAN：フェデレーションマルチモーダル教師なし脳画像合成
FedMed-GAN: Federated Multi-Modal Unsupervised Brain Image Synthesis ペアのマルチモーダルニューロイメージングデータを利用することは、人間の認知活動と特定の病状を調査するのに効果的であることが証明されています。ただし、コレクションはいくつかの制約に直面しているため、ペアのニューロイメージングデータの完全なセットを一元的に取得することは実用的ではありません。たとえば、高い検査コスト、長い取得時間、さらには画像の破損などです。さらに、ペアになっているニューロイメージングデータのほとんどは異なる医療機関に分散しており、プライバシーの問題を考慮して集中トレーニングのためにグループ化することはできません。このような状況では、連合学習を開始し、さまざまな病院やデータ所有者からの他の対になっていないデータの統合を促進する必要があることは
arxiv_reader 2022/01/25
ペアのマルチモーダルニューロイメージングデータを利用することは、人間の認知活動と特定の病状を調査するのに効果的であることが証明されています。ただし、コレクションはいくつかの制約に直面しているため、ペア

human

arXiv reaDer

generative

unsupervised

activity

synthesis

face

benchmark

GAN

arXiv
リンク
低ラベル高データレジームのための自己監視注意による視覚表現学習
arxiv_reader 2022/01/25
自己監視は、自然言語処理、そして最近では画像認識で優れた結果を示しています。同時に、ビジョントランスフォーマーとそのバリアントは、さまざまなコンピュータービジョンタスクの畳み込みに代わる有望でスケーラ

transformer

zero-shot

metric learning

arXiv reaDer

few-shot

computer vision

convolutional

representation learning

arXiv

attention
リンク
アダプティブRGBTトラッキングの時間的集約
arxiv_reader 2022/01/25
RGBTトラッキングで短縮されたRGBおよび熱赤外線（TIR）スペクトルを使用した視覚オブジェクトトラッキングは、今日ますます注目を集めている斬新で挑戦的な研究トピックです。本論文では、ロバストな外観

classification

arXiv reaDer

tracking

dataset

residual

spatio-temporal

arXiv

learning

attention
リンク
DCNGAN：圧縮ビデオの知覚品質向上のためのQP適応を備えた変形可能な畳み込みベースのGAN
arxiv_reader 2022/01/25
本論文では、圧縮ビデオの知覚品質向上のための変形可能な畳み込みベースの生成的敵対的ネットワーク（DCNGAN）を提案します。 DCNGANは、量子化パラメーター（QP）にも適応します。オプティカルフロ

video

adaptation

arXiv reaDer

convolutional

optical flow

GAN

arXiv

quantization
リンク
ハイパースペクトル画像分類のための適応型DropBlock強化生成的敵対的ネットワーク
arxiv_reader 2022/01/25
近年、生成的敵対的ネットワーク（GAN）に基づくハイパースペクトル画像（HSI）分類が大きな進歩を遂げました。 GANベースの分類方法は、限られたトレーニングサンプルのジレンマをある程度軽減することが

classification

arXiv reaDer

regularization

dataset

GAN

arXiv
リンク
マルチスケールカプセルネットワークに基づくSAR画像変化検出
arxiv_reader 2022/01/25
畳み込みニューラルネットワーク（CNN）に基づく従来の合成開口レーダー画像変化検出方法は、スペックルノイズと変形感度の課題に直面しています。これらの問題を軽減するために、変更されたピクセルと変更されて

detection

arXiv reaDer

synthesis

CNN

dataset

face

arXiv
リンク
身体化されたビジョンのコアチャレンジ-言語計画
arxiv_reader 2022/01/25
マルチモーダル機械学習と人工知能（AI）の分野における最近の進歩により、コンピュータービジョン、自然言語処理、および具体化されたAIの交差点で困難なタスクが開発されています。多くのアプローチと以前の調

arXiv reaDer

computer vision

dataset

metric

arXiv

learning
リンク
暗黙のハイパーグラディエントを介したバックドアの敵対的非学習
arxiv_reader 2022/01/25
クリーンなデータの小さなセットに基づいて、特定の被毒モデルからバックドアを削除するためのミニマックス定式化を提案します。この定式化には、バックドアの削除に関する以前の作業の多くが含まれています。ミニマ

arXiv reaDer

adversarial

arXiv

dataset
リンク
少数ショット学習における最大二部マッチングとのタスク親和性
arxiv_reader 2022/01/25
あるタスクの知識を別のタスクの学習に利用することの複雑さを表すために、非対称アフィニティスコアを提案します。私たちの方法は、最大2部マッチングアルゴリズムに基づいており、フィッシャー情報量行列を利用し

classification

arXiv reaDer

few-shot

affinity

dataset

benchmark

arXiv

learning
リンク
相互識別知識伝達による画像からビデオへの再識別
arxiv_reader 2022/01/25
画像とビデオの間の表現のギャップは、画像からビデオへの再識別（I2V Re-ID）を困難にし、最近の研究では、この問題を知識蒸留（KD）プロセスとして定式化しています。本論文では、ビデオベースのより豊

video

representation

arXiv reaDer

re-id

benchmark

arXiv

learning

knowledge distillation
リンク
パラメトリック活性化関数の発見
arxiv_reader 2022/01/25
最近の研究では、活性化関数の選択が深層学習ネットワークのパフォーマンスに大きな影響を与える可能性があることが示されています。ただし、新しい活性化関数の利点は一貫性がなく、タスクに依存しているため、正規

classification

arXiv reaDer

dataset

gradient

arXiv

learning
リンク
機械学習を使用した腎臓結石のinvivo認識について
On the in vivo recognition of kidney stones using machine learning 腎臓結石の種類を特定することで、泌尿器科医は腎結石の再発を防ぐための治療法を処方することができます。自動化された生体内画像ベースの分類方法は、診断の最初のフェーズとして必要な腎臓結石のタイプを即座に特定するための重要なステップです。文献では、ex-vivoデータ（つまり、非常に制御されたシーンおよび画像取得条件）で、自動化された腎臓結石分類が実際に実行可能であることが示されていました。このパイロット研究では、標準的な尿管鏡検査中に内視鏡で取得された4つの最も頻繁な尿路結石タイプの生体内画像でテストされた6つの浅い機械学習方法と3つの深層学習アーキテクチャの腎臓結石認識性能を比較します。この寄稿では、データベースの構築と、テストされた腎臓結石分類器の設計につい
arxiv_reader 2022/01/25
腎臓結石の種類を特定することで、泌尿器科医は腎結石の再発を防ぐための治療法を処方することができます。自動化された生体内画像ベースの分類方法は、診断の最初のフェーズとして必要な腎臓結石のタイプを即座に特

classification

arXiv reaDer

identification

arXiv

learning
リンク
摩擦攪拌スポット溶接プロセスにおける溶接の溶け込み深さの予測と幾何学的分析のための機械学習アルゴリズム
arxiv_reader 2022/01/25
現在、製造部門は、機械学習とデータサイエンスのアルゴリズムの力を利用して、製造された機械部品の機械的および微細構造の特性を最適化するための予測を行っています。これらのアルゴリズムを適用すると、リード以

SVM

arXiv reaDer

dataset

arXiv

learning
リンク
顔の活気検出のためのアンサンブルモデル
arxiv_reader 2022/01/25
この論文では、アンサンブル深層学習技術を使用して、顔の提示攻撃、別名顔の活気検出を検出するための受動的な方法を提示します。顔の活気の検出は、オンラインのオンボーディング/トランザクションプロセス中の顧

video

detection

arXiv reaDer

face

dataset

arXiv

learning
リンク
CNN画像分類器における信号強度とノイズ駆動機能の優先度
Signal Strength and Noise Drive Feature Preference in CNN Image Classifiers 畳み込みニューラルネットワーク（CNN）画像分類器の機能設定は、意思決定プロセスに不可欠であり、このトピックは十分に研究されていますが、基本的なレベルではまだ理解されていません。合成データセットを使用して機能の好みを決定する高度に制御されたCNN画像分類実験で、さまざまな程度の信号とノイズを使用して、タスクに関連するさまざまな機能属性（形状、テクスチャ、色など）をテストします。 CNNは、特徴がテクスチャ、形状、または色であるかどうかに関係なく、より強い信号強度とより低いノイズを備えた特徴を好むことがわかります。これは、タスク関連の機能設定の予測モデルのガイダンスを提供し、実験のセットアップを注意深く制御することで回避できるマシンモデルのバ
arxiv_reader 2022/01/25
畳み込みニューラルネットワーク（CNN）画像分類器の機能設定は、意思決定プロセスに不可欠であり、このトピックは十分に研究されていますが、基本的なレベルではまだ理解されていません。合成データセットを使用

classification

arXiv reaDer

bias

synthesis

CNN

dataset

arXiv
リンク
ディープトランスファーラーニングと最近の進歩のレビュー
arxiv_reader 2022/01/25
ディープラーニングモデルを成功させるには、広範なトレーニングデータと処理能力と時間（トレーニングコストと呼ばれる）が必要です。深層学習モデルをトレーニングするのに十分な数のラベル付きデータがない場合、

edge device

arXiv reaDer

transfer learning

dataset

arXiv

pre-training
リンク
CNNと教師なし学習を使用した南米の山火事のマルチスペクトル衛星画像の分析
Analyzing Multispectral Satellite Imagery of South American Wildfires Using CNNs and Unsupervised Learning アマゾンの熱帯雨林では深刻な干ばつがより頻繁に発生し、乾季が長くなるため、活発な山火事に迅速に対応し、消火できなくなる前に予測することが重要です。コンピュータビジョンの研究者は、大規模なデータベースにアルゴリズムを適用して山火事を自動的に検出しましたが、現在のモデルは計算コストが高く、南米の地域の低技術条件には十分な汎用性がありません。この包括的な深層学習研究では、最初に、エクアドルとガラパゴス諸島のマルチスペクトルLandsat8画像でスキップ接続を使用して完全畳み込みニューラルネットワークをトレーニングします。モデルは、各画像の対応するピクセルレベルのバイナリファイアマスクを
arxiv_reader 2022/01/25
アマゾンの熱帯雨林では深刻な干ばつがより頻繁に発生し、乾季が長くなるため、活発な山火事に迅速に対応し、消火できなくなる前に予測することが重要です。コンピュータビジョンの研究者は、大規模なデータベースに

clustering

arXiv reaDer

arXiv

computer vision

detection

unsupervised

CNN

segmentation

classification
リンク
UniFormer：効率的な時空間表現学習のための統合トランスフォーマー
arxiv_reader 2022/01/25
ビデオフレーム間の大きなローカル冗長性と複雑なグローバル依存性のために、高次元ビデオからリッチでマルチスケールの時空間セマンティクスを学習することは困難な作業です。この研究の最近の進歩は、主に3D畳み

transformer

video

3D

arXiv reaDer

affinity

CNN

benchmark

representation learning

arXiv
リンク
半教師ありキーポイントローカリゼーションのための疑似ラベル付き自動カリキュラム学習
arxiv_reader 2022/01/25
オブジェクトのキーポイントのローカライズは、基本的な視覚的な問題です。ただし、キーポイントローカリゼーションネットワークの教師あり学習では、多くの場合、大量のデータが必要になり、取得に費用と時間がかか

semi-supervised

dataset

benchmark

keypoint

localization

learning

arXiv

arXiv reaDer
リンク
https://arxiv-check-250201.firebaseapp.com/each/2201.08158v3
arxiv_reader 2022/01/25
この論文では、HDhumanを紹介します。これは、カメラビューのまばらなセットを使用して、複雑なテクスチャパターンの服を着ている人間のパフォーマーの斬新なビューレンダリングの課題に対処する方法です。最

synthesis

transformer

sparse

reconstruction

human

arXiv

arXiv reaDer

reasoning
リンク
フルフェイスの外観ベースの3D視線推定のための小説ビュー合成による学習
arxiv_reader 2022/01/25
外観ベースの視線推定技術の最近の進歩にもかかわらず、ターゲットの頭のポーズと視線の分布をカバーするトレーニングデータの必要性は、実際の展開にとって依然として重要な課題です。この作業では、単眼3D顔再構

3D

pose

dataset

augmentation

reconstruction

monocular

estimation

arXiv

arXiv reaDer

generative
リンク
WebUAV-3M: 100 万規模のディープ UAV 追跡の力を明らかにするためのベンチマーク
arxiv_reader 2022/01/25
この作業では、WebUAV-3Mと呼ばれる新しい百万規模の無人航空機（UAV）追跡ベンチマークを提供します。まず、インターネットから300万フレームを超える4,485本の動画を収集します。次に、効率的

video

dataset

UAV

benchmark

arXiv

arXiv reaDer

tracking
リンク
ビデオでの談話解析：マルチモーダルアプローチ
arxiv_reader 2022/01/25
テキストレベルの談話解析は、テキスト内の2つの文が互いにどのように関連しているかを明らかにすることを目的としています。ビデオのシーン間の談話関係を理解する必要がある視覚談話解析のタスクを提案します。こ

video

dataset

learning

arXiv

arXiv reaDer
リンク
- 2022年1月26日
- 2022年1月25日
- 2022年1月24日

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx