arxiv_readerのブックマーク / 2022年6月20日 - はてなブックマーク

arxiv_reader id:arxiv_reader

2022年6月20日のブックマーク (117件)

TAVA：テンプレートフリーのアニメート可能なボリュームアクター
arxiv_reader 2022/06/20
座標ベースのボリューム表現は、画像からフォトリアリスティックな仮想アバターを生成する可能性があります。ただし、仮想アバターは、観察されなかった可能性のある新しいポーズに対しても制御可能である必要があり

representation

3D

pose

arXiv

arXiv reaDer
リンク
高密度マルチタスク学習のためのクロスタスク注意メカニズム
arxiv_reader 2022/06/20
マルチタスク学習は、最近、複雑なシーンを包括的に理解するための有望なソリューションになりました。メモリ効率が高いだけでなく、適切な設計のマルチタスクモデルは、タスク間での補完的な信号の交換に有利に働き

multi-task

estimation

semantic segmentation

representation learning

unsupervised

arXiv

domain adaptation

arXiv reaDer

attention

benchmark
リンク
VectorMapNet：エンドツーエンドのベクトル化されたHDマップ学習
arxiv_reader 2022/06/20
自動運転システムでは、移動する障害物や静的な高解像度（HD）セマンティックマップなど、周囲の環境を十分に理解する必要があります。既存の方法は、深刻なスケーラビリティの問題に悩まされているオフラインの手

autonomous driving

learning

segmentation

sparse

arXiv

dataset

arXiv reaDer
リンク
VLMixer：対になっていない視覚-クロスモーダルCutMixによる言語の事前トレーニング
arxiv_reader 2022/06/20
既存のビジョン言語事前トレーニング（VLP）の方法は、主にペアの画像テキストデータセットに依存しています。これらのデータセットは、膨大な人的労力によって注釈が付けられるか、インターネットからクロールさ

human

contrastive learning

pre-training

arXiv

dataset

arXiv reaDer

denoising

augmentation
リンク
Unified-IO: ビジョン、言語、マルチモーダルタスクの統合モデル
arxiv_reader 2022/06/20
ポーズ推定、オブジェクト検出、深度推定、画像生成、領域キャプションや参照表現理解などの視覚と言語のタスクなど、従来のコンピュータビジョンタスクにまたがる多種多様なAIタスクを実行するモデルであるUni

representation

computer vision

arXiv

pose estimation

dataset

arXiv reaDer

detection

captioning

benchmark
リンク
変分ネストドロップアウト
arxiv_reader 2022/06/20
ネストされたドロップアウトは、トレーニング中に事前定義された重要度に基づいてネットワークパラメータまたは機能を並べ替えることができるドロップアウト操作の変形です。 I.ネストされたネットの構築：ネスト

Bayesian

generative

representation learning

arXiv

classification

arXiv reaDer

detection

trajectory
リンク
2D-3D登録からのペアの深さの結腸内視鏡検査3Dビデオデータセット
arxiv_reader 2022/06/20
大腸内視鏡検査のスクリーニングは、深度推定、表面再構成、欠損領域の検出など、いくつかの3Dコンピュータービジョン技術の重要な臨床応用です。ただし、実際の結腸内視鏡検査ビデオでのこれらの手法の開発、評価

computer vision

simulation

3D

GAN

reconstruction

pose

optical flow

arXiv

arXiv reaDer

detection
リンク
https://arxiv-check-250201.firebaseapp.com/each/2206.08898v2
arxiv_reader 2022/06/20
最近、ビジョントランスが非常に人気になっています。ただし、それらを多くのアプリケーションにデプロイすることは、アテンションブロックのSoftmaxレイヤーのために、計算コストが高くなります。シンプルで

arXiv reaDer

arXiv

attention

transformer
リンク
深層学習におけるモデルの多重性の解きほぐし
arxiv_reader 2022/06/20
トレーニング中に同様のパフォーマンスを持つ2つの機械学習モデルは、実際のパフォーマンス特性が大きく異なる可能性があることはよく知られていますが、よく理解されていません。これは、モデルの内部にとらえどこ

arXiv reaDer

arXiv

OOD

learning
リンク
分散プーリングを介した弱教師あり深層学習モデルへの腫瘍内不均一性の組み込み
arxiv_reader 2022/06/20
ギガピクセルの全スライド画像（WSI）からの癌生存予測などの教師あり学習タスクは、腫瘍微小環境の複雑な機能のモデリングを必要とする計算病理学における重要な課題です。これらの学習タスクは、腫瘍内の不均一

learning

weakly-supervised

arXiv

arXiv reaDer

pooling
リンク
CtrlFormer：Transformerを介したビジュアルコントロールの転送可能な状態表現の学習
arxiv_reader 2022/06/20
Transformerは、さまざまなダウンストリームタスクで一般的なビジョンと言語表現の学習で大きな成功を収めています。視覚的制御では、トレーニングサンプルサイズを減らすために、異なる制御タスク間で転

arXiv

transfer learning

benchmark

arXiv reaDer

transformer

representation

contrastive

reinforcement learning
リンク
車両通信ネットワークにおけるエッジ支援センサーデータ共有
arxiv_reader 2022/06/20
車両ネットワークでのセンサーデータ共有により、接続された自動運転車の環境認識の範囲と精度を大幅に向上させることができます。センサーデータの普及と融合のためのさまざまな概念とスキームが開発されました。こ

estimation

simulation

arXiv

vehicle

arXiv reaDer
リンク
リストワイズ自己蒸留による計量学習の一般化の改善
arxiv_reader 2022/06/20
ほとんどのディープメトリックラーニング（DML）メソッドは、すべてのポジティブサンプルを埋め込みスペースに近づけ、ネガティブサンプルから遠ざける戦略を採用しています。ただし、このような戦略では、ポジテ

arXiv

dataset

arXiv reaDer

regularization

metric learning

embedding
リンク
デュアルアームロボットフラット化のための衣服の既知の構成の認識
arxiv_reader 2022/06/20
ロボットによる変形可能なオブジェクトの操作は、ロボット業界では課題です。これは、変形可能なオブジェクトには複雑でさまざまなオブジェクトの状態があるためです。これらのオブジェクトの状態を予測し、操作計画

arXiv reaDer

arXiv

learning

robot
リンク
整数のみの離散フローによる高速ロスレスニューラル圧縮
arxiv_reader 2022/06/20
学習したデータ分布を使用してエントロピーコーデックを適用することにより、ニューラルコンプレッサーは圧縮率の点で従来のコーデックを大幅に上回りました。ただし、ニューラルネットワークの高い推論遅延は、実際

arXiv reaDer

arXiv

quantization

compression
リンク
DGMIL：スライド画像全体の分類のための配布ガイド付きマルチインスタンス学習
arxiv_reader 2022/06/20
マルチインスタンスラーニング（MIL）は、組織病理学的全スライド画像（WSI）の分析に広く使用されています。ただし、既存のMILメソッドは、データ分布を明示的にモデル化せず、代わりに、分類器をトレーニ

learning

arXiv reaDer

arXiv

dataset

classification

localization
リンク
MineDojo: インターネット規模の知識を備えたオープンエンドの具現化エージェントの構築
arxiv_reader 2022/06/20
自律エージェントは、AtariゲームやGoなどの専門分野で大きな進歩を遂げました。ただし、彼らは通常、限られた手動で考案された目的を持つ孤立した環境でタブララサを学習するため、幅広いタスクと機能にわた

simulation

learning

domain

pre-training

arXiv

video

arXiv reaDer
リンク
TransWeather：悪天候によって劣化した画像のトランスフォーマーベースの復元
arxiv_reader 2022/06/20
雨、霧、雪などの悪天候を画像から取り除くことは、多くのアプリケーションで重要な問題です。文献で提案されているほとんどの方法は、1つのタイプの劣化を取り除くだけで対処するように設計されています。最近、す

transformer

NAS

arXiv

dataset

arXiv reaDer

attention

embedding
リンク
インスタンスレベルの製品検索のためのエンティティグラフ拡張クロスモーダル事前トレーニング
arxiv_reader 2022/06/20
この研究の目標は、細粒度の製品カテゴリに対して、弱教師ありマルチモーダルインスタンスレベルの製品検索を実行できる、より現実的な環境を研究することです。まず、Product1Mデータセットを提供し、2つ

transformer

weakly-supervised

arXiv

self-supervised

dataset

arXiv reaDer
リンク
trecvid2021のwhu-nercms：インスタンス検索タスク
arxiv_reader 2022/06/20
論文のTRECVID2021でWHU-NERCMSの実験方法と結果を簡単に紹介します。今年は、インスタンス検索（INS）の自動でインタラクティブなタスクに参加します。自動タスクの場合、検索対象は人物検

action

person

arXiv

face recognition

arXiv reaDer

detection
リンク
深層学習における信頼性キャリブレーションの比較研究：コンピュータービジョンから医用画像まで
arxiv_reader 2022/06/20
深層学習予測モデルは、さまざまなクラスの識別に成功していますが、ヘルスケアを含む困難なドメイン全体でのキャリブレーションが不十分であることがよくあります。さらに、ロングテール分布は、臨床疾患の予測を含

computer vision

estimation

learning

domain

pose

arXiv

classification

arXiv reaDer
リンク
マルチターゲット遺伝的変化予測のためのローカルアテンショングラフベースのトランスフォーマー
arxiv_reader 2022/06/20
従来のマルチインスタンス学習（MIL）メソッドは、多くの場合、インスタンス間の同一で独立した分散された仮定に基づいているため、個々のエンティティを超えた潜在的に豊富なコンテキスト情報を無視します。一方

transformer

learning

loss function

arXiv

arXiv reaDer

attention

bias

embedding
リンク
アルツハイマー病診断のためのマルチモーダル注意ベースの深層学習
arxiv_reader 2022/06/20
アルツハイマー病（AD）は、最も複雑な病因の1つを伴う最も一般的な神経変性疾患であり、効果的で臨床的に実行可能な意思決定支援を困難にします。この研究の目的は、AD診断において医療専門家を支援するための

learning

domain

arXiv

classification

arXiv reaDer

attention
リンク
補助識別分類器を備えた条件付きGAN
arxiv_reader 2022/06/20
条件付き生成モデルは、条件付きデータ生成を実現するために、データとラベルの基本的な同時分布を学習することを目的としています。その中で、補助分類器生成敵対的ネットワーク（AC-GAN）が広く使用されてい

GAN

synthesis

arXiv

dataset

arXiv reaDer
リンク
オープンサンプリング：ロングテールデータセットのリバランスのための分布外データの調査
arxiv_reader 2022/06/20
トレーニングデータセットが極端なクラスの不均衡に悩まされている場合、通常、ディープニューラルネットワークのパフォーマンスは低下します。最近の研究では、半教師ありの方法で分布外のデータ（つまり、開集合の

representation

semi-supervised

Bayesian

OOD

arXiv

dataset

arXiv reaDer
リンク
時空間補間整合性トレーニングによるビデオシャドウ検出
arxiv_reader 2022/06/20
監視対象のビデオシャドウ検出方法のために大規模なデータセットに注釈を付けることは困難です。ラベル付けされた画像でトレーニングされたモデルをビデオフレームに直接使用すると、高い汎化誤差と時間的に一貫性の

semi-supervised

learning

unsupervised

arXiv

dataset

video

classification

arXiv reaDer

detection

spatio-temporal
リンク
流通外の一般化のための背景情報の重要性
arxiv_reader 2022/06/20
医用画像分類におけるドメインの一般化は、信頼できる機械学習を医療に導入するための重要な問題です。特徴の帰属を制御するためにグラウンドトゥルース異常セグメンテーションを利用するドメイン一般化の既存のアプ

learning

OOD

segmentation

domain

arXiv

classification

arXiv reaDer
リンク
FD-CAM：CNNの視覚的説明の忠実性と識別可能性の向上
arxiv_reader 2022/06/20
クラス活性化マップ（CAM）は、畳み込みニューラルネットワークの内部動作メカニズムを視覚的に説明するために広く研究されています。既存のCAMベースの方法の鍵は、有効な重みを計算して、ターゲットの畳み込

CNN

arXiv reaDer

arXiv

gradient
リンク
組織画像における癌セグメンテーションのためのDU-Netベースの教師なし対照学習
arxiv_reader 2022/06/20
この論文では、組織像のための教師なし癌セグメンテーションフレームワークを紹介します。フレームワークには、セグメンテーションのために特徴的な視覚的表現を抽出するための効果的な対照学習スキームが含まれます

representation

segmentation

unsupervised

contrastive learning

arXiv

U-Net

convolutional

arXiv reaDer

augmentation
リンク
効率的なディープエッジインテリジェンスのためのダイナミックスプリットコンピューティング
arxiv_reader 2022/06/20
IoTおよびモバイルデバイスにディープニューラルネットワーク（DNN）を展開することは、計算リソースが限られているため、困難な作業です。したがって、要求の厳しいタスクは、推論を加速できるエッジサーバー

arXiv reaDer

arXiv

DNN
リンク
CTooth：コーンビームコンピュータ断層撮影画像での歯のボリュームセグメンテーションのための完全に注釈が付けられた3Dデータセットとベンチマーク
arxiv_reader 2022/06/20
3D歯のセグメンテーションは、コンピューターを利用した歯科診断と治療の前提条件です。ただし、すべての歯の領域を手動でセグメント化することは主観的で時間がかかります。最近、深層学習ベースのセグメンテーシ

3D

segmentation

arXiv

dataset

arXiv reaDer

attention

benchmark
リンク
SE（3）のアルゴリズム-関数を再マッピングするためのニューラル陰的マップの変換
arxiv_reader 2022/06/20
暗黙的な表現は、その効率と柔軟性により、オブジェクトの再構築に広く使用されています。 2021年に、ニューラル暗黙マップという名前の新しい構造がインクリメンタル再構成のために発明されました。ニューラル

representation

3D

reconstruction

pose

SLAM

arXiv

arXiv reaDer
リンク
1 つのマトリックスでの誘導性バイアスとしての最大クラス分離
arxiv_reader 2022/06/20
クラス間の分離を最大化することは、機械学習におけるよく知られた誘導バイアスであり、多くの従来のアルゴリズムの柱です。デフォルトでは、ディープネットワークにはこの誘導バイアスが装備されていないため、差分

learning

OOD

arXiv

classification

arXiv reaDer

detection

bias
リンク
編集可能なフリービューのヒューマンパフォーマンスのリアルタイムレンダリングのための UV ボリューム
arxiv_reader 2022/06/20
ニューラルボリュームレンダリングは、没入型VR / ARアプリケーションの重要なタスクである、フリービューでの人間のパフォーマーの写実的なレンダリングを可能にします。ただし、レンダリングプロセスでの計

3D

human

pose

arXiv

dataset

video

arXiv reaDer

real time
リンク
段階的な色名機能を使用したリアルタイムの視覚的追跡に向けて
arxiv_reader 2022/06/20
MeanShiftアルゴリズムは、その単純さと効率のために、タスクの追跡に広く使用されています。ただし、従来のMeanShiftアルゴリズムでは、ターゲットの初期領域にラベルを付ける必要があるため、ア

occlusion

tracking

arXiv

arXiv reaDer

detection

real time
リンク
学習可能な敵対的初期化による高速敵対的トレーニングの強化
arxiv_reader 2022/06/20
敵対的トレーニング（AT）は、敵対的トレーニングの例を活用することにより、モデルの堅牢性を向上させるのに効果的であることが実証されています。ただし、ほとんどのATメソッドは、敵対的な例を生成する際に複

generative

face

arXiv

gradient

arXiv reaDer

adversarial

benchmark
リンク
畳み込みニューラルネットワークのアンサンブルを使用した自動足潰瘍セグメンテーション
arxiv_reader 2022/06/20
足部潰瘍は糖尿病の一般的な合併症であり、かなりの罹患率と死亡率に関連しており、下肢切断の主要な危険因子であり続けています。足の傷から正確な形態学的特徴を抽出することは、適切な治療のために重要です。医療

segmentation

CNN

arXiv

pre-training

U-Net

dataset

arXiv reaDer

augmentation
リンク
スパースダブルディセント：ネットワークプルーニングが過剰適合を悪化させる場所
arxiv_reader 2022/06/20
人々は通常、ネットワークの剪定は深いネットワークの計算コストを削減するだけでなく、モデルの容量を減らすことによって過剰適合を防ぐと信じています。しかし、驚くべきことに、私たちの仕事は、ネットワークの剪

interpretation

learning

sparse

arXiv

pruning

arXiv reaDer
リンク
AggNet：グループメンバーシップ検証のために顔を集約することを学ぶ
arxiv_reader 2022/06/20
一部の顔認識アプリケーションでは、個人がグループのメンバーであるかどうかを、身元を明かさずに確認することに関心があります。いくつかの既存の方法は、事前に計算された顔記述子を離散埋め込みに量子化し、それ

representation

learning

arXiv

face recognition

dataset

arXiv reaDer

embedding
リンク
根拠のある言語-画像の事前トレーニング
arxiv_reader 2022/06/20
このホワイトペーパーでは、オブジェクトレベル、言語認識、およびセマンティックが豊富な視覚的表現を学習するための、根拠のある言語画像事前トレーニング（GLIP）モデルを紹介します。 GLIPは、事前トレ

representation

few-shot

learning

zero-shot

arXiv reaDer

pre-training

arXiv

detection
リンク
FiT: パーソナライズされたフェデレーテッド画像分類のためのパラメーター効率の高い少数ショット転送学習
arxiv_reader 2022/06/20
最新の深層学習システムは、パーソナライズや連合学習など、i）少量のデータでの学習、およびii）通信効率の高い分散トレーニングプロトコルをサポートする必要がある状況でますます展開されています。この作業で

classification

arXiv

transfer learning

benchmark

dataset

few-shot

metric

arXiv reaDer

representation
リンク
NVUM：堅牢な医用画像分類のための非揮発性バイアスのないメモリ
arxiv_reader 2022/06/20
実世界の大規模医療画像分析（MIA）データセットには、3つの課題があります。1）トレーニングの収束と一般化に影響を与えるノイズの多いラベル付きサンプルが含まれている、2）通常、クラスごとのサンプルの分

learning

arXiv

dataset

classification

arXiv reaDer

regularization

benchmark
リンク
自分から借りる：部分的なチャンネル更新による将来のビデオセグメンテーションの高速化
arxiv_reader 2022/06/20
セマンティックセグメンテーションは、コンピュータビジョンの文献でよく取り上げられているトピックですが、高速で正確なビデオ処理ネットワークの設計は依然として困難です。さらに、組み込みハードウェアで実行す

computer vision

semantic segmentation

arXiv

video

convolutional

arXiv reaDer

real time
リンク
BridgeTower: 視覚言語表現学習におけるエンコーダ間のブリッジの構築
arxiv_reader 2022/06/20
ツータワーアーキテクチャを備えた視覚言語（VL）モデルは、近年、視覚言語表現学習を支配してきました。現在のVLモデルは、軽量のユニモーダルエンコーダーを使用し、クロスモーダルエンコーダーで両方のモダリ

representation learning

pre-training

arXiv

dataset

arXiv reaDer
リンク
セマンティックセグメンテーションのための陰的特徴アラインメント関数の学習
arxiv_reader 2022/06/20
高レベルのコンテキスト情報を低レベルの詳細と統合することは、セマンティックセグメンテーションにおいて最も重要です。この目的に向けて、ほとんどの既存のセグメンテーションモデルは、双線形アップサンプリング

representation

semantic segmentation

learning

arXiv

dataset

convolutional

arXiv reaDer

benchmark
リンク
すべての間違いは等しくない：包括的な階層認識マルチラベル予測（CHAMP）
arxiv_reader 2022/06/20
このホワイトペーパーでは、階層型マルチラベル分類（HMC）の問題について検討します。ここで、（i）各例に複数のラベルが存在する可能性があり、（ii）ラベルはドメイン固有の階層ツリーを介して関連付けられ

metric

arXiv

dataset

classification

arXiv reaDer
リンク
視覚と言語のナビゲーションのためのローカルスロットの注意
arxiv_reader 2022/06/20
汎用ロボットへの道を開くことを目的としたフロンティア研究である視覚と言語のナビゲーション（VLN）は、コンピュータービジョンと自然言語処理のコミュニティで話題になっています。 VLNタスクでは、エージ

computer vision

robot

transformer

segmentation

arXiv

dataset

arXiv reaDer

attention

recurrent
リンク
レーンロスで訓練された 2 段階予測ネットワークを使用した多様な複数軌道予測
arxiv_reader 2022/06/20
自動運転のための運動予測の分野における先行技術は、グラウンドトゥルース軌道に近い軌道を見つけることに焦点を合わせる傾向がある。しかしながら、そのような問題の定式化とアプローチは、しばしば多様性の喪失と

autonomous driving

metric

loss function

arXiv

dataset

arXiv reaDer

attention

trajectory
リンク
ドメインシフトを使用したオンライン手書き認識の時系列分類の不確実性を意識した評価
arxiv_reader 2022/06/20
多くのアプリケーションでは、機械学習モデルの不確実性を分析することが不可欠です。不確実性定量化（UQ）技術の研究は、コンピュータービジョンアプリケーションでは非常に進んでいますが、時空間データのUQ手

computer vision

Bayesian

learning

OOD

domain

arXiv

classification

arXiv reaDer

spatio-temporal
リンク
画像生成を維持する敵対的プライバシーに基づく最小の顕著な差異
arxiv_reader 2022/06/20
深層学習モデルの入力の小さな摂動によって誤った予測が引き起こされる可能性があるため、深層学習モデルは敵対的な例に対して脆弱であることがわかります。敵対的な画像生成の既存の作品のほとんどは、ほとんどのモ

metric

learning

arXiv

gradient

face recognition

classification

arXiv reaDer

adversarial
リンク
ゼロショット行動認識のための特権情報を使用した学習
arxiv_reader 2022/06/20
ゼロショットアクション認識（ZSAR）は、トレーニング中に見られたことのないビデオアクションを認識することを目的としています。ほとんどの既存の方法は、見えているアクションと見えていないアクションの間で

learning

zero-shot

action recognition

arXiv

dataset

video

arXiv reaDer
リンク
言語による美学の理解：美的評価のための写真批評データセット
arxiv_reader 2022/06/20
美学の計算による推論は、その主観的な性質のために、明確に定義されていないタスクです。人間の評価に基づいて画像と美的スコアのペアを提供することにより、問題に取り組むために多くのデータセットが提案されてい

human

arXiv

dataset

arXiv reaDer

emotion

benchmark
リンク
OADAT: 標準化された画像処理のための実験的および合成臨床光音響データ
arxiv_reader 2022/06/20
光音響（OA）イメージングは、ナノ秒のレーザーパルスによる生体組織の励起と、それに続く光吸収を介した熱弾性膨張によって生成された超音波の検出に基づいています。 OAイメージングは、深部組織における豊富

reconstruction

synthesis

segmentation

domain

arXiv

dataset

arXiv reaDer

detection

benchmark
リンク
一般的なイベント境界検出用のマスクされたオートエンコーダCVPR'2022キネティクス-GEBDチャレンジ
Masked Autoencoders for Generic Event Boundary Detection CVPR'2022 Kinetics-GEBD Challenge Generic Event Boundary Detection（GEBD）タスクは、ビデオ全体をチャンクにセグメント化する、分類法のない一般的なイベント境界を検出することを目的としています。このホワイトペーパーでは、マスクされたオートエンコーダを適用して、GEBDタスクのアルゴリズムパフォーマンスを向上させます。私たちのアプローチは、主に、他の基本モデルを使用した自己監視学習者として、GEBDタスクで微調整されたマスクされたオートエンコーダーのアンサンブルを採用しました。さらに、半教師あり疑似ラベル法を使用して、トレーニング中に豊富なラベルなしのKinetics-400データを最大限に活用します。さらに、ポジ
arxiv_reader 2022/06/20
Generic Event Boundary Detection（GEBD）タスクは、ビデオ全体をチャンクにセグメント化する、分類法のない一般的なイベント境界を検出することを目的としています。このホワ

semi-supervised

segmentation

arXiv

self-supervised

video

arXiv reaDer

detection
リンク
効率的なリアルタイムセマンティックセグメンテーションについて：調査
arxiv_reader 2022/06/20
セマンティックセグメンテーションは、画像内のすべてのピクセルにクラスラベルを割り当てる問題であり、シーンの理解とオブジェクトの検出を容易にするための自動運転車のビジョンスタックの重要なコンポーネントで

semantic segmentation

arXiv

vehicle

arXiv reaDer

detection

real time
リンク
HairFIT：フローベースのヘアアラインメントとセマンティック領域を意識したインペインティングによるポーズ不変のヘアスタイル転送
arxiv_reader 2022/06/20
ヘアスタイルの転送は、ソースのヘアスタイルをターゲットのヘアスタイルに変更するタスクです。最近のヘアスタイル転送モデルは、ヘアスタイルの繊細な機能を反映できますが、それでも2つの大きな制限があります。

face

synthesis

pose

optical flow

arXiv

dataset

arXiv reaDer
リンク
画像から三角形の3Dモデル、マテリアル、および照明を抽出する
arxiv_reader 2022/06/20
マルチビュー画像観察からトポロジー、材料、照明を共同で最適化するための効率的な方法を紹介します。ニューラルネットワークでエンコードされた絡み合った3D表現を通常生成する最近のマルチビュー再構成アプロー

representation

3D

reconstruction

arXiv

differentiable

arXiv reaDer

mesh

approximation
リンク
PONI：インタラクションのない学習によるObjectGoalナビゲーションの潜在的な機能
arxiv_reader 2022/06/20
ObjectGoalナビゲーションへの最先端のアプローチは強化学習に依存しており、通常、学習にはかなりの計算リソースと時間が必要です。インタラクションフリー学習（PONI）を使用したObjectGoa

pre-training

arXiv

dataset

arXiv reaDer

reinforcement learning
リンク
ビデオフレーム補間のための強化された双方向モーション推定
arxiv_reader 2022/06/20
モーションベースのビデオフレーム補間のための新しいシンプルで効果的なアルゴリズムを提示します。既存のモーションベースの内挿法は、通常、モーション推定のために事前にトレーニングされたオプティカルフローモ

representation

estimation

synthesis

optical flow

arXiv

pre-training

U-Net

arXiv reaDer

benchmark

recurrent
リンク
ビデオ異常検出のためのVisionTransformerを使用したマルチコンテキスト予測
arxiv_reader 2022/06/20
ビデオ異常検出（VAD）は、従来、再構成ベースのアプローチと予測ベースのアプローチという2つの主要な方法で取り組んできました。再構成ベースの方法が入力画像を一般化することを学習するとき、モデルは単に恒

pedestrian

metric

anomaly detection

transformer

reconstruction

arXiv

video

arXiv reaDer

spatio-temporal

benchmark
リンク
視覚的顕著性によるViTショートカット学習の修正
arxiv_reader 2022/06/20
ショートカット学習は一般的ですが、深層学習モデルには有害であり、特徴表現が縮退し、その結果、モデルの一般化可能性と解釈可能性が危険にさらされます。ただし、広く使用されているVisionTransfor

representation

gaze

human

transformer

learning

residual

saliency

arXiv

dataset

arXiv reaDer
リンク
アクティブデータディスカバリー：劣モジュラ情報測定を使用した未知のデータのマイニング
arxiv_reader 2022/06/20
アクティブラーニングは、ラベル付けの効率を達成することを目的として、ループ内の人間と一緒にラベル付けされていないセットのサブセットを反復的かつ適応的にサンプリングするための非常に一般的でありながら強力

human

learning

arXiv

dataset

classification

arXiv reaDer

detection
リンク
ガイド付き変形可能な注意を備えた反復ビデオ復元トランス
arxiv_reader 2022/06/20
ビデオ復元は、複数の低品質フレームから複数の高品質フレームを復元することを目的としています。既存のビデオ復元方法は、一般に2つの極端なケースに分類されます。つまり、すべてのフレームを並行して復元するか

transformer

arXiv

super-resolution

dataset

video

arXiv reaDer

benchmark

denoising

attention

recurrent
リンク
畳み込みニューラルネットワークによる転移学習を使用したCOVID-19検出
COVID-19 Detection using Transfer Learning with Convolutional Neural Network 新規コロナウイルス病2019（COVID-19）は致命的な感染症であり、2019年12月に中国湖北省武漢で最初に認識され、流行の状況にあります。このような状況下で、感染者のCOVID-19を検出することがより重要になりました。今日、検査キットの数は、感染した集団の数と比較して徐々に減少しています。最近の一般的な状況下では、胸部CT（Computed Tomography）画像を分析することによる肺疾患の診断は、COVID-19患者の診断と予言の両方にとって重要なツールになっています。この研究では、CT画像からCOVID-19感染を検出するための転移学習戦略（CNN）が提案されています。提案されたモデルでは、転移学習モデルInception
arxiv_reader 2022/06/20
新規コロナウイルス病2019（COVID-19）は致命的な感染症であり、2019年12月に中国湖北省武漢で最初に認識され、流行の状況にあります。このような状況下で、感染者のCOVID-19を検出するこ

COVID-19

CNN

arXiv

dataset

transfer learning

arXiv reaDer

detection

pooling

CT
リンク
最近傍の深部での分布外検出
arxiv_reader 2022/06/20
アウトオブディストリビューション（OOD）の検出は、オープンワールドで機械学習モデルを展開するための重要なタスクです。距離ベースの方法は、テストサンプルが分布内（ID）データから比較的離れている場合に

learning

OOD

arXiv

arXiv reaDer

detection

benchmark
リンク
希少性スコア：合成画像の珍しさを評価するための新しい指標
arxiv_reader 2022/06/20
画像合成の評価指標は、生成モデルのパフォーマンスを測定するために重要な役割を果たします。ただし、ほとんどのメトリックは主に画像の忠実度に焦点を当てています。既存のダイバーシティメトリックは、分布を比較

metric

generative

synthesis

sparse

arXiv

dataset

arXiv reaDer
リンク
DepthShrinker：コンパクトニューラルネットワークのリアルハードウェア効率の向上に向けた新しい圧縮パラダイム
arxiv_reader 2022/06/20
コンパクト演算子（深さ方向の畳み込みなど）を備えた効率的なディープニューラルネットワーク（DNN）モデルは、適切なモデルの精度を維持しながら、DNNの理論上の複雑さ（重み/操作の総数など）を減らす大き

DNN

arXiv

compression

pruning

convolutional

arXiv reaDer
リンク
グラフ生成敵対ネットワークと微分可能レンダリングを使用したテクスチャ生成
arxiv_reader 2022/06/20
既存の3Dメッシュモデルの新しいテクスチャ合成は、既存のシミュレータのフォトリアリスティックアセット生成に向けた重要なステップです。しかし、既存の方法は本質的に、特定のカメラの視点からの3D空間の投影

3D

GAN

synthesis

arXiv

differentiable

arXiv reaDer

mesh
リンク
SDQ：混合精度による確率的微分可能量子化
arxiv_reader 2022/06/20
計算効率の高い方法でディープモデルを展開するために、モデル量子化アプローチが頻繁に使用されてきました。さらに、混合ビット幅の算術演算をサポートする新しいハードウェアとして、混合精度量子化（MPQ）に関

representation

NAS

arXiv

quantization

dataset

differentiable

arXiv reaDer

reinforcement learning

regularization

knowledge distillation
リンク
CF-ViT：ビジョントランスフォーマーの一般的な粗い方法から細かい方法
arxiv_reader 2022/06/20
ビジョントランスフォーマー（ViT）は、コンピュータービジョンタスクで多くのブレークスルーを達成しました。ただし、入力画像の空間次元にかなりの冗長性が生じ、膨大な計算コストが発生します。したがって、本

computer vision

transformer

arXiv

arXiv reaDer

classification
リンク
伝達学習ベースのディープニューラルネットワークを使用した脳腫瘍画像の複数分類
arxiv_reader 2022/06/20
コンピュータベースの診断システムに向けた最近の進歩では、脳腫瘍画像の分類は困難な作業です。この論文は主に、転移学習に基づく深層ニューラルネットワークによる脳腫瘍画像の分類精度の向上に焦点を当てています

augmentation

pre-training

transfer learning

arXiv

arXiv reaDer

dataset

classification

DNN
リンク
テクスチャ分類のための大きなマージン表現学習
arxiv_reader 2022/06/20
このホワイトペーパーでは、畳み込み層（CL）とマージンの大きいメトリック学習を組み合わせて、テクスチャ分類用の小さなデータセットで教師ありモデルをトレーニングするための新しいアプローチを紹介します。こ

loss function

dataset

CNN

representation learning

arXiv

metric learning

arXiv reaDer

classification
リンク
Artemis：外観とモーション合成を備えた関節式ニューラルペット
arxiv_reader 2022/06/20
私たち人間は仮想世界に突入しており、実際に動物を仮想世界に連れて行きたいと思っています。それでも、コンピューターで生成された（CGI）毛皮のような動物は、インタラクティブなモーションコントロールは言う

dataset

pose

real time

arXiv

arXiv reaDer

representation

synthesis
リンク
BED：エッジデバイス用のリアルタイムオブジェクト検出システム
arxiv_reader 2022/06/20
エッジデバイスにディープニューラルネットワーク〜（DNN）を展開すると、実際のタスクに効率的かつ効果的なソリューションが提供されます。エッジデバイスは、さまざまなドメインで大量のデータを効率的に収集す

detection

edge device

domain

DNN

real time

quantization

arXiv

arXiv reaDer

synthesis
リンク
Wukong: 1 億の大規模な中国のクロスモーダル事前トレーニングベンチマーク
arxiv_reader 2022/06/20
Vision-Language Pre-training（VLP）モデルは、さまざまなダウンストリームタスクで優れたパフォーマンスを示しています。彼らの成功は、事前にトレーニングされたクロスモーダルデ

contrastive learning

dataset

benchmark

arXiv

zero-shot

arXiv reaDer

pre-training

classification
リンク
MetAug：メタ機能拡張による対照学習
arxiv_reader 2022/06/20
対照学習にとって重要なことは何ですか？対照学習は、有益な機能、つまり「ハード」（ポジティブまたはネガティブ）機能に大きく依存していると私たちは主張します。初期の作品には、複雑なデータ拡張と大きなバッチ

contrastive learning

dataset

gradient

benchmark

arXiv

regularization

augmentation

arXiv reaDer

representation
リンク
CDNet：眼球Bスキャン超音波のきめ細かい画像分類のための対照的な解きほぐされたネットワーク
arxiv_reader 2022/06/20
B-スキャン超音波モダリティでの画像の正確で迅速な分類は、眼疾患の診断に不可欠です。それにもかかわらず、超音波でさまざまな病気を区別することは、経験豊富な眼科医に依然として挑戦します。したがって、眼内

disentangling

dataset

benchmark

arXiv

weakly-supervised

arXiv reaDer

contrastive

localization
リンク
VLMbench：視覚と言語の操作のための構成ベンチマーク
VLMbench: A Compositional Benchmark for Vision-and-Language Manipulation 言語の柔軟性と構成性の恩恵を受けて、人間は当然、ナビゲーションやオブジェクト操作などの複雑なタスクのために具体化されたエージェントに命令するために言語を使用することを意図しています。この作業では、具体化されたエージェントのラストマイルの空白を埋めることを目指しています。たとえば、「ボックスの横にある赤いマグカップを直立させたまま移動する」など、人間のガイダンスに従ってオブジェクトを操作します。この目的のために、自動操作ソルバー（AMSolver）シミュレーターを導入し、それに基づいて、分類されたロボット操作タスクに関するさまざまな言語命令を含む視覚および言語操作ベンチマーク（VLMbench）を構築します。具体的には、モジュール式のルールベースの
arxiv_reader 2022/06/20
言語の柔軟性と構成性の恩恵を受けて、人間は当然、ナビゲーションやオブジェクト操作などの複雑なタスクのために具体化されたエージェントに命令するために言語を使用することを意図しています。この作業では、具体

benchmark

action

arXiv

arXiv reaDer

human

robot
リンク
https://arxiv-check-250201.firebaseapp.com/each/2206.08517v2
arxiv_reader 2022/06/20
ソリッドステートLiDARは、最近自動運転でますます普及している従来の機械式マルチラインスピニングLiDARよりもコンパクトで安価です。ただし、これらの新しいLiDARセンサーには、激しい動きの歪み、

LiDAR

odometry

autonomous driving

point cloud

sparse

arXiv

arXiv reaDer
リンク
チャネル寸法の検索と事前トレーニングされたパラメータのマッピングによるオブジェクト検出のためのニューラルアーキテクチャの適応
arxiv_reader 2022/06/20
ほとんどのオブジェクト検出フレームワークは、元々画像分類用に設計されたバックボーンアーキテクチャを使用しており、従来はImageNetで事前にトレーニングされたパラメータを使用しています。ただし、画像

detection

NAS

adaptation

dataset

arXiv

arXiv reaDer

pre-training

representation

classification
リンク
ナビゲーションエージェントは環境について何を学びますか？
arxiv_reader 2022/06/20
今日の最先端のビジュアルナビゲーションエージェントは、通常、エンドツーエンドでトレーニングされた大規模なディープラーニングモデルで構成されています。このようなモデルは、学習したスキルや、環境に応じて実

learning

reasoning

arXiv

attention

arXiv reaDer

representation

action
リンク
システムの不均一性の下でのフェデレーション画像分類のためのスーパーネットトレーニング
arxiv_reader 2022/06/20
多くのデバイスにまたがるディープニューラルネットワークの効率的な展開と、特にエッジデバイスでのリソースの制約は、データプライバシーの保護の問題が存在する場合の最も困難な問題の1つです。従来のアプローチ

single-shot

edge device

learning

benchmark

arXiv

arXiv reaDer

classification
リンク
部分的にセグメント化された3D形状コレクションの教師なし運動学的モーション検出
arxiv_reader 2022/06/20
製造されたオブジェクトの3Dモデルは、仮想世界にデータを入力したり、ビジョンやロボット工学の合成データを生成したりするために重要です。最も有用であるためには、そのようなオブジェクトは明確に表現されてい

3D

detection

dataset

arXiv

arXiv reaDer

unsupervised

synthesis
リンク
制御可能な画像強調
フラットな画像を素晴らしい写真に編集するには、スキルと時間が必要です。自動画像強調アルゴリズムは、ユーザーの操作なしで高品質の画像を生成することにより、ますます関心を集めています。ただし、写真の品質評価は主観的なものです。トーンと色の調整でも、自動強調の1枚の写真は、微妙で変更可能なユーザーの好みに合わせるのが困難です。この問題に対処するために、いくつかのパラメータを制御することにより、複数のスタイルで高品質の画像を生成できる半自動画像強調アルゴリズムを提示します。まず、写真のレタッチスキルを高品質の画像から解きほぐし、スキルごとに効率的なエンハンスメントシステムを構築します。具体的には、エンコーダーデコーダーフレームワークは、レタッチスキルを潜在コードにエンコードし、それらを画像信号処理（ISP）機能のパラメーターにデコードします。 ISP関数は計算効率が高く、19個のパラメーターのみで
arxiv_reader 2022/06/20
フラットな画像を素晴らしい写真に編集するには、スキルと時間が必要です。自動画像強調アルゴリズムは、ユーザーの操作なしで高品質の画像を生成することにより、ますます関心を集めています。ただし、写真の品質評

dataset

benchmark

arXiv reaDer

arXiv
リンク
骨表面セグメンテーションのための方向誘導グラフ畳み込みネットワーク
arxiv_reader 2022/06/20
超音波画像の画像アーチファクトと低い信号対雑音比のために、自動骨表面セグメンテーションネットワークはしばしば断片化された予測を生成し、超音波ガイド下のコンピュータ支援外科手術の成功を妨げる可能性があり

convolutional

arXiv

segmentation

metric

arXiv reaDer
リンク
ビジョントランスフォーマーへのバックドア攻撃
arxiv_reader 2022/06/20
Vision Transformers（ViT）は最近、さまざまなビジョンタスクで模範的なパフォーマンスを実証し、CNNの代替として使用されています。それらの設計は、画像を一連のパッチとして処理する自

CNN

transformer

arXiv

arXiv reaDer

interpretation
リンク
事前トレーニング済みモデルを使用したゼロショットAutoML
arxiv_reader 2022/06/20
新しいデータセットDと低い計算バジェットを考えると、特にDが小さい場合、過剰適合のリスクを冒さずに、事前にトレーニングされたモデルを選択してDに微調整し、微調整ハイパーパラメーターを設定するにはどうす

learning

dataset

autoML

benchmark

arXiv

zero-shot

arXiv reaDer

pre-training
リンク
CAT-Net：MRIでの前立腺ゾーンセグメンテーションのためのクロススライスアテンショントランスフォーマーモデル
arxiv_reader 2022/06/20
前立腺癌は、米国の男性の癌による死亡の2番目に多い原因です。前立腺MRIの診断は、多くの場合、正確な前立腺帯状セグメンテーションに依存しています。ただし、最新の自動セグメンテーション方法では、前立腺M

MRI

transformer

arXiv

segmentation

attention

arXiv reaDer
リンク
PIN：マルチスケールの心象表現のためのプログレッシブ暗黙的ネットワーク
arxiv_reader 2022/06/20
多層パーセプトロン（MLP）は、一般に位置エンコーディングと呼ばれる、入力の高次元投影と組み合わせると、効果的なシーンエンコーダーであることが証明されています。ただし、周波数スペクトルが広いシーンは依

3D

dataset

arXiv

reconstruction

arXiv reaDer

representation
リンク
再帰的ニューラルプログラム：画像文法と部分全体の階層の変分学習
arxiv_reader 2022/06/20
人間の視覚には、部分全体の階層に基づく構造化された表現を使用して、オブジェクトとシーンを解析および表現することが含まれます。コンピュータビジョンと機械学習の研究者は最近、カプセルネットワーク、参照フレ

computer vision

dataset

explainable

one-shot

transfer learning

arXiv

arXiv reaDer

generative

representation

human
リンク
ビデオからのアクションフリーの事前トレーニングによる強化学習
arxiv_reader 2022/06/20
最近の教師なし事前トレーニング方法は、複数のダウンストリームタスクの有用な表現を学習することにより、言語およびビジョンドメインで効果的であることが示されています。この論文では、そのような教師なし事前ト

video

domain

reinforcement learning

arXiv

representation

arXiv reaDer

generative

pre-training

unsupervised

action
リンク
TUSK：タスクにとらわれない教師なしキーポイント
arxiv_reader 2022/06/20
キーポイント学習の既存の教師なし方法は、特定のキーポイントタイプ（たとえば、肘、指、抽象的な幾何学的形状）が画像に1回だけ表示されるという仮定に大きく依存しています。メソッドを適用する前に各インスタン

detection

landmark

learning

clustering

arXiv

sparse

arXiv reaDer

unsupervised

classification

keypoint
リンク
遠方の監督の下で手続き型活動を認識することを学ぶ
arxiv_reader 2022/06/20
この論文では、数分に及ぶ長いビデオから、きめの細かい多段階の活動（たとえば、さまざまなレシピの調理、さまざまな家の改良、さまざまな形の芸術品や工芸品の作成）を分類する問題について考察します。これらのア

video

learning

dataset

action

arXiv

activity

arXiv reaDer

representation

classification
リンク
MLの安全性における未解決の問題
arxiv_reader 2022/06/20
機械学習（ML）システムのサイズは急速に拡大しており、新しい機能を獲得しており、ハイステークス環境でますます展開されています。他の強力な技術と同様に、MLの安全性は研究の最優先事項である必要があります

learning

arXiv reaDer

arXiv
リンク
疑似グラウンドトゥルースボックスのサンプリングによる半弱教師ありオブジェクト検出
arxiv_reader 2022/06/20
半教師あり学習と弱教師あり学習は、深層学習モデルのトレーニングを成功させるために必要な注釈のコストを軽減できるため、最近、オブジェクト検出の文献でかなりの注目を集めています。半教師あり学習の最先端のア

detection

learning

dataset

arXiv

augmentation

attention

weakly-supervised

arXiv reaDer

semi-supervised
リンク
OpenSRH：術中刺激ラマン組織学を使用した脳腫瘍手術の最適化
OpenSRH: optimizing brain tumor surgery using intraoperative stimulated Raman histology 正確な術中診断は、脳腫瘍手術中に安全で効果的なケアを提供するために不可欠です。私たちの標準治療の診断方法は、時間、リソース、および労働集約的であり、最適な外科的治療へのアクセスを制限します。これらの制限に対処するために、我々は、刺激ラマン組織学（SRH）、迅速な光学イメージング法、および術中脳腫瘍診断とリアルタイムの外科的決定サポートのためのSRH画像の深層学習ベースの自動解釈を組み合わせた代替ワークフローを提案します。ここでは、300人以上の脳腫瘍患者からの臨床SRH画像と1300以上のユニークな全スライド光学画像の最初の公開データセットであるOpenSRHを紹介します。 OpenSRHには、最も一般的な脳腫瘍の診
arxiv_reader 2022/06/20
正確な術中診断は、脳腫瘍手術中に安全で効果的なケアを提供するために不可欠です。私たちの標準治療の診断方法は、時間、リソース、および労働集約的であり、最適な外科的治療へのアクセスを制限します。これらの制

computer vision

dataset

benchmark

real time

representation learning

arXiv

arXiv reaDer

contrastive

classification

interpretation
リンク
映画やテレビのエピソードにおける敏感な活動のスケーラブルな時間的ローカリゼーション
Scala ble Temporal Localization of Sensitive Activities in Movies and TV Episodes 顧客がより多くの情報に基づいて視聴を選択できるように、ビデオストリーミングサービスはコンテンツをモデレートし、映画やテレビエピソードのどの部分に年齢に適した素材（ヌード、性別、暴力、薬物使用など）が含まれているかをより明確に把握できるようにします。）。これらの機密性の高いアクティビティをローカライズするための教師ありモデルは、取得が困難な大量のクリップレベルのラベル付きデータを必要としますが、この目的のための弱教師ありモデルは通常、競争力のある精度を提供しません。この課題に対処するために、年齢に適した活動のまばらなクリップレベルのラベルと組み合わせて、簡単に入手できるビデオレベルの弱いラベルを利用するように設計された新しいCoa
arxiv_reader 2022/06/20
顧客がより多くの情報に基づいて視聴を選択できるように、ビデオストリーミングサービスはコンテンツをモデレートし、映画やテレビエピソードのどの部分に年齢に適した素材（ヌード、性別、暴力、薬物使用など）が含

video

arXiv

sparse

activity

weakly-supervised

arXiv reaDer

localization
リンク
EyeNeRF：人間の目のフォトリアリスティックな合成、アニメーション、および再照明のためのハイブリッド表現
arxiv_reader 2022/06/20
人々の高品質でアニメート可能で再照明可能な3Dアバターを作成する際のユニークな課題は、人間の目をモデリングすることです。眼を合成するという課題は、1）眼のさまざまなコンポーネントと眼周囲領域を適切に表

disentangling

3D

arXiv

sparse

gaze

arXiv reaDer

face

representation

human

synthesis
リンク
SATBench：人間と動的ニューラルネットワークによるオブジェクト認識における速度と精度のトレードオフのベンチマーク
arxiv_reader 2022/06/20
読書や運転などの日常業務の中核は、アクティブな物体認識です。そのようなタスクをモデル化する試みは、現在、時間を組み込むことができないことによって妨げられています。人々は速度と正確さの間の柔軟なトレード

dataset

activity

arXiv

arXiv reaDer

human
リンク
IRISformer：屋内シーンでの単一画像逆レンダリング用の高密度ビジョントランスフォーマー
arxiv_reader 2022/06/20
屋内のシーンは、任意に多様なオブジェクトの形状、空間的に変化するマテリアル、および複雑な照明の間の無数の相互作用により、外観に大きなばらつきがあります。可視光源と不可視光源によって引き起こされるシャド

multi-task

dataset

transformer

reasoning

benchmark

arXiv

attention

arXiv reaDer
リンク
モバイルデバイスでのリアルタイムモーション増幅
モバイルデバイス上のリアルタイムアプリケーションに適した単純なモーション増幅アルゴリズムを紹介します。これは、ビデオストリーム用の時間ハイパスフィルターである移動平均差分（MEMAD）によるモーションエンハンスメントに基づいています。 MEMADは、小さな動くオブジェクトや大きなオブジェクトの微妙な動きを増幅することができます。計算が非常に簡単で、スマートフォンにリアルタイムで実装できます。 Android電話アプリとしての特定の実装では、MEMADは、工学、生物、および医学のアプリケーションを動機付けるなどに選択された例で示されます。 A simple motion amplification algorithm suitable for real-time applications on mobile devices is presented. It is based on motio
arxiv_reader 2022/06/20
モバイルデバイス上のリアルタイムアプリケーションに適した単純なモーション増幅アルゴリズムを紹介します。これは、ビデオストリーム用の時間ハイパスフィルターである移動平均差分（MEMAD）によるモーション

video

real time

arXiv reaDer

arXiv
リンク
TransFusion：トランスフォーマーを使用した医療画像セグメンテーションのためのマルチビュー発散融合
arxiv_reader 2022/06/20
マルチビュー画像からの情報を組み合わせることは、病気の診断のための自動化された方法のパフォーマンスと堅牢性を向上させるために重要です。ただし、マルチビュー画像の非整列特性により、ビュー間の相関関係とデ

MRI

convolutional

transformer

arXiv

segmentation

attention

arXiv reaDer

representation
リンク
多項式によるスケーラブルな解釈可能性
arxiv_reader 2022/06/20
一般化された加法モデル（GAM）は、完全に解釈可能な機械学習の主要な選択肢になりました。ただし、DNNなどの解釈できない方法とは異なり、表現力と容易なスケーラビリティが不足しているため、実際のタスクの

learning

DNN

benchmark

arXiv

arXiv reaDer

human
リンク
解釈可能性のための神経基盤モデル
arxiv_reader 2022/06/20
実世界のアプリケーションで複雑な機械学習モデルが広く使用されているため、モデルの予測を説明することが重要になっています。ただし、これらのモデルは通常、ブラックボックスのディープニューラルネットワークで

learning

dataset

arXiv

sparse

arXiv reaDer
リンク
追跡よりも深くなる：動物の痛みと情動状態のコンピュータビジョンベースの認識の調査
arxiv_reader 2022/06/20
動物のモーショントラッキングとポーズ認識の進歩は、動物の行動の研究におけるゲームチェンジャーです。最近では、追跡よりも「深く」なり、動物福祉の向上を目的とした感情や痛みなどの動物の内部状態の自動認識に

computer vision

pose

arXiv

tracking

arXiv reaDer

emotion

face
リンク
下流のタスクから特徴抽出を分離するための一般的な肺超音波バイオマーカーの学習
arxiv_reader 2022/06/20
現代の人工ニューラルネットワーク（ANN）は、エンドツーエンドでトレーニングされ、対象のタスクの機能と分類器の両方を共同で学習します。このパラダイムは非常に効果的ですが、注釈付きのタスク固有のデータセ

video

learning

dataset

arXiv

arXiv reaDer

classification
リンク
膵臓腺癌の等級付けのための深層学習における不確実性の活用
arxiv_reader 2022/06/20
膵臓がんは、がんが後期に向かって進行したときに診断されるため、他のがんと比較して最も予後が悪いものの1つです。膵臓腺癌を診断するための現在の手動の組織学的等級付けは時間がかかり、しばしば誤診をもたらす

learning

CNN

arXiv

Bayesian

metric

arXiv reaDer

classification
リンク
ディープニューラルネットワークを使用した正投影図からの車両の再構築
Reconstructing vehicles from orthographic drawings using deep neural networks このホワイトペーパーでは、ディープニューラルネットワークを使用して、複数の正投影図から現在の最先端のオブジェクト再構成について説明します。 1つの画像から複数のビューを抽出するための2つのアルゴリズムを提案します。この論文は、ピクセル整列陰関数（PIFu）に基づくシステムを提案し、符号付き距離サンプルを生成するための高度なサンプリング戦略を開発します。また、このアプローチを複数のビューからの深度マップ回帰と比較します。さらに、このペーパーでは、レーシングゲームのAssetto Corsaからの車両再構築用の新しいデータセットを使用しています。これは、一般的に使用されるShapeNETデータセットよりも高品質のモデルを特徴としています。訓
arxiv_reader 2022/06/20
このホワイトペーパーでは、ディープニューラルネットワークを使用して、複数の正投影図から現在の最先端のオブジェクト再構成について説明します。 1つの画像から複数のビューを抽出するための2つのアルゴリズム

reconstruction

vehicle

arXiv

arXiv reaDer

dataset
リンク
ReViSe：スマートフォンのカメラを使った遠隔バイタルサイン測定
arxiv_reader 2022/06/20
リモートフォトプレチスモグラフィー（rPPG）は、顔のビデオを使用したバイタルサインの推定を可能にするため、生体認証データを収集するための高速、効果的、安価で便利な方法です。リモート非接触医療サービス

arXiv

arXiv reaDer

real time

face

dataset

video

detection

COVID-19

landmark

estimation
リンク
いくつかの正確な2D対応から3D点群まで
キーポイント、対応、投影行列、ポイントクラウド、および密なクラウドは、画像ベースの3D再構成のスケルトンであり、ポイントクラウドは、3D再構成オブジェクトの現実的で自然なモデルを生成する上で重要な役割を果たします。優れた3D再構成を実現するには、点群がオブジェクトの表面のほぼすべての場所に存在する必要があります。この記事では、オブジェクトの表面全体をカバーする点群を構築することを主な目的として、測地線フィーチャまたはジオフィーチャという名前の新しいフィーチャを提案します。新しい地理的特徴に基づいて、オブジェクトの表面にいくつかの（与えられた）初期ワールドポイントがあり、すべての正確に推定された投影行列がある場合、これらの与えられたワールドポイントのいずれか2つを接続する測地線上のいくつかの新しいワールドポイントが再構築されます。次に、これらの最初のワールドポイントに隣接するサーフェス上の領
arxiv_reader 2022/06/20
キーポイント、対応、投影行列、ポイントクラウド、および密なクラウドは、画像ベースの3D再構成のスケルトンであり、ポイントクラウドは、3D再構成オブジェクトの現実的で自然なモデルを生成する上で重要な役割

3D

reconstruction

arXiv reaDer

point cloud

arXiv
リンク
皮膚の深い未学習：黒色腫分類の文脈におけるアーティファクトと器具のバイアス除去
arxiv_reader 2022/06/20
畳み込みニューラルネットワークは、皮膚病変画像からの黒色腫の分類において皮膚科医レベルのパフォーマンスを示しましたが、トレーニングデータ内に見られるバイアスによる予測の不規則性は、広範な展開が可能にな

arXiv reaDer

bias

classification

CNN

arXiv
リンク
自己監視型ビジョントランスフォーマーのためのパッチレベルの表現学習
arxiv_reader 2022/06/20
最近の自己監視学習（SSL）手法は、ラベルのない画像から視覚的表現を学習するという印象的な結果を示しています。このペーパーは、SSLの現在の最先端の視覚的口実タスクには利点がない、つまりアーキテクチャ

arXiv reaDer

detection

convolutional

semantic segmentation

attention

transformer

representation learning

self-supervised

arXiv
リンク
ビデオのマルチモーダル感情分析のためのマルチスケール協調マルチモーダルトランスフォーマー
arxiv_reader 2022/06/20
ビデオのマルチモーダル感情分析は、多くの実際のアプリケーションで重要なタスクであり、通常、視覚的、言語的、音響的行動を含むマルチモーダルストリームを統合する必要があります。マルチモーダル融合のロバスト

arXiv reaDer

representation

transformer

video

arXiv
リンク
トランスフォーマーを使用した効率的なデコーダー不要のオブジェクト検出
arxiv_reader 2022/06/20
ビジョントランスフォーマー（ViT）は、オブジェクト検出アプローチの展望を変えています。検出におけるViTの自然な使用法は、CNNベースのバックボーンをトランスベースのバックボーンに置き換えることです

arXiv reaDer

detection

benchmark

transformer

arXiv
リンク
VoxGRAF：スパースボクセルグリッドを使用した高速3D対応画像合成
arxiv_reader 2022/06/20
最先端の3D対応の生成モデルは、座標ベースのMLPに依存して3D放射輝度フィールドをパラメーター化します。印象的な結果を示しながら、各光線に沿ったすべてのサンプルについてMLPをクエリすると、レンダリ

arXiv reaDer

sparse

generative

pose

synthesis

pruning

convolutional

3D

regularization

arXiv
リンク
ELUDE：ラベル付きとラベルなしの機能への分解を介して解釈可能な説明を生成する
arxiv_reader 2022/06/20
ディープラーニングモデルは、過去10年間、機械学習のさまざまな分野で目覚ましい成功を収めてきました。ただし、これらのモデルのサイズと複雑さにより、モデルを理解するのは困難です。それらをより解釈しやすく

learning

arXiv reaDer

explainable

arXiv
リンク
幾何学的にガイドされた統合グラジエント
arxiv_reader 2022/06/20
ディープニューラルネットワークの解釈可能性の方法は、主に、元の入力または摂動された入力に対するクラススコアの感度に焦点を当てており、通常、実際の勾配または変更された勾配を使用して測定されます。一部の方

gradient

arXiv

arXiv reaDer
リンク
- 2022年6月22日
- 2022年6月20日
- 2022年6月17日

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx