arxiv_readerのブックマーク / 2021年12月6日 - はてなブックマーク

arxiv_reader id:arxiv_reader

2021年12月6日のブックマーク (118件)

脚式ロボットのナビゲーションのための結合ビジョンと固有受容
arxiv_reader 2021/12/06
二足歩行ロボットでポイントゴールナビゲーションを実現するために、視覚と固有受容の補完的な強みを活用します。脚式システムは、車輪付きロボットよりも複雑な地形を横断できますが、この機能を十分に活用するには

arXiv reaDer

robot

video

arXiv
リンク
ビデオからの動的オブジェクトのクラスにとらわれない再構成
arxiv_reader 2021/12/06
RGBDまたはキャリブレーションされたビデオから動的オブジェクトを再構築するためのクラスに依存しないフレームワークであるREDOを紹介します。以前の作業と比較して、問題の設定はより現実的ですが、次の3

3D

occlusion

dataset

synthesis

arXiv

RGB-D

arXiv reaDer

reconstruction

video
リンク
適応的不服従による模倣ギャップの橋渡し
arxiv_reader 2021/12/06
実際には、専門家の監督を提供する教育エージェントを設計することが可能な場合は常に、純粋な強化学習よりも模倣学習が好まれます。ただし、教師が生徒が利用できない特権情報にアクセスして決定を下すと、模倣学習

arXiv reaDer

3D

reinforcement learning

arXiv
リンク
再帰的ラベルキャリブレーションによるデータフリーのニューラルアーキテクチャ検索
arxiv_reader 2021/12/06
このホワイトペーパーでは、元のトレーニングデータを使用せずに、事前にトレーニングされたモデルのみを指定して、ニューラルアーキテクチャ検索（NAS）の実現可能性を調査することを目的としています。これは、

synthesis

NAS

bias

domain

arXiv

pre-training

arXiv reaDer

regularization
リンク
人間の再建のためのジオメトリを意識した 2 スケール PIFu 表現
arxiv_reader 2021/12/06
ピクセル整列陰関数（PIFu）を使用した3D人間再構成法は急速に発展していますが、再構成された詳細の品質はまだ満足のいくものではありません。平らな顔の表面は、PIFuベースの再構成結果で頻繁に発生しま

3D

face

arXiv

human

RGB-D

arXiv reaDer

sparse

reconstruction

representation
リンク
教師なしドメイン適応のための階層的最適輸送
arxiv_reader 2021/12/06
この論文では、教師なしドメイン適応のための新しいアプローチを提案します。これは、最適な輸送、学習確率測度、および教師なし学習の概念に関連しています。提案されたアプローチであるHOT-DAは、最適な輸送

domain adaptation

dataset

arXiv

unsupervised

arXiv reaDer

learning

clustering

metric
リンク
ギャップを埋める：コネクトミクスでニューロンをマージするための点群
arxiv_reader 2021/12/06
コネクトミクスの分野では、主な問題は3Dニューロンのセグメンテーションです。ディープラーニングベースの方法は驚くべき精度を達成していますが、特に画像に欠陥がある領域では、依然としてエラーが存在します。

3D

arXiv

segmentation

arXiv reaDer

learning

representation

classification

point cloud
リンク
ROCA：単一の画像からの堅牢なCADモデルの取得と位置合わせ
arxiv_reader 2021/12/06
ROCAは、形状データベースから3D CADモデルを取得して単一の入力画像に位置合わせする、新しいエンドツーエンドのアプローチです。これにより、2D RGB観測からの観測シーンの3D認識が可能になり、

3D

arXiv

differentiable

arXiv reaDer

representation
リンク
CoNeRF：制御可能な神経放射輝度フィールド
arxiv_reader 2021/12/06
ニューラル3D表現を拡張して、新しいビューレンダリング（つまりカメラ制御）を超えた直感的で解釈可能なユーザー制御を可能にします。ユーザーは、トレーニング画像内の少数のマスク注釈を使用して、シーンのどの

3D

face

arXiv

human

arXiv reaDer

few-shot

learning

representation

video
リンク
クラス分布を整列させることによるLiDARセマンティックセグメンテーションにおけるドメイン適応
arxiv_reader 2021/12/06
LiDARセマンティックセグメンテーションは、環境に関する3Dセマンティック情報を提供します。これは、インテリジェントシステムの意思決定プロセスにおける重要な手がかりです。ディープニューラルネットワー

domain adaptation

3D

arXiv

unsupervised

LiDAR

semantic segmentation

benchmark

arXiv reaDer
リンク
意味のある摂動によるブラックボックスの解釈可能な説明
arxiv_reader 2021/12/06
機械学習アルゴリズムは、医療診断や自動運転など、影響が大きくリスクが高いタスクにますます適用されるため、研究者がそのようなアルゴリズムがどのように予測に到達したかを説明できることが重要です。近年、非常

autonomous driving

saliency

arXiv

arXiv reaDer

learning
リンク
ソフト疑似ラベルとカリキュラム学習による教師なしドメイン適応の強化
arxiv_reader 2021/12/06
完全にラベル付けされたソースドメインからのデータを活用することにより、教師なしドメイン適応（UDA）は、データ分散または敵対的学習の明示的な不一致の最小化を通じて、ラベル付けされていないターゲットドメ

domain adaptation

dataset

arXiv

unsupervised

benchmark

arXiv reaDer

adversarial

learning

classification
リンク
垂直注意ネットワークを使用したエンドツーエンドの手書き段落テキスト認識
arxiv_reader 2021/12/06
制約のない手書きのテキスト認識は、コンピュータビジョンシステムにとって依然として困難です。段落テキスト認識は、従来、2つのモデルによって実現されていました。1つ目は行のセグメンテーション用で、2つ目は

attention

computer vision

arXiv

segmentation

arXiv reaDer
リンク
CMS-LSTM：予測学習のためのコンテキスト埋め込みとマルチスケール時空間表現LSTM
arxiv_reader 2021/12/06
時空間予測学習（ST-PL）は、オブジェクトの移動や気象予測など、多数のアプリケーションを備えたホットスポットです。これは、観測されたシーケンスを介して後続のフレームを予測することを目的としています。

embedding

LSTM

arXiv

benchmark

arXiv reaDer

learning

metric
リンク
パノプティコンベースのオブジェクトスタイル-画像から画像への変換に合わせます
Panoptic-based Object Style-Align for Image-to-Image Translation 画像翻訳の目覚ましい最近の進歩にもかかわらず、複数の矛盾するオブジェクトを含む複雑なシーンは依然として挑戦的な問題です。翻訳された画像は忠実度が低く、細部の小さなオブジェクトがあり、オブジェクト認識で不十分なパフォーマンスが得られるためです。事前知識としての画像の完全なオブジェクト認識（つまり、境界ボックス、カテゴリ、およびマスク）がないと、各オブジェクトのスタイル変換を画像変換プロセスで追跡することは困難になります。コンパクトなパノプティコンセグメンテーションデータセットとともに、画像から画像への変換のために、パノプティコンベースのオブジェクトスタイルアライン生成敵対的ネットワーク（POSA-GAN）を提案します。パノプティコンセグメンテーションモデルは、パノ
arxiv_reader 2021/12/06
画像翻訳の目覚ましい最近の進歩にもかかわらず、複数の矛盾するオブジェクトを含む複雑なシーンは依然として挑戦的な問題です。翻訳された画像は忠実度が低く、細部の小さなオブジェクトがあり、オブジェクト認識で

dataset

domain

arXiv

panoptic segmentation

arXiv reaDer

representation

GAN
リンク
TRNR：パッチ分析に基づく少数の画像によるタスク駆動型画像の雨とノイズの除去
arxiv_reader 2021/12/06
学習ベースの画像の雨とノイズ除去の最近の繁栄は、主に、適切に設計されたニューラルネットワークアーキテクチャと大きなラベル付きデータセットによるものです。ただし、現在の画像の雨やノイズの除去方法では、画

dataset

arXiv

arXiv reaDer

learning

residual
リンク
暗黙のニューラル表現に関する構造化された辞書の視点
arxiv_reader 2021/12/06
スペクトルバイアスを回避することを可能にする新しい設計によって推進され、暗黙の神経表現（INR）は、信号の古典的な離散化表現の有望な代替手段として最近浮上しました。それにもかかわらず、それらの実際的な

bias

arXiv

arXiv reaDer

learning

reconstruction

representation
リンク
SGM3D：ステレオガイド付き単眼3Dオブジェクト検出
arxiv_reader 2021/12/06
LiDARセンサーによってキャプチャされた正確な深度情報が不足しているため、単眼3Dオブジェクト検出は、自動運転にとって重要でありながら困難なタスクです。本論文では、SGM3Dと呼ばれるステレオガイド

autonomous driving

domain adaptation

3D

dataset

stereo

arXiv

detection

LiDAR

monocular

arXiv reaDer
リンク
シーン画像からの教師なしオブジェクトレベル表現学習
arxiv_reader 2021/12/06
対照的な自己教師あり学習により、ImageNetでの教師あり事前トレーニングとのギャップが大幅に狭まりました。ただし、その成功は、ImageNetのオブジェクト中心の優先順位に大きく依存しています。つ

arXiv

unsupervised

pre-training

augmentation

arXiv reaDer

contrastive

self-supervised

representation learning
リンク
UCTransNet：Transformerを使用したチャネルごとの観点からのU-Netのスキップ接続の再考
arxiv_reader 2021/12/06
最新のセマンティックセグメンテーション方法は、エンコーダ-デコーダアーキテクチャを備えたU-Netフレームワークを採用しています。単純なスキップ接続スキームを使用するU-Netにとって、グローバルマル

dataset

attention

arXiv

semantic segmentation

U-Net

arXiv reaDer

transformer
リンク
小さな構造の可視化のための超解像CESTMRIに向けて
arxiv_reader 2021/12/06
リウマチ性関節炎などのリウマチ性疾患の発症は、通常、無症状であり、その結果、疾患の早期発見が困難になります。ただし、解剖学的構造の特徴的な変化は、MRIやCTなどの画像技術を使用して検出できます。化学

arXiv

detection

CT

arXiv reaDer

MRI

super-resolution
リンク
ボックスサイズの信頼バイアスは、オブジェクト検出器に害を及ぼします
arxiv_reader 2021/12/06
数え切れないほどのアプリケーションは、最新のオブジェクト検出器からの信頼できる信頼性の推定による正確な予測に依存しています。ただし、オブジェクト検出器を含むニューラルネットワークが誤って較正された信頼

bias

arXiv

detection

augmentation

arXiv reaDer
リンク
セマンティックセグメンテーションにおける新しいクラスの発見
arxiv_reader 2021/12/06
セマンティックセグメンテーション（NCDSS）での新規クラス発見の新しい設定を紹介します。これは、ラベル付けされた互いに素なクラスのセットから事前知識を与えられた新しいクラスを含むラベル付けされていな

saliency

dataset

arXiv

benchmark

semantic segmentation

arXiv reaDer

learning

self-supervised

classification
リンク
RGB-D顕著なオブジェクト検出のための自己監視事前トレーニング
arxiv_reader 2021/12/06
既存のCNNベースのRGB-D顕著なオブジェクト検出（SOD）ネットワークはすべて、適切な初期化を提供するのに役立つ階層機能を学習するために、ImageNetで事前トレーニングする必要があります。ただ

saliency

dataset

arXiv

detection

benchmark

RGB-D

estimation

arXiv reaDer

self-supervised

representation learning
リンク
SynFace：合成データによる顔認識
arxiv_reader 2021/12/06
ディープニューラルネットワークの最近の成功により、顔認識で目覚ましい進歩が達成されました。ただし、顔認識のために大規模な実世界のトレーニングデータを収集することは、特にラベルのノイズとプライバシーの問

dataset

synthesis

domain

arXiv

pose

arXiv reaDer

face recognition
リンク
敵対的な画像増強の課題
arxiv_reader 2021/12/06
トレーニング中に適用される画像拡張は、画像分類器の一般化パフォーマンスにとって非常に重要です。したがって、多くの研究が、特定のタスクに最適な拡張ポリシーを見つけることに焦点を当てています。それでも、単

arXiv reaDer

adversarial

augmentation

arXiv
リンク
画像ラベルからのセマンティックセグメンテーションにおけるインクリメンタル学習
arxiv_reader 2021/12/06
既存のセマンティックセグメンテーションアプローチは印象的な結果を達成しますが、新しいカテゴリが発見されると、モデルを段階的に更新するのに苦労します。さらに、ピクセルごとの注釈は費用と時間がかかります。

dataset

arXiv

weakly-supervised

semantic segmentation

arXiv reaDer

learning
リンク
LCDNet：LiDARSLAMのディープループクロージャ検出とポイントクラウド登録
arxiv_reader 2021/12/06
ループクロージャの検出は、同時ローカリゼーションおよびマッピング（SLAM）システムの重要なコンポーネントであり、時間の経過とともに蓄積されるドリフトを低減します。何年にもわたって、このタスクに対処す

autonomous driving

dataset

arXiv

detection

LiDAR

pose

arXiv reaDer

SLAM

localization

point cloud
リンク
ボックスに注意してください：l_1-画像分類子に対するまばらな敵対的攻撃のAPGD
arxiv_reader 2021/12/06
画像ドメイン[0,1] ^ dも考慮すると、確立されたl_1投影勾配降下（PGD）攻撃は、効果的な脅威モデルがl_1ボールとの交差であるとは見なされないため、最適ではないことを示します。 [0,1]

domain

arXiv

adaptation

arXiv reaDer

adversarial

sparse

gradient
リンク
独自の知識源としての画像から画像への翻訳
arxiv_reader 2021/12/06
画像から画像（I2I）への変換は、あるドメインから別のドメインにデータを変換する確立された方法ですが、SAR /光学衛星画像などの異なるドメインで作業する場合のターゲットドメインでの変換された画像の有

dataset

domain

arXiv

arXiv reaDer

learning

satellite
リンク
機械学習の残余行列積状態
arxiv_reader 2021/12/06
量子物理学に端を発するテンソルネットワークは、古典的および量子機械学習のための効率的なツールとして浮上しています。それにもかかわらず、テンソルネットワークと古典的な機械学習の高度なニューラルネットワー

arXiv reaDer

learning

residual

arXiv
リンク
視覚的注意を払ったサブワードレベルの読唇術
arxiv_reader 2021/12/06
この論文の目的は、サイレントビデオの音声を認識できる強力な読唇モデルを学ぶことです。ほとんどの以前の作品は、自明にプールされた視覚的特徴に加えて既存の自動音声認識技術を適応させることによって、オープン

dataset

attention

arXiv

detection

pooling

benchmark

arXiv reaDer

video
リンク
レーダー波形分類のためのディープニューラルネットワーク
arxiv_reader 2021/12/06
ノイズが存在し、同期がない場合に、生のI / Q波形が与えられたレーダーパルスを分類する問題を検討します。また、複数の重畳レーダーパルスを分類する問題についても検討します。どちらの場合も、同期、パルス

arXiv reaDer

classification

DNN

arXiv
リンク
画像から画像への翻訳のためのセマンティックマップ注入GANトレーニング
Semantic Map Injected GAN Training for Image-to-Image Translation 画像から画像への変換は、生成的敵対的ネットワーク（GAN）を使用して、あるドメインから別のドメインに画像を変換する最近の傾向です。既存のGANモデルは、変換の入力モダリティと出力モダリティのみを利用してトレーニングを実行します。この論文では、GANモデルのセマンティックインジェクショントレーニングを実行します。具体的には、元の入力および出力モダリティでトレーニングし、入力からセマンティックマップへの変換のためにトレーニングのいくつかのエポックを注入します。元のトレーニングを、入力画像をターゲットドメインに変換するためのトレーニングと呼びましょう。元のトレーニングにセマンティックトレーニングを挿入すると、トレーニングされたGANモデルの一般化機能が向上します。さ
arxiv_reader 2021/12/06
画像から画像への変換は、生成的敵対的ネットワーク（GAN）を使用して、あるドメインから別のドメインに画像を変換する最近の傾向です。既存のGANモデルは、変換の入力モダリティと出力モダリティのみを利用し

stereo

dataset

domain

arXiv

arXiv reaDer

GAN
リンク
あなたの賢い隣人に気をつけてください：適応クラスタリング関係モデリングによる教師なし人の再識別
arxiv_reader 2021/12/06
教師なしRe-ID（Re-ID）は、教師ありRe-IDモデルのスケーラビリティの問題を解決できる可能性があるため、ますます注目を集めています。ほとんどの既存の教師なし手法は、教師なしクラスタリングによ

dataset

re-id

attention

arXiv

unsupervised

contrastive learning

arXiv reaDer

clustering

person
リンク
新規の単項ペアワイズトランスを使用した人間と物体の相互作用の効率的な2段階検出
arxiv_reader 2021/12/06
ビジュアルデータのトランスフォーマーモデルの最近の開発により、認識および検出タスクが大幅に改善されました。特に、地域提案の代わりに学習可能なクエリを使用することで、Detection Transfor

dataset

arXiv

detection

arXiv reaDer

real time

transformer

representation
リンク
軽量の注意機能の融合：テキストからビデオへの検索のための新しいベースライン
arxiv_reader 2021/12/06
この論文では、テキストによるビデオ検索の新しいコンテキストで、昔ながらのトピックである機能融合を再検討します。片方の端だけで機能の融合を検討する以前の研究とは異なり、ビデオまたはテキストとして、統一さ

dataset

arXiv

benchmark

arXiv reaDer

video
リンク
TOF-MRAでの自動脳動脈瘤検出に向けて：オープンデータ、弱いラベル、および解剖学的知識
arxiv_reader 2021/12/06
飛行時間型磁気共鳴血管造影（TOF-MRA）での脳動脈瘤の検出は、ディープラーニング（DL）の登場により大幅に改善されました。ただし、監視ありDLモデルのパフォーマンスは、ラベル付けされたサンプルの量

dataset

arXiv

recurrent

detection

arXiv reaDer

learning
リンク
SIM2REALVIZ：ロボットの自我ポーズ推定におけるSim2Realギャップの視覚化
arxiv_reader 2021/12/06
ロボット工学コミュニティは、大量のデータに関するロボットの大規模なトレーニングのために、ますます現実的な3Dシミュレーターに大きく依存し始めています。しかし、ロボットが実世界に配置されると、シミュレー

3D

landmark

bias

simulation

arXiv

robot

arXiv reaDer

pose estimation
リンク
最適なトランスポートによる音楽からダンスへの生成
曲のダンスの振り付けは挑戦的な仕事であり、音楽のテーマとリズムを考慮しながら、独特のスタイルのダンス要素を提示する際に創造的でなければなりません。類似性の取得、シーケンス間のモデリング、生成的敵対的ネットワークなどのさまざまなアプローチで取り組んできましたが、生成されたダンスシーケンスは、モーションリアリズム、多様性、音楽の一貫性に欠けていることがよくあります。本稿では、音楽から3Dダンスの振り付けを生成する方法を学ぶために、最適なトランスポートネットワーク（MDOT-Net）を使用したMusic-to-Danceを提案します。生成されたダンス分布の信憑性を評価するための最適な輸送距離と、ダンス分布と入力音楽の間の対応を測定するためのGromov-Wasserstein距離を紹介します。これにより、不安定性や発散性の発電機損失の問題に悩まされることが多い標準的なGANトレーニングの制限を緩
arxiv_reader 2021/12/06
曲のダンスの振り付けは挑戦的な仕事であり、音楽のテーマとリズムを考慮しながら、独特のスタイルのダンス要素を提示する際に創造的でなければなりません。類似性の取得、シーケンス間のモデリング、生成的敵対的ネ

3D

arXiv

arXiv reaDer

learning

seq2seq

GAN
リンク
NeuLF：ニューラル4Dライトフィールドを使用した効率的な新規ビュー合成
arxiv_reader 2021/12/06
この論文では、複雑なシーンの新しいビュー合成のための効率的で堅牢なディープラーニングソリューションを紹介します。私たちのアプローチでは、3Dシーンはライトフィールド、つまり光線のセットとして表され、各

3D

synthesis

arXiv

arXiv reaDer

learning
リンク
3Dメッシュの幾何学的特徴学習
3Dメッシュの幾何学的特徴学習は、コンピューターグラフィックスの中心であり、多くの視覚アプリケーションにとって非常に重要です。ただし、ディープラーニングは現在、必要な操作や効率的な実装が不足しているため、異種3Dメッシュの階層モデリングに遅れをとっています。この論文では、異種3Dメッシュ上で効果的な幾何学的深層学習のための一連のモジュラー操作を提案します。これらの操作には、メッシュの畳み込み、（アン）プーリング、および効率的なメッシュデシメーションが含まれます。これらの操作のオープンソース実装を提供します。これらはまとめてPicassoと呼ばれます。 PicassoのメッシュデシメーションモジュールはGPUで高速化されており、ディープラーニングのためにメッシュのバッチをオンザフライで処理できます。私たちの（アン）プーリング操作は、さまざまな解像度のネットワーク層にわたって新しく作成されたニ
arxiv_reader 2021/12/06
3Dメッシュの幾何学的特徴学習は、コンピューターグラフィックスの中心であり、多くの視覚アプリケーションにとって非常に重要です。ただし、ディープラーニングは現在、必要な操作や効率的な実装が不足しているた

3D

convolutional

arXiv

mesh

pooling

benchmark

arXiv reaDer

learning
リンク
調査：ラベル付けされたサンプルが少ないハイパースペクトル画像分類のディープラーニング
arxiv_reader 2021/12/06
深層学習技術の急速な発展と計算能力の向上により、深層学習はハイパースペクトル画像（HSI）分類の分野で広く使用されています。一般に、深層学習モデルには多くのトレーニング可能なパラメーターが含まれている

transfer learning

arXiv

arXiv reaDer

few-shot

classification
リンク
画像生成のためのベクトル量子化モデリングにおける離散拡散を伴うグローバルコンテキスト
arxiv_reader 2021/12/06
生成部分としてのベクトル量子化変分オートエンコーダー（VQ-VAE）と自己回帰モデルの統合により、画像生成で高品質の結果が得られました。ただし、自己回帰モデルは、サンプリングフェーズ中のプログレッシブ

denoising

domain

arXiv

arXiv reaDer

autoregressive
リンク
歯科用CBCTにおける3Dの個々の歯の識別とセグメンテーションのための完全に自動化された方法
arxiv_reader 2021/12/06
コーンビームコンピュータ断層撮影（CBCT）画像からの3次元（3D）個々の歯の正確で自動なセグメンテーションは、隣接する歯とその周囲の歯槽骨から個々の歯を分離することが難しいため、難しい問題です。した

3D

dataset

arXiv

identification

segmentation

arXiv reaDer
リンク
血管樹のセグメンテーションを変形することによる深層学習を使用した大血管閉塞の検出
arxiv_reader 2021/12/06
コンピュータ断層撮影血管造影は、特に大血管閉塞（LVO）の場合に、虚血性脳卒中の診断と治療に不可欠な脳血管樹への洞察を提供する重要なモダリティです。したがって、臨床ワークフローは、LVOに苦しむ患者の

occlusion

arXiv

detection

augmentation

segmentation

arXiv reaDer

learning

CNN

classification
リンク
体系的なIoU関連の方法：より良いローカリゼーションのための単純化された回帰を超えて
A Systematic IoU-Related Method: Beyond Simplified Regression for Better Localization Smooth-ℓ_1Lossなどの4変数独立回帰ローカリゼーション損失は、最新の検出器でデフォルトで使用されます。それにもかかわらず、この種の損失は単純化されすぎているため、最終的な評価指標である交差点（IoU）と矛盾します。標準のIoUを直接使用することも不可能ではありません。これは、重複しないボックスの場合の一定のゼロのプラトーと、最小の非ゼロの勾配により、トレーニングが不可能になる可能性があるためです。したがって、これらの問題に対処するための体系的な方法を提案します。まず、新しいメトリックである拡張IoU（EIoU）を提案します。これは、2つのボックスがオーバーラップしていない場合は明確に定義され、オーバーラップし
arxiv_reader 2021/12/06
Smooth-ℓ_1Lossなどの4変数独立回帰ローカリゼーション損失は、最新の検出器でデフォルトで使用されます。それにもかかわらず、この種の損失は単純化されすぎているため、最終的な評価指標である交差

localization

arXiv

detection

CT

arXiv reaDer

gradient

metric

R-CNN
リンク
SSDL：自己管理辞書学習
arxiv_reader 2021/12/06
ラベル埋め込み辞書学習（DL）アルゴリズムは、識別情報を導入することにより、影響力のある辞書を生成します。ただし、制限があります。すべてのラベル埋め込みDLメソッドは、この方法が教師あり学習で理想的な

dataset

attention

arXiv

unsupervised

human

arXiv reaDer

semi-supervised

learning

self-supervised

activity
リンク
ヒッチハイカーの事前シフト適応ガイド
arxiv_reader 2021/12/06
多くのコンピュータビジョン分類タスクでは、テスト時のクラスの事前確率は、トレーニングセットの事前確率とは異なることがよくあります。このような事前シフトの場合、分類器は、最適なパフォーマンスに近い状態を

dataset

computer vision

arXiv

adaptation

estimation

arXiv reaDer

learning

classification
リンク
顔を効率的に検出する：調査と評価
arxiv_reader 2021/12/06
顔検出は、画像内の顔の可能なすべての領域を検索し、存在する場合は顔を見つけることです。顔認識、顔の表情認識、顔追跡、頭位推定などの多くのアプリケーションは、顔の位置とサイズの両方が画像内でわかっている

occlusion

dataset

tracking

arXiv

detection

arXiv reaDer

face recognition

pose estimation

metric

video
リンク
個々の歯のセグメンテーションと識別により、歯科用 CBCT 画像と歯列全体の口腔内印象を完全自動で統合し、ステッチングエラーを修正します。
arxiv_reader 2021/12/06
各画像の弱点を補完することにより、口腔内スキャン（IOS）と歯科用コーンビームコンピューター断層撮影（CBCT）画像を1つの画像に統合する完全に自動化された方法を紹介します。歯科用CBCTだけでは、画

landmark

arXiv

identification

segmentation

arXiv reaDer
リンク
AudioViewer：サウンドの視覚化を学ぶ
arxiv_reader 2021/12/06
感覚代用の分野における長年の目標は、オーディオコンテンツを視覚化することにより、聴覚障害者が音を知覚できるようにすることです。音声とテキスト、またはテキストと画像の間で翻訳する既存のモデルとは異なり、

face

arXiv

human

disentangling

arXiv reaDer

learning

video
リンク
MT-TransUNet：皮膚病変のセグメンテーションと分類のためのトランスフォーマーでのマルチタスクトークンの仲介
arxiv_reader 2021/12/06
自動皮膚がん診断の最近の進歩により、理事会認定の皮膚科医と同等のパフォーマンスが得られています。ただし、これらのアプローチは、単純な分類タスクとして皮膚がんの診断を定式化し、病変のセグメンテーションか

arXiv

augmentation

segmentation

arXiv reaDer

transformer

multi-task

classification
リンク
事前のヒストグラム均等化による教師なし低照度画像強調
arxiv_reader 2021/12/06
低照度の画像を強調するための深層学習ベースの方法では、通常、膨大なペアのトレーニングデータが必要です。これは、実際のシナリオでキャプチャするのは実用的ではありません。最近、教師なしアプローチが、ペアの

arXiv reaDer

unsupervised

disentangling

arXiv
リンク
PixelSteganalysis：視覚的な劣化が少ないピクセル単位の隠し情報の削除
arxiv_reader 2021/12/06
最近、ステガノグラフィの分野は、ディープラーニング（DL）に基づく急速な発展を遂げています。 DLベースのステガノグラフィは、カバー画像の利用可能なすべてのビットに秘密情報を配布するため、従来のステガ

arXiv

benchmark

arXiv reaDer

learning

metric
リンク
NeRF-SR：スーパーサンプリングを使用した高品質のニューラル放射輝度フィールド
NeRF-SR: High-Quality Neural Radiance Fields using Super-Sampling NeRF-SRは、主に低解像度（LR）入力を使用した高解像度（HR）の新しいビュー合成のソリューションです。私たちの方法は、多層パーセプトロンを使用してポイントごとの密度と色を予測するNeural Radiance Fields（NeRF）に基づいて構築されています。 NeRFは任意の縮尺で画像を生成する一方で、観察された画像を超える解像度に苦労しています。私たちの重要な洞察は、NeRFにはローカルの事前分布があるということです。つまり、3Dポイントの予測を近くの領域に伝播し、正確さを保つことができます。最初に、各画像ピクセルで複数の光線を発射するスーパーサンプリング戦略によってそれを活用します。これにより、サブピクセルレベルでマルチビュー制約が適用されます。
arxiv_reader 2021/12/06
NeRF-SRは、主に低解像度（LR）入力を使用した高解像度（HR）の新しいビュー合成のソリューションです。私たちの方法は、多層パーセプトロンを使用してポイントごとの密度と色を予測するNeural R

3D

dataset

synthesis

arXiv

arXiv reaDer
リンク
L-Verse：画像とテキスト間の双方向生成
arxiv_reader 2021/12/06
自然言語の長距離の相互作用を学ぶことをはるかに超えて、トランスフォーマーは、そのパワーと拡張性を備えた多くのビジョンタスクの事実上の標準になりつつあります。特に画像とテキスト間のクロスモーダルタスクで

domain

arXiv

detection

arXiv reaDer

transformer

quantization

representation learning

reconstruction
リンク
関節埋め込みのレンズによる運動分析
arxiv_reader 2021/12/06
共同埋め込み（JE）は、マルチモーダルデータをベクトル空間にエンコードする方法であり、テキストは接地キーとして残り、画像などの他のモダリティはそのようなキーで固定されます。ミームは通常、テキストが埋め

arXiv reaDer

embedding

arXiv
リンク
MSP：マルチスケールスーパーピクセルによる境界セグメンテーションの改良
arxiv_reader 2021/12/06
本論文では、セマンティックセグメンテーション結果の境界品質を改善するためのシンプルで効果的なメッセージパッシング方法を提案した。スーパーピクセルブロックの生成された鋭いエッジに触発されて、特徴マップ内

arXiv reaDer

dataset

semantic segmentation

arXiv
リンク
改善されたレイヤードGANからのフォアグラウンド-バックグラウンドセグメンテーションの学習
arxiv_reader 2021/12/06
ディープラーニングのアプローチは、高品質の人間による監視に大きく依存していますが、それでも、特に画像セグメンテーションタスクでは、費用がかかり、時間がかかり、エラーが発生しやすくなります。本論文では、

dataset

arXiv

human

segmentation

arXiv reaDer

learning

GAN
リンク
Panoptic SegFormer：トランスフォーマーを使用したPanopticセグメンテーションの詳細
arxiv_reader 2021/12/06
パノプティコンセグメンテーションは、共同セマンティックセグメンテーションとインスタンスセグメンテーションの組み合わせを含み、画像コンテンツは2つのタイプに分けられます。パノプティコンセグメンテーション

attention

arXiv

panoptic segmentation

zero-shot

semantic segmentation

arXiv reaDer

transformer

classification
リンク
同変形状空間学習のためのフレーム平均化
arxiv_reader 2021/12/06
形状空間学習のタスクには、一連の形状のセットを、優れた一般化プロパティを使用して潜在表現空間との間でマッピングすることが含まれます。多くの場合、実際の形状のコレクションには対称性があります。これは、形

dataset

arXiv

pose

arXiv reaDer

learning

reconstruction

representation
リンク
AirDet：自律探査のための微調整なしの少数のショット検出
arxiv_reader 2021/12/06
メタ学習戦略の成功により、少数ショットのオブジェクト検出が急速に進歩しました。ただし、既存の方法での微調整段階の要件は時間がかかり、低電力ロボットの自律探査などのリアルタイムアプリケーションでの使用を

embedding

dataset

arXiv

detection

robot

pre-training

arXiv reaDer

real time

few-shot

localization
リンク
スケルトンベースのキーフレーム選択モジュールによるジェスチャ認識
arxiv_reader 2021/12/06
効率的なジェスチャ認識のために、双方向の連続接続された2経路ネットワーク（BCCN）を提案します。 BCCNは、（i）キーフレーム経路と（ii）時間的注意経路の2つの経路で構成されています。キーフレー

3D

dataset

arXiv

gesture

arXiv reaDer

video
リンク
トレーニング用の合成データを使用したストロークベースのシーンテキストの消去
arxiv_reader 2021/12/06
自然画像のテキスト領域を妥当なコンテンツに置き換えるシーンテキスト消去は、近年、コンピュータビジョンコミュニティで大きな注目を集めています。シーンテキストの消去には、テキスト検出と画像修復という2つの

dataset

synthesis

attention

computer vision

arXiv

detection

arXiv reaDer
リンク
MFNet：弱く監視された顕著なオブジェクト検出のためのマルチフィルターディレクティブネットワーク
arxiv_reader 2021/12/06
低コストの注釈のみを使用してCNNベースの顕著性ネットワークをトレーニングするための弱く監視された顕著オブジェクト検出（WSOD）ターゲット。既存のWSODメソッドは、さまざまな手法を使用して、低コス

saliency

dataset

arXiv

weakly-supervised

detection

arXiv reaDer

metric
リンク
トレーニング可能なマイクロエクスプレッション（および大規模な合成データセット）を構成するアクションユニット
arxiv_reader 2021/12/06
費用のかかるデータ収集プロセスのため、マイクロエクスプレッションデータセットは一般に他のコンピュータービジョン分野のデータセットよりも規模がはるかに小さく、大規模なトレーニングの安定性と実行可能性が低

synthesis

dataset

face

computer vision

arXiv

human

action

arXiv reaDer
リンク
水中画像強調用のU字型トランス
arxiv_reader 2021/12/06
水中不純物の光吸収と散乱は、水中イメージングの品質を低下させます。既存のデータ駆動型ベースの水中画像エンハンスメント（UIE）技術には、さまざまな水中シーンと忠実度の高い参照画像を含む大規模なデータセ

loss function

dataset

attention

arXiv

human

arXiv reaDer

transformer
リンク
衛星搭載マルチスペクトルクラウド検出器に対する敵対的攻撃
arxiv_reader 2021/12/06
地球観測（EO）衛星によって収集されたデータは、しばしば雲の覆いに悩まされています。クラウドの存在を検出することは、ディープラーニングを使用してますます行われるようになりますが、EOアプリケーションで

bias

domain

arXiv

detection

arXiv reaDer

adversarial

learning
リンク
少数ショット分類のための距離を設定するための適応ポアンカレ点
arxiv_reader 2021/12/06
限られた例、つまり数ショットの学習から学習して一般化することは、多くの実世界のビジョンアプリケーションにとって非常に重要です。数ショットの学習を実現する主な方法は、さまざまなクラスのサンプルが特徴的な

embedding

benchmark

arXiv reaDer

arXiv

few-shot

classification

learning

metric
リンク
削減、再利用、リサイクル：機械学習研究におけるデータセットの寿命
arxiv_reader 2021/12/06
ベンチマークデータセットは、機械学習研究の組織において中心的な役割を果たします。彼らは、共有された研究問題について研究者を調整し、共有された目標に向けた進歩の尺度として機能します。この分野でのベンチマ

dataset

attention

arXiv

benchmark

arXiv reaDer

learning
リンク
リモートセンシングタスクのための自己監視された材料とテクスチャ表現学習
arxiv_reader 2021/12/06
自己監視学習は、手動で注釈を付けたラベルを使用せずに画像の特徴表現を学習することを目的としています。これは、ダウンストリームタスクのより高速な収束と優れたパフォーマンスに寄与する有用な初期ネットワーク

transfer learning

arXiv

unsupervised

detection

semantic segmentation

pre-training

arXiv reaDer

self-supervised

representation learning

classification
リンク
階層的ビジョンモデルにおけるスパースコーディングによる推論
arxiv_reader 2021/12/06
スパースコーディングは、その計算上の利点と生物学への接続のために視覚野のモデルに組み込まれています。しかし、スパース性のレベルが視覚的なタスクのパフォーマンスにどのように寄与するかはよく理解されていま

arXiv reaDer

classification

sparse

arXiv
リンク
グラフニューラルネットワークのための構造認識マルチホップグラフ畳み込み
Structure-Aware Multi-Hop Graph Convolution for Graph Neural Networks 本論文では、グラフ上の信号を分類するための空間グラフ畳み込み（GC）を提案します。既存のGCメソッドは、フィーチャスペースの構造情報の使用に制限されています。さらに、GCのシングルステップでは、ターゲットノードからのワンホップ隣接ノードの機能のみを使用します。この論文では、GCのパフォーマンスを改善するための2つの方法を提案します。1）特徴空間の構造情報を利用する方法と、2）1つのGCステップでマルチホップ情報を利用する方法です。最初の方法では、フィーチャスペースに3つの構造フィーチャを定義します。フィーチャ角度、フィーチャ距離、およびリレーショナル埋め込みです。 2番目の方法は、GC内のマルチホップネイバーのノードごとの機能を集約します。両方の方法を
arxiv_reader 2021/12/06
本論文では、グラフ上の信号を分類するための空間グラフ畳み込み（GC）を提案します。既存のGCメソッドは、フィーチャスペースの構造情報の使用に制限されています。さらに、GCのシングルステップでは、ターゲ

3D

convolutional

embedding

arXiv

arXiv reaDer

GNN

classification

point cloud
リンク
ディファレンシャルフォーカスボリュームによるフォーカスからの深い深さ
焦点深度（DFF）は、カメラの焦点の変化を使用して深度を推測する手法です。この作業では、畳み込みニューラルネットワーク（CNN）を提案して、焦点スタック内で最も焦点の合ったピクセルを見つけ、焦点推定から深度を推測します。ネットワークの重要な革新は、新しいディープディファレンシャルフォーカスボリューム（DFV）です。 DFVは、さまざまな焦点距離にわたって積み重ねられた特徴を使用して1次導関数を計算することにより、焦点分析のために焦点情報とコンテキスト情報の両方をキャプチャできます。さらに、まばらにサンプリングされた焦点スタックを処理し、最終的な予測に不確実性の推定を提供するために、焦点推定のための確率回帰メカニズムも導入します。包括的な実験は、提案されたモデルが、優れた一般化可能性と高速で複数のデータセットに対して最先端のパフォーマンスを達成することを示しています。 Depth-from-
arxiv_reader 2021/12/06
焦点深度（DFF）は、カメラの焦点の変化を使用して深度を推測する手法です。この作業では、畳み込みニューラルネットワーク（CNN）を提案して、焦点スタック内で最も焦点の合ったピクセルを見つけ、焦点推定か

dataset

arXiv

estimation

arXiv reaDer

CNN
リンク
セマンティックセグメンテーションのためのローカライズされた機能集約モジュール
arxiv_reader 2021/12/06
エンコーダとデコーダの特徴マップの類似性に基づいて、ローカライズされた特徴集約モジュールと呼ばれる新しい情報集約方法を提案します。提案された方法は、優れた意味情報を備えたデコーダの特徴マップと優れた位

dataset

COVID-19

attention

arXiv

semantic segmentation

U-Net

arXiv reaDer
リンク
オープンワールドですべてのものを検出することを学ぶ
arxiv_reader 2021/12/06
多くのオープンワールドアプリケーションでは、新しいオブジェクトの検出が必要ですが、最先端のオブジェクト検出およびインスタンスセグメンテーションネットワークは、このタスクに優れていません。重要な問題は、

dataset

domain

arXiv

detection

augmentation

segmentation

arXiv reaDer

learning

classification
リンク
LMR-CBT：アラインされていないマルチモーダルシーケンスからのマルチモーダル感情認識のためのCB-Transformerを使用したモダリティ融合表現の学習
arxiv_reader 2021/12/06
モダリティ融合表現を学習し、整列されていないマルチモーダルシーケンスを処理することは、マルチモーダル感情認識において意味があり、挑戦的です。既存のアプローチでは、方向性のあるペアワイズアテンションまた

dataset

attention

arXiv

emotion

arXiv reaDer

transformer

learning

classification

representation
リンク
オンラインビデオインスタンスセグメンテーションのためのハイブリッドインスタンス対応の時間的融合
arxiv_reader 2021/12/06
最近、トランスフォーマーベースの画像セグメンテーション手法は、以前のソリューションに対して顕著な成功を収めています。ビデオドメインの場合、フレーム全体のオブジェクトインスタンスに注意を払いながら時間コ

dataset

attention

arXiv

domain

segmentation

arXiv reaDer

CNN

representation

video
リンク
長い画像を短くする：ビジョントランスフォーマーの適応トークン長
arxiv_reader 2021/12/06
ビジョントランスフォーマーは、各画像を固定長のトークンのシーケンスに分割し、自然言語処理の単語と同じ方法でトークンを処理します。通常、トークンが多いほどパフォーマンスは向上しますが、計算コストが大幅に

arXiv

action recognition

arXiv reaDer

transformer

classification
リンク
TransZero：ゼロショット学習用の属性ガイド付きトランスフォーマー
TransZero: Attribute-guided Transf ormer for Zero-Shot Learning ゼロショット学習（ZSL）は、セマンティック知識を表示されているクラスから表示されていないクラスに転送することにより、新しいクラスを認識することを目的としています。セマンティックの知識は、異なるクラス間で共有される属性の説明から学習されます。これは、識別可能な領域の特徴を表すオブジェクト属性をローカライズするための強力な事前確率として機能し、視覚とセマンティックの重要な相互作用を可能にします。一部の注意ベースのモデルは、単一の画像でそのような領域の特徴を学習しようとしましたが、視覚的特徴の転送可能性と識別属性のローカリゼーションは通常無視されます。この論文では、TransZeroと呼ばれる属性誘導トランスフォーマーネットワークを提案し、視覚的特徴を洗練し、ZSLでの
arxiv_reader 2021/12/06
ゼロショット学習（ZSL）は、セマンティック知識を表示されているクラスから表示されていないクラスに転送することにより、新しいクラスを認識することを目的としています。セマンティックの知識は、異なるクラス

embedding

bias

arXiv

zero-shot

benchmark

augmentation

arXiv reaDer

transformer

localization

representation
リンク
ExCon：画像分類のための説明主導の教師あり対照学習
arxiv_reader 2021/12/06
対照的な学習により、画像分類などのタスクで学習された埋め込み表現の品質が大幅に向上しました。ただし、既存の対照的な拡張方法の主な欠点は、画像コンテンツの変更につながる可能性があり、そのセマンティクスに

embedding

dataset

arXiv

augmentation

contrastive learning

arXiv reaDer

adversarial

classification

representation
リンク
CAT：視覚的対応のためのコスト集計トランスフォーマー
arxiv_reader 2021/12/06
コスト集約トランスフォーマー（CAT）と呼ばれる新しいコスト集約ネットワークを提案し、クラス内の大きな外観と幾何学的な変化によってもたらされる追加の課題を伴う意味的に類似した画像間の密な対応を見つけま

arXiv

arXiv reaDer

transformer

learning

representation

CNN

affinity

residual
リンク
IntraQ：ゼロショットネットワーク量子化のためのクラス内不均一性を備えた合成画像の学習
arxiv_reader 2021/12/06
データの合成を学ぶことは、実際のデータにアクセスすることなくニューラルネットワークを低ビット整数で表すゼロショット量子化（ZSQ）の有望な方向性として浮上しています。この論文では、実際のデータにおける

synthesis

reinforcement

arXiv

zero-shot

arXiv reaDer

quantization

learning
リンク
トレーニング後の量子化のためのきめ細かいデータ分布の調整
arxiv_reader 2021/12/06
トレーニング後の量子化は、主に元の完全なトレーニングデータセットへのアクセスを回避したために人気がありますが、パフォーマンスの低下もこの制限に起因しています。この制限を緩和するために、この論文では、キ

batch normalization

dataset

synthesis

arXiv

zero-shot

arXiv reaDer

quantization
リンク
ビデオポートレートでのニューラルリライティングと表現転送
arxiv_reader 2021/12/06
フォトリアリスティックなビデオポートレートの再現は、仮想制作と多数のVR / AR体験に役立ちます。再現された表現はソースと一致する必要があり、照明は新しい環境に合わせて調整可能である必要があるため、

face

arXiv

segmentation

arXiv reaDer

learning

multi-task

video
リンク
BioLCNet：報酬変調されたローカル接続スパイキングニューラルネットワーク
arxiv_reader 2021/12/06
最近の研究では、畳み込みニューラルネットワーク（CNN）だけが画像分類の実行可能なソリューションではないことが示されています。さらに、CNNで使用されるウェイトシェアリングとバックプロパゲーションは、

dataset

arXiv

SNN

arXiv reaDer

classification

CNN

reinforcement learning
リンク
マルチモーダルアプリケーション：画像ミームの生成
arxiv_reader 2021/12/06
ミームは面白い言葉です。インターネットミームは、世界、メディア、そして私たち自身の生活に対する私たちの認識の変化に対する独自の洞察を提供します。あなたが十分長い間インターネットをサーフィンするならば、

computer vision

arXiv

emotion

arXiv reaDer

learning
リンク
PRISM：ガイド付きサブセット選択のためのパラメーター化された劣モジュラ情報測定の豊富なクラス
arxiv_reader 2021/12/06
データセットのサイズが増え続けるにつれて、サブセット選択手法は、多数のタスクにとってますます重要になっています。他のデータポイントを避けながら、特定のデータポイントに焦点を合わせたりターゲットを設定し

dataset

arXiv

human

arXiv reaDer

learning

representation

video
リンク
画像シーケンスにおけるコンテンツとモーションのハミルトニアン演算子の解きほぐし
arxiv_reader 2021/12/06
高次元シーケンシャルデータの深い潜在変数モデルを提示します。私たちのモデルは、潜在空間をコンテンツ変数とモーション変数に因数分解します。多様なダイナミクスをモデル化するために、モーションスペースをサブ

arXiv

action

arXiv reaDer

representation

video
リンク
アイスホッケーでの選手の追跡と識別
arxiv_reader 2021/12/06
プレーヤーの追跡と識別は、コンピュータービジョンベースのアイスホッケー分析の基本的なステップです。追跡によって生成されたデータは、ゲームイベントの検出やゲーム戦略の分析など、他の多くのダウンストリーム

dataset

computer vision

arXiv

detection

identification

arXiv reaDer

pedestrian

MOT

CNN

video
リンク
CX-ToM：画像認識モデルにおける人間の信頼を高めるための心の理論による反事実的説明
arxiv_reader 2021/12/06
心の理論による反事実的説明の略であるCX-ToMを提案します。これは、深い畳み込みニューラルネットワーク（CNN）によって行われた決定を説明するための新しい説明可能なAI（XAI）フレームワークです。

attention

arXiv

human

pose

arXiv reaDer

learning

explainable

CNN

classification

single-shot
リンク
磁気共鳴画像法における体系的でスケーラブルな品質評価のためのエンジニアリングAIツール
arxiv_reader 2021/12/06
機械学習アルゴリズム、並列コンピューティング、およびハードウェアテクノロジーが進化するにつれて、大規模な医用画像データセットを実現したいという要望が高まり続けています。したがって、大規模な臨床またはト

dataset

arXiv

pooling

arXiv reaDer

learning

reconstruction

MRI
リンク
深い要因による確率的追跡
コンピュータビジョンの多くのアプリケーションでは、2Dおよび3D画像が1つしかない多数のソースからのデータを融合することにより、時間の経過に伴うオブジェクトの軌道を正確に推定することが重要です。この論文では、因子グラフベースの確率的追跡フレームワークの特徴に対して生成密度と組み合わせて深い特徴エンコーディングを使用する方法を示します。学習した特徴エンコーダーとそれらの生成密度を組み合わせた尤度モデルを提示します。どちらも教師ありの方法でトレーニングされています。また、尤度の定式化にフィードする画像分類モデルを使用して、確率を直接推測する実験も行います。これらのモデルは、モーションモデルやその他の事前情報など、ドメイン固有の知識を表す他の因子を補完するために因子グラフに追加される深い因子を実装するために使用されます。次に、因子は、ガウス事前分布を使用した拡張カルマンスムーザーの形式をとる非線
arxiv_reader 2021/12/06
コンピュータビジョンの多くのアプリケーションでは、2Dおよび3D画像が1つしかない多数のソースからのデータを融合することにより、時間の経過に伴うオブジェクトの軌道を正確に推定することが重要です。この論

3D

computer vision

arXiv

tracking

pose

arXiv reaDer

generative

transformer

classification

trajectory
リンク
カーネル依存性の最大化による自己監視学習
arxiv_reader 2021/12/06
統計的依存性の観点から画像表現の自己監視学習にアプローチし、ヒルベルト・シュミット独立基準（SSL-HSIC）を使用した自己監視学習を提案します。 SSL-HSICは、画像の変換の表現と画像のアイデン

arXiv

semantic segmentation

estimation

arXiv reaDer

semi-supervised

learning

self-supervised

classification

representation
リンク
RobustBench / AutoAttackは、敵対的なロバストネスに適したベンチマークですか？
arxiv_reader 2021/12/06
最近、RobustBench（Croce etal。2020）は、画像分類ネットワークの敵対的なロバスト性について広く認識されているベンチマークになりました。最も一般的に報告されているサブタスクでは、

arXiv

human

detection

benchmark

arXiv reaDer

adversarial

classification
リンク
UGRWO-COVID-19データセットのサンプリング：不均衡なデータ分類へのグラフに基づく修正されたランダムウォークアンダーサンプリングアプローチ
arxiv_reader 2021/12/06
この論文は、不均衡なデータセットのグラフに基づいた新しいRWOサンプリング（ランダムウォークオーバーサンプリング）を提案します。この方法では、アンダーサンプリングとオーバーサンプリングの方法に基づく2

dataset

COVID-19

arXiv

arXiv reaDer

classification
リンク
深層学習ベースの定量的MRIのためのモンテカルロドロップアウトを使用したニューラルネットワークの不確実性の定量化
arxiv_reader 2021/12/06
ドロップアウトは、通常、トレーニングフェーズで正則化方法として、および深層学習の不確実性を定量化するために使用されます。トレーニング中および推論ステップ中にドロップアウトを使用し、不確実性を低減および

dataset

arXiv

arXiv reaDer

regularization

learning

MRI
リンク
3DLiDARポイントクラウドセグメンテーションの再考
arxiv_reader 2021/12/06
多くのポイントベースのセマンティックセグメンテーション方法は、屋内シナリオ用に設計されていますが、屋外環境でLiDARセンサーによってキャプチャされたポイントクラウドに適用すると、問題が発生します。こ

3D

dataset

arXiv

LiDAR

semantic segmentation

arXiv reaDer

point cloud
リンク
直接ボリュームレンダリングのための高速ニューラル表現
ニューラルシーン表現が3Dスカラー場を高い再構成品質で効果的に圧縮する可能性があるにもかかわらず、シーン表現ネットワークを使用したトレーニングとデータ再構成ステップの計算の複雑さは、実際のアプリケーションでの使用を制限します。このホワイトペーパーでは、シーン表現ネットワークを変更してこれらの制限を軽減できるかどうか、およびこれらのアーキテクチャを時間的再構築タスクにも使用できるかどうかを分析します。 GPUテンソルコアを使用してシーン表現ネットワークの新しい設計を提案し、再構成をオンチップレイトレーシングカーネルにシームレスに統合します。さらに、従来のデータ駆動型アプローチの代替としての画像誘導ネットワークトレーニングの使用を調査し、品質と速度に関するこの代替の潜在的な長所と短所を調査します。時変フィールドの空間超解像アプローチの代替として、任意の粒度でのランダムアクセス再構成を可能にする
arxiv_reader 2021/12/06
ニューラルシーン表現が3Dスカラー場を高い再構成品質で効果的に圧縮する可能性があるにもかかわらず、シーン表現ネットワークを使用したトレーニングとデータ再構成ステップの計算の複雑さは、実際のアプリケーシ

3D

arXiv

arXiv reaDer

reconstruction

representation

super-resolution
リンク
プログラム合成による野生の親族関係検証の課題における家族の解決
arxiv_reader 2021/12/06
親族の検証は、親子、兄弟、または祖父母と孫の関係が2人の間に存在するかどうかを判断するタスクであり、ソーシャルメディアアプリケーション、法医学調査、行方不明の子供を見つけること、および家族の再会におい

synthesis

dataset

arXiv

human

arXiv reaDer
リンク
FuseDream：CLIP + GANスペースの最適化が改善されたトレーニング不要のテキストから画像への生成
arxiv_reader 2021/12/06
自然言語の指示から画像を生成することは、興味をそそるが非常に困難な作業です。再トレーニングされたCLIP表現の能力を既製の画像ジェネレーター（GAN）と組み合わせ、GANの潜在空間で最適化して、指定さ

dataset

arXiv

zero-shot

augmentation

arXiv reaDer

generative

representation

GAN
リンク
単眼RGBビデオからのニューラルヘッドアバター
arxiv_reader 2021/12/06
ニューラルヘッドアバターは、AR / VRや、デジタルヒューマンに依存する映画やゲーム業界の他のアプリケーションでの電話会議に使用できる、アニメート可能な人間のアバターの表面形状と外観を明示的にモデル

synthesis

face

arXiv

human

monocular

disentangling

pose

arXiv reaDer

reconstruction

representation
リンク
D3Net：RGB-Dスキャンでの半教師あり高密度キャプションと視覚的接地のためのスピーカー-リスナーアーキテクチャ
D3Net: A Speaker-Listener Architecture for Semi-supervised Dense Captioning and Visual Grounding in RGB-D Scans 3Dでのクローズドキャプションと視覚的接地に関する最近の研究は、印象的な結果を達成しています。両方の分野での開発にもかかわらず、利用可能な3D視覚言語データの量が限られているため、3D視覚的接地および3D高密度キャプション手法の過剰適合の問題が発生します。また、複雑な3D環境でオブジェクトを区別して記述する方法はまだ十分に研究されていません。これらの課題に対処するために、D3Netを紹介します。これは、検出、記述、および識別が可能なエンドツーエンドのニューラルスピーカー-リスナーアーキテクチャです。私たちのD3Netは、自己批判的な方法で3Dの高密度キャプションと視覚的
arxiv_reader 2021/12/06
3Dでのクローズドキャプションと視覚的接地に関する最近の研究は、印象的な結果を達成しています。両方の分野での開発にもかかわらず、利用可能な3D視覚言語データの量が限られているため、3D視覚的接地および

3D

dataset

arXiv

captioning

RGB-D

arXiv reaDer

semi-supervised
リンク
バイオインスパイアード偏光イベントカメラ
シャコ目（シャコ目）の視覚システムは、最近、パラダイムシフト偏光およびマルチスペクトルイメージングセンサーの設計の青写真を提供し、困難な医療およびリモートセンシングの問題に対するソリューションを可能にしました。ただし、これらのバイオインスパイアードセンサーは、stomatopodビジュアルシステムのハイダイナミックレンジ（HDR）と非同期偏光ビジョン機能を欠いており、時間分解能を\ 〜12 msに、ダイナミックレンジを\ 〜72dBに制限しています。ここでは、最大ナイキストフレームレートを超えて電力とサンプルデータを節約するために、持続的で一時的な生物学的視覚経路を模倣する、新しいシャコに触発された偏光カメラを紹介します。このバイオインスパイアードセンサーは、100万倍の照明範囲にわたって、ミリ秒未満の遅延で同期強度フレームと非同期偏光輝度変化情報の両方を同時にキャプチャします。当社のPD
arxiv_reader 2021/12/06
シャコ目（シャコ目）の視覚システムは、最近、パラダイムシフト偏光およびマルチスペクトルイメージングセンサーの設計の青写真を提供し、困難な医療およびリモートセンシングの問題に対するソリューションを可能に

arXiv reaDer

arXiv
リンク
光学リモートセンシング画像における顕著な物体検出のためのマルチコンテンツ補完ネットワーク
arxiv_reader 2021/12/06
コンピュータビジョンコミュニティでは、自然シーン画像（NSI-SOD）からの顕著なオブジェクト検出で大きな進歩が達成されました。対照的に、光学リモートセンシング画像（RSI-SOD）での顕著な物体検出

saliency

dataset

attention

computer vision

arXiv

detection

arXiv reaDer
リンク
ディープニューラルネットワークを介したスケーリングされた回折計算で計算された位相のみのホログラムの最適化
arxiv_reader 2021/12/06
コンピューターで生成されたホログラム（CGH）は、ホログラフィック3次元（3D）ディスプレイおよびホログラフィック投影で使用されます。再構成された画像の振幅を制御することが難しいため、位相のみのCGH

arXiv reaDer

3D

learning

arXiv
リンク
Ptolemyを使用して低温電子顕微鏡データ収集を自動化する方法を学ぶ
arxiv_reader 2021/12/06
過去10年間で、極低温電子顕微鏡法（cryo-EM）は、生体高分子のネイティブに近い、原子に近い解像度の3D構造を決定するための主要な方法として登場しました。クライオEMの需要の高まりに対応するには、

3D

dataset

computer vision

arXiv

human

U-Net

arXiv reaDer

learning

CNN

classification
リンク
膵臓のH＆E染色された全スライド画像における自動腫瘍セグメンテーション
arxiv_reader 2021/12/06
膵臓がんは、間もなく西洋社会におけるがん関連死の2番目の主要な原因となるでしょう。 CT、MRI、超音波などの画像技術は通常、初期診断の提供に役立ちますが、組織病理学的評価は依然として疾患の存在と予後

CT

arXiv reaDer

arXiv

MRI

CNN

segmentation

identification

multi-task

detection
リンク
MDFM：少数ショット学習のための多決定融合モデル
arxiv_reader 2021/12/06
近年、研究者は、データ不足の問題に対処するための数ショット学習（FSL）タスクにますます注目を集めています。標準のFSLフレームワークは、次の2つのコンポーネントで構成されています。i）事前トレーニン

embedding

dataset

attention

arXiv

benchmark

arXiv reaDer

few-shot

semi-supervised

learning
リンク
自然な画像マットのためのTrimapガイド付き機能マイニングとフュージョンネットワーク
arxiv_reader 2021/12/06
トライマップガイダンスの利用とマルチレベル機能の融合は、ピクセルレベルの予測を使用したトライマップベースのマット化の2つの重要な問題です。トライマップガイダンスを利用するために、ほとんどの既存のアプロ

dataset

arXiv

pooling

benchmark

arXiv reaDer
リンク
自己監視ありおよび監視ありの方法は、同様の視覚的表現を学習しますか？
arxiv_reader 2021/12/06
視覚的な自己監視型深層学習のための最近の多くの手法の成功にもかかわらず、最終的に学習される表現についての調査は限られています。神経表現の比較における最近の進歩を活用することにより、対照的な自己監視アル

arXiv

arXiv reaDer

contrastive

learning

self-supervised

representation
リンク
マジョリティはマイノリティを助けることができます：ロングテール分類のためのコンテキストリッチなマイノリティオーバーサンプリング
arxiv_reader 2021/12/06
クラスの不均衡なデータの問題は、少数派クラスのデータが不足しているために分類器の一般化パフォーマンスが低下することです。本論文では、背景画像として多数派クラスの豊富なコンテキストを活用することにより、

arXiv reaDer

classification

benchmark

arXiv
リンク
マスク着用率を推定するための検出ベースおよび回帰ベースのアプローチの有効性
arxiv_reader 2021/12/06
公共の場所でのマスク着用率を推定することは、保健当局が政策を迅速に分析して実施することを可能にするので重要です。画像解析に基づいてマスク着用率を推定する方法が報告されている。ただし、方法論とデータセッ

dataset

face

arXiv

detection

estimation

arXiv reaDer

classification

video
リンク
PoseKernelLifter：サウンドを使用した3D人間のポーズのメトリックリフティング
arxiv_reader 2021/12/06
単一のビュー画像からメートルスケールで人物の3Dポーズを再構築することは、幾何学的に不適切な問題です。たとえば、追加のシーンの仮定（たとえば、既知の高さ）がないと、単一のビュー画像からカメラまでの人物

CNN

3D

augmentation

arXiv reaDer

pose

reconstruction

person

arXiv

metric

human
リンク
最適化ベースのメタ学習を使用したビデオでのカメラの歪みを意識した3D人間の姿勢推定
arxiv_reader 2021/12/06
歪みのないデータセットでトレーニングされた既存の3D人間の姿勢推定アルゴリズムは、特定のカメラの歪みがある新しいシナリオに適用すると、パフォーマンスが低下します。この論文では、代表的な最適化ベースのメ

keypoint

synthesis

3D

arXiv reaDer

dataset

pose estimation

video

arXiv

human pose estimation
リンク
ILabel：インタラクティブなニューラルシーンのラベリング
arxiv_reader 2021/12/06
3Dニューラルフィールドを使用したジオメトリ、色、およびセマンティクスの共同表現により、ユーザーがハンドヘルドRGB-Dセンサーを使用してリアルタイムでシーンを再構築するときに、超疎な相互作用からの正

pre-training

3D

arXiv reaDer

dataset

semantic segmentation

real time

representation

RGB-D

arXiv
リンク
NeSF：3Dシーンの一般化可能なセマンティックセグメンテーションのためのニューラルセマンティックフィールド
arxiv_reader 2021/12/06
ポーズをとったRGB画像のみから3Dセマンティックフィールドを生成する方法であるNeSFを紹介します。古典的な3D表現の代わりに、私たちの方法は、3D構造が点ごとの関数によってキャプチャされる陰関数的

synthesis

3D

arXiv reaDer

pose

semantic segmentation

representation

arXiv
リンク
- 2021年12月7日
- 2021年12月6日
- 2021年12月3日

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx