The MIS Check-Dam Dataset for Object Detection and Instance Segmentation Tasks ディープラーニングは、他のコンピュータービジョンタスクの中でも、オブジェクト検出とインスタンスセグメンテーションの多くの最近の進歩につながりました。これらの進歩により、衛星画像のオブジェクト検出タスクでディープラーニングベースの方法と関連する方法論が広く適用されるようになりました。本稿では、農業に使用される灌漑構造の重要性に焦点を当て、砂防堰の検出とマッピングのための自動システムを構築するための衛星画像からの砂防堰の新しいデータセットであるMISCheck-Damを紹介します。最新のオブジェクト検出およびインスタンスセグメンテーション方法のいくつかを確認し、新しいデータセットでのパフォーマンスを評価します。さまざまなネットワーク構成と
Robust Partial-to-Partial Point Cloud Registration in a Full Range 3Dオブジェクトの点群登録は、測定値がまばらでノイズが多く、観測が不完全で、変換が大きいため、非常に困難です。この作業では、グラフマッチングコンセンサスネットワーク(GMCNet)を提案します。これは、フルレンジ1の部分から部分への点群登録(PPR)のポーズ不変の対応を推定します。ロバストなポイント記述子をエンコードするために、1)まず、さまざまな幾何学的特徴の変換ロバスト性とノイズ耐性を包括的に調査します。 2)次に、新しい変換ロバストポイントトランスフォーマー(TPT)モジュールを使用して、構造関係に関するローカルフィーチャを適応的に集約します。これは、手作りの回転不変(RI)フィーチャとノイズ耐性のある空間座標の両方を利用します。 3)階層グラフネット
Human Imperceptible Attacks and Applications to Improve Fairness 現代のニューラルネットワークは、オブジェクトの分類と画像の生成を含む多くのタスクで、少なくとも人間と同じように実行できます。ただし、人間が認識できない小さな摂動は、十分に訓練されたディープニューラルネットワークのパフォーマンスを大幅に低下させる可能性があります。人間ベースの画質評価方法を統合して、人間には知覚できないが深いニューラルネットワークに重大な損傷を与える最適な攻撃を設計するDRO(Distributionly Robust Optimization)フレームワークを提供します。広範な実験を通じて、私たちの攻撃アルゴリズムは、他の最先端の人間の知覚できない攻撃方法よりも高品質の(人間には知覚されにくい)攻撃を生成することを示しています。さらに、最適に設計
ニューラルラディアンスフィールド(NeRF)は、3Dシーンの表現と新しいビューの合成に大きな可能性を示していますが、推論段階でのNeRFの計算オーバーヘッドは依然として重いです。負担を軽減するために、NeRFの粗いものから細かいものへの階層的なサンプリング手順を掘り下げ、粗いステージをニューラルサンプルフィールドと名付けた軽量モジュールに置き換えることができることを指摘します。提案されたサンプルフィールドは、光線をサンプル分布にマッピングします。サンプル分布は、ポイント座標に変換され、ボリュームレンダリングのために放射輝度フィールドに供給されます。全体的なフレームワークはNeuSampleという名前です。 2つの人気のある3DシーンセットであるRealisticSynthetic 360 ^∘とRealForward-Facingで実験を行い、NeuSampleがNeRFよりも優れたレンダ
Assessment of Data Consistency through Cascades of Independently Recurrent Inference Machines for fast and robust accelerated MRI reconstruction 解釈可能性と堅牢性は、臨床アプリケーションで加速磁気共鳴画像法(MRI)再構成のための機械学習手法を統合するために不可欠です。そうすることで、解剖学と病理学の高速で高品質のイメージングが可能になります。データの一貫性(DC)は、マルチモーダルデータの一般化と病理の検出における堅牢性にとって非常に重要です。この作業は、独立再帰推論マシンのカスケード(CIRIM)を提案し、展開された最適化を通じて、暗黙的に最急降下法によって、明示的に設計された用語によってDCを評価します。 CIRIMを、エンドツーエンド変分
Probabilistic Estimation of 3D Human Shape and Pose with a Semantic Local Parametric Model この論文は、RGB画像からの3D人体形状と姿勢推定の問題に取り組んでいます。このタスクへのいくつかの最近のアプローチは、入力画像を条件とする人体モデルパラメータの確率分布を予測します。これは、特に体の一部が局所的に閉塞されている場合に、複数の3D再構成が画像の証拠と一致する可能性があるという問題の不適切な性質によって動機付けられています。ただし、広く使用されているボディモデル(SMPLなど)のボディ形状パラメータは、ボディ表面全体のグローバルな変形を制御します。これらのグローバルな形状パラメータの分布は、局所的に閉塞された身体部分に関連する形状推定の不確実性を有意義に捉えることができません。対照的に、(i)セマ
Seeking Salient Facial Regions for Cross-Database Micro-Expression Recognition この論文は、トレーニングとテストのマイクロエクスプレッションサンプルが異なるマイクロエクスプレッションデータベースに属する、クロスデータベースマイクロエクスプレッション認識の研究に焦点を当てています。トレーニングとテストのマイクロエクスプレッション機能間の機能分布の不一致は、ほとんどのパフォーマンスの高いマイクロエクスプレッションメソッドのパフォーマンスを低下させます。クロスデータベースマイクロ式認識を処理するために、転送グループスパース回帰(TGSR)と呼ばれる新しいドメイン適応方法を提案します。 TGSRは、顕著な顔の局所領域を選択するためのスパース回帰行列と、トレーニングセットとテストセットの対応する関係を学習します。 CASM
自己監視型の事前トレーニングは、自然言語処理モデルに最適な方法であり、多くのビジョンタスクで急速に人気が高まっています。最近、自己監視あり事前トレーニングは、多くのダウンストリームビジョンアプリケーションで教師あり事前トレーニングよりも優れていることが示され、この地域で画期的な出来事となっています。この優位性は、複数の概念を伝えるトレーニング画像の不完全なラベル付けの悪影響に起因しますが、単一の支配階級ラベルを使用して注釈が付けられます。自己監視学習(SSL)には原則としてこの制限はありませんが、SSLを促進する口実タスクの選択は、学習プロセスを単一の概念出力に向けて推進することにより、この欠点を永続させています。この研究は、ラベルを使用せずに画像に存在するすべての概念をモデル化する可能性を調査することを目的としています。この側面では、提案されたSSLフレームワークMC-SSL0.0は、マ
TridentAdapt: Learning Domain-invariance via Source-Target Confrontation and Self-induced Cross-domain Augmentation グラウンドトゥルースラベルを取得するのは難しいため、仮想世界のデータセットから学習することは、セマンティックセグメンテーションなどの実際のアプリケーションにとって非常に重要です。ドメイン適応の観点から、重要な課題は、仮想データから利益を得るために、入力のドメインにとらわれない表現を学習することです。この論文では、共有機能エンコーダーを適用して、対立するソースとターゲットの制約を同時に満たす、ドメイン不変の機能空間を学習する、新しいトライデントのようなアーキテクチャを提案します。さらに、フォワードパス中に自己誘導クロスドメインデータ拡張を可能にする新しいトレーニン
Affect-DML: Context-Aware One-Shot Recognition of Human Affect using Deep Metric Learning 人間の感情認識は、心理的ケアなど、多くの用途を持つ確立された研究分野ですが、既存の方法では、注釈付きのトレーニング例としてすべての関心の感情が事前に与えられることを前提としています。ただし、新しい心理学理論による人間の感情スペクトルの粒度の向上と洗練、およびコンテキストでの感情の考慮の増加は、データ収集とラベル付け作業にかなりの圧力をもたらします。この論文では、文脈における感情のワンショット認識を概念化します。これは、単一のサポートサンプルからより細かい粒子レベルで人間の感情状態を認識することを目的とした新しい問題です。この困難なタスクに対処するために、ディープメトリック学習パラダイムに従い、人間の外観の補足情報
コンピュータビジョンの進歩により、画像操作の限界が押し上げられており、生成モデルがさまざまなタスクの詳細な画像をサンプリングしています。ただし、多くの画像編集タスクは類似点を共有していますが、特定のタスクごとに特殊なモデルが開発およびトレーニングされることがよくあります。ノイズ除去、修復、または画像合成では、常に低品質の画像からリアルな画像を生成することを目的としています。この論文では、画像編集の統一されたアプローチに向けた一歩を踏み出すことを目指しています。そのために、ベクトル量子化オートエンコーダーによって構築された離散潜在空間でトレーニングされた双方向トランスフォーマーであるEdiBERTを提案します。任意のパッチを条件付きで画像全体に再サンプリングできるため、このような双方向モデルは画像操作に適していると主張します。このユニークでわかりやすいトレーニング目標を使用して、結果のモデル
Using a GAN to Generate Adversarial Examples to Facial Image Recognition オンラインで投稿された画像は、顔認識システムの参照例として使用される可能性があるという点でプライバシーの懸念を示しています。このような画像の乱用はプライバシー権を侵害しますが、対抗することは困難です。ディープニューラルネットワークに基づく認識システム用に敵対的なサンプル画像を作成できることは十分に確立されています。これらの敵対的な例は、参照例またはトレーニングデータとしての画像の有用性を混乱させるために使用できます。この作業では、Generative Adversarial Network(GAN)を使用して、顔認識を欺くための敵対的例を作成し、顔認識をだますことで許容可能な成功率を達成します。私たちの結果は、ディスクリミネーターコンポーネントを
PlantStereo: A Stereo Matching Benchmark for Plant Surface Dense Reconstruction ステレオマッチングは、コンピュータビジョンにおける重要なタスクであり、何十年にもわたって多大な研究の注目を集めてきました。視差の精度、密度、データサイズの観点からは、パブリックステレオデータセットはモデルの要件を満たすのが困難です。この論文では、データセットとモデルの間の問題に対処し、PlantStereoという名前の高精度の視差グラウンドトゥルースを備えた大規模ステレオデータセットを提案することを目指しています。半自動の方法を使用してデータセットを構築しました。カメラのキャリブレーションと画像レジストレーションの後、深度画像から高精度の視差画像を取得できます。 PlantStereoには、ほうれん草、トマト、コショウ、カボチャなど
最近、ビジョントランスフォーマー(ViT)とそのバリアントは、さまざまなコンピュータービジョンタスクで有望なパフォーマンスを達成しています。しかし、ViTの高い計算コストとトレーニングデータ要件は、リソースに制約のある設定でのアプリケーションを制限します。モデル圧縮は深層学習モデルを高速化するための効果的な方法ですが、ViTの圧縮に関する研究はあまり検討されていません。これまでの多くの作業は、トークンの数を減らすことに重点を置いています。ただし、この一連の攻撃はViTの空間構造を破壊し、ダウンストリームタスクに一般化するのは困難です。この論文では、ViTとそのバリアント、つまりUP-ViTの両方の構造的剪定のための統一されたフレームワークを設計します。私たちの方法は、モデル構造の一貫性を維持しながら、すべてのViTコンポーネントを枝刈りすることに焦点を当てています。豊富な実験結果は、私たち
Source-free unsupervised domain adaptation for cross-modality abdominal multi-organ segmentation 腹部の多臓器セグメンテーションのために、ソースラベル付きCTデータセットからターゲットラベルなしMRデータセットに学習した知識を転送するためのドメイン適応を達成することは価値があります。一方、ターゲットデータセットの高い注釈コストを回避し、ソースデータセットのプライバシーを保護することが非常に望ましいです。したがって、ソースデータセットにアクセスせずにクロスモダリティ腹部多臓器セグメンテーションのための効果的なソースフリー教師なしドメイン適応方法を提案します。提案されたフレームワークのプロセスには、2つの段階があります。最初の段階では、特徴マップの統計損失を使用して、トップセグメンテーションネットワ
積極的なデータ拡張は、Vision Transformer(ViT)の強力な一般化機能の重要なコンポーネントです。そのようなデータ拡張手法の1つは、敵対的訓練です。しかし、多くの以前の研究は、これがしばしば不十分な洗浄精度をもたらすことを示しました。この作業では、ViTの全体的なパフォーマンスを向上させるためのシンプルで効果的な手法であるピラミッド敵対トレーニングを紹介します。これを「一致した」ドロップアウトと確率的深さの正則化と組み合わせます。これは、クリーンなサンプルと敵対的なサンプルに同じドロップアウトと確率的深さの構成を採用します。 AdvPropによるCNNの改善(ViTには直接適用されません)と同様に、Pyramid Adversarial Trainingは、ViTおよび関連アーキテクチャの配布内の精度と配布外の堅牢性の間のトレードオフを打ち破ります。 ImageNet-1K
条件付き画像生成(CIG)は、コンピュータービジョンと機械学習で広く研究されている問題です。クラスを指定すると、CIGはこのクラスの名前を入力として受け取り、このクラスに属する一連のイメージを生成します。既存のCIG作品では、クラスごとに、クラス間の関係を考慮せずに、対応する画像が個別に生成されます。実際のアプリケーションでは、クラスは階層に編成されており、その階層関係は高忠実度の画像を生成するのに役立ちます。この論文では、条件付き画像生成のためにクラス階層を活用することを目指しています。クラス階層を組み込む2つの方法を提案します。事前制御と事後制約です。事前制御では、最初にクラス階層をエンコードし、次にそれを事前条件として条件付きジェネレーターにフィードして画像を生成します。制約後、画像が生成された後、クラス階層との整合性を測定し、整合性スコアを使用してジェネレーターのトレーニングをガイ
Trust the Critics: Generatorless and Multipurpose WGANs with Initial Convergence Guarantees 最適な輸送理論からのアイデアに触発されて、生成モデリングの新しいアルゴリズムであるTrust the Critics(TTC)を紹介します。このアルゴリズムは、WassersteinGANからトレーニング可能なジェネレーターを排除します。代わりに、一連の訓練された評論家ネットワークで最急降下法を使用してソースデータを繰り返し変更します。これは、批評家の勾配によって提供される最適な輸送方向と、トレーニング可能なジェネレーターによってパラメーター化されたときにデータポイントが実際に移動する方向との間に観察された不整合によって部分的に動機付けられています。以前の研究は異なる視点から同様のアイデアに到達しましたが、最
AssistSR: Affordance-centric Question-driven Video Segment Retrieval 電話とARメガネのAIアシスタントが、「この時計の日付を調整する方法」などの質問に答えるのに私たちの日常生活を支援できることは、今でも夢のようなことです。と「加熱時間を設定する方法は?(オーブンを指さしながら)」。従来のタスク(つまり、ビデオの質問応答、ビデオの取得、モーメントのローカリゼーション)で使用されるクエリは、多くの場合、事実に基づいており、純粋なテキストに基づいています。対照的に、アフォーダンス中心の質問駆動型ビデオセグメント検索(AQVSR)と呼ばれる新しいタスクを提示します。私たちの質問はそれぞれ、日常生活におけるアイテムのアフォーダンスに焦点を当て、関連する回答セグメントが教育用ビデオトランスクリプトセグメントのコーパスから取得されるこ
Hyperspectral Image Segmentation based on Graph Processing over Multilayer Networks ハイパースペクトルイメージングは、環境科学、気象、地理/宇宙探査などの分野で幅広い用途と影響を与える重要なセンシング技術です。ハイパースペクトル画像(HSI)処理の重要なタスクの1つは、スペクトル空間特徴の抽出です。この作業では、多層ネットワーク(M-GSP)を介した最近開発されたグラフ信号処理を活用して、M-GSP特徴抽出に基づくHSIセグメンテーションへのいくつかのアプローチを提案します。結合スペクトル空間情報をキャプチャするには、最初にHSIのテンソルベースの多層ネットワーク(MLN)モデルをカスタマイズし、特徴抽出用のMLN特異空間を定義します。次に、MLNスペクトルクラスタリングを利用して、教師なしHSIセグメンテ
DAFormer:ドメイン適応型セマンティックセグメンテーションのためのネットワークアーキテクチャとトレーニング戦略の改善 DAFormer: Improving Network Architectures and Training Strategies for Domain-Adaptive Semantic Segmentation セマンティックセグメンテーションのために実世界の画像のピクセル単位の注釈を取得することはコストのかかるプロセスであるため、代わりにモデルをよりアクセスしやすい合成データでトレーニングし、注釈を必要とせずに実際の画像に適合させることができます。このプロセスは、教師なしドメイン適応(UDA)で研究されています。多くの方法が新しい適応戦略を提案していますが、それらはほとんどが時代遅れのネットワークアーキテクチャに基づいています。最近のネットワークアーキテクチャの
画像分類器が間違ったクラスラベルを出力する場合、画像のどのような変更が正しい分類につながるかを確認すると役立つ場合があります。これは、反事実的説明を生成するアルゴリズムの目的です。ただし、そのような反事実を生成するための簡単にスケーラブルな方法はありません。低計算コストでスペクトル正規化でトレーニングされた大きな画像分類器の反事実的説明を提供する新しいアルゴリズムを開発します。このアルゴリズムを文献のベースラインと経験的に比較します。私たちの新しいアルゴリズムは、元の入力にはるかに近い反事実を一貫して見つけます。同時に、これらの反事実のリアリズムはベースラインに匹敵します。すべての実験のコードは、https://github.com/benedikthoeltgen/DeDUCEで入手できます。 When an image classifier outputs a wrong class
Nonlinear Intensity Underwater Sonar Image Matching Method Based on Phase Information and Deep Convolution Features 深海探査の分野では、ソナーは現在、唯一の効率的な長距離検知装置です。ノイズ干渉、低いターゲット強度、バックグラウンドダイナミクスなどの複雑な水中環境は、ソナーイメージングに多くの悪影響をもたらしています。それらの中で、非線形強度の問題は非常に一般的です。これは、音響センサーイメージングの異方性としても知られています。つまり、自律型無人潜水機(AUV)がソナーを搭載して同じターゲットを異なる角度から検出する場合、画像ペア間の強度の変動が非常に大きくなることがあります。これにより、従来のマッチングアルゴリズムが実現します。ほとんど効果がありません。ただし、画像のマッ
Learning to Transfer for Traffic Forecasting via Multi-task Learning ディープニューラルネットワークは、短期間のトラフィック予測で優れたパフォーマンスを発揮しました。ただし、ほとんどの既存のトラフィック予測システムは、トレーニングデータとテストデータが同じ基礎となる分布から取得されることを前提としているため、実際の適用性が制限されます。 NeurIPS 2021 Traffic4castチャレンジは、空間と時間のドメインシフトに対するトラフィック予測モデルの堅牢性のベンチマークに特化した最初のチャレンジです。このテクニカルレポートでは、この課題に対するソリューションについて説明します。特に、トラフィック予測モデルの時間的および時空間ドメイン適応のためのマルチタスク学習フレームワークを提示します。実験結果は、私たちのマルチタ
記録された状況では、テキスト情報はシーンの解釈と意思決定に不可欠です。画像上でテキストを直接編集する機能には、エラー訂正、テキストの復元、画像の再利用性など、多くの利点があります。この調査は、文字と数字のレベルで画像テキストを変更する方法を示しています。私は、デジタル画像をエンコードおよびデコードし、ソース文字のフォントスタイルを学習してターゲット文字に転送するために、2部構成の文字と数字のネットワーク(LDN)を考案しました。この方法では、画像の大文字、小文字、数字を更新できます。 In a recorded situation, textual information is crucial for scene interpretation and decision making. The ability to edit text directly on images has a num
Image preprocessing and modified adaptive thresholding for improving OCR この論文では、テキスト内の主要なピクセル強度を見つけ、それに応じて画像をしきい値処理して、光学式文字認識(OCR)モデルに使用しやすくする方法を提案しました。私たちの方法では、画像全体を編集する代わりに、テキストの境界とそれらを塗りつぶす色を除く他のすべての機能を削除しています。このアプローチでは、入力画像からの文字のグレースケール強度がしきい値パラメータの1つとして使用されます。開発されたモデルのパフォーマンスは、PyTesseractによるOCRが続く画像処理の有無にかかわらず、入力画像で最終的に検証されます。得られた結果に基づいて、このアルゴリズムは、OCRの画像処理の分野で効率的に適用できることが観察できます。 In this paper
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く