MuSCLe: A Multi-Strategy Contrastive Learning Framework for Weakly Supervised Semantic Segmentation 弱教師ありセグメンテーション(WSSS)は、教師ありセグメンテーション(SSS)メソッドで必要なピクセルレベルの注釈ではなく、画像レベルの注釈などの弱いラベルのみに依存するため、非常に人気があります。注釈コストが大幅に削減されたにもかかわらず、WSSSから学習した典型的な特徴表現は、オブジェクトのいくつかの顕著な部分を表すだけであり、トレーニング中のガイダンスが弱いため、SSSと比較して信頼性が低くなります。この論文では、画像、領域、ピクセル、オブジェクトの境界レベルで対照的なサンプルペアの類似性と非類似性を活用することにより、拡張された機能表現を取得し、WSSSパフォーマンスを向上させる新し
粒子ピッキングは、現在、極低温電子顕微鏡法の単粒子再構成パイプラインにおける重要なステップです。取得した顕微鏡写真の汚染は、粒子ピッカーのパフォーマンスを大幅に低下させ、その結果、収集された粒子のスタックに多くの「非粒子」が生じます。この論文では、ASOCEM(クライオEMにおける汚染の自動セグメンテーション)を紹介します。これは、おおよその粒子サイズのみを入力として必要とする、汚染を検出してセグメント化する自動方法です。特に、パラメータの調整や手動による介入は必要ありません。私たちの方法は、汚染された領域の統計的分布が他の顕微鏡写真のそれとは異なるという観察に基づいています。この非制限的な仮定により、サポートグリッドのカーボンエッジからさまざまなサイズの高コントラストのブロブまで、さまざまなタイプの汚染を自動的に検出できます。さまざまなタイプの汚染を含むさまざまな実験データセットを使用し
Deep Equilibrium Models for Video Snapshot Compressive Imaging 高次元(HD)データを効率的にキャプチャするスナップショット圧縮イメージング(SCI)システムの機能は、圧縮されたノイズの多い測定からHD信号を復元するという逆問題を引き起こしました。ディープラーニングの最近の進歩により、再構築アルゴリズムは急速に成長してそれを解決しますが、正確で安定した回復の根本的な問題は残っています。この目的のために、ビデオSCIの深平衡モデル(DEQ)を提案し、データ駆動型の正則化と安定した収束を理論的に適切な方法で融合します。各平衡モデルは、非拡張演算子を暗黙的に学習し、固定小数点を分析的に計算します。これにより、トレーニングとテストで一定のメモリ要件のみで、無制限の反復ステップと無限のネットワーク深度が可能になります。具体的には、DEQを
構造的ニューラルネットワークの剪定は、最終的な出力精度にとってそれほど重要ではないフィルターを剪定することにより、深い畳み込みニューラルネットワーク(CNN)の冗長チャネルを削除することを目的としています。剪定後のパフォーマンスの低下を減らすために、多くの方法では、スパース正則化による損失を利用して、構造化されたスパース性を生成します。この論文では、これらのスパース性トレーニングベースの方法を分析し、剪定されていないチャネルの正則化が不要であることを発見しました。さらに、ネットワークの容量が制限されるため、フィッティングが不十分になります。この問題を解決するために、剪定を意識したスパース正則化を使用した、MaskSparsityという名前の新しい剪定方法を提案します。 MaskSparsityは、モデルのすべてのフィルターではなく、プルーニングマスクによって選択された特定のフィルターにきめ
DDU-Net: Dual-Decoder-U-Net for Road Extraction Using High-Resolution Remote Sensing Images 高解像度リモートセンシング画像(HRSI)から道路を抽出することは、自動運転、経路計画、道路ナビゲーションなど、さまざまなアプリケーションで不可欠です。長くて細い形状と、植生や建物によって引き起こされる色合いのために、小さいサイズの道路は識別がより困難です。複数のサイズの道路がHRSIに共存する場合の小型道路抽出の信頼性と精度を向上させるために、この論文ではDual-Decoder-U-Net(DDU-Net)と呼ばれる拡張ディープニューラルネットワークモデルを提案します。 U-Netモデルに動機付けられて、より詳細な機能のためのデュアルデコーダー構造を形成するために小さなデコーダーが追加されています。さらに
Cross-modal Contrastive Distillation for Instructional Activity Anticipation この研究では、過去の観察を前提として、もっともらしい将来の行動ステップを予測し、教育活動の予測のタスクを研究することを目指しています。アクションラベルの予測を目的とした以前の予測タスクとは異なり、私たちの作業は、将来のアクションステップの解釈可能で正確な説明を提供する自然言語出力を生成することを目的としています。教育ビデオから抽出されたセマンティック情報が不足しているため、これは困難な作業です。この課題を克服するために、視覚的予測タスクを支援するために関連する外部のテキスト知識を活用するための新しい知識蒸留フレームワークを提案します。ただし、以前の知識蒸留技術は、通常、同じモダリティ内で情報を転送します。蒸留プロセス中の視覚的モダリティと
機械学習の研究を対象とした、孤立した印刷文字の合成データジェネレーターであるOmniPrintを紹介します。 MNIST、SVHN、Omniglotなどの有名なデータセットからインスピレーションを得ていますが、カスタマイズされた歪みを使用して、さまざまな言語、フォント、スタイルからさまざまな印刷文字を生成する機能を提供します。 27のスクリプトからの935のフォントと、さまざまな種類の歪みが含まれています。概念実証として、今後のMetaDL NeurIPS 2021コンテスト用に設計されたメタ学習データセットの例を含む、さまざまなユースケースを示します。 OmniPrintは、https://github.com/SunHaozhe/OmniPrintで入手できます。 We introduce OmniPrint, a synthetic data generator of isolate
不正確なマシンの学習を行わない既存の作業は、削除セットを削除した後に再トレーニングされたモデルとの区別がつかないようにすることに重点を置いています。区別がつかないことは不要であり、測定することは不可能であり、その実際的な緩和は不十分である可能性があると私たちは主張します。高いユーティリティとリソースの効率を維持しながら、削除セットに固有のすべての情報を忘れることとして、学習を取り消すという目標を再定義します。モデルから誤ってラベル付けされた偏ったデータを削除するという実用的なアプリケーションに動機付けられて、クラス間混乱(IC)と呼ばれる忘却の程度を測定するための新しいテストを紹介します。これにより、忘却の2つの側面を分析できます。(i)暗記と(ii)プロパティの一般化です。ブラックボックステストであるにもかかわらず、ICは、削除セットからの情報がネットワークの初期層まで消去されたかどうか
Who supervises the supervisor? Model monitoring in production using deep feature embeddings with applications to workpiece inspection 状態監視とワークピース検査の自動化は、製造プロセスの高品質と高スループットを維持する上で重要な役割を果たします。この目的のために、機械学習の最近の発展により、自律的なプロセス監視の分野で大幅な改善がもたらされました。ただし、これらのモデルが複雑で強力になるほど、一般的に透明性と説明性が低下します。主な課題の1つは、これらの機械学習システムのライブ展開を監視し、モデルのパフォーマンスに影響を与える可能性のあるイベントが発生したときにアラートを発生させることです。特に、教師あり分類器は通常、基礎となるデータ分布の定常性を前提として
Collapse by Conditioning: Training Class-conditional GANs with Limited Data クラス条件付けは、離散入力変数に基づいて生成的敵対的ネットワーク(GAN)を制御する直接的な手段を提供します。多くのアプリケーションで必要ですが、クラスラベルによって提供される追加情報は、GAN自体のトレーニングに役立つと期待することもできます。この信念に反して、クラス条件付けは限られたデータ設定でモード崩壊を引き起こし、無条件の学習が満足のいく生成能力につながることを観察します。この観察に動機付けられて、無条件の学習を活用することにより、観察されたモード崩壊を効果的に防止する条件付きGAN(cGAN)のトレーニング戦略を提案します。私たちのトレーニング戦略は、無条件のGANから始まり、条件付き情報をジェネレーターと目的関数に徐々に注入しま
一連の投影の取得中の動きは、個々のビューの高速取得にもかかわらず、コンピュータ断層撮影の再構成で重大なモーションアーチファクトを引き起こす可能性があります。心臓イメージングなどの場合、動きは避けられない場合があり、動きの評価は臨床的に重要な場合があります。モーションアーチファクトが低減された画像の再構成は、通常、ガントリーの回転が速いシステムを開発するか、変位を測定および/または推定するアルゴリズムを使用することで実現されています。ただし、これらのアプローチは、物理的な制約と、非剛性、時間的に変化する、患者固有の動きを推定/測定するという課題の両方のために、限られた成功しか収めていません。モーションアーチファクトのない時間分解画像を生成するための新しい再構成フレームワーク、NeuralCTを提案します。私たちのアプローチは、神経陰的アプローチを利用しており、基礎となる動きの推定やモデリング
AutoAlign: Pixel-Instance Feature Aggregation for Multi-Modal 3D Object Detection RGB画像またはLiDARポイントクラウドのいずれかによるオブジェクト検出は、自動運転で広く研究されてきました。ただし、これら2つのデータソースを相互に補完的かつ有益なものにすることは依然として困難です。本論文では、3Dオブジェクト検出のための自動特徴融合戦略であるAutoAlignを提案する。カメラの射影行列との決定論的な対応を確立する代わりに、学習可能なアライメントマップを使用して画像と点群の間のマッピング関係をモデル化します。このマップにより、モデルは、動的でデータ駆動型の方法で不均一な機能の配置を自動化できます。具体的には、各ボクセルのピクセルレベルの画像特徴を適応的に集約するために、クロスアテンション特徴アラインメント
A Novel Framework to Jointly Compress and Index Remote Sensing Images for Efficient Content-Based Retrieval リモートセンシング(RS)イメージは通常、アーカイブのストレージサイズを縮小するために、圧縮形式で保存されます。したがって、RSの既存のコンテンツベースの画像検索(CBIR)システムでは、CBIRを適用する前に画像をデコードする必要があります(大規模なCBIR問題の場合は計算量が多くなります)。この問題に対処するために、この論文では、RS画像の圧縮とインデックス作成を同時に学習し、CBIRを適用する前にRS画像をデコードする必要をなくす共同フレームワークを紹介します。提案されたフレームワークは、2つのモジュールで構成されています。最初のモジュールは、RS画像を効果的に圧縮するこ
FourierNet: Shape-Preserving Network for Henle's Fiber Layer Segmentation in Optical Coherence Tomography Images 網膜のヘンレの繊維層(HFL)は、目の黄斑の状態に関する貴重な情報を運びます。ただし、一般的な方法では、この層は個別にセグメント化されるのではなく、標準的な光コヒーレンストモグラフィー(OCT)イメージングでHFLの輪郭を認識することが難しいため、外顆粒層に含まれます。イメージングビームの下での反射率が変化するため、HFLの輪郭を描くには、指向性OCTが必要であり、追加のイメージングが必要になります。このホワイトペーパーでは、指向性OCTスキャンを使用した場合に得られる目標性能を使用して、標準OCTスキャンでHFLセグメンテーションを実現する形状保存ネットワークFou
Improving Performance of Semantic Segmentation CycleGANs by Noise Injection into the Latent Segmentation Space 近年、セマンティックセグメンテーションはコンピュータビジョンのさまざまな研究から恩恵を受けています。非常に用途の広いCycleGANアーキテクチャに着想を得て、セマンティックセグメンテーションとサイクル整合性の概念を組み合わせて、マルチタスクトレーニングプロトコルを実現します。ただし、学習は、潜在的なセグメンテーションドメインで透かしとして表現される、いわゆるステガノグラフィ効果によって大幅に妨げられ、画像の再構成が非常に簡単な作業になります。これに対抗するために、サイクルアーキテクチャにおけるこの不利な情報フローを回避するために、量子化ノイズまたはガウスノイズ加算のいず
Deep Learning-based Quality Assessment of Clinical Protocol Adherence in Fetal Ultrasound Dating Scans 妊娠中の胎児の健康状態を評価するために、医師は頭殿長(CRL)測定に基づく在胎週数(GA)の計算を使用して、胎児のサイズと成長軌道をチェックします。ただし、CRLに基づくGA推定では、胎児の頭頂部と尻部のビューにキャリパーを適切に配置する必要があります。これは、特に経験の浅い超音波検査技師にとって、必ずしも簡単に見つけることができる平面ではありません。真のCRLビューからわずかに斜めのビューを見つけると、CRL値が異なり、GAの推定が正しくなくなる可能性があります。この研究は、取得した平面の正確さを検証するために使用される7つの臨床スコアリング基準を検証することにより、CRLビューの品質
Dual Perceptual Loss for Single Image Super-Resolution Using ESRGAN 知覚損失の提案は、ピクセルごとの差損失関数が再構成された画像を過度に滑らかにするという問題を解決し、単一画像の超解像再構成の分野で大きな進歩を遂げます。さらに、生成的敵対的ネットワーク(GAN)が超解像フィールドに適用され、再構成された画像の視覚的品質を効果的に向上させます。しかし、高いアップスケーリング要因の条件下では、ネットワークの過度の異常な推論により、いくつかの歪んだ構造が生成されるため、再構成された画像とグラウンドトゥルース画像の間に一定の偏差があります。再構成画像の品質を根本的に改善するために、本論文は、単一画像超解像再構成の問題を解決するために元の知覚損失を置き換えるために使用される二重知覚損失(DP損失)と呼ばれる効果的な方法を提案した。
この論文では、高性能で高効率の畳み込みニューラルネットワーク〜(CNN)量子化を実現するトレーニング後量子化〜(PTQ)法を紹介します。以前のPTQメソッドは通常、レイヤーごとのパラメーターキャリブレーションを実行することで圧縮エラーを減らします。ただし、極端に圧縮されたパラメータの表現能力が低い場合(たとえば、ビット幅が4未満になる場合)、すべてのレイヤーごとのエラーを排除することは困難です。この作業は、ユニット単位の誤差の2次テイラー級数展開の観測に基づく単位単位の特徴再構成アルゴリズムを提案することによってこの問題に対処します。これは、隣接するレイヤーのパラメーター間の相互作用を活用することで、レイヤーごとのエラーをより適切に補正できることを示しています。この論文では、いくつかの隣接する層を基本ユニットとして定義し、量子化誤差を最小限に抑えることができるユニットごとのトレーニング後の
Few-shot image segmentation for cross-institution male pelvic organs using registration-assisted prototypical learning このクラスのラベル付きの例が地元の医療提供者から入手できる場合、目に見えない解剖学的または病理学的構造などの新しいクラスに医療画像セグメンテーションネットワークを適応させる機能が求められています。これは、現代の深層学習モデルを臨床診療に展開する際に広く認識されている2つの制限、専門知識と労働集約的なラベリング、および施設間の一般化に対処する可能性があります。この作品は、関心のある8つの領域を持つ前立腺癌患者からのラベル付き多施設データセットを使用して、医用画像用の最初の3D数ショットクラス間セグメンテーションネットワークを提示します。標準的なプロトタイプ学
Landscape of Neural Architecture Search across sensors: how much do they differ ? ニューラルアーキテクチャ検索の急速な台頭に伴い、検索アルゴリズムの観点からその複雑さを理解する能力が望まれています。最近、Traoréetal。は、ニューラルアーキテクチャの探索問題の記述と比較に役立つ、フィットネスランドスケープフットプリントのフレームワークを提案しています。これは、検索戦略がターゲットタスクで成功、苦労、または失敗する理由を説明しようとします。私たちの研究は、センサーデータの融合を含むセンサー全体の検索のコンテキストでこの方法論を活用しています。特に、ニューラルネットワークのハイパーパラメータ最適化問題に最も有益なセンサーを特定するために、So2SatLCZ42の実際の画像分類問題にFitnessLandsc
クロスカメラ画像データの関連付けは、マルチカメラ歩行者検出、マルチカメラマルチターゲットトラッキング、3Dポーズ推定など、多くのマルチカメラコンピュータービジョンタスクに不可欠です。この関連付けタスクは、通常、2分割グラフマッチングとして表されます。問題があり、多くの場合、最小コストのフロー手法を適用することで解決されます。これは、大きなデータでは計算効率が悪い場合があります。さらに、カメラは通常、グローバルなソリューションを一度に見つけるのではなく、ペアで処理され、ローカルなソリューションを取得します。その他の重要な問題は、親和性測定の問題です。ユークリッド距離やコサイン距離など、学習不可能な事前定義された距離が広く使用されています。この論文は、ペアでカメラを処理するのではなく、グローバルソリューションに焦点を合わせたクロスカメラデータアソシエーションのための効率的なアプローチを提案しま
ビデオ認識モデルの効率を向上させるには、冗長性を減らすことが重要です。効果的なアプローチは、全体的なビデオから有益なコンテンツを選択し、動的なビデオ認識方法の人気のあるファミリーを生み出すことです。ただし、既存の動的な方法は、冗長性が通常は空間的および時間的であるという現実を無視しながら、時間的または空間的選択に独立して焦点を合わせています。さらに、彼らが選択したコンテンツは通常、固定された形でトリミングされますが、有益なコンテンツの現実的な配布ははるかに多様になる可能性があります。これらの2つの洞察を基に、このペーパーでは、時間的および空間的選択をアクションキーポイントネットワーク(AK-Net)に統合することを提案します。 AK-Netは、さまざまなフレームと位置から、任意の形状の領域に散在するいくつかの有益なポイントをアクションキーポイントのセットとして選択し、ビデオ認識をポイントク
Segmentation of the Carotid Lumen and Vessel Wall using Deep Learning and Location Priors このレポートでは、頸動脈血管壁セグメンテーションチャレンジの方法と結果を紹介します。手元のセグメンテーション問題を解決するために、U-Netアーキテクチャとロケーション事前分布を利用した画像ベースのパイプラインを提案します。 In this report we want to present our method and results for the Carotid Artery Vessel Wall Segmentation Challenge. We propose an image-based pipeline utilizing the U-Net architecture and location
Deep Translation Prior: Test-time Training for Photorealistic Style Transfer 深い畳み込みニューラルネットワーク(CNN)内でのフォトリアリスティックなスタイル転送を解決する最近の手法では、一般に大規模なデータセットからの集中的なトレーニングが必要であるため、適用範囲が限られており、見えない画像やスタイルへの一般化能力が低くなっています。これを克服するために、Deep Translation Prior(DTP)と呼ばれる新しいフレームワークを提案します。これは、トレーニングされていないネットワークを使用した特定の入力画像ペアでのテスト時間トレーニングを通じてフォトリアリスティックなスタイルの転送を実現します。パフォーマンスと一般化。スタイル転送のためのそのようなテスト時間トレーニングに合わせて、対応および生成モジ
Discourse Analysis for Evaluating Coherence in Video Paragraph Captions ビデオ段落のキャプションは、ビデオ内のアクションの一貫した段落の説明を自動的に生成するタスクです。以前の言語学的研究は、自然言語テキストの一貫性がその談話構造と関係に反映されていることを示しています。ただし、既存のビデオキャプション方法は、生成された段落の一貫性を、人間の段落の注釈と比較するだけで評価し、基礎となる談話構造について推論することはできません。 UCLAでは、現在、ビデオ段落の一貫性を評価するための新しい談話ベースのフレームワークを模索しています。私たちのアプローチの中心は、ビデオの談話表現です。これは、ビデオの一貫性を条件とする段落の一貫性をモデル化するのに役立ちます。また、3000本のビデオとその段落の提案された視覚的談話注釈を含む
A fast and accurate iris segmentation method using an LoG filter and its zero-crossings この論文は、ガウスのラプラシアン(LoG)フィルター、領域成長、およびLoGフィルターのゼロ交差に基づいて虹彩の局在化を達成するためのハイブリッドアプローチを提示します。提案された方法では、瞳孔領域を検出するために、領域が成長するLoGフィルターが使用されます。続いて、LoGフィルターのゼロ交差を使用して、内側と外側の円形境界を正確にマークします。 LoGベースのブロブ検出とゼロクロッシングを使用すると、内側と外側の円の検出が高速で堅牢になります。提案された方法は、MMUバージョン1.0、CASIA-IrisV1およびCASIA-IrisV3-ランプの3つの公開データベースでテストされています。実験結果は、提案された
Synthesis and Reconstruction of Fingerprints using Generative Adversarial Networks ディープラーニングベースのモデルは、指紋認識の精度を向上させることが示されています。これらのアルゴリズムは並外れたパフォーマンスを示しますが、トレーニングと評価には大規模な指紋データセットが必要です。この作業では、このような大規模なデータセットの取得に関連するプライバシーの問題に対処するために、StyleGan2アーキテクチャに基づく新しい指紋合成および再構築フレームワークを提案します。また、生成された指紋のIDを保持しながら、それらの属性を変更するための計算アプローチを導き出します。これにより、指ごとに複数の異なる指紋画像を合成できます。特に、100Kの画像ペアで構成されるSynFing合成指紋データセットを紹介します。各ペ
On Maximum-a-Posteriori estimation with Plug & Play priors and stochastic gradient descent イメージングの逆問題を解くベイズ法は、通常、明示的なデータ尤度関数と、解の期待される特性を明示的にモデル化する事前分布を組み合わせます。局所的な特性を表現する単純なものから、非局所的なスケールで画像の冗長性を利用するより複雑なものまで、多くの種類の先例が文献で調査されてきました。明示的なモデリングとは異なり、最近のいくつかの研究では、画像のノイズ除去アルゴリズムによって定義された暗黙の事前分布の使用が提案され、研究されています。プラグアンドプレイ(PnP)正則化として一般に知られているこのアプローチは、特に畳み込みニューラルネットワークに基づく最先端のノイズ除去装置と組み合わせると、非常に正確な結果を提供できま
PETS-SWINF:2021Kaggleコンペティション「PetFinder.my」でのpawpularity予測のためにメタデータベースのニューラルネットワークを使用して画像を考慮する回帰法 PETS-SWINF: A regression method that considers images with metadata based Neural Network for pawpularity prediction on 2021 Kaggle Competition "PetFinder.my" 何百万もの野良動物が路上で苦しんでいるか、世界中の避難所で毎日安楽死させられています。野良動物をよりよく採用するためには、野良動物の足の長さ(かわいさ)を採点することは非常に重要ですが、動物の足の長さを評価することは非常に労働集約的なことです。その結果、動物の足の長さをスコアリングするア
教師なし、弱監視、および地域監視の変更検出のための生成的敵対的ネットワークを備えた完全畳み込み変更検出フレームワーク Fully Convolutional Change Detection Framework with Generative Adversarial Network for Unsupervised, Weakly Supervised and Regional Supervised Change Detection 変化検出のための深層学習は、リモートセンシングの分野で現在注目されているトピックの1つです。ただし、ほとんどのエンドツーエンドネットワークは、監視あり変更検出用に提案されており、監視なし変更検出モデルは、従来の事前検出方法に依存しています。したがって、教師なし、弱教師あり、地域教師あり、および完全教師ありの変化検出タスクを1つのフレームワークにまとめるために、
Sparse Cross-scale Attention Network for Efficient LiDAR Panoptic Segmentation 3D LiDARパノプティコンセグメンテーション(PS)の2つの主要な課題は、オブジェクトの点群が表面に集約されているため、特に大規模なインスタンスの場合、長距離の依存関係をモデル化するのが難しいことと、オブジェクトが近すぎて互いに分離できないことです。最近の文献では、デュアルクラスタリング、平均シフトオフセットなどの時間のかかるグループ化プロセスによって、またはジオメトリを軽視する鳥瞰図(BEV)の高密度重心表現によって、これらの問題に対処しています。ただし、長距離のジオメトリの関係は、上記の方法から学習した局所的な特徴によって十分にモデル化されていません。この目的のために、SCANを紹介します。これは、マルチスケールのスパース特徴
ライターの識別には、偽造の検出と法医学の実用的なアプリケーションがあります。ディープニューラルネットワークに基づくほとんどのモデルは、ページ領域画像に含まれる特徴を無視して、文字画像または文字画像のサブ領域から特徴を抽出します。私たちが提案するグローバルレギュラーネットワーク(GRN)は、これらの機能に注意を払っています。 GRNネットワークは2つのブランチで構成されています。1つのブランチはグローバルな特徴を抽出するための入力としてページの手書きを取り、もう1つはローカルな特徴を抽出するための入力として単語の手書きを取ります。グローバル機能とローカル機能は、グローバルな残余の方法でマージされ、手書きの全体的な機能を形成します。提案されたGRNには2つの属性があります。1つはページに含まれる特徴を抽出するためのブランチを追加することです。もう1つは、残余注意ネットワークを使用して局所的な特
SS-3DCapsNet: Self-supervised 3D Capsule Networks for Medical Segmentation on Less Labeled Data カプセルネットワークは、医療画像のセグメンテーションタスクに正常に適用された最近の新しいディープネットワークアーキテクチャです。この作業は、自己監視学習による体積医療画像セグメンテーションのためのカプセルネットワークを拡張します。以前のカプセルネットワークと比較して重みの初期化の問題を改善するために、カプセルネットワークの事前トレーニングに自己監視学習を活用します。この場合、プレテキストタスクは自己再構築によって最適化されます。当社のカプセルネットワークSS-3DCapsNetは、3DCapsuleエンコーダーと3DCNNsデコーダーを備えたUNetベースのアーキテクチャーを備えています。 iSeg-
セマンティックセグメンテーション手法では、画像内の異常なオブジェクトを直接特定することはできません。この現実的な設定からの異常セグメンテーションアルゴリズムは、分布内オブジェクトと分布外(OOD)オブジェクトを区別し、ピクセルの異常確率を出力できます。この論文では、プロトタイプガイド付き異常セグメンテーションネットワーク(PGAN)を提案して、限られた注釈付き画像から分布内トレーニングデータのセマンティックプロトタイプを抽出します。モデルでは、プロトタイプを使用して、階層カテゴリのセマンティック情報をモデル化し、OODピクセルを区別します。提案されたPGANモデルには、セマンティックセグメンテーションネットワークとプロトタイプ抽出ネットワークが含まれています。プロトタイプを最適化するために、類似性の尺度が採用されています。学習したセマンティックプロトタイプは、テスト画像から抽出された特徴と
最近、大規模なデータセットと強力なトランスフォーマーネットワークを導入することにより、ビデオ言語の事前トレーニングは、特に検索で大きな成功を収めています。それでも、既存のビデオ言語トランスフォーマーモデルは、明示的にきめ細かいセマンティックアラインメントを行いません。この作業では、オブジェクト認識トランスフォーマーを紹介します。これは、ビデオ言語トランスフォーマーを拡張してオブジェクト表現を組み込むオブジェクト中心のアプローチです。重要なアイデアは、バウンディングボックスとオブジェクトタグを活用してトレーニングプロセスをガイドすることです。広く使用されている4つのベンチマークで、ビデオテキストマッチングの3つの標準サブタスクでモデルを評価します。また、提案された方法に関する詳細な分析と詳細なアブレーションを提供します。検討したすべてのタスクとデータセットでパフォーマンスが明らかに向上してい
Tailor Versatile Multi-modal Learning for Multi-label Emotion Recognition マルチモーダルマルチラベル感情認識(MMER)は、異種の視覚、音声、およびテキストのモダリティからさまざまな人間の感情を識別することを目的としています。以前の方法は、主に複数のモダリティを共通の潜在空間に投影し、すべてのラベルについて同一の表現を学習することに焦点を当てています。これは、各モダリティの多様性を無視し、異なる視点から各ラベルのより豊富なセマンティック情報をキャプチャできません。その上、モダリティとラベルの関連する関係は十分に活用されていません。本論文では、マルチモーダル表現を洗練し、各ラベルの識別能力を強化することを目的として、マルチラベル感情認識(TAILOR)のための多用途マルチモーダル学習を提案します。具体的には、さまざまな
A Critical Analysis of Image-based Camera Pose Estimation Techniques カメラ、および視野内のオブジェクトに関連付けられているローカリゼーションは、自動運転、ロボットナビゲーション、拡張現実(AR)など、多くのコンピュータービジョンフィールドに役立つ可能性があります。この調査では、最初に、さまざまなサブタスク(学習ベースの2D-2Dタスク、機能ベースの2D-3Dタスク、および3D-3Dタスク)に応じたカメラローカリゼーションポーズの特定のアプリケーション領域と評価メトリックを紹介します。次に、構造ベースのカメラポーズ推定アプローチ、絶対ポーズ回帰、および相対ポーズ回帰アプローチの一般的な方法をレビューし、損失関数、ニューラルネットワーク構造などのアルゴリズムのさらなる改善を促す方法を批判的にモデル化します。さらに、カメラのロ
OneDConv: Generalized Convolution For Transform-Invariant Representation 畳み込みニューラルネットワーク(CNN)は、さまざまな視覚タスクで大きな力を発揮してきました。ただし、変換不変プロパティがないため、複雑な実世界のシナリオでのさらなるアプリケーションが制限されます。この作業では、入力機能に基づいて計算上およびパラメトリックに効率的な方法で畳み込みカーネルを動的に変換する、新しい一般化された1次元畳み込み演算子(OneDConv)を提案しました。提案された演算子は、変換不変の特徴を自然に抽出できます。一般的な画像のパフォーマンスを犠牲にすることなく、畳み込みの堅牢性と一般化を向上させます。提案されたOneDConv演算子は、バニラ畳み込みを置き換えることができるため、現在人気のある畳み込みアーキテクチャに組み込んで
Semantic decoupled representation learning for remote sensing image change detection 変化検出(CD)のデータ不足を軽減するための最新の転移学習ベースの方法は、主にImageNetの事前トレーニングに基づいています。自己監視学習(SSL)は、ドメイン内表現を学習するためのリモートセンシング(RS)に最近導入されました。ここでは、RS画像CDの意味分離表現学習を提案します。通常、関心のあるオブジェクト(建物など)は、広大な背景に比べて比較的小さいです。無関係な土地被覆によって支配される可能性のある1つの表現ベクトルに画像を表現する既存の方法とは異なり、セマンティックマスクを利用して、さまざまなセマンティック領域の表現を解きほぐします。さらに、モデルにさまざまなセマンティック表現を区別するように強制します。これ
Asymmetric Hash Code Learning for Remote Sensing Image Retrieval リモートセンシング画像検索(RSIR)は、特定のクエリ画像に類似したアイテムのセットを検索することを目的としており、リモートセンシングアプリケーションでは非常に重要なタスクです。現在の主流の方法としてのディープハッシュ学習は、満足のいく検索パフォーマンスを達成しています。一方では、リモートセンシング画像の意味的特徴を抽出するために、さまざまなディープニューラルネットワークが使用されます。一方、ハッシュ手法は、高次元の深い特徴を低次元のバイナリコードにマッピングするためにその後採用されます。この種のメソッドは、クエリサンプルとデータベースサンプルの両方に対して対称的な方法で1つのハッシュ関数を学習しようとします。ただし、データベースサンプルの数が増えると、通常、大
Learning Hierarchical Graph Representation for Image Manipulation Detection 画像操作検出の目的は、画像内の操作された領域を識別して特定することです。最近のアプローチでは、主に高度な畳み込みニューラルネットワーク(CNN)を採用して、画像に残された改ざんアーティファクトをキャプチャし、操作された領域を特定します。ただし、これらのアプローチでは、操作された領域と操作されていない領域の間の特徴の相関関係、つまり特徴の不一致が無視され、検出パフォーマンスが低下します。この問題に対処するために、画像操作検出用のバックボーンネットワークブランチと階層グラフ表現学習(HGRL)ブランチの2つの並列ブランチで構成される階層グラフ畳み込みネットワーク(HGCN-Net)を提案します。具体的には、特定の画像の特徴マップがバックボーンネ
CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks 対照的な言語画像事前トレーニング(CLIP)は、視覚と言語モダリティを統合された埋め込みスペースにリンクし、視覚言語(VL)タスクの大きな可能性を生み出します。初期の並行作業では、タスクのサブセットでこの可能性の調査が開始されましたが、重要な質問が残っています。1)調査されていないVLタスクでのCLIPの利点は何ですか。 2)CLIPは、ローショットまたはドメインシフトのシナリオでメリットをもたらしますか? 3)CLIPは、推論や事前トレーニングの複雑さに影響を与えることなく、既存のアプローチを改善できますか?この作業では、2つの重要な貢献を通じてこれらの質問に答えることを目指しています。最初に、さまざまなデータ可用性の制約とドメインシフトの条件にわたって、Visua
最先端のビジョンモデルのトレーニングは、研究者や実務家にとって法外な費用がかかるようになりました。アクセシビリティとリソースの再利用のために、これらのモデルをさまざまなダウンストリームシナリオに適応させることに焦点を当てることが重要です。興味深く実用的なパラダイムは、オンラインのテスト時間適応です。これによれば、トレーニングデータにアクセスできず、テスト分布からのラベル付きデータは利用できず、適応はテスト時間と少数のサンプルでのみ発生します。このホワイトペーパーでは、さまざまな実世界のシナリオで事前にトレーニングされた多数のモデルに対して、テスト時の適応方法がどのように機能するかを調査し、当初の評価方法を大幅に拡張します。狭く定義された実験設定でのみ良好に機能し、テストされているのと同じシナリオでハイパーパラメータが選択されていない場合、壊滅的に失敗することがあることを示します。テスト時に
観察者と物体の間の相対的な位置の変化を反映する幾何学的変換をコンピュータビジョンや深層学習モデルに組み込むことは、近年大きな注目を集めています。ただし、既存の提案は主に、視点の変化を完全に示すことができないアフィン変換に焦点を合わせています。さらに、現在のソリューションでは、ニューラルネットワークモジュールを適用して単一の変換行列を学習することがよくあります。これにより、さまざまな視点の可能性が無視され、トレーニング対象のモジュールパラメータが追加されます。本論文では、アフィン変換における幾何学をモデル化するだけでなく、視点の変化を反映する視点変換を学習するために、層(PT層)を提案した。さらに、畳み込み層などの従来の層のように最急降下法で直接訓練できるため、提案された単一のPT層は、追加のモジュールパラメーターを訓練することなく、調整可能な数の複数の視点を学習できます。実験と評価により、
Disentanglement enables cross-domain Hippocampus Segmentation ラベル付けされたトレーニングデータの量が限られていることは、医用画像処理でよくある問題です。これにより、十分に一般化されたモデルのトレーニングが困難になるため、未知のドメインでの失敗につながることがよくあります。磁気共鳴画像法(MRI)スキャンからの海馬のセグメンテーションは、神経精神障害の診断と治療に重要です。コントラストまたは形状のドメインの違いは、セグメンテーションに大きな影響を与える可能性があります。この問題に対処するには、T1強調MRI画像をコンテンツとドメインに解きほぐします。この分離により、ドメイン転送を実行して、新しいソースからのデータをトレーニングドメインに変換できます。したがって、このステップはセグメンテーションの問題を単純化し、より高品質のセグメ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く