On Learning Contrastive Representations for Learning with Noisy Labels ディープニューラルネットワークは、softmaxクロスエントロピー(CE)損失を伴う、ノイズの多いラベルを簡単に記憶することができます。以前の研究では、CE損失にノイズに強い損失関数を組み込むことに焦点を当ててこの問題に対処しようとしました。ただし、暗記の問題は軽減されますが、堅牢でないCE損失のために残ります。この問題に対処するために、CE損失の下で分類器がラベルノイズを記憶するのが難しいデータのロバストな対照表現の学習に焦点を当てます。ラベルノイズが表現学習を支配しないノイズの多いデータ上でそのような表現を学習するために、新しい対照的な正則化関数を提案します。提案された正則化関数によって誘発される表現を理論的に調査することにより、学習された表現が
Ensembles of Vision Transformers as a New Paradigm for Automated Classification in Ecology 生物多様性の監視は、特に地球規模の変化の時代に、天然資源を管理および保護するために最も重要です。大規模な時間的または空間的スケールで生物の画像を収集することは、自然生態系の生物多様性の変化を監視および研究するための有望な手法であり、環境への干渉を最小限に抑えて大量のデータを提供します。深層学習モデルは現在、生物の分類単位への分類を自動化するために使用されています。ただし、これらの分類器の不正確さは、制御が困難な測定ノイズをもたらし、データの分析と解釈を大幅に妨げる可能性があります。私たちの研究では、この制限は、以前の最先端技術(SOTA)を大幅に上回るデータ効率の高いイメージトランスフォーマー(DeiT)のアン
画像の復元は、劣化した画像をノイズのない画像に復元する低レベルの視覚タスクです。ディープニューラルネットワークの成功により、畳み込みニューラルネットワークは従来の復元方法を上回り、コンピュータービジョン分野の主流になりました。ノイズ除去アルゴリズムのパフォーマンスを向上させるために、U-Netから改良された階層アーキテクチャを採用することにより、ブラインド実像ノイズ除去ネットワーク(SRMNet)を提案します。具体的には、M-Netと呼ばれる階層構造上に残余ブロックを持つ選択カーネルを使用して、マルチスケールの意味情報を強化します。さらに、SRMNetは、定量的メトリックと視覚的品質の点で、2つの合成データセットと2つの実世界のノイズの多いデータセットで競争力のあるパフォーマンス結果をもたらします。ソースコードと事前トレーニング済みモデルは、https://github.com/Tenta
Adaptive Path Planning for UAVs for Multi-Resolution Semantic Segmentation 効率的なデータ収集方法は、地球とその生態系をよりよく理解するのに役立つ主要な役割を果たします。多くのアプリケーションでは、監視およびリモートセンシングのための無人航空機(UAV)の使用は、その高い機動性、低コスト、および柔軟な展開により、急速に勢いを増しています。重要な課題は、飛行時間の制限を考慮して、大規模な環境で取得したデータの価値を最大化するためのミッションを計画することです。これは、たとえば、農地の監視に関連しています。この論文は、UAVを使用する正確なセマンティックセグメンテーションのための適応パス計画の問題に対処します。 UAVパスを適応させて、着信画像で検出される詳細な領域で必要な高解像度のセマンティックセグメンテーションを取得
Syntax-Aware Network for Handwritten Mathematical Expression Recognition 手書きの数式認識(HMER)は、多くの潜在的なアプリケーションがある挑戦的なタスクです。 HMERの最近の方法は、エンコーダ-デコーダアーキテクチャで卓越したパフォーマンスを実現しています。ただし、これらの方法は、予測が「ある文字から別の文字へ」行われるというパラダイムに準拠しており、数式の複雑な構造やカニのある手書きのために、必然的に予測エラーが発生します。本論文では、エンコーダ-デコーダネットワークに構文情報を組み込んだ最初のHMERの簡単で効率的な方法を提案します。具体的には、各式のLaTeXマークアップシーケンスを解析ツリーに変換するための一連の文法規則を示します。次に、マークアップシーケンス予測を、深いニューラルネットワークを使用したツ
A Deep Neural Framework for Image Caption Generation Using GRU-Based Attention Mechanism 画像のキャプションは、画像のテキスト説明の作成を含む、コンピュータビジョンと自然言語処理の急成長している研究分野です。この研究は、事前にトレーニングされた畳み込みニューラルネットワーク(CNN)を使用して画像から特徴を抽出し、特徴を注意メカニズムと統合し、リカレントニューラルネットワーク(RNN)を使用してキャプションを作成するシステムの開発を目的としています。画像をグラフィック属性として特徴ベクトルにエンコードするために、事前にトレーニングされた複数の畳み込みニューラルネットワークを採用しました。その後、記述文を構成するデコーダーとして、GRUと呼ばれる言語モデルが選択されます。パフォーマンスを向上させるために、
Towards Universal Backward-Compatible Representation Learning ビジュアル検索システムの従来のモデルアップグレードでは、ギャラリー画像を新しいモデル(「埋め戻し」と呼ばれる)にフィードしてギャラリー機能をオフラインで更新する必要があります。これは、特に大規模なアプリケーションでは、時間と費用がかかります。したがって、下位互換性のある表現学習のタスクは、新しいクエリ機能が古いギャラリー機能と相互運用可能な、埋め戻しのないモデルのアップグレードをサポートするために導入されました。成功したにもかかわらず、以前の作業では、クローズセットのトレーニングシナリオのみを調査し(つまり、新しいトレーニングセットは古いトレーニングセットと同じクラスを共有します)、より現実的でやりがいのあるオープンセットシナリオによって制限されています。この目的のた
モデルのロバスト性を評価するための「破損」として使用できる一連の画像変換と、ニューラルネットワークをトレーニングするための「データ拡張」メカニズムを紹介します。提案された変換の主な違いは、Common Corruptionsなどの既存のアプローチとは異なり、シーンのジオメトリが変換に組み込まれているため、現実の世界で発生する可能性が高い破損につながることです。これらの変換は「効率的」(オンザフライで計算可能)、「拡張可能」(実際の画像のほとんどのデータセットに適用可能)であり、既存のモデルの脆弱性を明らかにし、 「3Dデータ拡張」メカニズム。いくつかのタスクとデータセットで実行された評価は、3D情報を堅牢性のベンチマークとトレーニングに組み込むことで、堅牢性の研究に有望な方向性を開くことを示唆しています。 We introduce a set of image transformation
Self-Supervised Learning for Real-World Super-Resolution from Dual Zoomed Observations この論文では、参照ベースの超解像(RefSR)における2つの難しい問題、(i)適切な参照画像の選択方法、および(ii)自己監視方式で実世界のRefSRを学習する方法について検討します。特に、デュアルカメラズーム(SelfDZSR)での観測からの実世界の画像SRのための新しい自己監視学習アプローチを提示します。最初の問題では、ズームの小さい(望遠)画像のSRをガイドするための参照として、ズームの大きい(望遠)画像を自然に活用できます。 2番目の問題では、SelfDZSRは深いネットワークを学習して、望遠画像と同じ解像度で短焦点画像のSR結果を取得します。この目的のために、監視情報として追加の高解像度画像の代わりに望遠画像
Exploring Smoothness and Class-Separation for Semi-supervised Medical Image Segmentation 注釈付きの医療データの量は限られていることが多く、接着エッジまたは低コントラスト領域の近くに多くのぼやけたピクセルがあるため、半教師ありセグメンテーションは医療画像処理において依然として困難です。この問題に対処するために、まず、強い摂動がある場合とない場合のサンプルの一貫性を制約して、十分な滑らかさの正則化を適用し、モデルトレーニングにラベルのないあいまいなピクセルを利用するようにクラスレベルの分離をさらに促進することをお勧めします。特に、本論文では、ピクセルレベルの滑らかさとクラス間分離を同時に探求することにより、半教師あり医療画像セグメンテーションタスクのためのSS-Netを提案します。ピクセルレベルの滑らかさ
Benchmarking Robustness of Deep Learning Classifiers Using Two-Factor Perturbation 深層学習(DL)分類器の精度は、敵対的な画像、不完全な画像、または摂動された画像で再テストすると大幅に変化する可能性があるという点で不安定なことがよくあります。このホワイトペーパーでは、欠陥のある画像に対するDL分類器の堅牢性のベンチマークに関する基本的な作業を追加します。堅牢なDL分類子を測定するために、以前の調査では単一要素の破損が報告されています。クリーンセット、単一要素摂動のセット、および2要素摂動条件のセットを含む包括的な69のベンチマーク画像セットを作成しました。最先端の2因子摂動には、(a)両方のシーケンスに適用される2つのデジタル摂動(ソルト&ペッパーノイズとガウスノイズ)、および(b)1つのデジタル摂動(ソル
Colon Nuclei Instance Segmentation using a Probabilistic Two-Stage Detector 癌は、先進国における主要な死因の1つです。がんの診断は、疑わしい組織のサンプルの顕微鏡分析によって行われます。このプロセスには時間がかかり、エラーが発生しやすくなりますが、ディープラーニングモデルは癌の診断中に病理学者に役立つ可能性があります。 CenterNet2オブジェクト検出モデルを変更して、インスタンスのセグメンテーションも実行することを提案します。これをSegCenterNet2と呼びます。 CoNICチャレンジデータセットでSegCenterNet2をトレーニングし、競合指標でマスクR-CNNよりも優れたパフォーマンスを発揮することを示します。 Cancer is one of the leading causes of dea
サイバーフィジカルシステムにおけるタイミングエラーの影響に関するより広範な問題のケーススタディとして、ナビゲーションカメラのタイミングエラーの問題に焦点を当てます。これらのシステムは、特定の事柄が同時に発生する、または特定の事柄が特定の期間Tで定期的に発生するという要件に依存しています。ただし、これらのシステムがより複雑になると、コンポーネント間でタイミングエラーが発生し、イベントが同時発生するという仮定に違反する可能性があります(または定期的)。 2台のカメラで撮影された2D画像で検出された光学マーカーを使用して3D空間でマーカーを特定する外科ナビゲーションシステムの問題を検討します。参照要素として知られるこのようなマーカーの事前定義された配列は、患者の画像上で手術器具の対応するCADモデルをナビゲートするために使用されます。カメラは、両方のカメラからの写真がまったく同時に撮影されている
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く