Open-Vocabulary Instance Segmentation via Robust Cross-Modal Pseudo-Labeling オープンボキャブラリーインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメント化することを目的としています。これは、面倒な人間の監督を減らすための重要なステップです。ほとんどの既存の作品は、最初に多くの新しいクラスをカバーするキャプション付き画像でモデルを事前トレーニングし、次にマスク注釈を使用して限定された基本クラスでモデルを微調整します。ただし、キャプションの事前トレーニングだけから学習した高レベルのテキスト情報では、ピクセル単位のセグメンテーションに必要な詳細を効果的にエンコードすることはできません。これに対処するために、キャプション内の単語のセマンティクスを画像内のオブジェクトマスクの視覚的特徴と位置合
ワンショットNASメソッドで優れたスーパーネットをトレーニングすることは、検索スペースが通常かなり大きいため(たとえば、13 ^ 21)困難です。スーパーネットの評価能力を高めるための貪欲な戦略の1つは、良いパスをサンプリングし、スーパーネットを良いパスに傾けて、結果として評価の負担を軽減することです。ただし、実際には、適切なパスの識別が十分に正確でなく、サンプリングされたパスが検索スペース全体に散在しているため、検索は依然として非常に非効率的である可能性があります。このホワイトペーパーでは、明示的なパスフィルタを利用してパスの特性をキャプチャし、それらの弱いパスを直接フィルタリングして、縮小されたスペースで検索をより貪欲かつ効率的に実装できるようにします。具体的には、良いパスは空間内の弱いパスよりもはるかに少ないという事実に基づいて、マルチパスサンプリングでは「弱いパス」のラベルは「良い
Lepard: Learning partial point cloud matching in rigid and deformable scenes Lepardを紹介します。これは、剛体で変形可能なシーンの部分的な点群マッチングのための学習ベースのアプローチです。 Lepardの主な特徴は、点群マッチングのために3D位置知識を活用する次のアプローチです。1)点群表現を特徴空間と3D位置空間に解きほぐすアーキテクチャ。 2)ベクトルの内積を介して3D相対距離情報を明示的に明らかにする位置エンコード方式。 3)点群間の相対位置を変更する再配置手法。アブレーション研究は、上記の技術の有効性を示しています。リジッドポイントクラウドマッチングの場合、Lepardは3DMatch / 3DLoMatchベンチマークに、93.6%/ 69.0%の登録リコールを備えた新しい最先端技術を設定します。変
UDA-COPE: Unsupervised Domain Adaptation for Category-level Object Pose Estimation オブジェクトのポーズを推定する方法を学ぶには、CADモデルや絶対スケールのオブジェクトのポーズなどのグラウンドトゥルース(GT)ラベルが必要になることがよくあります。これは、現実の世界で取得するには費用と手間がかかります。この問題に取り組むために、UDA-COPEと呼ばれるカテゴリレベルのオブジェクトポーズ推定のための教師なしドメイン適応(UDA)を提案します。最近のマルチモーダルUDA手法に触発されて、提案された方法は、ターゲットドメインラベルを使用せずにポーズ推定ネットワークをトレーニングするために、教師と学生の自己監視学習スキームを活用します。また、予測正規化オブジェクト座標空間(NOCS)マップと観測点群の間に双方向フ
Water Care: Water Surface Cleaning Bot and Water Body Surveillance System 人が汚染について聞くときはいつでも、ほとんどの場合、彼らの頭に浮かぶ最初の考えは大気汚染です。世界で最も過小評価され議論されている汚染の1つは、私たちの水域の非生分解性廃棄物によって引き起こされる汚染です。インドの場合、川や湖の表面にはプラスチック廃棄物がたくさんあります。ガンジス川は、最終的に海に流れ込むプラスチックの90%を占める10の川のひとつであり、この廃棄物によって地元のナラーや湖が汚染されているケースが多くあります。これはきれいな水の源を制限し、水源の大幅な枯渇につながります。 2001年から2012年にかけて、ハイデラバード市では3245ヘクタールの湖が放散しました。ニューデリー南部では、水は平均して年に9フィート後退します。した
SPCL:セマンティックプロトタイプベースの対照学習によるドメイン適応セマンティックセグメンテーションの新しいフレームワーク SPCL: A New Framework for Domain Adaptive Semantic Segmentation via Semantic Prototype-based Contrastive Learning 教師ありセグメンテーションには大きな進歩がありますが、ドメインの偏りのために、セグメンテーションモデルを見えないドメインに展開することは依然として困難です。ドメイン適応は、ラベル付きのソースドメインからラベルなしのターゲットドメインに知識を転送することにより、この点で役立ちます。以前の方法は通常、グローバルフィーチャで適応を実行しようとしますが、フィーチャスペースの各ピクセルを説明するローカルセマンティックアフィリエーションは無視されることが
Hidden-Fold Networks: Random Recurrent Residuals Using Sparse Supermasks ディープニューラルネットワーク(DNN)はパラメータが多すぎるため、最近の調査では、ランダムに初期化された状態で高精度のサブネットワークがすでに含まれていることがわかりました。これらのサブネットワークを見つけることは、重み学習の実行可能な代替トレーニング方法です。並行して、別の一連の作業では、深い残余ネットワーク(ResNet)が浅いリカレントニューラルネットワーク(RNN)の動作を近似しようとしていると仮定し、それらをリカレントモデルに圧縮する方法を提案しました。このホワイトペーパーでは、これらの研究ラインを高度に圧縮された正確なモデルであるHidden-Fold Networks(HFN)にブレンドすることを提案します。最初にResNetを繰
One-shot Visual Reasoning on RPMs with an Application to Video Frame Prediction レイヴンのプログレッシブマトリックス(RPM)は、人間の視覚的推論能力の評価に頻繁に使用されます。研究者は、RPMの問題を自動的に解決できるシステムの開発に多大な努力を払ってきました。多くの場合、視覚認識と論理的推論の両方のタスクのために、ブラックボックスのエンドツーエンド畳み込みニューラルネットワーク(CNN)を使用します。説明性の高いソリューションを開発するという目的に向けて、知覚モジュールと推論モジュールを含む2段階のフレームワークであるOne-shot Human-Understandable ReaSoner(Os-HURS)を提案し、現実世界の課題に取り組みます。それぞれ、視覚認識とそれに続く論理的推論タスク。推論モジュ
従来の畳み込みニューラルネットワーク(CNN)やビジョントランスフォーマーとは異なり、多層パーセプトロン(MLP)は、完全に接続されたレイヤーによってのみスタックされる非常にシンプルなアーキテクチャを備えた新しい種類のビジョンモデルです。ビジョンMLPの入力画像は通常、複数のトークン(パッチ)に分割されますが、既存のMLPモデルは、異なる画像からのトークンのさまざまなセマンティック情報を無視して、固定の重みでそれらを直接集約します。トークンを動的に集約するために、各トークンを振幅と位相の2つの部分を持つ波動関数として表すことを提案します。振幅は元の特徴であり、位相項は入力画像のセマンティックコンテンツに応じて変化する複素数値です。位相項を導入すると、MLPのトークンと固定重みの間の関係を動的に調整できます。波のようなトークン表現に基づいて、ビジョンタスク用の新しいWave-MLPアーキテク
近年、視覚言語事前トレーニング(VLP)に基づく画像キャプションタスクのパフォーマンスが大幅に向上しました。規模はこの進歩の重要な要因であると考えられています。ただし、ほとんどの既存の作業は、約400万枚の画像で中程度のサイズ(たとえば、12層または24層)のトランスを事前トレーニングすることにのみ焦点を当てています。このホワイトペーパーでは、LargEスケールのiMageキャプティオナーであるLEMONを紹介し、画像キャプションのVLPのスケーリング動作に関する最初の実証的研究を提供します。最先端のVinVLモデルを参照モデルとして使用します。これは、画像特徴抽出器とトランスフォーマーモデルで構成され、モデルサイズが1,300万から6億7,500万パラメーターの範囲でトランスフォーマーを拡大および縮小します。データに関しては、画像のalt属性(ALT200Mと呼ばれる)に基づいてWebか
Source-free unsupervised domain adaptation for cross-modality abdominal multi-organ segmentation 腹部の多臓器セグメンテーションのために、ソースラベル付きCTデータセットからターゲットラベルなしMRデータセットに学習した知識を転送するためのドメイン適応を達成することは価値があります。一方、ターゲットデータセットの高い注釈コストを回避し、ソースデータセットのプライバシーを保護することが非常に望ましいです。したがって、ソースデータセットにアクセスせずにクロスモダリティ腹部多臓器セグメンテーションのための効果的なソースフリー教師なしドメイン適応方法を提案します。提案されたフレームワークのプロセスには、2つの段階があります。最初の段階では、特徴マップの統計損失を使用して、トップセグメンテーションネットワ
自己教師あり学習の最近の進歩により、教師あり表現学習と教師なし表現学習の間のギャップが減少しました。ただし、ほとんどの自己監視型のディープクラスタリング手法は、データ拡張に大きく依存しているため、拡張を実行するためのドメイン知識が不十分な多くの学習タスクでは効果がありません。ドメインにとらわれないクラスタリングのための新しい自己蒸留ベースのアルゴリズムを提案します。私たちの方法は、既存のディープクラスタリングフレームワークに基づいて構築されており、個別の学生モデルを必要としません。提案された方法は、CIFAR-10の既存のドメインにとらわれない(拡張のない)アルゴリズムよりも優れています。知識蒸留は、予測ラベルのみを使用するよりもモデルからより豊富な「暗い知識」を抽出することにより、教師なし表現学習を改善できることを経験的に示しています。予備実験では、自己蒸留によってDeepCluster
In-field early disease recognition of potato late blight based on deep learning and proximal hyperspectral imaging ジャガイモ疫病(PLB)の効果的な早期発見は、ジャガイモ栽培の重要な側面です。しかし、キャノピーレベルで表示される視覚的な手がかりがないため、従来のイメージングアプローチでは、フィールドで疫病を早期に検出することは困難です。ハイパースペクトルイメージングは、可視波長外の広範囲の波長からのスペクトル信号をキャプチャすることができます。これに関連して、2D畳み込みニューラルネットワーク(2D-CNN)と3D-CNNを深層協調注意ネットワーク(PLB-2D-3D-A)と組み合わせることにより、ハイパースペクトル画像の深層学習分類アーキテクチャを提案します。まず、2D-C
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く