One Loss for Quantization: Deep Hashing with Discrete Wasserstein Distributional Matching 画像ハッシュは、画像の大規模なコレクション内のクエリに類似したアイテムを見つけるための原則的な近似最近傍アプローチです。ハッシュは、画像をバイナリベクトルにマッピングするバイナリ出力関数を学習することを目的としています。最適な検索パフォーマンスを得るには、学習段階の連続緩和と推論段階の離散量子化の間のギャップを埋めるために、量子化誤差の少ないバランスの取れたハッシュコードを生成することが重要です。ただし、既存の詳細な監視付きハッシュ手法では、コーディングバランスと低量子化誤差を実現するのは困難であり、いくつかの損失が伴います。これは、これらの方法の既存の量子化アプローチがヒューリスティックに構築されており、これら
Augmentation-Aware Self-Supervision for Data-Efficient GAN Training 限られたデータで敵対的生成ネットワーク(GAN)をトレーニングすることは価値がありますが、そのような状況では弁別器が過剰適合する傾向があるため、困難です。最近提案された弁別器用の微分可能なデータ拡張技術は、GANのトレーニングのデータ効率の向上を示しています。ただし、単純なデータ拡張は、ディスクリミネーターへの拡張に望ましくない不変性をもたらします。不変性は、弁別器の表現学習能力を低下させ、それによって生成器の生成モデリング性能に影響を与える可能性があります。データ拡張の利点を継承しながら不変性を軽減するために、拡張された元のデータが与えられた場合に拡張のパラメータを予測する、拡張を意識した新しい自己監視型弁別器を提案します。さらに、予測タスクは、トレーニ
MVMO: A Multi-Object Dataset for Wide Baseline Multi-View Semantic Segmentation MVMO(マルチビュー、マルチオブジェクトデータセット)を紹介します。これは、10の異なるクラスのランダムに配置されたオブジェクトを含み、上半球の25のカメラ位置からキャプチャされた116,000シーンの合成データセットです。 MVMOは、フォトリアリスティックなパストレース画像レンダリングと、すべてのビューのセマンティックセグメンテーショングラウンドトゥルースで構成されます。既存のマルチビューデータセットとは異なり、MVMOは、カメラ間のベースラインが広く、オブジェクトの密度が高いため、大きな視差、大きなオクルージョン、ビューに依存するオブジェクトの外観が発生します。単一ビューのセマンティックセグメンテーションは、追加の視点から恩
Segmentation Consistency Training: Out-of-Distribution Generalization for Medical Image Segmentation 一般化可能性は、特に病院の変更や画像処理ルーチンがモデルの完全な失敗につながる可能性がある医用画像処理の分野で、深層学習における主要な課題の1つと見なされています。これに取り組むために、一貫性トレーニングを導入します。これは、分散外の一般化を促進するために、拡張データと非拡張データ全体でモデルの予測一貫性を最大化することに基づくトレーニング手順とデータ拡張の代替手段です。この目的のために、セグメンテーション不整合損失(SIL)と呼ばれる新しい領域ベースのセグメンテーション損失関数を開発します。これは、拡張された予測と拡張されていない予測およびラベルのペアの違いを考慮します。一貫性トレーニング
Locally Competitive Algorithm(LCA)は、スパイクのないリーキーインテグレーターニューロン間のローカル競合を使用してスパース表現を推測し、IntelのLoihiプロセッサなどの超並列ニューロモルフィックアーキテクチャでの潜在的なリアルタイム実行を可能にします。ここでは、スパース再構成のために教師なし方法で最適化された時空間特徴の辞書を使用して、ストリーミングビデオからスパース表現を推測する問題に焦点を当てます。非スパイクLCAは、以前は、生のラベルなしビデオからの畳み込みカーネルで構成される時空間辞書の教師なし学習を実現するために使用されていました。従来のリーキーインテグレートアンドファイア(LIF)スパイクジェネレーターと、差異を最小化するために使用される追加の状態変数を組み合わせたアキュムレーターニューロンを使用して、スパイクLCA(S-LCA)を使用した
ニューラルネットワークは、さまざまな機械学習分野で最先端のパフォーマンスを実現していますが、悪意のある摂動を入力データ(敵対的な例)に組み込むことで、ニューラルネットワークの予測を欺くことができます。これは、自動操縦や顔認識など、実際のアプリケーションに潜在的なリスクをもたらす可能性があります。ただし、敵対的な例が存在する理由については、依然として議論の余地があります。ここでは、敵対的な摂動に人間が認識できる情報が含まれていることを示します。これは、ニューラルネットワークの誤った予測の原因となる主要な共謀者です。人間が認識できる情報のこの概念により、敵対的な例の存在、異なるニューラルネットワーク間の転送可能性、敵対的なトレーニングのためのニューラルネットワークの解釈可能性の向上など、敵対的な摂動に関連する主要な機能を説明できます。ニューラルネットワークをだます敵対的摂動の2つのユニークな特
Median Pixel Difference Convolutional Network for Robust Face Recognition 顔認識は、コンピュータビジョンで最もアクティブなタスクの1つであり、現実の世界で広く使用されています。畳み込みニューラルネットワーク(CNN)の大幅な進歩により、多くの顔認識アルゴリズムがさまざまな顔データセットで高精度を実現しています。ただし、CNNに基づく既存の顔認識アルゴリズムはノイズに対して脆弱です。ノイズが破損した画像パターンは、誤ったアクティブ化につながる可能性があり、ノイズの多い状況での顔認識の精度が大幅に低下します。 CNNにさまざまなレベルのノイズに対する組み込みのロバスト性を装備するために、いくつかの従来の畳み込み層を提案された新しい中央値ピクセル差分畳み込み層(MeDiConv)層に置き換えることにより、中央値ピクセル差分
Parameter-Efficient and Student-Friendly Knowledge Distillation 知識蒸留(KD)は、大規模な教師モデルから小規模な学生に知識を転送するために広く採用されており、トレーニング中に教師のパラメータが(または部分的に)固定されます。最近の研究によると、このモードでは、モデルの容量が一致しないため、知識の伝達が困難になる可能性があります。ミスマッチの問題を軽減するために、オンライン蒸留などの教師と生徒の共同トレーニング方法が提案されていますが、それは常に高価な計算コストを必要とします。この論文では、比較的少数の部分パラメータを更新することによって効率的かつ十分な知識伝達を達成するための、パラメータ効率が高く学生に優しい知識蒸留法、すなわちPESF-KDを提示します。技術的には、最初に、予測分布間のシャープネスギャップとして不一致を数学
FaIRCoP: Facial Image Retrieval using Contrastive Personalization 属性から顔画像を取得することは、顔認識や容疑者の識別などのさまざまなシステムで重要な役割を果たします。他の画像検索タスクと比較して、顔の画像検索は、人の顔の特徴を説明する際の主観性が高いため、より困難です。既存の方法は、自然言語を使用するなどの高レベルの監視を介して、ユーザーの心のイメージからの特定の特性を提案されたイメージと比較することによってこれを行います。対照的に、我々は、ユーザーのフィードバックを利用して、画像をターゲット画像に類似または非類似としてラベル付けすることにより、比較的単純な形式のバイナリ監視を使用する方法を提案します。このような監視により、対照的な学習パラダイムを活用して、各ユーザーのパーソナライズされた類似性の概念をカプセル化することが
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く