公正な表現学習は、ダウンストリームアプリケーションに関係なく、公平性と有用性を確保するためにユーザーデータをエンコードします。ただし、個別に公正な表現を学習すること、つまり、類似した個人が同様に扱われることを保証することは、コンピュータービジョンなどの高次元の設定では依然として困難です。この作業では、高次元データの個人の公平性を証明するための最初の表現学習方法であるLASSIを紹介します。私たちの重要な洞察は、生成モデリングの最近の進歩を活用して、生成潜在空間内の類似した個人のセットをキャプチャすることです。これにより、敵対的なトレーニングを使用して表現間の距離を最小限に抑えることにより、類似した個人が互いに接近してマッピングされている個別に公正な表現を学習できます。最後に、ランダム化された平滑化を使用して、類似した個人を近くにマッピングし、ダウンストリームアプリケーションのローカルロバス
VL-LTR: Learning Class-wise Visual-Linguistic Representation for Long-Tailed Visual Recognition ディープラーニングベースのモデルは、現実の世界でロングテールデータを処理するときに課題に直面します。既存のソリューションは通常、画像モダリティに基づいて、クラスの不均衡の問題に対処するために、いくつかのバランス戦略または転移学習を採用しています。この作業では、VL-LTRと呼ばれる視覚言語のロングテール認識フレームワークを提示し、ロングテール認識(LTR)にテキストモダリティを導入することの利点に関する実証的研究を実施します。既存のアプローチと比較して、提案されたVL-LTRには以下のメリットがあります。 (1)私たちの方法は、画像から視覚的表現を学習するだけでなく、インターネットから収集されたノイズ
Visual Place Recognition (VPR) is generally concerned with localizing outdoor images. However, localizing indoor scenes that contain part of an outdoor scene can be of large value for a wide range of applications. In this paper, we introduce Inside Out Visual Place Recognition (IOVPR), a task aiming to localize images based on outdoor scenes visible through windows. For this task we present the ne
多くの異なる研究は、エピソード記憶が生成プロセスであることを示唆していますが、ほとんどの計算モデルはストレージビューを採用しています。この作品では、生成エピソード記憶の計算モデルを提案します。これは、海馬がエピソードの選択された側面を記憶の痕跡として保存および取得するという中心的な仮説に基づいていますが、これは必然的に不完全です。想起時に、新皮質は、セマンティック完了と呼ばれるプロセスで、一般的なセマンティック情報に基づいて欠落している情報を合理的に埋めます。エピソードとして、コンテキストを表すさまざまな背景で補強された数字の画像(MNIST)を使用します。私たちのモデルはVQ-VAEに基づいており、インデックス行列の形式で圧縮された潜在表現を生成しますが、それでもある程度の空間分解能があります。注意がインデックスマトリックスの一部を選択し、他の部分は破棄されると想定します。これはエピソー
POEM: 1-bit Point-wise Operations based on Expectation-Maximization for Efficient Point Cloud Processing リアルタイムのポイントクラウド処理は、多くのコンピュータービジョンタスクの基本ですが、リソースが制限されたエッジデバイスの計算問題には依然として挑戦しています。この問題に対処するために、効率的な点群処理のためにXNOR-Netベースのバイナリニューラルネットワーク(BNN)を実装しますが、ガウス分布の重みと学習不可能なスケールファクターという、2つの主な欠点のためにパフォーマンスが大幅に低下します。この論文では、効率的な点群処理のために、期待値最大化(POEM)に基づくポイントごとの操作をBNNに導入します。 EMアルゴリズムは、ロバストなバイモーダル分布の重みを効率的に制約できます
ソースドメインとターゲットドメインの間の隣接スペースを利用することは、最近の教師なしドメイン適応アプローチの1つです。ただし、隣接インスタンスの予測でソースラベルがターゲットラベルよりも優勢である、ラベルの平衡崩壊の問題は、これまで対処されていません。この論文では、それに取り組むために、隣接空間における不確実性の高いインスタンスのエントロピーを最小化するインスタンスごとのミニマックス戦略を提案します。ミニマックス問題の解法により、ビシナル空間を2つの部分空間に分割します。対照空間とコンセンサス空間です。対照的な空間では、インスタンスを制約して対照的なビューとラベルを付けることでドメイン間の不一致を軽減し、コンセンサス空間はドメイン内のカテゴリ間の混乱を減らします。私たちの方法の有効性は、Office-31、Office-Home、VisDA-Cなど、最先端のパフォーマンスを実現する公開ベン
Revisiting Efficient Object Detection Backbones from Zero-Shot Neural Architecture Search オブジェクト検出モデルでは、検出バックボーンは全体的な推論コストの半分以上を消費します。最近の研究では、Neural Architecture Search(NAS)を使用してバックボーンアーキテクチャを最適化することにより、このコストを削減しようとしています。ただし、オブジェクト検出用の既存のNASメソッドは、数百から数千のGPU時間の検索を必要とするため、ペースの速い研究開発では実用的ではありません。この作業では、この問題に対処するための新しいゼロショットNAS手法を提案します。 ZenDetという名前の提案された方法は、ネットワークパラメータをトレーニングせずに効率的な検出バックボーンを自動的に設計し、アー
3D Pose Estimation and Future Motion Prediction from 2D Images この論文では、3D人体ポーズを推定し、RGB画像シーケンスから将来の3Dモーションを予測するという、相関性の高いタスクに共同で取り組むことを検討しています。リー代数のポーズ表現に基づいて、人間の運動運動学を自然に保存する新しい自己投影メカニズムが提案されています。これは、エンコーダー-デコーダートポロジに基づくシーケンス間マルチタスクアーキテクチャによってさらに促進されます。これにより、両方のタスクで共有される共通の基盤を活用できます。最後に、フレームワークのパフォーマンスを向上させるために、グローバルな改良モジュールが提案されています。 PoseMoNetと呼ばれる私たちのアプローチの有効性は、Human3.6MおよびHumanEva-Iベンチマークでのアブレーシ
Generative Adversarial Networks and Adversarial Autoencoders: Tutorial and Survey これは、Generative Adversarial Network(GAN)、敵対的オートエンコーダー、およびそれらのバリアントに関するチュートリアルと調査論文です。まず、敵対的学習とバニラGANについて説明します。次に、条件付きGANとDCGANについて説明します。モード崩壊問題が導入され、この問題を解決するために、ミニバッチGAN、展開GAN、BourGAN、混合GAN、D2GAN、およびワッサースタインGANを含むさまざまな方法が導入されています。次に、GANの最尤推定について、f-GAN、敵対的変分ベイズ、ベイズGANとともに説明します。次に、GAN、InfoGAN、GRAN、LSGAN、エネルギーベースのGAN、Ca
予測のアンサンブルは、個別に行われる個々の予測よりもパフォーマンスが優れていることが知られています。ただし、セマンティックセグメンテーションなど、大量の計算リソースを必要とするタスクの場合、個別にトレーニングする必要のある学習者のアンサンブルを作成することは、ほとんど扱いにくいものです。この作業では、アンサンブルの従来の重いトレーニングコストを回避しながら、アンサンブルメソッドによって提供されるパフォーマンスの向上を活用してセマンティックセグメンテーションを強化することを提案します。私たちの自己アンサンブルフレームワークは、機能ピラミッドネットワークメソッドによって生成されたマルチスケール機能セットを利用して、独立したデコーダーにフィードし、単一のモデル内にアンサンブルを作成します。アンサンブルと同様に、最終的な予測は、各学習者によって行われた予測の集計です。以前の作品とは対照的に、私たち
Going Grayscale: The Road to Understanding and Improving Unlearnable Examples 最近の研究では、知覚できない摂動を適用して、学習不可能な例(ULE)を作成できることが示されています。つまり、トレーニング中に分類子を改善するためにコンテンツを使用できない画像です。この論文では、ULEを理解し、ULEが最初に作成されたとおりに改善するために研究者がたどるべき道を明らかにします(ULEO)。この論文は4つの貢献をしています。まず、ULEOが色を悪用し、その結果、敵対的なトレーニングに頼ることなく、単純なグレースケールの事前フィルタリングによってその影響を軽減できることを示します。次に、ULEO-GrayAugsと呼ばれるULEOの拡張を提案します。これは、最適化中にグレースケールの知識とデータ拡張を利用することにより、生
Joint inference and input optimization in equilibrium networks ディープラーニングの多くのタスクには、ネットワークへの入力を最適化して、目的を最小化または最大化することが含まれます。例としては、生成モデルの潜在空間を最適化してターゲット画像に一致させたり、入力を逆に摂動させて分類器のパフォーマンスを悪化させたりします。ただし、このような最適化を実行するには、勾配ステップごとにネットワークを完全に順方向および逆方向に通過する必要があるため、従来は非常にコストがかかります。別の一連の研究で、最近の研究スレッドは、深層平衡(DEQ)モデルを開発しました。これは、従来のネットワーク深度を無視し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスです。この論文では、これら2つの設定の間に自然な相
FedDropoutAvg: Generalizable federated learning for histopathology image classification 連合学習(FL)を使用すると、参加サイトのデータを共有することなく、深層学習モデルの共同学習が可能になります。医療画像分析タスクにおけるFLは比較的新しく、拡張の余地があります。この研究では、一般化可能なモデルをトレーニングするための新しい連合学習アプローチであるFedDropoutAvgを提案します。提案された方法は、クライアントの選択とフェデレーション平均化プロセスの両方でランダム性を利用します。 FedDropoutAvgを、実際のマルチサイト組織病理学画像分類タスクのFLシナリオのいくつかのアルゴリズムと比較します。 FedDropoutAvgを使用すると、最終モデルが他のFLアプローチよりも優れたパフォーマ
A Novel Framework for Image-to-image Translation and Image Compression 機械学習を使用したデータ駆動型のパラダイムは、画像処理と通信で広く普及しつつあります。特に、画像から画像(I2I)への変換は、画像合成、スタイル転送、画像復元などの画像処理の問題に対して一般的で広く使用されているアプローチです。同時に、ニューラルイメージの圧縮は、ビジュアルコミュニケーションにおける従来のコーディングアプローチのデータ駆動型の代替手段として登場しました。このホワイトペーパーでは、マルチドメイン画像合成に焦点を当てて、これら2つのパラダイムを組み合わせてI2I圧縮および変換フレームワークを統合する方法について説明します。最初に、量子化とエントロピーコーディングをI2I変換フレームワーク(つまりI2Icodec)に統合することにより、分散
Attribute-specific Control Units in StyleGAN for Fine-grained Image Manipulation 近年、StyleGANによる画像操作への関心が高まっており、最近の研究では、いくつかのセマンティック潜在空間を分析して、生成された画像の属性を編集することに大きな成功を収めていますが、これらの潜在空間ではセマンティックおよび空間操作の精度が限られているため、既存の取り組みは、きめ細かいStyleGAN画像操作、つまりローカル属性変換では無効になります。この問題に対処するために、機能マップと変調スタイルの複数のチャネルで構成される属性固有の制御ユニットを発見します。具体的には、個々のコントロールユニットではなく、コントロールユニットの変調スタイルチャネルと機能マップを共同で操作して、意味的および空間的に解きほぐされたコントロールを取
NomMer: Nominate Synergistic Context in Vision Transformer for Visual Recognition 最近、事実上の要素として自己注意(SA)を備えたVision Transformers(ViT)が、コンピュータービジョンコミュニティで大きな可能性を示しています。効率とパフォーマンスのトレードオフのために、一連の作業はローカルパッチ内でSA操作を実行するだけですが、グローバルなコンテキスト情報は破棄されます。これは視覚認識タスクに不可欠です。この問題を解決するために、後続のグローバルローカルViTは、モデル内でローカルSAとグローバルSAを並行して、または別の方法で結合することに挑戦します。それにもかかわらず、徹底的に組み合わされたローカルコンテキストとグローバルコンテキストは、さまざまな視覚データの冗長性が存在する可能性があ
Non Parametric Data Augmentations Improve Deep-Learning based Brain Tumor Segmentation 磁気共鳴画像法(MRI)データからの自動脳腫瘍セグメンテーションは、治療に対する腫瘍の反応と個別化された治療の層別化を評価する上で重要な役割を果たします。手動セグメンテーションは退屈で主観的です。脳腫瘍セグメンテーションのための深層学習ベースのアルゴリズムは、客観的なものを提供する可能性があります。ただし、このようなアルゴリズムのトレーニングには、常に利用できるとは限らない大規模なデータセットが必要です。データ拡張技術により、大規模なデータセットの必要性が減る可能性がありますが、現在のアプローチはほとんどパラメトリックであり、パフォーマンスが最適ではない可能性があります。脳腫瘍セグメンテーションのデータ拡張の2つのノン
Dodging DeepFake Detection via Implicit Spatial-Domain Notch Filtering DeepFake画像の現在の高忠実度の生成と高精度の検出は、軍拡競争にあります。非常に現実的で「検出を回避する」DeepFakeを作成することで、次世代のDeepFake検出機能を向上させるという究極の目標を達成できると確信しています。この論文では、暗黙の空間領域ノッチフィルタリングを実行することにより、画質を損なうことなく偽の画像のアーティファクトパターンを低減するためのシンプルで強力なパイプラインを提案します。最初に、周波数領域のノッチフィルタリングは、空間領域の周期的なノイズを除去するのに効果的であることが有名ですが、ノッチフィルタに必要な手動設計のため、当面のタスクでは実行不可能であることを示します。したがって、ノッチフィルタリング効果を再現
Exploiting Both Domain-specific and Invariant Knowledge via a Win-win Transformer for Unsupervised Domain Adaptation 教師なしドメイン適応(UDA)は、ラベル付きのソースドメインからラベルなしのターゲットドメインに知識を転送することを目的としています。ほとんどの既存のUDAアプローチは、ドメイン不変表現を学習し、2つのドメイン間で1つの分類子を共有することで知識の伝達を可能にします。ただし、タスクに関連するドメイン固有の情報を無視し、統合された分類子を両方のドメインに適合させると、各ドメインの機能の表現力が制限されます。このホワイトペーパーでは、同等のパラメーターを備えたTransformerアーキテクチャが、CNNの対応するアーキテクチャよりも転送可能な表現を生成できること
Facial Depth and Normal Estimation using Single Dual-Pixel Camera 多くのモバイルメーカーは最近、より高速なオートフォーカスと美的画像キャプチャのために、主力モデルにデュアルピクセル(DP)センサーを採用しています。それらの利点にもかかわらず、3D顔の理解のためのそれらの使用法に関する研究は、DP画像の視差を利用するデータセットとアルゴリズム設計の欠如のために制限されています。これは、サブアパーチャ画像のベースラインが非常に狭く、焦点ぼけ領域に視差が存在するためです。この論文では、3D顔の形状を再構築するDP指向の深度/通常ネットワークを紹介します。この目的のために、マルチカメラ構造化照明システムでキャプチャされた101人の135Kを超える画像を含むDP顔データを収集します。これには、メートル法の深度マップと表面法線を含む、対
Rethinking Generic Camera Models for Deep Single Image Camera Calibration to Recover Rotation and Fisheye Distortion 最近の学習ベースのキャリブレーション方法では、単一の画像から外因性および内因性のカメラパラメータを予測できますが、これらの方法の精度は魚眼画像では低下します。この劣化は、実際の予測と予想される予測の不一致が原因で発生します。この問題に対処するために、さまざまなタイプの歪みに対処できる可能性のある一般的なカメラモデルを提案します。当社の一般的なカメラモデルは、カメラ投影の閉形式の数値計算による学習ベースの方法に利用されます。回転と魚眼レンズの歪みを同時に回復するために、カメラモデルを使用する学習ベースのキャリブレーション方法を提案します。さらに、4つの外因性およ
ContourletNet: A Generalized Rain Removal Architecture Using Multi-Direction Hierarchical Representation 雨のシーンから取得した画像は、通常、視界が悪く、コンピュータビジョンアプリケーションのパフォーマンスを損なう可能性があります。雨のシナリオは、中程度の雨と大雨のシーンの2つのクラスに分類できます。中程度の雨のシーンは主に雨の筋で構成され、大雨のシーンには雨の筋とベール効果(もやに似ています)の両方が含まれます。既存の方法は、これら2つのケースで個別に優れたパフォーマンスを達成しましたが、大雨と中程度の雨の両方のシナリオに効果的に対処するための一般的なアーキテクチャがまだ不足しています。この論文では、コンターレット変換(CT)を使用して、中程度の雨と大雨の両方のシナリオに対処することに
Joint stereo 3D object detection and implicit surface reconstruction カテゴリレベルの3Dオブジェクト検出と、野生のステレオRGB画像のペアに基づく暗黙的な形状推定のための最初の学習ベースのフレームワークを紹介します。従来のステレオ3Dオブジェクト検出アプローチは、検出されたオブジェクトを3Dバウンディングボックスでのみ記述し、それらの全面的なジオメトリを推測できないため、現実的な屋外の没入型体験を作成することは困難です。対照的に、正確なローカリゼーションを実行できるだけでなく、検出されたオブジェクトの完全で解像度にとらわれない形状記述を提供できる新しいモデルS-3D-RCNNを提案します。まず、グローバルローカルフレームワークを使用して、オブジェクト座標系の推定を形状再構築から切り離します。次に、ステレオの関心領域からポ
CIRCLE: Convolutional Implicit Reconstruction and Completion for Large-scale Indoor Scene CIRCLEを紹介します。これは、ローカルの陰的符号付き距離関数に基づく大規模なシーンの完成と幾何学的な改良のためのフレームワークです。これは、エンドツーエンドのスパース畳み込みネットワークであるCircNetに基づいており、ローカルの幾何学的詳細とグローバルシーンの構造コンテキストを共同でモデル化することで、従来の3Dシーンデータで一般的に発生する欠落領域を回復しながら、きめ細かいオブジェクトの詳細を保持できます。新しい微分可能なレンダリングモジュールにより、テスト時の改良が可能になり、再構成の品質が向上します。実世界のデータセットと合成データセットの両方での広範な実験により、簡潔なフレームワークが効率的かつ効
マスクベースのレンズレスカメラは、フラット、薄型、軽量であるため、大きな表面積と任意の形状を備えた計算イメージングシステムの新しい設計に適しています。レンズレスカメラの最近の進歩にもかかわらず、レンズレスカメラから復元された画像の品質は、基礎となる測定システムの悪条件のためにしばしば劣っています。この論文では、レンズレスカメラで再構成された画像の品質を改善するためにコード化された照明を使用することを提案します。私たちのイメージングモデルでは、レンズレスカメラがセンサーの測定値を記録するときに、シーン/オブジェクトが複数のコード化された照明パターンで照らされます。いくつかの照明パターンを設計およびテストし、シフトドット(および関連する直交)パターンが全体として最高のパフォーマンスを提供することを確認しました。システムの分離可能性とブロック対角構造を活用する、高速で複雑度の低い回復アルゴリズム
Robust Equivariant Imaging: a fully unsupervised framework for learning to image from noisy and partial measurements ディープネットワークは、医用画像から計算写真に至るまで、複数の画像逆問題で最先端のパフォーマンスを提供します。ただし、ほとんどの既存のネットワークは、取得が困難または不可能なことが多いクリーンな信号でトレーニングされています。同変イメージング(EI)は、信号分布に存在するグループ不変性を利用して、部分的な測定データのみから再構成関数を学習する、最近の自己監視学習フレームワークです。 EIの結果は印象的ですが、ノイズが増えるとパフォーマンスが低下します。この論文では、ノイズの多い部分測定のみから画像化することを学習できるロバスト同変画像化(REI)フレームワーク
Extending the Relative Seriality Formalism for Interpretable Deep Learning of Normal Tissue Complication Probability Models Kallmanらの相対的な連続性モデルを正式に示します。単純なタイプの畳み込みニューラルネットワークに正確にマッピングします。このアプローチは、それぞれ傍観者効果と階層的組織組織の観点から、畳み込み層と積み重ねられた中間プーリング層のフィードフォワード接続の自然な解釈につながります。これらの結果は、大規模なイメージングおよび線量測定データセットを使用して、放射線生物学的に解釈可能な正常組織合併症の確率の深層学習の原理実証として機能します。 We formally demonstrate that the relative seriality mo
On Direct Distribution Matching for Adapting Segmentation Networks 分布マッチング損失の最小化は、画像分類のコンテキストでのドメイン適応への原則的なアプローチです。ただし、現在敵対的なモデルによって支配されているセグメンテーションネットワークの適応ではほとんど見過ごされています。ラベルのない入力から計算されたいくつかの幾何学的変換まで、ネットワーク出力空間での直接カーネル密度マッチングを促進する損失関数のクラスを提案します。中間ドメイン弁別器を使用するのではなく、私たちの直接的なアプローチは、単一の損失で分布のマッチングとセグメンテーションを統合します。したがって、トレーニングの品質、安定性、効率の両方を向上させながら、余分な敵対的なステップを回避することにより、セグメンテーションの適応を簡素化します。ネットワーク出力空間で
多くのアクション認識手法は公開ベンチマークで大きな成功を収めていますが、そのようなパフォーマンスは、データが特定のアプリケーション要件から取得される実際のシナリオでは必ずしも再現されません。このホワイトペーパーで焦点を当てている特定の実際のアプリケーションは、認知的に要求の厳しい物理的タスクを使用する子供たちの認知評価です。 Cross-Your-Bodyと呼ばれるシステムを作成し、データを記録しました。これは、タスクが心理学者によって設計されていること、対象が子供であること、ビデオが記録するときに実際の使用法をキャプチャすることなど、いくつかの面でユニークです。心理学者による実世界の評価中にタスクを実行する子供たち。私たちのシステムの他の際立った特徴は、そのスコアを直接翻訳して、思春期の子供たちのADHDの発症を区別するための重要な要素の1つである実行機能を測定できることです。子どもたち
Towards an Efficient Semantic Segmentation Method of ID Cards for Verification Systems IDカード画像の背景を削除することは、リモート検証システムにとって真の課題です。再デジタル化された画像の多くは、背景が乱雑で、照明条件が悪く、歪みやオクルージョンが存在するためです。 IDカード画像の背景は、分類子とテキスト抽出を混乱させます。研究に利用できる画像が不足しているため、この分野は今日のコンピュータビジョンにおける未解決の問題を表しています。この作品は、IDカードのセマンティックセグメンテーションを使用して背景を削除する方法を提案します。最終的には、45,007枚の画像からなる手動でラベル付けされたデータセットと、典型的なプレゼンテーション攻撃シナリオを含む3か国(チリ、アルゼンチン、メキシコ)の5種類のI
ACNet: Approaching-and-Centralizing Network for Zero-Shot Sketch-Based Image Retrieval スケッチと写真の間の大きなドメインギャップと非常に抽象的なスケッチ表現は、スケッチベースの画像検索(SBIR)に課題をもたらします。ゼロショットスケッチベースの画像検索(ZS-SBIR)は、より一般的で実用的ですが、表示されているカテゴリと表示されていないカテゴリの間に追加の知識ギャップがあるため、さらに大きな課題があります。両方のギャップを同時に緩和するために、スケッチから写真への合成と画像検索を共同で最適化するアプローチおよび集中化ネットワーク(「ACNet」と呼ばれる)を提案します。検索モジュールは、合成モジュールをガイドして、写真ドメインに徐々に近づく多様な写真のような画像を大量に生成します。したがって、ドメイ
レイヤード制御可能なビデオ生成を導入します。この生成では、監視なしで、ビデオの初期フレームを前景レイヤーと背景レイヤーに分解します。ユーザーは、前景マスクを操作するだけでビデオ生成プロセスを制御できます。重要な課題は、あいまいな教師なしの前景と背景の分離、および生のビデオシーケンスのみにアクセスしてユーザーの操作を予測する機能です。 2段階の学習手順を提案することにより、これらの課題に対処します。最初の段階では、損失の豊富なセットと動的な前景サイズを事前に使用して、フレームを前景レイヤーと背景レイヤーに分離する方法と、これらのレイヤーを条件として、VQ-VAEジェネレーターを使用して次のフレームを生成する方法を学習します。第2段階では、将来のフレームからマスクに(パラメーター化された)制御をフィッティングすることにより、マスクの編集を予測するようにこのネットワークを微調整します。 2つのベ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く