CYBORGS: Contrastively Bootstrapping Object Representations by Grounding in Segmentation 対照学習における最近の多くのアプローチは、ImageNetのような象徴的な画像での事前トレーニングとCOCOのような複雑なシーンでの事前トレーニングの間のギャップを埋めるために働いています。このギャップは主に、一般的に使用されるランダムなクロップ拡張が、さまざまなオブジェクトの混雑したシーン画像で意味的に一貫性のないコンテンツを取得するために存在します。以前の作品では、前処理パイプラインを使用して顕著なオブジェクトをローカライズしてトリミングを改善していますが、エンドツーエンドのソリューションはまだとらえどころのないものです。この作業では、表現とセグメンテーションの共同学習を通じてこの目標を達成するフレームワークを
教師なし視聴覚ソースのローカリゼーションは、トレーニングのためにグラウンドトゥルースのローカリゼーションに依存することなく、ビデオ内の可視音源をローカライズすることを目的としています。以前の作品は、多くの場合、ポジティブ(サウンド)領域の可能性が高い視聴覚類似性と、ネガティブ領域の可能性が低い類似性を求めています。ただし、手動の注釈がないと、発音している領域と鳴っていない領域を正確に区別することは困難です。この作業では、トレーニング中のポジティブおよび/またはネガティブ領域の構築に依存することなく、Easy Visual Sound Localization、つまりEZ-VSLのシンプルで効果的なアプローチを提案します。代わりに、関連する画像の少なくとも1つの場所に位置合わせされ、他の画像とは一致しないオーディオビジュアル表現を任意の場所で探すことにより、オーディオ空間と視覚空間を位置合わ
Video Prediction at Multiple Scales with Hierarchical Recurrent Networks 自律システムは、現在の環境を理解するだけでなく、たとえばキャプチャされたカメラフレームに基づいて、過去の状態を条件とする将来のアクションを予測できる必要があります。特定のタスクでは、近い将来、将来のビデオフレームなどの詳細な予測が必要になりますが、他のタスクでは、より長い期間のより抽象的な表現を予測することも有益です。ただし、既存のビデオ予測モデルは、主に短期間の詳細な結果の予測に焦点を合わせているため、ロボットの知覚と空間的推論には限られた用途しかありません。マルチスケール階層予測(MSPred)を提案します。これは、さまざまな時間スケールでさまざまなレベルの粒度の将来の可能な結果を同時に予測できる新しいビデオ予測モデルです。 MSPredは、
A Differentiable Two-stage Alignment Scheme for Burst Image Reconstruction with Large Shift ノイズ除去とデモザイキングは、生データからクリーンなフルカラー画像を再構築するための2つの重要なステップです。最近、バースト画像、すなわちJDD-Bの共同ノイズ除去およびデモザイキング(JDD)は、単一の高品質画像を再構成するために短時間でキャプチャされた複数の生画像を使用することによって大きな注目を集めています。 JDD-Bの重要な課題の1つは、画像フレームの堅牢な配置にあります。機能領域の最先端の位置合わせ方法では、カメラやオブジェクトの動きによって大きなシフトが一般的に存在するバースト画像の時間情報を効果的に利用できません。さらに、最新のイメージングデバイスの解像度が高い(たとえば、4K)と、フレーム間
HybridCap: Inertia-aid Monocular Capture of Challenging Human Motions 単眼3Dモーションキャプチャ(mocap)は、多くのアプリケーションに役立ちます。ただし、単一のカメラを使用すると、さまざまな体の部分のオクルージョンを処理できないことが多く、そのため、比較的単純な動きをキャプチャすることに制限されます。学習と最適化のフレームワークで、わずか4つの慣性計測ユニット(IMU)でカメラを補強する、HybridCapと呼ばれる軽量のハイブリッドモーションキャプチャ技術を紹介します。最初に、手足、体、根のトラッカー、および逆運動学ソルバーとして機能する協調ゲート付き回帰ユニット(GRU)ブロックに基づく、弱教師あり階層型モーション推論モジュールを採用します。私たちのネットワークは、粗いポーズから細かいポーズの推定によって、もっ
進化する能力は、知識が製造業者によって注入されたものに限定され続けることができない貴重な自律エージェントにとって基本的です。たとえば、ホームアシスタントロボットを考えてみましょう。要求に応じて新しいオブジェクトカテゴリを段階的に学習できるだけでなく、異なる環境(部屋)やポーズ(手持ち/床/家具の上)で同じオブジェクトを認識できる必要があります。未知のものを拒否します。その重要性にもかかわらず、このシナリオはロボットコミュニティへの関心を高め始めたばかりであり、関連する研究はまだ初期段階であり、既存の実験テストベッドがありますが、調整された方法はありません。この作業では、単一の対照的な目的を活用することにより、前述のすべての課題に一度に対処する最初の学習アプローチを提案します。新しいクラスを段階的に含めるのに完全に適した機能空間を学習し、さまざまな視覚領域にわたって一般化する知識を取り込むこ
HSC4D:ウェアラブルIMUとLiDARを使用した、大規模な屋内と屋外の空間での人間中心の4Dシーンキャプチャ HSC4D: Human-centered 4D Scene Capture in Large-scale Indoor-outdoor Space Using Wearable IMUs and LiDAR 大規模な屋内と屋外のシーン、多様な人間の動き、人間と環境の間の豊かな相互作用を含むダイナミックなデジタル世界を正確かつ効率的に作成するために、人間中心の4Dシーンキャプチャ(HSC4D)を提案します。 HSC4Dは、ボディに取り付けられたIMUとLiDARのみを使用しており、外部デバイスの制約がなくてもスペースがなく、事前に作成されたマップがなくてもマップがありません。 IMUは人間のポーズをキャプチャできますが、長期間の使用では常にドリフトすることを考慮して、LiDAR
Novel Consistency Check For Fast Recursive Reconstruction Of Non-Regularly Sampled Video Data クォーターサンプリングは、ピクセル数を増やすことなく、より高解像度の画像を取得できる新しいセンサー設計です。ビデオデータに使用する場合、4ピクセルのうち1ピクセルが各フレームで測定されます。事実上、これは不規則な時空間サブサンプリングにつながります。純粋に空間的または時間的なサブサンプリングと比較して、エイリアシングアーティファクトを減らすことができるため、これにより再構成の品質を向上させることができます。固定マスクを使用したこのようなセンサーデータの高速再構成のために、周波数選択的再構成(FSR)の再帰的バリアントが提案されました。ここでは、前のフレームで測定されたピクセルが現在のフレームに投影され、そ
An Interactive Explanatory AI System for Industrial Quality Control ディープニューラルネットワークアプローチなどの機械学習ベースの画像分類アルゴリズムは、決定の透明性と理解可能性が重要である業界の品質管理などの重要な設定でますます採用されるようになります。したがって、欠陥検出タスクをインタラクティブなヒューマンインザループアプローチに拡張することを目指しています。これにより、従来の純粋なデータ駆動型アプローチを超えて、豊富な背景知識と複雑な関係の推論を統合できます。 (説明可能な)知識駆動型とデータ駆動型の両方の機械学習方法、特に帰納論理プログラミングと畳み込みニューラルネットワークの利点を人間の専門知識と組み合わせた、産業品質管理設定での分類のためのインタラクティブなサポートシステムのアプローチを提案しますと制御。結果と
本論文では、棄却関数により曖昧なサンプルを棄却するための最適な棄却法を提案する。この拒否関数は、Learning-with-Rejection(LwR)のフレームワークの下で分類関数と一緒にトレーニングされます。 LwRのハイライトは次のとおりです。(1)拒否戦略はヒューリスティックではないが、機械学習理論からの強い背景があります。(2)拒否関数は、分類用の特徴空間とは異なる任意の特徴空間でトレーニングできます。 。後者は、拒否により適した機能スペースを選択できることを示しています。 LwRに関するこれまでの研究は理論的な側面のみに焦点を当てていましたが、実際のパターン分類タスクにLwRを利用することを提案します。さらに、分類と拒否のために異なるCNN層の特徴を使用することを提案します。 notMNIST分類と文字/非文字分類の広範な実験は、提案された方法が従来の拒否戦略よりも優れたパフォ
Robust Table Detection and Structure Recognition from Heterogeneous Document Images テーブルの境界を検出し、異種のドキュメント画像からテーブルのセルラー構造を再構築するために、RobusTabNetという名前の新しいテーブル検出および構造認識アプローチを導入します。テーブル検出については、CornerNetを新しいリージョン提案ネットワークとして使用して、Faster R-CNNの高品質のテーブル提案を生成することを提案します。これにより、テーブル検出のFasterR-CNNのローカリゼーション精度が大幅に向上しました。その結果、私たちのテーブル検出アプローチは、軽量のResNet-18バックボーンネットワークのみを使用することにより、3つのパブリックテーブル検出ベンチマーク、つまりcTDaR TrackA
An Active Contour Model with Local Variance Force Term and Its Efficient Minimization Solver for Multi-phase Image Segmentation この論文では、多相画像セグメンテーション問題に適用できる局所分散力(LVF)項を持つアクティブ輪郭モデルを提案します。 LVFを使用すると、提案されたモデルはノイズのある画像のセグメンテーションに非常に効果的です。このモデルを効率的に解くために、正則化項を特性関数で表し、反復畳み込みしきい値法(ICTM)、つまりICTM-LVFの修正に基づいて最小化アルゴリズムを設計します。この最小化アルゴリズムは、特定の条件下でエネルギー減衰特性を享受し、セグメンテーションで非常に効率的なパフォーマンスを発揮します。アクティブコンターモデルの初期化の問
StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via Pre-trained StyleGAN ワンショットトーキングフェイス生成は、ビデオまたはオーディオセグメントによって駆動される、任意のポートレート画像から高品質のトーキングフェイスビデオを合成することを目的としています。難しい品質要因の1つは、出力ビデオの解像度です。解像度が高いほど、詳細がわかります。この作業では、事前にトレーニングされたStyleGANの潜在特徴空間を調査し、いくつかの優れた空間変換プロパティを発見します。観察の結果、事前にトレーニングされたStyleGANを使用して、トレーニングデータセットの解像度の限界を突破する可能性を探ります。事前にトレーニングされたStyleGANに基づく新しい統合フレームワークを提案します。これ
Extensive Threat Analysis of Vein Attack Databases and Attack Detection by Fusion of Comparison Scores 過去10年間で、指と手の静脈の生体認証の領域でのプレゼンテーション攻撃の検出に関して多くの多大な貢献がもたらされました。これらの貢献の中で、プライベートまたは研究コミュニティに公開されているさまざまな攻撃データベースを見つけることができます。ただし、使用された攻撃サンプルが実際に現実的な静脈認識システムを欺く能力を持っているかどうかは常に示されているわけではありません。以前の研究に触発されて、この研究は、3つの公的に利用可能な指静脈攻撃データベースと1つの私的な背側手静脈データベースを含む体系的な脅威評価を提供します。そのために、14の異なる静脈認識スキームが攻撃サンプルに直面し、誤って
Automated Grading of Radiographic Knee Osteoarthritis Severity Combined with Joint Space Narrowing 膝X線での変形性膝関節症(KOA)の重症度の評価は、人工膝関節全置換術を使用するための中心的な基準です。ただし、この評価は、不正確な基準と非常に高いリーダー間のばらつきに悩まされています。 KOAの重症度のアルゴリズムによる自動評価は、その使用の適切性を高めることにより、膝関節置換術の全体的な結果を改善する可能性があります。放射線写真の前後(PA)ビューからKOAを自動的に評価するための新しい深層学習ベースの5ステップアルゴリズムを提案します。(1)画像の前処理(2)YOLO v3-Tinyモデルを使用した画像内の膝関節の位置特定、 (3)畳み込みニューラルネットワークベースの分類器を使用した変
Understanding robustness and generalization of artificial neural networks through Fourier masks 多くの分野で人工ニューラルネットワーク(ANN)が大成功を収めているにもかかわらず、それらの計算の特性と、一般化や堅牢性などの主要なプロパティの起源は未解決の問題のままです。最近の文献は、優れた一般化特性を備えた堅牢なネットワークは、画像内の低周波数の処理に偏る傾向があることを示唆しています。周波数バイアス仮説をさらに調査するために、トレーニングされたネットワークのパフォーマンスを維持するために必要な基本的な入力周波数を強調する変調マスクを学習できるアルゴリズムを開発します。これは、入力周波数のこのような変調に関して損失に不変性を課すことによって実現されます。最初に、この方法を使用して、敵対的に訓練さ
Computer Vision Algorithm for Predicting the Welding Efficiency of Friction Stir Welded Copper Joints from its Microstructures 摩擦攪拌溶接は堅牢な接合プロセスであり、機械的および微細構造の特性を強化するために、この分野で多数のAIベースのアルゴリズムが開発されています。畳み込みニューラルネットワーク(CNN)は、画像データを入力として使用する人工ニューラルネットワークです。人工ニューラルネットワークと同じで、学習全体で決定される重み、ニューロン(アクティブ化された関数)、および目標(損失関数)で構成されます。 CNNは、画像認識、セマンティックセグメンテーション、画像認識、ローカリゼーションなど、さまざまなアプリケーションで利用されています。現在の作業では、300
いくつかの例は、他の例よりも人間が分類しやすいものです。同じことがディープニューラルネットワーク(DNN)にも当てはまります。例の複雑さという用語は、例を分類することの難しさのレベルを指すために使用します。本論文では、例の困惑を測定し、どの要因が高い例の困惑に寄与するかを調査する方法を提案する。関連するコードとリソースは、https://github.com/vaynexie/Example-Perplexityで入手できます。 Some examples are easier for humans to classify than others. The same should be true for deep neural networks (DNNs). We use the term example perplexity to refer to the level of diffi
Self-Supervised Deep Learning to Enhance Breast Cancer Detection on Screening Mammography ディープラーニングを人工知能(AI)システムに適用する際の主な制限は、高品質のキュレートされたデータセットの不足です。この問題に対処するために、強力な拡張ベースの自己監視学習(SSL)手法を調査します。例として乳がんの検出を使用して、最初にマンモグラム固有の変換パラダイムを特定し、次に、さまざまなアプローチを表す4つの最近のSSLメソッドを体系的に比較します。事前にトレーニングされたモデルを、均一に並べて表示されたパッチの予測から画像全体に変換する方法と、分類パフォーマンスを向上させる注意ベースのプーリング方法を開発します。最良のSSLモデルは、ベースラインの監視ありモデルを大幅に上回っています。最高のSSLモデ
Disparities in Dermatology AI Performance on a Diverse, Curated Clinical Image Set 皮膚科医療へのアクセスは大きな問題であり、推定30億人が世界的に医療へのアクセスを欠いています。人工知能(AI)は、皮膚病のトリアージに役立つ可能性があります。ただし、ほとんどのAIモデルは、さまざまな肌の色や珍しい病気の画像で厳密に評価されていません。このコンテキストでのアルゴリズムパフォーマンスの潜在的なバイアスを確認するために、多様な皮膚科画像(DDI)データセットをキュレートしました。この656枚の画像のデータセットを使用して、最先端の皮膚科AIモデルのパフォーマンスがDDIで大幅に低下し、受信者動作曲線下面積(ROC-AUC)がモデルと比較して27〜36%低下することを示します。元のテスト結果。すべてのモデルは、DD
Self-Normalized Density Map (SNDM) for Counting Microbiological Objects 画像上の微生物学的オブジェクトをカウントするための密度マップ(DM)アプローチの統計的特性が詳細に研究されています。 DMはU^2-Netによって与えられます。ディープニューラルネットワークの2つの統計的手法が利用されます。ブートストラップとモンテカルロ(MC)ドロップアウトです。 DM予測の不確実性を詳細に分析することで、DMモデルの欠陥をより深く理解することができます。私たちの調査に基づいて、ネットワーク内の自己正規化モジュールを提案します。 Self-Normalized Density Map(SNDM)と呼ばれる改良されたネットワークモデルは、出力密度マップをそれ自体で修正して、画像内のオブジェクトの総数を正確に予測できます。 SNDMア
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く