Self-Supervised Pre-Training of Swin Transformers for 3D Medical Image Analysis Vision Transformers(ViT)は、ダウンストリームアプリケーションに転送できるグローバルおよびローカル表現の自己監視学習で優れたパフォーマンスを示しています。これらの結果に触発されて、医療画像分析のために調整されたプロキシタスクを備えた新しい自己監視学習フレームワークを紹介します。具体的には、次のことを提案します。(i)Swin UNEt TRansformers(Swin UNETR)と呼ばれる新しい3Dトランスベースのモデルで、自己監視型の事前トレーニング用の階層型エンコーダーを備えています。 (ii)人体解剖学の根底にあるパターンを学習するための調整されたプロキシタスク。さまざまな体の臓器からの5,050の公
Domain Adaptation of Networks for Camera Pose Estimation: Learning Camera Pose Estimation Without Pose Labels ディープラーニングに対する主な批判の1つは、高性能で優れた一般化機能を備えたモデルをトレーニングするには、高価で取得が困難なトレーニングデータが大量に必要になることです。シーン座標回帰(SCR)による単眼カメラポーズ推定のタスクに焦点を当て、ターゲットタスクのラベルにアクセスせずにモデルのトレーニングを可能にする新しい方法であるカメラポーズ推定(DANCE)のためのネットワークのドメイン適応について説明します。 。 DANCEには、ラベルのない画像(既知のポーズ、順序、またはシーン座標ラベルなし)と空間の3D表現(スキャンされた点群など)が必要です。どちらも、既製のコモディ
過去10年間で、eラーニングは、いつでもどこでも質の高い教育へのアクセスを提供することで、学生の学習方法に革命をもたらしました。しかし、生徒はさまざまな理由で気が散ることが多く、学習能力に大きな影響を与えます。多くの研究者がオンライン教育の質を向上させようとしていますが、この問題に対処するには全体的なアプローチが必要です。この論文は、カメラフィードとマイク入力を使用して、オンラインクラス中の学生のリアルタイムの注意レベルを監視するメカニズムを提供することを目的としています。この調査では、さまざまな画像処理技術と機械学習アルゴリズムについて説明します。 5つの異なる非言語機能を使用して、コンピューターベースのタスク中に学生の注意スコアを計算し、学生と組織の両方にリアルタイムのフィードバックを生成するシステムを提案します。生成されたフィードバックをヒューリスティックな値として使用して、学生の全
Text as Neural Operator: Image Manipulation by Text Instruction 近年、テキストガイドによる画像操作は、マルチメディアおよびコンピュータビジョンのコミュニティでますます注目を集めています。条件付き画像生成への入力は、画像のみからマルチモダリティに進化しました。このホワイトペーパーでは、複雑なテキスト命令を使用してオブジェクトを追加、削除、または変更することで、ユーザーが複数のオブジェクトを含む画像を編集できるようにする設定について説明します。タスクの入力は、(1)参照画像、および(2)画像への必要な変更を説明する自然言語での命令を含むマルチモーダルです。この問題に取り組むために、GANベースの方法を提案します。重要なアイデアは、テキストをニューラルオペレーターとして扱い、画像の特徴をローカルに変更することです。提案されたモデルが
Buildings Classification using Very High Resolution Satellite Imagery 衛星画像を使用した建物の分類は、被害評価、リソース割り当て、人口推定などのいくつかのアプリケーションでより重要になっています。この作業では、住宅および非住宅の建物の建物損傷評価(BDA)および建物タイプ分類(BTC)に焦点を当てます。 RGB衛星画像のみに依存し、2段階の深層学習ベースのアプローチに従うことを提案します。最初に、建物のフットプリントがセマンティックセグメンテーションモデルを使用して抽出され、次にトリミングされた画像が分類されます。住宅/非住宅の建物分類に適切なデータセットがないため、高解像度の衛星画像の新しいデータセットを導入します。最適なハイパーパラメータ、モデルアーキテクチャ、トレーニングパラダイムを選択するために広範な実験を実施し
TransMVSNet: Global Context-aware Multi-view Stereo Network with Transformers このホワイトペーパーでは、マルチビューステレオ(MVS)での機能マッチングの調査に基づいて、TransMVSNetを紹介します。 MVSを機能マッチングタスクの性質に戻し、強力な機能マッチングトランスフォーマー(FMT)を提案して、画像内および画像全体の長距離コンテキスト情報を集約するために、内部(自己)および相互(相互)の注意を活用します。 。 FMTのより良い適応を促進するために、Adaptive Receptive Field(ARF)モジュールを活用して、機能のスコープ内をスムーズに通過し、さまざまなステージを機能パスウェイでブリッジして、変換された機能と勾配をさまざまなスケールに渡します。さらに、ペアワイズ特徴相関を適用して特
Multi-instance Point Cloud Registration by Efficient Correspondence Clustering ターゲットポイントクラウド内のソースポイントクラウドの複数のインスタンスのポーズを推定する問題に対処します。既存のソリューションでは、可能性のあるインスタンスを検出して外れ値を拒否するために多くの仮説をサンプリングする必要があります。外れ値の堅牢性と効率は、インスタンスと外れ値の数が増えると特に低下します。ノイズのある対応のセットを、距離不変性行列に基づいて異なるクラスターに直接グループ化することを提案します。インスタンスと外れ値は、クラスタリングによって自動的に識別されます。私たちの方法は堅牢で高速です。合成データセットと実世界のデータセットの両方でメソッドを評価しました。結果は、私たちのアプローチが70%の外れ値の存在下で90.4
Learning Fair Classifiers with Partially Annotated Group Labels 最近、公平性を意識した学習がますます重要になっていますが、これらの方法のほとんどは、完全に注釈が付けられたグループラベルの可用性を前提として機能することに注意してください。グループラベルの注釈は高価であり、プライバシーの問題と競合する可能性があるため、このような仮定は実際のアプリケーションでは非現実的であることを強調します。このホワイトペーパーでは、部分的に注釈が付けられたグループラベル(Fair-PG)を使用したAlgorithmicFairnessと呼ばれるより実用的なシナリオを検討します。グループラベルのみのデータを使用する既存の公平性手法は、Fair-PGの下で、ターゲットラベルのみの完全なデータのみを使用するバニラトレーニングよりもパフォーマンスがさらに
Recurrent Vision Transformer for Solving Visual Reasoning Problems 畳み込みニューラルネットワーク(CNN)は、多くの視覚タスクで注目に値する結果を示しましたが、単純でありながら困難な視覚的推論の問題によって依然として緊張しています。コンピュータビジョンにおけるTransformerネットワークの最近の成功に触発されて、このペーパーでは、Recurrent Vision Transformer(RViT)モデルを紹介します。推論タスクにおける反復接続と空間的注意の影響のおかげで、このネットワークは、SVRTデータセットと同じ異なる視覚的推論の問題に対して競争力のある結果を達成します。空間次元と深さ次元の両方での重み共有により、モデルが正規化され、28kのトレーニングサンプルのみを使用して、はるかに少ない自由パラメーターを使用
4Kまたは6Kの超高解像度画像をセグメント化するには、画像セグメンテーションで追加の計算を考慮する必要があります。ダウンサンプリング、パッチクロッピング、カスケードモデルなどの一般的な戦略では、精度と計算コストのバランスの問題にうまく対処できません。人間がオブジェクトを粗いレベルから正確なレベルまで連続的に区別するという事実に動機付けられて、超高解像度セグメンテーションリファインメントタスク用のContinuous Refinement Model〜(CRM)を提案します。 CRMは、フィーチャマップをリファインメントターゲットに継続的に位置合わせし、フィーチャを集約してこれらの画像の詳細を再構築します。さらに、当社のCRMは、低解像度のトレーニング画像と超高解像度のテスト画像の間の解像度のギャップを埋める重要な一般化機能を示しています。定量的なパフォーマンス評価と視覚化を提示して、提案さ
まれな交通標識を認識するための反復能動学習アルゴリズムについて説明します。標準のResNetは、まれなクラスの1つのサンプルのみを含むトレーニングセットでトレーニングされます。ラベルのない大きなセットのサンプルを、レアクラスに属する推定確率で並べ替えることにより、レアクラスからのサンプルを効率的に識別できることを示します。これは、この推定確率が通常は非常に低いという事実にもかかわらず機能します。信頼できる能動学習ループは、トレーニングセットに含まれるこれらの候補サンプルにラベルを付け、手順を繰り返すことによって得られます。さらに、単一の合成サンプルから開始して同様の結果が得られることを示します。自動運転システムの交通標識認識を改善する簡単な方法を示しているため、私たちの結果は重要です。さらに、信頼性の低い出力に隠されている情報を利用できることを示していますが、通常は無視されます。 We d
Lightweight Deep Learning Architecture for MPI Correction and Transient Reconstruction 間接飛行時間型カメラ(iToF)は、インタラクティブなフレームレートで深度画像を提供する低コストのデバイスです。ただし、これらはさまざまなエラーソースの影響を受けており、このテクノロジの重要な課題であるマルチパス干渉(MPI)にスポットライトが当てられています。一般的なデータ駆動型アプローチは、シーン内の光の基本的な一時的な伝播を無視して、出力深度値の直接推定に焦点を合わせる傾向があります。代わりに、この作業では、MPIの削除と一時的な情報自体の再構築のために、一時的な情報の直接グローバルな細分化を活用する、非常にコンパクトなアーキテクチャを提案します。提案されたモデルは、合成データと実際のデータの両方で最先端のMPI
教師あり学習ベースの方法は、堅牢なノイズ除去の結果をもたらしますが、大規模なクリーン/ノイズのペアデータセットの必要性によって本質的に制限されます。一方、教師なしデノイザーを使用するには、基礎となる画像統計をより詳細に理解する必要があります。特に、クリーンな画像とノイズの多い画像の明らかな違いが高周波帯域で最も顕著であることがよく知られており、従来の画像前処理ステップの一部としてローパスフィルターを使用することが正当化されます。ただし、ほとんどの学習ベースのノイズ除去方法は、周波数領域の情報を考慮せずに、空間領域からの片側の情報のみを利用します。この制限に対処するために、この研究では、周波数に敏感な教師なしノイズ除去法を提案します。この目的のために、生成的敵対的ネットワーク(GAN)が基本構造として使用されます。続いて、周波数知識をジェネレータに転送するために、スペクトル弁別器と周波数再構
Anomaly-Aware Semantic Segmentation by Leveraging Synthetic-Unknown Data 異常認識は、自動運転などのセーフティクリティカルなアプリケーションにとって不可欠な機能です。ロボット工学とコンピュータービジョンの最近の進歩により、画像分類の異常検出が可能になりましたが、セマンティックセグメンテーションの異常検出についてはあまり検討されていません。モデルをトレーニングするために他の既存のクラスを分布外(疑似不明)クラスとして想定する従来の異常認識システムには、2つの欠点があります。 (1)アプリケーションが対処する必要のある未知のクラスは、トレーニング時間中に実際には存在しない可能性があります。 (2)モデルのパフォーマンスは、クラスの選択に強く依存します。これを観察して、異常を意識したセマンティックセグメンテーションタスクに取
ROBIN : A Benchmark for Robustness to Individual Nuisancesin Real-World Out-of-Distribution Shifts 実際のシナリオで堅牢性を強化することは、非常に困難であることが証明されています。 1つの理由は、既存のロバストネスベンチマークは、合成データに依存するか、データセット間の一般化としてロバスト性を測定するだけであり、したがって個々の迷惑要因の影響を無視するため、制限されているためです。この作業では、実世界の画像の個々の妨害に対する視覚アルゴリズムの堅牢性を診断するためのベンチマークデータセットであるROBINを紹介します。 ROBINは、PASCAL VOC 2012およびImageNetデータセットの10の厳密なカテゴリに基づいて構築されており、オブジェクトの3Dポーズ、形状、テクスチャ、コンテ
Improving Deep Learning Interpretability by Saliency Guided Training 顕著性手法は、モデル予測における重要な入力機能を強調するために広く使用されています。ほとんどの既存の方法は、修正された勾配関数でバックプロパゲーションを使用して顕著性マップを生成します。したがって、ノイズの多い勾配は、不忠実な機能の帰属をもたらす可能性があります。この論文では、この問題に取り組み、モデルの予測性能を維持しながら、予測で使用されるノイズの多い勾配を減らすためのニューラルネットワークの顕著性ガイド付きトレーニング手順を紹介します。私たちの顕著性ガイド付きトレーニング手順は、マスクされた入力とマスクされていない入力の両方のモデル出力の類似性を最大化しながら、小さくて潜在的にノイズの多い勾配で特徴を繰り返しマスクします。顕著性ガイド付きトレーニン
Sparse DETR: Efficient End-to-End Object Detection with Learnable Sparsity DETRは、トランスエンコーダ-デコーダアーキテクチャを使用した最初のエンドツーエンドオブジェクト検出器であり、高解像度の特徴マップで競争力のあるパフォーマンスを示しますが、計算効率は低くなります。その後の作業であるDeformableDETRは、密な注意を変形可能な注意に置き換えることでDETRの効率を高め、10倍高速な収束とパフォーマンスの向上を実現します。変形可能なDETRは、マルチスケール機能を使用してパフォーマンスを向上させますが、エンコーダトークンの数はDETRと比較して20倍に増加し、エンコーダの注意の計算コストがボトルネックのままです。予備実験では、エンコーダトークンの一部のみを更新しても検出性能が低下することはほとんどありま
オニヒトデ(COTS)の発生は、グレートバリアリーフ(GBR)でのサンゴの喪失の主な原因であり、COTSの個体数を生態学的に持続可能なレベルに管理するために、実質的な監視および管理プログラムが進行中です。 GBRのCOTS発生地域から大規模な注釈付き水中画像データセットをリリースし、リーフスケールでのCOTS個体群の検出、監視、管理を改善するための機械学習とAI駆動技術の研究を奨励しています。データセットはリリースされ、これらの水中画像からのCOTS検出のタスクで国際的な機械学習コミュニティに挑戦するKaggleコンペティションでホストされます。 Crown-of-Thorn Starfish (COTS) outbreaks are a major cause of coral loss on the Great Barrier Reef (GBR) and substantial su
A General Framework for Defending Against Backdoor Attacks via Influence Graph この作業では、攻撃トリガーは通常特定のタイプの攻撃パターンに従うため、中毒のトレーニング例はトレーニング中に相互に大きな影響を与えるという事実に触発されて、バックドア攻撃から防御するための新しい一般的なフレームワークを提案します。個々のトレーニングポイントと関連するペアワイズ影響をそれぞれ表すノードとエッジで構成される影響グラフの概念を紹介します。トレーニングポイントのペア間の影響は、影響関数koh2017understandingで近似された、あるトレーニングポイントの削除が別のトレーニングポイントの予測に与える影響を表します。悪意のあるトレーニングポイントは、特定のサイズの対象となる最大平均サブグラフを見つけることによって抽出され
ニューラルラディアンスフィールド(NeRF)は、その優れた合成品質により、最近3Dシーンの再構築と新しいビューの合成で大きな注目を集めています。ただし、野生のシーンをキャプチャするときによく発生する焦点ぼけや動きによって引き起こされる画像のぼやけは、その再構成の品質を大幅に低下させます。この問題に対処するために、ぼやけた入力からシャープなNeRFを復元できる最初の方法であるDeblur-NeRFを提案します。ぼかしプロセスをシミュレートすることでぼやけたビューを再構築する合成による分析アプローチを採用しているため、NeRFはぼやけた入力に対して堅牢になっています。このシミュレーションのコアは、各空間位置で正規のスパースカーネルを変形することにより、空間的に変化するブラーカーネルをモデル化する新しい変形可能スパースカーネル(DSK)モジュールです。各カーネルポイントの光線の原点は、物理的なぼ
TAL: Two-stream Adaptive Learning for Generalizable Person Re-identification ドメインの一般化可能な個人の再識別は、訓練されたモデルを見えないドメインに適用することを目的としています。以前の作業では、すべてのトレーニングドメインのデータを組み合わせてドメイン不変の機能をキャプチャするか、専門家の混合を採用してドメイン固有の情報を調査します。この作業では、ドメイン固有の機能とドメイン不変の機能の両方が、re-idモデルの一般化能力を向上させるために重要であると主張します。この目的のために、これら2種類の情報を同時にモデル化するために、2ストリームアダプティブラーニング(TAL)と名付けた新しいフレームワークを設計します。具体的には、ドメイン固有のストリームは、バッチ正規化(BN)パラメーターを使用してトレーニングドメ
Omni-supervised Facial Expression Recognition: A Simple Baseline この論文では、全知教師付き学習を活用することで、表情認識(FER)のパフォーマンスを向上させることを目標としています。現在の最先端のFERアプローチは、通常、限られた数のサンプルでモデルをトレーニングすることにより、制御された環境で顔の表情を認識することを目的としています。さまざまなシナリオで学習したモデルの堅牢性を高めるために、ラベルの付いたサンプルを多数のラベルなしのデータと一緒に活用して、全方向教師付き学習を実行することを提案します。特に、最初にMS-Celeb-1Mを顔のプールとして使用します。ここには、約5,822Kのラベルのない顔の画像が含まれています。次に、少数のラベル付きサンプルで学習されたプリミティブモデルを採用して、特徴ベースの類似性比較を行
Learning a model of shape selectivity in V4 cells reveals shape encoding mechanisms in the brain 初期の視覚信号をV4の曲率表現に変換するメカニズムは不明です。 V4で報告された曲率表現へのこの変換に不可欠なコンポーネントであるV1 / V2エンコーディングを明らかにする階層モデルを提案します。次に、単一のガウス分布の前に頻繁に課せられるものを緩和することにより、V4形状の選択性が、マカクのV4応答から階層の最後の層で学習されます。 V4細胞は、受容野の空間的範囲全体からの複数の形状部分を、同様の興奮性および抑制性の寄与で統合することがわかりました。私たちの結果は、V4ニューロンの形状選択性に関する既存のデータの新しい詳細を明らかにしており、さらなる実験により、この領域での処理の理解を深めること
弱く監視されたローカリゼーション設定では、監視は画像レベルのラベルとして与えられます。画像分類器fを使用し、入力画像が与えられた場合に、画像内のオブジェクトの位置を示すピクセルごとの重みマップを出力する生成ネットワークgをトレーニングすることを提案します。ネットワークgは、元の画像の分類器fの出力と、gの出力によって重み付けされた同じ画像が与えられた場合のその出力との間の不一致を最小化することによってトレーニングされます。このスキームでは、gが均一な重みを提供しないことを保証する正則化項と、gが画像を過度にセグメント化するのを防ぐための早期停止基準が必要です。私たちの結果は、この方法が、一般的な画像認識データセットだけでなく、挑戦的な細粒度分類データセットでもかなりのマージンで既存のローカリゼーション方法よりも優れていることを示しています。さらに、取得された重みマップは、きめ細かい分類デー
ドキュメントに保存されている情報のデジタル変換は、優れた知識源です。ドキュメントのテキストとは対照的に、チャートやプロットなどの埋め込みドキュメントのグラフィックの変換については、あまり検討されていません。ドキュメントチャートを機械可読な表形式のデータ形式にエンドツーエンドで変換する方法とシステムを紹介します。これは、デジタルドメインで簡単に保存および分析できます。私たちのアプローチでは、グラフをグラフ要素と、凡例、軸、タイトル、キャプションなどのサポート構造とともに抽出して分析します。私たちの検出システムは、合成データのみでトレーニングされたニューラルネットワークに基づいており、データ収集の制限要因を排除します。バウンディングボックスを使用してグラフィック要素を検出する以前の方法とは対照的に、当社のネットワークは、補助ドメイン固有のヒートマップ予測を備えており、長方形のバウンディングボッ
Image preprocessing and modified adaptive thresholding for improving OCR この論文では、テキスト内の主要なピクセル強度を見つけ、それに応じて画像をしきい値処理して、光学式文字認識(OCR)モデルに使用しやすくする方法を提案しました。私たちの方法では、画像全体を編集する代わりに、テキストの境界とそれらを塗りつぶす色を除く他のすべての機能を削除しています。このアプローチでは、入力画像からの文字のグレースケール強度がしきい値パラメータの1つとして使用されます。開発されたモデルのパフォーマンスは、PyTesseractによるOCRが続く画像処理の有無にかかわらず、入力画像で最終的に検証されます。得られた結果に基づいて、このアルゴリズムは、OCRの画像処理の分野で効率的に適用できることが観察できます。 In this paper
PAPooling: Graph-based Position Adaptive Aggregation of Local Geometry in Point Clouds 局所領域の点の特徴の集約によってキャプチャされたきめの細かいジオメトリは、点群のオブジェクト認識とシーンの理解に不可欠です。それにもかかわらず、既存の卓越したポイントクラウドバックボーンは通常、ローカルフィーチャ集約のための最大/平均プーリングを組み込んでおり、ポイントの位置分布をほとんど無視しているため、きめ細かい構造の組み立てが不十分になります。このボトルネックを軽減するために、最大プーリングの効率的な代替手段である位置適応プーリング(PAPooling)を提示します。これは、新しいグラフ表現を使用してローカルポイント間の空間関係を明示的にモデル化し、位置適応方式でフィーチャを集約して、集約された機能。具体的には、
Deep Multi-task Learning for Facial Expression Recognition and Synthesis Based on Selective Feature Sharing マルチタスク学習は、深層学習ベースの表情認識タスクのための効果的な学習戦略です。ただし、ほとんどの既存の方法では、異なるタスク間で情報を転送するときに機能の選択が限定的に考慮されているため、マルチタスクネットワークのトレーニング時にタスクの干渉が発生する可能性があります。この問題に対処するために、我々は新しい選択的特徴共有法を提案し、表情認識と表情合成のためのマルチタスクネットワークを確立します。提案された方法は、役に立たない有害な情報を除外しながら、異なるタスク間で有益な機能を効果的に転送できます。さらに、提案された方法の汎化能力をさらに強化するために、トレーニングデータセッ
Unsupervised Domain Adaptive Person Re-Identification via Human Learning Imitation 教師なしドメイン適応型の人の再識別は、その高い実用的価値のために大きな注目を集めています。過去数年間、研究者は、クラスタリングと微調整のパラダイムに従うことにより、異なる個人の再識別データセット間のドメインギャップを減らすための方法で教師と学生のフレームワークを利用することを提案しています。生徒に教師からの行動を直接コピーさせるか、信頼できる学習教材を選択することによって人間の学習プロセスを模倣しようとする最近の教師と生徒のフレームワークベースの方法に触発されて、さまざまな側面から人間の学習プロセスを模倣するためのさらなる調査を行うことを提案しますつまり、学習教材を適応的に更新し、教師の行動を選択的に模倣し、学習教材の構造を分
Targeted Supervised Contrastive Learning for Long-Tailed Recognition 実世界のデータは、多くの場合、クラスの不均衡が大きいロングテール分布を示します。この場合、多数派のクラスがトレーニングプロセスを支配し、少数派のクラスの決定境界を変更する可能性があります。最近、研究者は、ロングテール認識のための教師あり対照学習の可能性を調査し、それが強力なパフォーマンスの向上を提供することを実証しました。このホワイトペーパーでは、監視された対照学習がパフォーマンスの向上に役立つ一方で、過去のベースラインは、不均衡なデータ分布によってもたらされる均一性の低下に悩まされていることを示しています。この不十分な均一性は、特徴空間での分離性が低い少数派クラスのサンプルに現れます。この問題に対処するために、超球上の特徴分布の均一性を改善する、ターゲ
A Hierarchy-Aware Pose Representation for Deep Character Animation データ駆動型のキャラクターアニメーション技術は、適切に確立されたモーションモデルの存在に依存しており、その豊富なコンテキストを記述できます。ただし、一般的に使用されるモーション表現は、モーションの完全なアーティキュレーションを正確にエンコードできないか、アーティファクトを提示することがよくあります。この作業では、モーションモデリング用の堅牢なポーズ表現を見つけるという基本的な問題に対処します。これは、ポーズをより適切に制約し、骨格特性と相関するニュアンスを忠実にキャプチャできる、深いキャラクターアニメーションに適しています。私たちの表現は、双対四元数に基づいています。これは、明確に定義された操作による数学的抽象化であり、回転方向と位置方向を同時にエンコードし
バッチ正規化(BN)のような正規化は、深層学習で中間層の分布を正規化するマイルストーン手法であり、トレーニングの高速化と一般化の精度の向上を可能にします。ただし、忠実度画像の超解像(SR)では、正規化レイヤーは機能を正規化することで範囲の柔軟性をなくし、最新のSRネットワークから削除されると考えられています。この論文では、この現象を定量的および定性的に研究します。残余特徴の標準偏差は、正規化レイヤーの後で大幅に縮小し、SRネットワークのパフォーマンスが低下することがわかりました。標準偏差は、ピクセル値の変動量を反映しています。変動が小さくなると、ネットワークが解決するためのエッジの識別力が低下します。この問題に対処するために、変調係数が適応的に予測されてピクセル偏差を増幅する適応偏差変調器(AdaDM)を提案します。より良い一般化パフォーマンスのために、提案されたAdaDMを使用して最先端
Document Layout Analysis with Aesthetic-Guided Image Augmentation ドキュメントレイアウト分析(DLA)は、情報の抽出とドキュメントの理解において重要な役割を果たします。現在、ドキュメントレイアウト分析は画期的な成果に達していますが、マンハッタン以外のドキュメントレイアウト分析は依然として課題です。本論文では、この課題に取り組むための画像層モデリング手法を提案する。提案された画像レイヤーモデリング方法を測定するために、FPDという名前の手動でラベル付けされた非マンハッタンレイアウトのきめ細かいセグメンテーションデータセットを提案します。私たちが知る限り、FPDは、手動でラベル付けされた最初の非マンハッタンレイアウトのきめ細かいセグメンテーションデータセットです。ドキュメントのきめ細かい特徴を効果的に抽出するために、LE ^ 3
Image Shape Manipulation from a Single Augmented Training Sample この論文では、単一の画像に基づく条件付き画像操作の生成モデルであるDeepSIMを紹介します。単一画像のトレーニングを可能にするためには、大規模な拡張が重要であることがわかり、効果的な拡張として薄板スプライン(TPS)の使用が組み込まれています。私たちのネットワークは、画像の原始的な表現と画像自体の間のマッピングを学習します。プリミティブ表現の選択は、操作の容易さと表現力に影響を与え、自動(エッジなど)、手動(セグメンテーションなど)、またはセグメンテーションの上のエッジなどのハイブリッドにすることができます。操作時に、ジェネレーターは、プリミティブ入力表現を変更し、ネットワークを介してマッピングすることにより、複雑な画像変更を行うことができます。私たちの方法は
事前にトレーニングされたクラスの大規模なデータセットで事前トレーニングされたモデルを微調整するのとは異なり、クラスインクリメンタル学習(CIL)は、事前にトレーニングされたクラスを忘れることなく、時間の経過とともに新しいクラスを認識することを目的としています。ただし、特定のモデルは、よりきめ細かいクラスのテスト画像によってチャレンジされます。たとえば、バセンジーはせいぜい犬として認識されます。このような画像は新しいトレーニングセット(つまりサポートセット)を形成するため、インクリメンタルモデルは次回バセンジーとしてバセンジー(つまりクエリ)を認識することが期待されます。この論文では、C2FSCILという名前のCIL問題として、粗いものから細かいものへの数ショット(C2FS)認識のハイブリッド自然問題を定式化し、シンプルで効果的で理論的に健全な戦略Knoweを提案します。粗いラベルから対照的
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く