BLT: Bidirectional Layout Transformer for Controllable Layout Generation ビジュアルレイアウトの作成は、グラフィックデザインの重要なステップです。このようなレイアウトの自動生成は、スケーラブルで多様なビジュアルデザインを求めるために重要です。自動レイアウト生成に関するこれまでの作業は、モデルが特定の問題に対するユーザーのニーズを無視してレイアウトを生成する無条件の生成に焦点を合わせています。条件付きレイアウトの生成を進めるために、双方向レイアウトトランスフォーマーであるBLTを導入します。 BLTは、最初にユーザー入力を満たすドラフトレイアウトを生成し、次にレイアウトを繰り返し改良するという点で、自己回帰デコードとは異なります。提案されたモデルを、さまざまな忠実度メトリックを使用して複数のベンチマークで検証します。私た
Generating Useful Accident-Prone Driving Scenarios via a Learned Traffic Prior 自動運転車の計画を評価および改善するには、ロングテールトラフィックシナリオをスケーラブルに生成する必要があります。有用であるためには、これらのシナリオは現実的で挑戦的でなければなりませんが、安全にドライブスルーすることは不可能ではありません。この作業では、STRIVEを紹介します。これは、特定のプランナーが衝突などの望ましくない動作を生成するような、やりがいのあるシナリオを自動的に生成する方法です。シナリオの妥当性を維持するための重要なアイデアは、グラフベースの条件付きVAEの形式で学習した交通の動きのモデルを活用することです。シナリオの生成は、このトラフィックモデルの潜在空間での最適化として定式化され、最初の実世界のシーンを摂動させ
ISSAFE: Improving Semantic Segmentation in Accidents by Fusing Event-based Data すべての交通参加者の安全を確保することは、インテリジェント車両を実際のアプリケーションに近づけるための前提条件です。支援システムは、通常の条件下で高精度を達成するだけでなく、極端な状況に対して堅牢な知覚を得る必要があります。ただし、オブジェクトの衝突、変形、転倒などを伴う交通事故は、ほとんどのトレーニングセットでは見られませんが、既存のセマンティックセグメンテーションモデルのパフォーマンスに大きな悪影響を及ぼします。この問題に取り組むために、事故データセットDADAセグメントとともに、事故シナリオでのセマンティックセグメンテーションに関してめったに対処されないタスクを提示します。これには、それぞれ40フレームの313のさまざまな事故
DVHN: A Deep Hashing Framework for Large-scale Vehicle Re-identification この論文では、車両の再識別とディープハッシュ学習の統合を調査する最初の試みを行います。ディープハッシュベースの車両再識別フレームワークであるDVHNを提案します。これは、メモリ使用量を大幅に削減し、最近傍探索の精度を維持しながら検索効率を向上させます。具体的には、〜DVHNは、特徴学習ネットワークとハッシュコード生成モジュールを共同で最適化することにより、各画像の個別のコンパクトなバイナリハッシュコードを直接学習します。具体的には、畳み込みニューラルネットワークからの出力を個別のバイナリコードに直接制約し、学習したバイナリコードが分類に最適であることを確認します。ディープディスクリートハッシュフレームワークを最適化するために、バイナリ類似性が保持
Model Doctor: A Simple Gradient Aggregation Strategy for Diagnosing and Treating CNN Classifiers 最近、畳み込みニューラルネットワーク(CNN)は、分類タスクで優れたパフォーマンスを達成しました。 CNNは「ブラックボックス」と見なされることが広く知られています。これは、予測メカニズムを理解し、誤った予測をデバッグするのが困難です。上記の欠点を解決するために、いくつかのモデルのデバッグと説明の作業が開発されています。ただし、これらの方法は、モデル予測の考えられる原因の説明と診断に重点を置いており、これに基づいて、研究者はモデルの次の最適化を手動で処理します。この論文では、モデルドクターと呼ばれる最初の完全自動モデル診断および治療ツールを提案します。 1)各カテゴリはスパースで特定の畳み込みカーネ
Few-Shot Keypoint Detection as Task Adaptation via Latent Embeddings 高密度オブジェクトトラッキングは、ピクセルレベルの精度で特定のオブジェクトポイントをローカライズする機能であり、ロボット工学の多数のダウンストリームアプリケーションでの重要なコンピュータービジョンタスクです。既存のアプローチは、単一のフォワードパスで高密度のキーポイント埋め込みを計算します。つまり、モデルはすべてを一度に追跡するようにトレーニングされるか、またはそれらの全容量をスパースの事前定義されたポイントのセットに割り当てて、一般性と精度を交換します。この論文では、特定の時点での関連するポイントの数が通常は比較的少ないという観察に基づいて、中間点を探ります。たとえば、ターゲットオブジェクト上のポイントを把握します。私たちの主な貢献は、スパーススタイル
Does Redundancy in AI Perception Systems Help to Test for Super-Human Automated Driving Performance? 自動運転は人間よりも優れた運転性能で宣伝されることがよくありますが、この作業では、これが実際に当てはまるというシステムレベルでの直接的な統計的証拠を提供することはほぼ不可能であるとレビューしています。必要なラベル付きデータの量は、現在の技術的および経済的能力の次元を超えます。したがって、一般的に使用される戦略は、十分なサブシステムのパフォーマンスの証明とともに冗長性を使用することです。知られているように、この戦略は、特に独立して動作するサブシステムの場合に効率的です。つまり、エラーの発生は統計的な意味で独立しています。ここでは、同じコンピュータビジョンタスクを実行するニューラルネットワークの
BLPnet: A New DNN model for Automatic License Plate Detection with Bengali OCR 画像処理とオブジェクトローカリゼーションを備えたディープニューラルネットワーク(DNN)モデルは、自動交通制御および監視システムを進歩させる可能性があります。堅牢なナンバープレート検出モデルの開発におけるいくつかの顕著な進歩にもかかわらず、研究努力は、より高い検出精度で計算の複雑さを軽減し続けています。このホワイトペーパーでは、ベンガル文字の自動ナンバープレート認識(ALPR)システムと、ベンガルライセンスプレートネットワーク(BLPnet)と呼ばれる新しいDNNモデルについて報告します。さらに、提案されたモデルでVLPの前に車両領域を検出するためのカスケードアーキテクチャは、計算コストと誤検知を大幅に削減し、システムをより高速かつ正
Mimicking the Oracle: An Initial Phase Decorrelation Approach for Class Incremental Learning クラスインクリメンタル学習(CIL)は、フェーズごとにマルチクラス分類器を学習することを目的としています。各フェーズでは、クラスのサブセットのデータのみが提供されます。以前の作品は、主に最初のものの後の段階で忘却を軽減することに焦点を当てています。ただし、初期段階でCILを改善することも有望な方向であることがわかります。具体的には、初期段階でCIL学習者に、すべてのクラスで共同でトレーニングされたモデルと同様の表現を出力するように直接促すことで、CILのパフォーマンスを大幅に向上できることを実験的に示します。これに動機付けられて、私たちは素朴に訓練された初期段階モデルとオラクルモデルの違いを研究します。具体
Auto-X3D: Ultra-Efficient Video Understanding via Finer-Grained Neural Architecture Search 効率的なビデオアーキテクチャは、限られたコンピューティングリソースを備えたデバイスにビデオ認識システムを展開するための鍵です。残念ながら、既存のビデオアーキテクチャは多くの場合、計算量が多く、そのようなアプリケーションには適していません。最近のX3Dの作品は、空間、時間、幅、奥行きなどの複数の軸に沿って手作りの画像アーキテクチャを拡張することにより、効率的なビデオモデルの新しいファミリを示しています。 X3Dは、概念的に大きな空間で動作しますが、一度に1つの軸を検索し、合計30のアーキテクチャの小さなセットを探索しただけであり、空間を十分に探索できません。この論文は、既存の2Dアーキテクチャをバイパスし、ブロッ
Geometric Pose Affordance: 3D Human Pose with Scene Constraints 単一の画像からの人間のポーズの完全な3D推定は、最近の多くの進歩にもかかわらず、依然として困難な作業です。この論文では、シーンのジオメトリに関する強力な事前情報を使用して、ポーズ推定の精度を向上させることができるという仮説を検討します。この質問に経験的に取り組むために、さまざまなリッチ3D環境と対話する人々のマルチビュー画像で構成される新しいGeometric PoseAffordanceデータセットを作成しました。市販のモーションキャプチャシステムを利用して、ポーズのゴールドスタンダードの推定値を収集し、シーン自体の正確な幾何学的3DCADモデルを構築しました。画像からポーズを推定するための既存のフレームワークにシーンの制約に関する事前の知識を注入するために、シ
A Unified Architecture of Semantic Segmentation and Hierarchical Generative Adversarial Networks for Expression Manipulation 必要なものだけを変更して顔の表情を編集することは、画像操作のためのGenerative Adversarial Networks(GAN)における長年の研究課題です。グローバルジェネレーターのみに依存する既存のメソッドのほとんどは、通常、ターゲット属性とともに不要な属性を変更することに悩まされています。最近では、画像全体を扱うグローバルネットワークと、ローカル部分を中心とした複数のローカルネットワークの両方で構成される階層型ネットワークが成功を収めています。ただし、これらの方法では、微分不可能で不正確で非現実的なまばらな顔のキーポイントを中心と
フォトリアリスティックな画像の生成、セマンティック編集、表現学習は、高解像度生成モデルの多くの潜在的なアプリケーションのいくつかです。 GANの最近の進歩により、GANはそのようなタスクの優れた選択肢として確立されています。ただし、推論モデルを提供していないため、GAN潜在空間を使用して実際の画像に対して画像編集や分類などのダウンストリームタスクを実行することはできません。推論モデルをトレーニングしたり、事前にトレーニングされたジェネレーターを反転する反復法を設計したりするための多くの努力にもかかわらず、以前の方法はデータセット(例:人間の顔画像)とアーキテクチャ(例:StyleGAN)に固有です。これらの方法は、新しいデータセットやアーキテクチャに拡張するのに簡単ではありません。アーキテクチャやデータセットにとらわれない一般的なフレームワークを提案します。私たちの重要な洞察は、推論と生成
STAF: A Spatio-Temporal Attention Fusion Network for Few-shot Video Classification 数ショットのビデオ分類のための時空間アテンションフュージョンネットワークであるSTAFを提案します。 STAFはまず、3D畳み込みニューラルネットワーク埋め込みネットワークを適用することにより、ビデオの粗い空間的および時間的特徴を抽出します。次に、自己注意および相互注意ネットワークを使用して、抽出された特徴を微調整します。最後に、STAFは、軽量フュージョンネットワークと最近傍分類器を適用して、各クエリビデオを分類します。 STAFを評価するために、3つのベンチマーク(UCF101、HMDB51、およびSomething-Something-V2)で広範な実験を行います。実験結果は、STAFが最先端の精度を大幅に向上させること
近年、政府機関と商業団体の両方で顔認識(FR)テクノロジーが急速に採用されているため、市民の自由とプライバシーに対する懸念が高まっています。これに対応して、ユーザーが不要な顔認識を回避できるように、いわゆる「反顔認識」(AFR)ツールの幅広いスイートが開発されました。過去数年間に提案された一連のAFRツールは、広範囲で急速に進化しているため、AFRシステムのより広い設計スペースと長期的な課題を検討するために一歩後退する必要があります。このペーパーは、そのギャップを埋めることを目的とし、AFRの研究環境の最初の包括的な分析を提供します。 FRシステムの運用段階を出発点として使用して、さまざまなAFRアプローチの利点とトレードオフを分析するための体系的なフレームワークを作成します。次に、AFRツールが直面している技術的および社会的課題の両方を検討し、この分野での将来の研究の方向性を提案します。
Segment and Complete: Defending Object Detectors against Adversarial Patch Attacks with Robust Patch Detection オブジェクト検出は、多くのセキュリティが重要なシステムで重要な役割を果たします。物理的な世界で簡単に実装できる敵対的なパッチ攻撃は、最先端のオブジェクト検出器に深刻な脅威をもたらします。パッチ攻撃に対するオブジェクト検出器の信頼性の高い防御を開発することは重要ですが、十分に研究されていません。この論文では、敵対的なパッチを検出して削除することにより、パッチ攻撃からオブジェクト検出器を防御するための一般的なフレームワークであるセグメントおよび完全防御(SAC)を提案します。まず、敵対的なパッチのピクセルレベルのローカリゼーションを提供するパッチマスクを出力するパッチセグメン
Multiscale Softmax Cross Entropy for Fovea Localization on Color Fundus Photography 中心窩の位置特定は、眼科医療画像分析で最も一般的なタスクの1つであり、黄斑の中心点、つまり中心窩の座標は、カラー眼底画像に基づいて計算する必要があります。この作業では、ローカリゼーションの問題を分類タスクとして扱います。ここでは、x軸とy軸の座標がターゲットクラスと見なされます。さらに、ソフトマックス活性化関数とクロスエントロピー損失関数の組み合わせは、予測された座標がグラウンドトゥルースの近くに配置されるように、そのマルチスケール変動に変更されます。カラー眼底写真画像に基づいて、提案されたマルチスケールソフトマックスクロスエントロピーがバニラバージョンよりも優れたパフォーマンスをもたらし、シグモイド活性化による平均二乗誤差
A novel multi-view deep learning approach for BI-RADS and density assessment of mammograms 高度な深層学習(DL)アルゴリズムは、乳房画像レポートおよびデータシステム(BI-RADS)と密度標準に基づいて、乳がんを発症する患者のリスクを予測する場合があります。最近の研究では、マルチビュー分析の組み合わせにより、乳房検査の全体的な分類が改善されたことが示唆されています。この論文では、BI-RADSとマンモグラムの密度評価のための新しいマルチビューDLアプローチを提案します。提案されたアプローチは、最初に、各ビューで個別に特徴抽出を行うための深い畳み込みネットワークを展開します。次に、抽出された特徴がスタックされ、Light Gradient Boosting Machine(LightGBM)分類器に送
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く