運転可能な表面と周囲の環境の3D構造を推定することは、自動運転を支援するための重要なタスクです。これは通常、LiDARなどの高価な3Dセンサーを使用するか、ディープラーニングを介してポイントの深さを直接予測することで解決されます。既存の方法論に従う代わりに、平面視差に基づく単眼画像シーケンスからの3Dセンシング用の新しいディープニューラルネットワークであるRoad Planar Parallax Attention Network(RPANet)を提案します。これは、運転シーンで一般的に見られる路面形状を最大限に活用します。 RPANetは、道路面のホモグラフィによって位置合わせされた1対の画像を入力として受け取り、3D再構成用のγマップを出力します。深さまたは高さを推定するだけでなく、γマップは、深さまたは高さを簡単に導き出すことができる一方で、2つの連続するフレーム間で2次元変換を構築
Auto-Encoding Score Distribution Regression for Action Quality Assessment ビデオとアクションスコアの関係をモデル化するのは難しいため、ビデオからのアクション品質評価(AQA)は難しいビジョンタスクです。したがって、行動の質の評価は、文献で広く研究されてきました。従来、AQAタスクは、ビデオとアクションスコアの間の基礎となるマッピングを学習するための回帰問題として扱われていました。最近では、ラベル分布学習(LDL)の導入により、不確実性スコア分布学習(USDL)の方法が成功しました。ただし、USDLは連続ラベルのあるデータセットには適用されず、トレーニングで一定の分散が必要です。この論文では、上記の問題に対処するために、Distribution Auto-Encoder(DAE)をさらに開発します。 DAEは、回帰アル
Imperceptible Transfer Attack and Defense on 3D Point Cloud Classification 近年、2D画像ドメインに対する攻撃と防御に多くの努力が払われてきましたが、3Dモデルの脆弱性を調査する方法はほとんどありません。既存の3D攻撃者は通常、点群に対して点ごとの摂動を実行し、その結果、構造や外れ値が変形します。これは、人間が簡単に認識できます。さらに、それらの敵対的な例は、ホワイトボックス設定の下で生成されます。ホワイトボックス設定は、リモートブラックボックスモデルを攻撃するために転送されると、成功率が低くなることがよくあります。この論文では、新しい知覚不能伝達攻撃(ITA)を提案することにより、2つの新しい挑戦的な視点から3D点群攻撃を研究します。1)知覚不能性:各点の摂動方向を近傍表面の法線ベクトルに沿って制約し、同様の幾何学
Local-Selective Feature Distillation for Single Image Super-Resolution 畳み込みニューラルネットワーク(CNN)ベースの単一画像超解像(SISR)手法の最近の改善は、回帰損失を最小限に抑える以外に適切なトレーニングアルゴリズムを見つけるのではなく、ネットワークアーキテクチャの製造に大きく依存しています。知識蒸留(KD)を採用することで、SISRをさらに改善する道が開かれ、モデルの効率の観点からも有益です。 KDは、テスト用の追加パラメーターを使用せずに、ディープニューラルネットワーク(DNN)のパフォーマンスを向上させるモデル圧縮方法です。最近、容量とパフォーマンスのトレードオフを改善する能力が脚光を浴びています。本論文では、SISRに適した新しい特徴蒸留(FD)法を提案した。 SISRタスクで発生する既存のFitNet
MUM : Mix Image Tiles and UnMix Feature Tiles for Semi-Supervised Object Detection 最近の多くの半教師あり学習(SSL)研究は、教師と生徒のアーキテクチャを構築し、教師から生成された監視信号によって生徒のネットワークをトレーニングします。ラベル情報を失うことなく弱く強い拡張入力ペアを作成することは難しいため、データ拡張戦略はSSLフレームワークで重要な役割を果たします。特にSSLを半教師ありオブジェクト検出(SSOD)に拡張する場合、画像ジオメトリと補間正則化に関連する多くの強力な拡張手法は、オブジェクト検出タスクのバウンディングボックスの位置情報を損なう可能性があるため、利用が困難です。これに対処するために、SSODフレームワークの混合画像タイルの機能タイルをアンミックスするシンプルで効果的なデータ拡張方法
Sparse Tensor-based Multiscale Representation for Point Cloud Geometry Compression この研究では、SparsePCGCと呼ばれるボクセル化されたPCGのスパーステンソルプロセッシング(STP)ベースのマルチスケール表現を介して、統合された点群ジオメトリ(PCG)圧縮方法を開発します。 STPを適用すると、最も可能性の高い正の占有ボクセル(MP-POV)を中心とした畳み込みのみが実行されるため、複雑さが大幅に軽減されます。また、マルチスケール表現により、スケールごとのMP-POVを段階的に圧縮できます。全体的な圧縮効率は、各MP-POVの占有確率の近似精度に大きく依存します。したがって、事前確率を広範囲に活用するために、スパース畳み込みとボクセル再サンプリングで構成されるスパース畳み込みベースのニューラルネット
PAANet: Progressive Alternating Attention for Automatic Medical Image Segmentation 医療画像のセグメンテーションは、臨床分析のための詳細な情報を提供できます。これは、所見の詳細な場所が重要であるシナリオに役立ちます。病気の場所を知ることは、治療と意思決定において重要な役割を果たすことができます。畳み込みニューラルネットワーク(CNN)ベースのエンコーダ-デコーダ技術は、自動化された医療画像セグメンテーションシステムのパフォーマンスを向上させました。このようなCNNベースの方法論のいくつかは、空間的およびチャネルごとの注意などの手法を利用してパフォーマンスを向上させます。近年注目を集めているもう1つの手法は、残留高密度ブロック(RDB)です。密に接続されたブロック内の連続する畳み込み層は、さまざまな受容野を持つ
GMSRF-Net:ポリープセグメンテーションのためのグローバルマルチスケール残差融合ネットワークによる改善された一般化可能性 GMSRF-Net: An improved generalizability with global multi-scale residual fusion network for polyp segmentation 結腸内視鏡検査はゴールドスタンダードの手順ですが、オペレーターに大きく依存します。前癌性前駆体であるポリープの検出とセグメンテーションを自動化して、見逃し率を効果的に最小限に抑えるための努力がなされてきました。エンコーダーデコーダーによって作動する広く使用されているコンピューター支援ポリープセグメンテーションシステムは、精度の点で高いパフォーマンスを達成しています。ただし、さまざまなセンターから収集されたポリープセグメンテーションデータセットは、
テキストに依存しないライターの識別のためのマルチスケールフュージョン、空間的注意およびパッチ相互作用技術の活用 Exploiting Multi-Scale Fusion, Spatial Attention and Patch Interaction Techniques for Text-Independent Writer Identification テキストに依存しないライターの識別は、異なる手書きスタイルを区別して手書きテキストの作成者を決定するという難しい問題です。以前の作家の識別は、作家間の違いの断片を明らかにするために手作りの機能に依存していました。畳み込みニューラルネットワークの出現に伴う最近の研究では、深層学習ベースの方法が進化しました。この論文では、空間的注意メカニズム、マルチスケール特徴融合、パッチベースのCNNの3つの異なる深層学習手法を提案して、各作家の手書き
ACR-Pose: Adversarial Canonical Representation Reconstruction Network for Category Level 6D Object Pose Estimation 最近、カテゴリレベルの6Dオブジェクトポーズ推定は、標準的な3D表現の再構築の開発により大幅な改善を達成しました。ただし、既存の方法の再構成の品質はまだ優れているとは言えません。この論文では、ACR-Poseという名前の新しい敵対的正準表現再構成ネットワークを提案します。 ACR-Poseは、ReconstructorとDiscriminatorで構成されています。 Reconstructorは、主に2つの新しいサブモジュールで構成されています。Pose-IrrelevantModule(PIM)とRelational Reconstruction Module(
CamLiFlow: Bidirectional Camera-LiDAR Fusion for Joint Optical Flow and Scene Flow Estimation 本論文では、同期した2Dおよび3Dデータからオプティカルフローとシーンフローを共同で推定する問題を研究します。以前の方法では、共同タスクを独立した段階に分割する複雑なパイプラインを使用するか、2Dおよび3D情報を「早期融合」または「後期融合」の方法で融合します。このような万能のアプローチは、各モダリティの特性を十分に活用できない、またはモダリティ間の相補性を最大化できないというジレンマに悩まされています。この問題に対処するために、CamLiFlowと呼ばれる新しいエンドツーエンドのフレームワークを提案します。これは、2Dおよび3Dブランチで構成され、特定のレイヤーでそれらの間に複数の双方向接続があります。
Burst Photography for Learning to Enhance Extremely Dark Images 非常に暗い場所で画像をキャプチャすることは、標準のカメラパイプラインに大きな課題をもたらします。画像が暗くなりすぎてノイズが多くなりすぎるため、従来の拡張技術を適用することはほとんど不可能になります。最近、学習ベースのアプローチは、改善された品質を可能にする実質的により表現力のある機能を備えているため、このタスクに非常に有望な結果を示しています。これらの研究を動機として、このホワイトペーパーでは、バースト写真を活用してパフォーマンスを向上させ、非常に暗い未加工画像からよりシャープで正確なRGB画像を取得することを目指しています。私たちが提案するフレームワークのバックボーンは、高品質の出力を段階的に生成する新しい粗雑なネットワークアーキテクチャです。粗いネットワーク
Diabetic Foot Ulcer Grand Challenge 2021: Evaluation and Summary 糖尿病性足潰瘍分類システムは、創傷感染(創傷内に存在する細菌)および虚血(血液供給の制限)の存在を、創傷治癒の治療および予測のための重要な臨床指標として使用します。糖尿病性足創傷内の感染と虚血を分類する自動化されたコンピューター化された方法の使用を調査する研究は、公開されているデータセットの不足と存在する少数のデータセットの深刻な不均衡のために限られています。糖尿病性足潰瘍チャレンジ2021は、参加者に合計15,683の糖尿病性足潰瘍パッチを含むより実質的なデータセットを提供しました。監督された深層学習技術。この論文は、糖尿病性足潰瘍チャレンジ2021で使用された方法の評価を提供し、各ネットワークから得られた結果を要約します。最高のパフォーマンスを発揮したネット
尿検査は、泌尿器系に関連する問題を検出するための標準的な診断テストです。尿検査の自動化により、全体的な診断時間が短縮されます。最近の研究では、尿細胞を分類および検出するための深層学習ベースのアルゴリズムを設計するために、尿顕微鏡データセットを使用しました。しかし、これらのデータセットは、さらなる研究のために公に利用可能ではありません。尿データセットの必要性を軽減するために、約3700個の細胞注釈とRBC、膿、上皮細胞の3つのカテゴリの細胞で構成される尿沈渣顕微鏡画像(UMID)データセットを準備します。データセットと注釈の準備に伴ういくつかの課題について説明します。データセットを公開します。 Urinalysis is a standard diagnostic test to detect urinary system related problems. The automation o
ColDE: A Depth Estimation Framework for Colonoscopy Reconstruction 単眼ビデオから3Dメッシュを再構築する重要な要素の1つは、すべてのフレームの深度マップを生成することです。ただし、結腸内視鏡ビデオ再構成のアプリケーションでは、高品質の深度推定を生成することは困難です。ニューラルネットワークは、測光の気晴らしに簡単にだまされたり、結腸表面の複雑な形状をキャプチャできず、メッシュの破損につながる欠陥のある形状を予測したりする可能性があります。結腸内視鏡3D再構成の深度推定品質を根本的に改善することを目的として、この作業では、結腸内視鏡データの特別な課題に対処するための一連のトレーニング損失を設計しました。より良いトレーニングのために、深さと表面の法線情報の両方を使用して、一連の幾何学的一貫性目標が開発されました。また、従来の測
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く