PD-Flow: A Point Cloud Denoising Framework with Normalizing Flows 点群のノイズ除去は、きめ細かい詳細を保持しながら、ノイズや外れ値によって破損した生の観測からきれいな点群を復元することを目的としています。正規化フローとノイズ解きほぐし技術を組み込んだ新しい深層学習ベースのノイズ除去モデルを提示して、高いノイズ除去精度を実現します。点群の特徴を抽出して点ごとに補正する既存の作品とは異なり、分布学習と特徴の解きほぐしの観点からノイズ除去プロセスを定式化します。ノイズの多い点群をクリーンポイントとノイズの同時分布と見なすことにより、ノイズのない結果を潜在的なポイント表現からノイズの対応物を解きほぐすことから導き出すことができ、ユークリッド空間と潜在空間の間のマッピングはフローを正規化することによってモデル化されます。さまざまなノイ
TFCNet: Temporal Fully Connected Networks for Static Unbiased Temporal Reasoning 時間的推論は、視覚知能にとって重要な機能の1つです。コンピュータビジョン研究コミュニティでは、時間的推論は通常、ビデオ分類の形で研究されており、近年、多くの最先端のニューラルネットワーク構造とデータセットベンチマーク、特に3DCNNとKineticsが提案されています。ただし、最近のいくつかの研究では、現在のビデオ分類ベンチマークには静的な特徴に対する強いバイアスが含まれているため、時間モデリング機能を正確に反映できないことがわかりました。静的バイアスを排除することを目的とした新しいビデオ分類ベンチマークが提案され、これらの新しいベンチマークでの実験により、現在のクリップベースの3DCNNがRNN構造と最近のビデオトランスフォーマ
BabyNet: Reconstructing 3D faces of babies from uncalibrated photographs キャリブレーションされていない写真、BabyNetから赤ちゃんの3D顔の形状を復元することを目的とした3D顔再構成システムを紹介します。赤ちゃんの3D顔の形状は大人のそれとは大幅に異なるため、赤ちゃん固有の顔の再構成システムが必要です。 BabyNetは、次の2つの段階で構成されています。1)3Dグラフ畳み込みオートエンコーダーは、赤ちゃんの3D顔の形の潜在空間を学習します。 2)転移学習を使用して抽出された代表的な特徴に基づいて写真を3D潜在空間にマッピングする2Dエンコーダー。このように、事前にトレーニングされた3Dデコーダーを使用して、2D画像から3D顔を復元できます。 BabyNetを評価し、1)成人のデータセットに基づく方法では、赤ちゃ
Video Coding for Machines with Feature-Based Rate-Distortion Optimization 一般的な最先端のビデオコーデックは、レート歪み最適化(RDO)によって実現される、最終的な人間の観察者に特定の品質を提供することにより、低ビットレートを提供するように最適化されています。しかし、コンピュータビジョンタスクを解決するニューラルネットワークの着実な改善により、ますます多くのマルチメディアデータが人間によって観察されるのではなく、ニューラルネットワークによって直接分析されるようになりました。この論文では、デコードされたフレームがマシンシナリオのビデオコーディングでニューラルネットワークによって分析されるときに、コーディングパフォーマンスを向上させるように設計された標準準拠の機能ベースのRDO(FRDO)を提案します。その範囲で、VTM
グラフの強力な表現機能の恩恵を受けて、グラフベースのアプローチは、マルチモーダル医療データを処理するために広く適用されており、さまざまな生物医学アプリケーションで印象的なパフォーマンスを達成しています。疾患予測タスクの場合、ほとんどの既存のグラフベースの方法は、指定されたモダリティ(人口統計情報など)に基づいて手動でグラフを定義し、他のモダリティを統合してグラフ表現学習(GRL)によって患者の表現を取得する傾向があります。ただし、これらの方法では、事前に適切なグラフを作成することは簡単なことではありません。一方、モダリティ間の複雑な相関関係は無視されます。これらの要因は必然的に、信頼できる診断のために患者の状態に関する十分な情報を提供することの不十分さをもたらします。この目的のために、マルチモダリティによる疾患予測のためのエンドツーエンドのマルチモーダルグラフ学習フレームワーク(MMGL)
Automatic Fine-grained Glomerular Lesion Recognition in Kidney Pathology 糸球体病変の認識は、腎臓病理学における診断と治療計画の鍵です。ただし、メサンギウム領域などの共存する糸球体構造は、このタスクの難しさを悪化させます。本論文では、スライド画像全体から細粒糸球体病変を認識するスキームを紹介する。最初に、すべてのタイプの糸球体を正確に特定するようにモデルを駆動するために、フォーカルインスタンスの構造的類似性損失が提案されます。次に、不確実性支援配分ネットワークは、バウンディングボックス注釈なしできめ細かい視覚的分類を実行するように設計されています。この二重の枝形の構造は、親クラスから子クラスの共通の特徴を抽出し、トレーニングデータセットを再構成するための不確実性係数を生成します。スライドワイズ評価の結果は、スキーム全体
Image-based Stroke Assessment for Multi-site Preclinical Evaluation of Cerebroprotectants 虚血性脳卒中は世界中の主要な死因ですが、推定上の脳保護剤を前臨床試験から患者に翻訳することはほとんど成功していません。潜在的な治療的介入のための大規模な前臨床スクリーニングの品質、拡張性、および見通しの実際的な改善のために、計算画像ベースの評価ツールを調査しました。脳卒中前臨床評価ネットワーク(SPAN)の画像ベースの脳卒中転帰定量化のためのパイプラインを開発、評価、および展開しました。これは、一連の脳保護剤介入を評価するマルチサイト、マルチアーム、マルチステージの研究です。私たちの完全に自動化されたパイプラインは、最先端のアルゴリズムとデータ分析アプローチを組み合わせて、梗塞体積、脳萎縮の測定を含む、中大脳動脈
City-wide Street-to-Satellite Image Geolocalization of a Mobile Ground Agent クロスビュー画像のジオローカリゼーションは、GPSを必要とせずに、ローカルの地上画像を頭上の衛星画像と照合することにより、エージェントのグローバルな位置の推定値を提供します。画像には大きな視点の違いがあるため、地上画像を正しい衛星画像に確実に一致させることは困難です。既存の作品は、小さな領域にわたる制約されたシナリオでのローカリゼーションを示していますが、より大規模なローカリゼーションは示していません。 Wide-Area Geolocalization(WAG)と呼ばれる私たちのアプローチは、ニューラルネットワークと粒子フィルターを組み合わせて、GPSが拒否された環境で移動するエージェントのグローバルな位置推定を実現し、都市規模の地域に
Label-efficient Hybrid-supervised Learning for Medical Image Segmentation 医用画像の注釈に関する専門知識が不足しているため、医用画像のセグメンテーションのためのラベル効率の高い方法論の調査は、白熱したトピックになります。最近の進歩は、多くの専門的でないシナリオで同等のセグメンテーションパフォーマンスを達成するために、いくつかの強い注釈付きラベルとともに弱い注釈を効率的に利用することに焦点を当てています。ただし、これらのアプローチは、注釈の強いインスタンスと注釈の弱いインスタンスの間の監視の不整合にのみ焦点を当て、注釈の弱いインスタンス内のインスタンスの不整合を無視します。これにより、必然的にパフォーマンスが低下します。この問題に対処するために、新しいラベル効率の高いハイブリッド監視フレームワークを提案します。これは、
コンピュータ断層撮影(CT)などの医用画像は病院のPACSにDICOM形式で保存されますが、多くの国では、セルフストレージや二次相談の目的で転送可能な媒体としてフィルムを印刷することは依然として非常に日常的です。また、携帯電話のカメラが普及しているため、CTフィルムの写真を撮るのは非常に一般的ですが、残念ながら幾何学的な変形や照明の変化に悩まされています。この研究では、文献で最初の試みであるCTフィルムを私たちの知る限りで回収する問題を研究します。まず、広く使用されているコンピューターグラフィックソフトウェアBlenderを使用して、約20,000枚の写真で構成される大規模なヘッドCTフィルムデータベースCTFilm20Kを構築します。また、幾何学的変形(3D座標、深度、法線、UVマップなど)および照明の変化(アルベドマップなど)に関連するすべての付随情報も記録します。次に、フィルム画像回
Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain Analysis: From Theory to Practice Vision Transformer(ViT)は最近、コンピュータービジョンの問題で有望であることが実証されました。ただし、畳み込みニューラルネットワーク(CNN)とは異なり、ViTのパフォーマンスは、観察された注意の崩壊またはパッチの均一性のために、深さが増すにつれて急速に飽和することが知られています。いくつかの経験的な解決策にもかかわらず、このスケーラビリティの問題を研究する厳密なフレームワークは、とらえどころのないままです。この論文では、最初に、フーリエスペクトル領域からViTの特徴を分析するための厳密な理論フレームワークを確立します。自己注意メカニズムは本質的にローパスフィルタ
Artificial Intelligence Solution for Effective Treatment Planning for Glioblastoma Patients 膠芽腫は、成人で最も一般的な悪性脳腫瘍です。世界では毎年約200000人が膠芽腫で亡くなっています。膠芽腫患者の生存期間の中央値は、最適な治療を行った場合は12か月、治療を行わなかった場合は約4か月です。膠芽腫は、血管原性浮腫に囲まれた、不規則な末梢増強を伴う不均一な壊死性腫瘤として現れる。現在の標準治療には、脳腫瘍のサブ領域の正確なセグメンテーションを必要とする外科的切除、放射線療法、および化学療法が含まれます。効果的な治療計画を立てるには、化学療法の陽性の予後因子であるメチルグアニンメチルトランスフェラーゼ(MGMT)のプロモーターのメチル化状態を特定することが不可欠です。ただし、脳腫瘍のセグメンテーショ
An error correction scheme for improved air-tissue boundary in real-time MRI video for speech production 音声生成におけるリアルタイム磁気共鳴画像法(rtMRI)ビデオの空気組織境界(ATB)セグメンテーションで最高のパフォーマンスは、3次元畳み込みニューラルネットワーク(3D-CNN)モデルによって達成されることが知られています。ただし、このモデルの評価、および文献で報告されている他のATBセグメンテーション手法は、元の輪郭全体と予測された輪郭の間の動的タイムワーピング(DTW)距離を使用して行われます。このような評価尺度では、予測された輪郭の局所的なエラーをキャプチャできない場合があります。予測された輪郭を注意深く分析すると、contour1のvelum部分(上唇、硬口蓋、およびve
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く