A State-of-the-art Survey of U-Net in Microscopic Image Analysis: from Simple Usage to Structure Mortification 画像解析技術は、病気、廃水処理、環境変化モニタリング分析、畳み込みニューラルネットワーク(CNN)における人工的な従来の方法の不注意を解決するために使用され、顕微鏡画像解析で重要な役割を果たします。検出、追跡、監視、特徴抽出、モデリング、分析における重要なステップは画像セグメンテーションであり、U-Netは顕微鏡画像セグメンテーションにますます適用されています。本稿では、U-Netの開発履歴を包括的にレビューし、U-Netの登場以来のさまざまなセグメンテーション手法のさまざまな研究結果を分析し、関連する論文の包括的なレビューを行います。最初に、このペーパーでは、U-Net
Faster hyperspectral image classification based on selective kernel mechanism using deep convolutional networks ハイパースペクトル画像は、空間情報とスペクトル情報が豊富です。 3D-CNNを使用すると、空間次元とスペクトル次元の特徴を同時に取得して、特徴の分類を容易にすることができますが、ハイパースペクトル画像情報のスペクトル次元情報の冗長性が得られます。連続3D-CNNを使用すると、大量のパラメーターが発生し、デバイスの計算能力要件が高くなり、トレーニングに時間がかかりすぎます。この手紙は、より高速な選択的カーネルメカニズムネットワーク(FSKNet)を設計しました。FSKNetはこの問題のバランスを取ることができます。 3D-CNNおよび2D-CNN変換モジュールを設計し、3
A Data Augmentation Method for Fully Automatic Brain Tumor Segmentation 神経膠腫とその小領域の自動セグメンテーションは、疾患の診断、治療、モニタリングにとって非常に重要です。この論文では、TensorMixupと呼ばれる拡張方法が提案され、脳腫瘍のセグメンテーションのための3次元U-Netアーキテクチャに適用されました。主なアイデアには、最初に、同じモダリティを持つ任意の2人の患者の磁気共鳴画像データからのグラウンドトゥルースラベルの神経膠腫情報に従って、3次元でサイズが128の2つの画像パッチが選択されたことが含まれていました。次に、すべての要素がベータ分布から独立してサンプリングされたテンソルを使用して、画像パッチを混合しました。次に、テンソルは、上記の画像パッチのワンホットエンコードされたラベルを混合するために使
RandomSEMO: Normality Learning Of Moving Objects For Video Anomaly Detection 最近の異常検出アルゴリズムは、フレーム予測オートエンコーダを採用することで強力なパフォーマンスを示しています。ただし、これらの方法は2つの困難な状況に直面しています。第一に、それらは過度に強力になるように訓練されている可能性が高く、異常なフレームさえもうまく生成し、異常の検出に失敗します。第二に、それらは前景と背景の両方でキャプチャされた多数のオブジェクトに気を取られています。これらの問題を解決するために、単純な軽量オートエンコーダーの上に構築された、移動オブジェクトのランダムスーパーピクセル消去(RandomSEMO)および移動オブジェクト損失(MOLoss)という名前の新しいスーパーピクセルベースのビデオデータ変換手法を提案します。
唇の動きの情報は、多くの視聴覚タスクにとって重要です。ただし、ビデオから唇の動きの情報を抽出することは困難です。これは、個人のアイデンティティや頭のポーズなどの要因によって簡単に混乱する可能性があるためです。この論文では、パラメトリック3D顔モデルを利用して、唇の動きの情報を明示的に解きほぐすことを提案します。最近の3D顔再構成の進歩に加えて、まず、唇の動きの情報が存在する表現情報を一貫して解きほぐすことができる方法を提供します。次に、解きほぐされた唇の動きの情報を使用して顔を合成することにより、摂動要因の影響が軽減されると、はるかに少ないデータでリップシンクタスクをより適切に実行できることを示します。最後に、アクティブスピーカー検出タスクの目に見えないデータセットでテストし、競争力のあるパフォーマンスを実現することで、実際にその有効性を示します。 The lip movements in
Audio-Visual Fusion Layers for Event Type Aware Video Recognition 人間の脳は、いつでも外界から来る多感覚情報とそれらの複雑な相互作用で絶えず氾濫しています。このような情報は、私たちの脳内で結合または分離することによって自動的に分析されます。このタスクは人間の脳にとっては簡単に思えるかもしれませんが、複雑な相互作用は単一のタイプの統合では処理できず、より高度なアプローチが必要になるため、同様のタスクを実行できるマシンを構築することは非常に困難です。この論文では、マルチタスク学習スキームにおける個々のイベント固有のレイヤーとの多感覚統合問題に対処するための新しいモデルを提案します。単一のタイプの融合が使用される以前の作品とは異なり、私たちはさまざまな視聴覚関係タスクを処理するためにイベント固有のレイヤーを設計し、視聴覚形成のさま
平面曲線の微分不変量の数値近似のための学習パラダイムを提案します。ディープニューラルネットワーク(DNN)の普遍近似特性は、幾何学的測度を推定するために利用されます。提案されたフレームワークは、公理的構造の好ましい代替案であることが示されています。具体的には、DNNが不安定性とサンプリングアーティファクトを克服し、平面内の特定の変換グループの対象となる曲線の数値的に安定したシグネチャを生成することを学習できることを示します。提案されたスキームを、グループ不変の弧長と曲率の代替の最先端の公理的構造と比較します。 We propose a learning paradigm for numerical approximation of differential invariants of planar curves. Deep neural-networks' (DNNs) universal
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く