Improving Chest X-Ray Report Generation by Leveraging Warm-Starting 患者の胸部X線(CXR)からレポートを自動的に生成することは、臨床的作業負荷を軽減し、患者のケアを改善するための有望なソリューションです。ただし、主にエンコーダーからデコーダーへのモデルである現在のCXRレポートジェネレーターは、臨床現場で展開するための診断精度に欠けています。 CXRレポートの生成を改善するために、最近のオープンソースコンピュータービジョンと、Vision Transformer(ViT)やPubMedBERTなどの自然言語処理チェックポイントを使用してエンコーダーとデコーダーをウォームスタートすることを調査します。この目的のために、各チェックポイントは、自然言語生成と臨床効果(CE)メトリックを使用して、MIMIC-CXRおよびIUX線
ReconFormer: Accelerated MRI Reconstruction Using Recurrent Transformer 加速磁気共鳴画像(MRI)再構成プロセスは、k空間での過度のアンダーサンプリング操作のために、困難な不適切な逆問題です。本論文では、高度にアンダーサンプリングされたk空間データから高出生性磁気共鳴画像を繰り返し再構成できるMRI再構成のための反復変圧器モデル、すなわちReconFormerを提案する。特に、提案されたアーキテクチャは、Recurrent Pyramid Transformer Layers(RPTL)に基づいて構築されています。これは、すべてのアーキテクチャユニットで固有のマルチスケール情報と、反復状態を介した深い特徴相関の依存関係を共同で活用します。さらに、提案されたReconFormerは、パラメータ効率のために反復構造を採用し
デジタルカメラでは、大きな制限があります。フィルムカメラから継承された画像とビデオの形式により、急速に変化するフォトニックの世界をキャプチャできなくなります。ここでは、光子の蓄積がしきい値に達したかどうかを各ビットが表すビットシーケンス配列であるvidarを提示し、いつでもシーンの放射輝度を記録および再構築します。民生用CMOSセンサーと集積回路のみを採用することで、従来のカメラの1,000倍の速さのバイダーカメラを開発しました。バイダーを生物学的視覚のスパイクトレインとして扱うことにより、機械の速度と生物学的視覚のメカニズムを組み合わせたスパイキングニューラルネットワークベースのマシンビジョンシステムをさらに開発し、人間の1,000倍の高速物体検出と追跡を実現しました。ヴィジョン。副審とターゲットポインティングシステムでのバイダーカメラとスーパービジョンシステムの有用性を示します。私たち
RGBTトラッキングで短絡された可視(RGB)および熱赤外線(TIR)電磁波を使用した視覚オブジェクトトラッキングは、最近、トラッキングコミュニティでますます注目を集めています。深層学習の急速な発展を考慮して、最近の深層ニューラルネットワークベースのRGBTトラッカーの調査をこの論文で提示します。まず、このカテゴリに分類されるRGBTトラッカーについて簡単に紹介します。次に、いくつかの挑戦的なベンチマークでの既存のRGBTトラッカー間の比較が統計的に行われます。具体的には、MDNetアーキテクチャとシャムアーキテクチャは、RGBTコミュニティの2つの主流フレームワークであり、特に前者です。 MDNetに基づくトラッカーはより高いパフォーマンスを実現し、シャムベースのトラッカーはリアルタイムの要件を満たします。要約すると、大規模なデータセットLasHeRが公開されているため、リアルタイムでよ
畳み込みニューラルネットワーク(CNN)に基づく特徴学習手法は、画像分類タスクで大きな成果を上げることに成功しています。ただし、固有のノイズおよびその他のいくつかの要因により、畳み込み特徴統計の有効性が弱まる可能性があります。この論文では、周波数領域で離散ウェーブレット変換(DWT)を調査し、高周波領域でのみ注意を実装する新しいウェーブレット注意(WA)ブロックを設計します。これに基づいて、画像分類のためのウェーブレット注意畳み込みニューラルネットワーク(WA-CNN)を提案します。具体的には、WA-CNNは、特徴マップを低周波成分と高周波成分に分解して、基本オブジェクトの構造、詳細情報、ノイズをそれぞれ格納します。次に、WAブロックを利用して、さまざまな注意要因を使用して高周波ドメインの詳細情報をキャプチャしますが、低周波ドメインの基本的なオブジェクト構造を予約します。 CIFAR-10
Face recognition via compact second order image gradient orientations 画像勾配方向に基づく従来の部分空間学習アプローチは、一次勾配情報のみを使用します。ただし、人間の視覚システム(HVS)に関する最近の研究では、神経画像が風景または表面であり、その幾何学的特性を2次勾配情報で取得できることが明らかになっています。 2次画像勾配方向(SOIGO)は、顔画像のノイズの悪影響を軽減できます。 SOIGOの冗長性を減らすために、SOIGOに線形複素主成分分析(PCA)を適用することにより、コンパクトSOIGO(CSOIGO)を提案します。協調表現ベースの分類(CRC)アルゴリズムと組み合わせることで、CSOIGOの分類パフォーマンスがさらに向上します。 CSOIGOは、実際の変装、合成されたオクルージョン、および混合バリエーショ
無人航空機(UAV)のローカリゼーション機能は、グローバルナビゲーション衛星システム(GNSS)の拒否環境で重要です。このホワイトペーパーの目的は、純粋に視覚的なアプローチでUAV自体の位置を特定する問題を調査することです。このタスクは主に、UAVがGNSS信号を取得しないときにカメラによって取得された画像を介して、対応する地理タグ付き衛星画像を照合することを指します。衛星画像は、UAV画像と位置情報の間のブリッジです。ただし、UAVに基づく以前のクロスビューデータセットのサンプリングポイントは、空間分布が離散的であり、クラス間の関係は確立されていません。 UAVのローカリゼーションの実際のプロセスでは、空間内でのUAVの動きが連続しているため、近接位置分布のクラス間機能の類似性は小さいはずです。これを考慮して、本論文では、実際のアプリケーションシナリオで空間距離とスケール変換によって引き
物理コンピューティングインフラストラクチャ、データ収集、およびアルゴリズムは、最近、画像やビデオから情報を抽出するために大幅な進歩を遂げました。画像キャプションとビデオキャプションの成長は特に顕著です。ただし、ビデオキャプションの進歩のほとんどは、依然として短いビデオで行われています。この調査では、ビデオフレーム全体の小さなサブセットであるキーフレームのみを使用して、より長いビデオにキャプションを付けます。キーフレームの数に応じて、数千のフレームを処理する代わりに、数フレームのみが処理されます。多くのフレームの計算とキャプション処理の速度の間にはトレードオフがあります。この調査のアプローチは、ユーザーが実行時間と精度の間のトレードオフを指定できるようにすることです。さらに、画像、ビデオ、自然言語をリンクすることで、多くの実用的なメリットと即時の実用的なアプリケーションが提供されると私たちは
顔のクラス固有の単一画像超解像(SISR)メソッドの敵対的攻撃を提案します。 Fast Gradient Sign Method(FGSM)やProjected Gradient Descent(PGD)法などの既存の攻撃は、これらのネットワークでは高速ですが効果がないか、効果的ですが非常に低速です。このようなネットワークのトレーニングに使用されるMSE損失がさまざまな劣化の下でトレースされる表面を綿密に検査することにより、そのパラメーター化可能な特性を特定することができました。このプロパティを活用して、複数の勾配上昇ステップ(高速)を必要とせずに最適な劣化(効果的)を見つけることができる敵対的攻撃を提案します。私たちの実験は、提案された方法が、対になっていない顔面およびクラス固有のSISRのタスクに対して、FGSMやPGDなどの最先端の敵対的攻撃よりも優れた速度と有効性のトレードオフを達
Change Detection from Synthetic Aperture Radar Images via Graph-Based Knowledge Supplement Network 合成開口レーダー(SAR)の画像変化の検出は、リモートセンシング画像分析の分野で重要でありながら困難な作業です。以前のほとんどの作品は、疑似ラベル付きサンプルを使用して後続のトレーニングとテストをガイドする自己監視方式を採用しています。ただし、ディープネットワークでは通常、パラメータの最適化のために多くの高品質のサンプルが必要です。疑似ラベルのノイズは、必然的に最終的な変化検出のパフォーマンスに影響を与えます。この問題を解決するために、グラフベースの知識補足ネットワーク(GKSNet)を提案します。具体的には、既存のラベル付きデータセットから識別情報を追加知識として抽出し、ノイズの多いサンプルの
FedMed-GAN: Federated Multi-Modal Unsupervised Brain Image Synthesis ペアのマルチモーダルニューロイメージングデータを利用することは、人間の認知活動と特定の病状を調査するのに効果的であることが証明されています。ただし、コレクションはいくつかの制約に直面しているため、ペアのニューロイメージングデータの完全なセットを一元的に取得することは実用的ではありません。たとえば、高い検査コスト、長い取得時間、さらには画像の破損などです。さらに、ペアになっているニューロイメージングデータのほとんどは異なる医療機関に分散しており、プライバシーの問題を考慮して集中トレーニングのためにグループ化することはできません。このような状況では、連合学習を開始し、さまざまな病院やデータ所有者からの他の対になっていないデータの統合を促進する必要があることは
On the in vivo recognition of kidney stones using machine learning 腎臓結石の種類を特定することで、泌尿器科医は腎結石の再発を防ぐための治療法を処方することができます。自動化された生体内画像ベースの分類方法は、診断の最初のフェーズとして必要な腎臓結石のタイプを即座に特定するための重要なステップです。文献では、ex-vivoデータ(つまり、非常に制御されたシーンおよび画像取得条件)で、自動化された腎臓結石分類が実際に実行可能であることが示されていました。このパイロット研究では、標準的な尿管鏡検査中に内視鏡で取得された4つの最も頻繁な尿路結石タイプの生体内画像でテストされた6つの浅い機械学習方法と3つの深層学習アーキテクチャの腎臓結石認識性能を比較します。この寄稿では、データベースの構築と、テストされた腎臓結石分類器の設計につい
Signal Strength and Noise Drive Feature Preference in CNN Image Classifiers 畳み込みニューラルネットワーク(CNN)画像分類器の機能設定は、意思決定プロセスに不可欠であり、このトピックは十分に研究されていますが、基本的なレベルではまだ理解されていません。合成データセットを使用して機能の好みを決定する高度に制御されたCNN画像分類実験で、さまざまな程度の信号とノイズを使用して、タスクに関連するさまざまな機能属性(形状、テクスチャ、色など)をテストします。 CNNは、特徴がテクスチャ、形状、または色であるかどうかに関係なく、より強い信号強度とより低いノイズを備えた特徴を好むことがわかります。これは、タスク関連の機能設定の予測モデルのガイダンスを提供し、実験のセットアップを注意深く制御することで回避できるマシンモデルのバ
Analyzing Multispectral Satellite Imagery of South American Wildfires Using CNNs and Unsupervised Learning アマゾンの熱帯雨林では深刻な干ばつがより頻繁に発生し、乾季が長くなるため、活発な山火事に迅速に対応し、消火できなくなる前に予測することが重要です。コンピュータビジョンの研究者は、大規模なデータベースにアルゴリズムを適用して山火事を自動的に検出しましたが、現在のモデルは計算コストが高く、南米の地域の低技術条件には十分な汎用性がありません。この包括的な深層学習研究では、最初に、エクアドルとガラパゴス諸島のマルチスペクトルLandsat8画像でスキップ接続を使用して完全畳み込みニューラルネットワークをトレーニングします。モデルは、各画像の対応するピクセルレベルのバイナリファイアマスクを
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く