DILEMMA: Self-Supervised Shape and Texture Learning with Transformers 形状はオブジェクトカテゴリのより信頼性の高い指標であるため、形状バイアスのあるディープニューラルネットワークは、テクスチャバイアスのあるモデルよりも優れた一般化機能を示す可能性があるという考えが高まっています。ただし、形状バイアスの既存の測定値は一般化の安定した予測子ではないことを実験的に示し、形状の識別はテクスチャの識別を犠牲にして行われるべきではないと主張します。したがって、自己監視学習を介してトレーニングされたモデルで、形状とテクスチャの両方の識別可能性を明示的に高める疑似タスクを提案します。この目的のために、ViTをトレーニングして、どの入力トークンが誤った位置埋め込みと組み合わされているかを検出します。テクスチャの識別を維持するために、ViT
Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization Using Satellite Image この論文は、地上レベルの画像を俯瞰衛星地図と照合することにより、車載カメラの位置特定の問題に対処します。既存の方法では、この問題をクロスビュー画像検索として扱い、学習した詳細な機能を使用して、地上レベルのクエリ画像を衛星地図のパーティション(小さなパッチなど)に一致させることがよくあります。これらの方法では、位置特定の精度は衛星地図の分割密度によって制限されます(多くの場合、数十メートルのオーダー)。画像検索の従来の知識から離れて、この論文は、高精度のローカリゼーションを達成することができる新しい解決策を提示します。重要なアイデアは、ポーズ推定としてタスクを定式化し、ニューラルネットベースの最適化によって
An Efficient Pattern Mining Convolution Neural Network (CNN) algorithm with Grey Wolf Optimization (GWO) 動的画像フレームデータセットの特徴分析の自動化は、正常クラスと異常クラスの強度マッピングの複雑さに対処します。しきい値ベースのデータクラスタリングと特徴分析では、さまざまな画像フレームデータタイプのマルチパターンで画像フレームのコンポーネントを学習するための反復モデルが必要です。この論文は、グレイウルフ最適化(GWO)アルゴリズムによって最適化されたウェーブレット変換の畳み込みパターン(CPWT)特徴ベクトルに基づくCNNを用いた特徴分析法の新しいモデルを提案した。最初に、画像フレームは、ノイズを低減し、それに平滑化を適用するメディアンフィルターを画像フレームに適用することによって正
Reasoning with Multi-Structure Commonsense Knowledge in Visual Dialog ビジュアルダイアログでは、エージェントが画像に基づいた人間と会話する必要があります。 Visual Dialogに関する多くの研究は、ダイアログの履歴や画像の内容の理解に焦点を当てていますが、常識に必要なかなりの量の質問は無視されています。これらのシナリオの処理は、常識的な事前知識を必要とする論理的推論に依存します。歴史とイメージを補完する関連する常識的な知識をどのように取り込むかは、依然として重要な課題です。本論文では、多構造常識知識(RMK)による推論による新しいモデルを提案する。私たちのモデルでは、外部の知識は文レベルのファクトとグラフレベルのファクトで表され、ダイアログの履歴と画像の合成のシナリオに適切に適合します。これらのマルチ構造表現に加え
私のドライバー観察モデルは自信過剰ですか?信頼性が高く解釈可能な信頼性推定のための入力ガイド付きキャリブレーションネットワーク Is my Driver Observation Model Overconfident? Input-guided Calibration Networks for Reliable and Interpretable Confidence Estimates ドライバー観察モデルが完璧な条件下で展開されることはめったにありません。実際には、照明、カメラの配置、およびタイプは、トレーニング中に存在するものとは異なり、予期しない動作がいつでも発生する可能性があります。ハンドルの後ろにいる人間を観察することは、より直感的な人間と車両の相互作用とより安全な運転につながりますが、正しいドライバーの状態を予測するだけでなく、現実的で解釈可能な信頼性測定を通じて予測品質を決
FOSTER: Feature Boosting and Compression for Class-Incremental Learning この絶え間なく変化する世界では、新しい概念を継続的に学ぶ能力が必要です。ただし、深いニューラルネットワークは、新しいカテゴリを学習するときに壊滅的な忘却に悩まされます。この現象を緩和するために多くの研究が提案されていますが、それらのほとんどは安定性と可塑性のジレンマに陥るか、計算やストレージのオーバーヘッドが多すぎます。ターゲットと現在の近似関数の間の残余を徐々に適合させる勾配ブースティングアルゴリズムに触発されて、新しい2段階学習パラダイムFOSTERを提案し、モデルが新しいカテゴリを適応的に学習できるようにします。具体的には、最初に新しいモジュールを動的に拡張して、ターゲットと元のモデルの残差に合わせます。次に、単一のバックボーンモデルを維持す
Panoptic-PartFormer: Learning a Unified Model for Panoptic Part Segmentation パノプティコンパーツセグメンテーション(PPS)は、パノプティコンセグメンテーションとパーツセグメンテーションを1つのタスクに統合することを目的としています。以前の作業では、主に分離されたアプローチを使用して、共有の計算やタスクの関連付けを実行せずに、物、物、部品の予測を個別に処理していました。この作業では、これらのタスクをアーキテクチャレベルで統合し、Panoptic-PartFormerという名前の最初のエンドツーエンドの統合メソッドを設計することを目指しています。特に、Vision Transformerの最近の進歩に動機付けられて、オブジェクトクエリとして物、もの、およびパーツをモデル化し、統一されたマスク予測および分類問題として
この論文は、ブロックマッチングに基づく動き推定アルゴリズムの探索領域を決定するための新しい方法を提案した。探索領域は、フレームブロックごとに提案された方法で適応的に見つけられます。この検索領域は、完全検索(FS)アルゴリズムの検索領域と似ていますが、フレームのほとんどのブロックで小さくなっています。したがって、提案されたアルゴリズムは、規則性の点でFSに類似していますが、計算の複雑さははるかに少なくなります。ブロックのモーションベクトル間の時間的および空間的相関は、検索領域を見つけるために使用されます。一致したブロックは、予測ベクトルが設定した長方形の領域から選択されます。シミュレーション結果は、提案されたアルゴリズムの速度がFSアルゴリズムより少なくとも7倍優れていることを示しています。 This paper suggests a new method for determining t
DeepLIIF: An Online Platform for Quantification of Clinical Pathology Slides クリニックでは、切除された組織サンプルがヘマトキシリン・エオジン(H&E)および/または免疫組織化学(IHC)染色で染色され、スライドガラス上または疾患の進行の診断と評価のためのデジタルスキャンとして病理学者に提示されます。 IHCタンパク質発現スコアリングなどの細胞レベルの定量化は、非常に非効率的で主観的なものになる可能性があります。効率的で再現性のあるIHCスコアリングのための最初の無料オンラインプラットフォームであるDeepLIIF(https://deepliif.org)を紹介します。 DeepLIIFは、より有益な多重免疫蛍光染色で臨床IHCスライドを仮想的に再染色することにより、現在の最先端のアプローチ(手動のエラーが発生し
S4OD: Semi-Supervised learning for Single-Stage Object Detection 一段式検出器は前景と背景のクラスの極端な不均衡に悩まされますが、二段式検出器はそうではありません。したがって、半教師あり物体検出では、分類スコアに基づいて高品質の疑似ラベルを選択するだけで、2段階の検出器が優れたパフォーマンスを発揮します。ただし、この戦略を単段検出器に直接適用すると、正のサンプルが少なくなり、クラスの不均衡が悪化します。したがって、単段検出器は、疑似ラベルの質と量の両方を同時に考慮する必要があります。この論文では、分類ブランチで動的自己適応しきい値(DSAT)戦略を設計します。これにより、疑似ラベルを自動的に選択して、品質と量の間の最適なトレードオフを実現できます。さらに、単段検出器の疑似ラベルの回帰品質を評価するために、非最大抑制に基づいてボ
A3CLNN:マルチソースリモートセンシングデータ分類のための空間、スペクトル、マルチスケール注意ConvLSTMニューラルネットワーク A3CLNN: Spatial, Spectral and Multiscale Attention ConvLSTM Neural Network for Multisource Remote Sensing Data Classification 複数のデータソースの情報を効果的に活用するという問題は、リモートセンシングにおいて、関連性はあるものの挑戦的な研究トピックになっています。この論文では、ハイパースペクトル画像(HSI)と光検出および測距(LiDAR)データという2つのデータソースの相補性を活用するための新しいアプローチを提案します。具体的には、マルチソースリモートセンシングデータの特徴抽出と分類のために、新しいデュアルチャネル空間、スペクト
Unbiased Directed Object Attention Graph for Object Navigation オブジェクトナビゲーションタスクでは、エージェントが視覚情報に基づいて未知の環境で特定のオブジェクトを見つける必要があります。以前は、グラフの畳み込みを使用して、オブジェクト間の関係を暗黙的に調査していました。ただし、オブジェクト間の可視性の違いにより、オブジェクトの注意にバイアスが発生しやすくなります。したがって、この論文では、オブジェクト間の注意関係を明示的に学習する際にエージェントをガイドするための有向オブジェクト注意(DOA)グラフを提案し、それによってオブジェクトの注意バイアスを低減します。特に、DOAグラフを使用して、オブジェクトの特徴に対してバイアスのない適応オブジェクト注意(UAOA)を実行し、生の画像に対してバイアスのない適応画像注意(UAIA)を
ビデオアクション検出(時空間アクションローカリゼーション)は、通常、今日のビデオの人間中心のインテリジェント分析の開始点です。 Faster R-CNNの2段階のパラダイムは、オブジェクト検出におけるビデオアクション検出の標準パラダイムを刺激します。つまり、最初に人物の提案を生成し、次にアクションを分類します。 。ただし、既存のソリューションはどれも、「誰が、いつ、どこで、何を」レベルまで、きめ細かいアクション検出を提供できませんでした。このホワイトペーパーでは、事前定義されたキーアクションを空間的(関連するターゲットIDと場所を予測することにより)および時間的(正確なフレームインデックスで時間を予測することにより)に正確かつ効率的にローカライズするための追跡ベースのソリューションを紹介します。このソリューションは、2021年の低電力コンピュータビジョンチャレンジ(LPCVC)のUAVビデ
A systematic review and meta-analysis of Digital Elevation Model (DEM) fusion: pre-processing, methods and applications リモートセンシングコミュニティは、データ融合を21世紀の重要な挑戦的なトピックの1つとして特定しました。 2次元(2D)空間での画像融合の主題は、いくつかの公開されたレビューで取り上げられています。ただし、2.5D / 3D数値標高モデル(DEM)フュージョンの特殊なケースは、これまで対処されていません。 DEM融合は、リモートセンシングにおけるデータ融合の重要なアプリケーションです。マルチソースDEMの補完的な特性を利用して、より完全で正確で信頼性の高い標高データセットを提供します。 DEMを融合するためのいくつかの方法が開発されていますが、包括的なレ
SSHA: Video Violence Recognition and Localization Using a Semi-Supervised Hard Attention Model 現在の人間ベースの監視システムは、可用性と信頼性が不十分になる傾向があります。人工知能ベースのソリューションは、監視システムの適応の増加に直面した場合の信頼性と精度を考慮すると、説得力があります。大量の高解像度監視画像を効果的に利用するには、非常に効率的で正確な機械学習モデルが必要です。この研究は、自動監視システムで使用される方法とモデルの精度を向上させて、ビデオ映像内の人間の暴力を認識して特定することに焦点を当てています。提案されたモデルは、Kineticsデータセットで事前トレーニングされたI3Dバックボーンを使用し、RWFおよびHockeyデータセットでそれぞれ90.4%および98.7%の最先端の
ChildCI Framework: Analysis of Motor and Cognitive Development in Children-Computer Interaction for Age Detection この記事では、最近のChildCIフレームワークで提案されたさまざまなテストの包括的な分析を紹介し、時間の経過に伴う子供の神経運動と認知発達の理解を深める可能性と、e-Healthやe-Healthなどの他の研究分野での応用の可能性を証明します。 eラーニング。特に、モバイルデバイスとの子供の相互作用の運動および認知の側面に関連する100以上のグローバルな機能のセットを提案します。それらのいくつかは、文献から収集および適合されています。さらに、我々は、運動および認知行動に基づく子供の年齢層検出のタスクの実験結果を含む、提案された機能セットのロバスト性および識別力を分
Vision-Based American Sign Language Classification Approach via Deep Learning 聴覚障害は、社会の他の人々とのコミュニケーションに重大な問題を引き起こす部分的または全体的な難聴の障害です。アメリカ手話(ASL)は、聴覚障害のあるコミュニティが相互に通信するために使用する最も一般的に使用される手話の1つです。この論文では、障害に関連するコミュニケーションの障壁を取り除くための道のりとして、アメリカ手話の文字を分類することを目的とした単純な深層学習モデルを提案しました。 Hearing-impaired is the disability of partial or total hearing loss that causes a significant problem for communication with o
Feature-enhanced Adversarial Semi-supervised Semantic Segmentation Network for Pulmonary Embolism Annotation この研究は、コンピューター断層撮影肺血管造影(CTPA)画像の肺塞栓症病変領域に自動的に注釈を付けるための機能強化された敵対的半監視セマンティックセグメンテーションモデルを確立しました。現在の研究では、すべてのPE CTPA画像セグメンテーション方法は、教師あり学習によってトレーニングされています。ただし、CTPA画像がさまざまな病院からのものである場合は、教師あり学習モデルを再トレーニングし、画像のラベルを変更する必要があります。この研究では、ラベルのない画像を少量追加することで、モデルをさまざまなデータセットに適用できるようにする半教師あり学習方法を提案しました。ラベル付
Data-Free Quantization with Accurate Activation Clipping and Adaptive Batch Normalization データフリー量子化は、元のトレーニングデータにアクセスせずにニューラルネットワークを低ビット幅に圧縮するタスクです。ほとんどの既存のデータフリー量子化方法は、特に低ビット幅の場合、不正確なアクティベーションクリッピング範囲と量子化誤差のために深刻なパフォーマンスの低下を引き起こします。この論文では、正確なアクティベーションクリッピングと適応バッチ正規化を備えたシンプルで効果的なデータフリー量子化手法を紹介します。正確なアクティベーションクリッピング(AAC)は、完全精度モデルからの正確なアクティベーション情報を活用することにより、モデルの精度を向上させます。適応バッチ正規化は、最初に、バッチ正規化層を適応的に更新
癌患者は、治療プロセス全体を通して高率の慢性疼痛を経験します。この患者集団の痛みを評価することは、生活の質を急速に低下させる可能性があるため、心理的および機能的な幸福の重要な要素です。顔面痛の検出における既存の研究では、多くの場合、それらが臨床的に関連することを妨げるラベル付けまたは方法論に欠陥があります。このペーパーでは、Intelligent Sight and Sound(ISS)臨床試験の一部として収集された最初の慢性がん性疼痛データセットを紹介します。これは、モデルの結果が臨床的に適切な結果をもたらすことを保証するために臨床医によって導かれます。これまでに収集されたデータは、29人の患者、509個のスマートフォンビデオ、189,999フレーム、およびBrief Pain Inventory(BPI)から採用された自己申告による感情および活動の痛みのスコアで構成されています。静止画
FastMapSVM: Classifying Complex Objects Using the FastMap Algorithm and Support-Vector Machines ニューラルネットワークと関連するディープラーニング手法は、現在、オブジェクトの分類に使用されるテクノロジーの最先端にあります。ただし、通常、モデルのトレーニングには大量の時間とデータが必要です。そして、彼らが学んだモデルは、解釈が難しい場合があります。この論文では、複雑なオブジェクトを分類するための新しい解釈可能な機械学習フレームワークであるFastMapSVMを紹介します。 FastMapSVMは、FastMapとサポートベクターマシンの長所を組み合わせたものです。 FastMapは、複雑なオブジェクトをユークリッド空間内のポイントにマッピングすると同時に、それらの間のペアワイズ非ユークリッド距離を
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く