A Deep Multi-task Learning Approach to Skin Lesion Classification 皮膚病変の特定は、皮膚診断に向けた重要なステップです。多くの皮膚疾患は一般的に身体の特定の部分に影響を与えるため、皮膚病変を説明する場合、その身体部位の分布に注意することが非常に重要です。本研究では、皮膚病変とその身体部位分布との相関関係を活用するために、身体の位置によって提供される追加のコンテキスト情報を使用して、皮膚病変分類を改善する可能性を調査します。具体的には、深層マルチタスク学習(MTL)フレームワークを構築して、皮膚病変の分類と体の位置の分類を共同で最適化します(後者は誘導バイアスとして使用されます)。 MTLフレームワークは、2つの関連タスクに特化した損失関数を備えた最先端のImageNet事前トレーニングモデルを使用します。私たちの実験は、提案
最高の精度で深層学習のセマンティックセグメンテーション効率を超える異種ファブリックを解きほぐすための3D適応ランダムフォレストビジョン(3DARFV) 3D Adapted Random Forest Vision (3DARFV) for Untangling Heterogeneous-Fabric Exceeding Deep Learning Semantic Segmentation Efficiency at the Utmost Accuracy 惑星探査は、岩石と環境の静的および動的特性を特徴づけるために3D画像データに大きく依存しています。 3D画像の分析には多くの計算が必要であるため、効率が高くなり、処理時間が長くなり、エネルギーが大量に消費されます。ハイパフォーマンスコンピューティング(HPC)は、エネルギー消費を犠牲にして見かけの効率を提供します。ただし、遠隔探査の
How Do You Do It? Fine-Grained Action Understanding with Pseudo-Adverbs アクションがどのように実行されるかを理解し、「しっかりと折りたたむ」と「穏やかに折りたたむ」などの微妙な違いを特定することを目的としています。この目的のために、異なるアクション間で副詞を認識する方法を提案します。ただし、このようなきめの細かい注釈を取得することは困難であり、その長い尾の性質により、まれなアクション副詞の構成で副詞を認識することが困難になります。したがって、私たちのアプローチでは、複数の副詞疑似ラベルを使用した半教師あり学習を使用して、アクションラベルのみを使用した動画を活用します。これらの疑似副詞の適応しきい値処理と組み合わせることで、裾の長い分布に取り組みながら、利用可能なデータを効率的に利用することができます。さらに、3つの既存
自動運転では、モデルが環境を認識し、安全のために低遅延で(再)反応する必要があります。過去の作品は処理後の環境の避けられない変化を無視していますが、ストリーミング知覚は、ビデオオンライン知覚の単一のメトリックに待ち時間と精度を共同で評価するために提案されています。この論文では、前作のように精度と速度のトレードオフを探る代わりに、リアルタイムモデルに未来を予測する能力を与えることがこの問題に対処するための鍵であることを指摘します。ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。これは、新しいDualFlow Perceptionモジュール(DFP)を備えています。これには、動的および静的フローを含み、移動傾向をキャプチャし、ストリーミング予測の基本的な検出機能を備えています。さらに、トレンドファクターと組み合わせたトレンドアウェアロス(TAL)を導入して、さまざまな移
この論文では、一般化されたオープンセットセマンティックセグメンテーション(GOSS)と呼ばれる新しい画像セグメンテーションタスクを提示して研究します。以前は、よく知られているオープンセットセマンティックセグメンテーション(OSS)を使用すると、インテリジェントエージェントは未知の領域のみを検出し、それ以上の処理を行わず、環境の認識を制限していました。検出された未知のピクセルをさらに分析することが有益であることは当然のことです。したがって、2つの明確に定義されたセグメンテーションタスク、OSSとジェネリックセグメンテーション(GS)の機能を全体的な方法で統合するGOSSを提案します。具体的には、GOSSはピクセルを既知のクラスに属するものとして分類し、未知のクラスのピクセルのクラスター(またはグループ)はそのようにラベル付けされます。この新しく拡張されたタスクを評価するために、ピクセル分類と
制約のないポートレート画像から望ましくないシェーディング機能を削除し、下にあるテクスチャを復元するためのディープニューラルネットワークを紹介します。私たちのトレーニングスキームには、3つの正則化戦略が組み込まれています。高周波シェーディング機能を強調するためのマスクされた損失。ソフトシャドウロス。照明の微妙な変化に対する感度を向上させます。シェーディングとテクスチャの分離を監視するためのシェーディングオフセット推定。私たちの方法は、最先端のものと比較した場合、改善された喜びの質と一般化を示しています。さらに、私たちの喜びの方法が、顔の再照明や意味解析などの光に敏感なコンピュータービジョンタスクのパフォーマンスを向上させ、極端な照明条件を処理できるようにする方法を示します。 We present a deep neural network for removing undesirable s
既知のカメラポーズを持つ複数の入力ビューからの3D平面再構成のためのPlaneMVSという名前の新しいフレームワークを提示します。以前のほとんどの学習ベースの平面再構成方法は、単一画像から3D平面を再構成します。これは、単一ビュー回帰に大きく依存し、深度スケールのあいまいさに悩まされています。対照的に、マルチビュージオメトリを利用するマルチビューステレオ(MVS)パイプラインを使用して3D平面を再構築します。平面再構成をセマンティック平面検出ブランチと平面MVSブランチに分離します。セマンティックプレーン検出ブランチは、シングルビュープレーン検出フレームワークに基づいていますが、違いがあります。平面MVSブランチは、平面スイープ戦略を実行するために従来の深度仮説を置き換えるために一連の傾斜平面仮説を採用し、最後にピクセルレベルの平面パラメーターとその平面深度マップを学習します。 2つのブラ
Self-supervision through Random Segments with Autoregressive Coding (RandSAC) 自然言語(GPTとそのバリアント)での自己監視型自動回帰表現学習の成功と、Vision Transformers(ViT)を使用した最近のビジュアルアーキテクチャ設計の進歩に触発されて、このペーパーでは、さまざまな設計の選択が成功に与える影響を調査します。視覚的特徴学習のためにそのようなトレーニング戦略を適用することの具体的には、自己回帰コーディング(RandSAC)を使用したランダムセグメントと呼ばれる新しい戦略を紹介します。 RandSACでは、パッチ表現(画像トークン)を階層的に配置されたセグメントにグループ化します。各セグメント内では、トークンはBERTと同様に並行して予測されますが、セグメント全体の予測はGPTと同様に順次予測
既存の手作りの学習ベースのローカル記述子のほとんどは、アフィン画像変換に対してせいぜいほぼ不変であり、変形可能な表面を無視することがよくあります。この論文では、等尺性の非剛体変形に対しても不変であるRGB-D画像(RGBはピクセルの色の明るさを表し、Dは深度情報を表す)から記述子を計算する新しいアプローチを提案することにより、さらに一歩進んでいます。スケールの変更と回転に関して。私たちが提案する記述戦略は、表面測地線を使用して歪みのないローカル画像パッチの特徴表現を学習するという重要なアイデアに基づいています。測地線認識機能を効率的に計算するために、2つの補完的なローカル記述子戦略を設計します。1つは手作りのバイナリテストに基づく効率的なバイナリ記述子(GeoBitという名前)、もう1つは畳み込みニューラルネットワーク(CNN)を使用して機能を計算する学習ベースの記述子(GeoPatch)
CM-GAN: Image Inpainting with Cascaded Modulation GAN and Object-Aware Training 最近の画像修復方法は大きな進歩を遂げましたが、複雑な画像の大きな穴を処理するときに、もっともらしい画像構造を生成するのに苦労することがよくあります。これは、画像の長距離依存性と高レベルのセマンティクスの両方をキャプチャできる効果的なネットワーク構造が不足していることが一因です。これらの問題に対処するために、カスケード変調GAN(CM-GAN)を提案します。これは、穴のある入力画像からマルチスケールの特徴表現を抽出するフーリエ畳み込みブロックを備えたエンコーダーと、新しいスタイルGANのようなデコーダーで構成される新しいネットワーク設計です。各スケールレベルでカスケードされたグローバル空間変調ブロック。各デコーダブロックでは、最初にグ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く