Object Detection in Indian Food Platters using Transfer Learning with YOLOv4 物体検出は、コンピュータビジョンでよく知られている問題です。それにもかかわらず、伝統的なインド料理でのその使用法と普及は限られています。特に、1枚の写真にあるインド料理を認識することは次の3つの理由で困難です。1。注釈付きのインド料理データセットの欠如2.料理間の境界がはっきりしない3.クラス内のばらつきが大きい。これらの問題を解決するには、包括的にラベル付けされたインド料理データセットであるIndianFood10を提供します。これには、主食のインド料理に頻繁に登場する10の食品クラスが含まれ、YOLOv4オブジェクト検出器モデルで転移学習を使用します。私たちのモデルは、10クラスのデータセットで91.8%の全体的なmAPスコアと0.9
Explainable Deep Learning Methods in Medical Diagnosis: A Survey ディープラーニングの目覚ましい成功により、医療診断への応用への関心が高まっています。厳しい最先端の深層学習モデルでさえ、さまざまなタイプの医療データの分類で人間レベルの精度を達成していますが、これらのモデルは、主に解釈可能性がないため、臨床ワークフローにほとんど採用されていません。ディープラーニングモデルのブラックボックス性により、これらのモデルの決定プロセスを説明するための戦略を考案する必要性が高まり、eXplainable Artificial Intelligence(XAI)のトピックが作成されました。これに関連して、視覚的、テキスト的、および例に基づく説明方法を含む、医療診断に適用されるXAIの徹底的な調査を提供します。さらに、この作業では、説明の品質
WG-VITON: Wearing-Guide Virtual Try-On for Top and Bottom Clothes 仮想試着(VITON)の研究は、生成ニューラルネットワークを利用してファッション製品を仮想的に探索する効果が示されています。VITONの最近の研究のいくつかは、複数の種類の衣服(たとえば、上下)を着用して人間の画像を合成しようとしました。服)。ただし、対象の人間の上下の服を交換する場合は、特定の服の組み合わせでさまざまな着方が可能です。本稿では、モデルの上下の服を同時に交換する際の着用スタイルのばらつきの問題に対処します。追加の入力バイナリマスクを利用して生成された画像の着用スタイルを制御するWearing-GuideVITON(つまり、WG-VITON)を紹介します。私たちの実験によると、WG-VITONは、与えられた上下の服を着ているモデルの画像を効果的に
Spatio-Temporal Transformer for Dynamic Facial Expression Recognition in the Wild 野生での動的な表情の以前の方法は、主に畳み込みニューラルネットワーク(CNN)に基づいており、そのローカル操作はビデオの長距離依存関係を無視します。この問題を解決するために、各フレーム内の識別機能をキャプチャし、フレーム間のコンテキスト関係をモデル化する時空間トランスフォーマー(STT)を提案します。時空間依存関係は、統合されたTransformerによってキャプチャおよび統合されます。具体的には、入力として複数のフレームで構成される画像シーケンスが与えられた場合、CNNバックボーンを利用して各フレームを視覚的特徴シーケンスに変換します。続いて、各ブロック内の空間的注意と時間的注意が、シーケンスレベルで時空間表現を学習するために
UNITS: Unsupervised Intermediate Training Stage for Scene Text Detection 最近のシーンテキストの検出方法は、ほとんどディープラーニングとデータ駆動型に基づいています。合成データは、注釈コストが高いため、事前トレーニングに一般的に採用されています。ただし、合成データと実際のデータの間には明らかなドメインの不一致があります。微調整段階で合成データによって初期化されたモデルを直接採用すると、パフォーマンスが最適化されない可能性があります。この論文では、シーンテキスト検出のための新しいトレーニングパラダイムを提案します。これは、実世界のデータへのバッファパスを構築し、事前トレーニング段階と微調整の間のギャップを緩和できる教師なし中間トレーニング段階(UNITS)を導入します。ステージ。教師なしの方法で実世界のデータから情報を認
KEMP: Keyframe-Based Hierarchical End-to-End Deep Model for Long-Term Trajectory Prediction 道路エージェントの将来の軌道を予測することは、自動運転にとって重要なタスクです。 DenseTNTやPECNetなどの最近の目標ベースの軌道予測方法は、公開データセットの予測タスクで優れたパフォーマンスを示しています。ただし、通常、複雑な目標選択アルゴリズムと最適化が必要です。この作業では、軌道予測のための階層的なエンドツーエンドの深層学習フレームワークであるKEMPを提案します。フレームワークの中核となるのは、キーフレームベースの軌道予測です。キーフレームは、軌道の一般的な方向を追跡する代表的な状態です。 KEMPは、最初に道路コンテキストを条件とするキーフレームを予測し、次にキーフレームと道路コンテキスト
CoDo: Contrastive Learning with Downstream Background Invariance for Detection 以前の自己監視学習研究は、主に画像レベルのインスタンス識別を口実タスクとして選択しました。教師あり学習方法に匹敵する素晴らしい分類パフォーマンスを実現します。ただし、オブジェクト検出などのダウンストリームタスクでの転送パフォーマンスが低下します。パフォーマンスのギャップを埋めるために、ダウンストリームバックグラウンド不変性(CoDo)を使用した対照学習と呼ばれる新しいオブジェクトレベルの自己監視学習方法を提案します。口実タスクは、さまざまな背景、特にダウンストリームデータセットのインスタンスロケーションモデリングに焦点を当てるように変換されます。背景不変性の能力は、物体検出に不可欠であると考えられています。最初に、データ拡張戦略を提案
When does dough become a bagel? Analyzing the remaining mistakes on ImageNet ImageNetデータセットの画像分類の精度は、過去10年間のコンピュータービジョンの進歩のバロメーターでした。最近のいくつかの論文では、ベンチマークがコミュニティにとってどの程度有用であるかについて疑問がありますが、今日の最大のモデルが90%以上のトップ1の精度を達成し、イノベーションがパフォーマンスの向上に貢献し続けています。 ImageNetの進捗状況をコンテキスト化し、今日の最先端モデルに対してより意味のある評価を提供するために、いくつかの上位モデルが犯す残りのすべての間違いを手動で確認および分類して、コンピュータビジョンで最もベンチマークされたデータセットの1つ。 ImageNetのマルチラベルサブセット評価に焦点を当てています
周波数バイアスは、一般的な破損や敵対的な摂動に対するニューラル画像分類器の堅牢性にどのように影響しますか? How Does Frequency Bias Affect the Robustness of Neural Image Classifiers against Common Corruption and Adversarial Perturbations? モデルの堅牢性は、実際のアプリケーションで機械学習モデルを確実にデプロイするために不可欠です。最近の研究によると、データ拡張により、モデルが低周波数領域の機能に過度に依存し、低周波数の破損に対するパフォーマンスが犠牲になり、周波数と堅牢性の関係が浮き彫りになる可能性があります。ここでは、さらに一歩進んで、ジャコビアンのレンズを通してモデルの周波数バイアスと、モデルの堅牢性への影響をより直接的に研究します。これを実現するために、
Surreal-GAN:Semi-Supervised Representation Learning via GAN for uncovering heterogeneous disease-related imaging patterns 多数の機械学習手法がイメージングデータに適用されており、神経疾患および神経精神疾患の臨床的に関連するイメージングシグネチャの構築が可能になっています。多くの場合、そのような方法は、病気の影響の不均一性を明示的にモデル化したり、解釈できない非線形モデルを介してそれにアプローチしたりしません。さらに、教師なし手法は、関心のある病状に関連する不均一性ではなく、脳の構造または機能に影響を与える妨害交絡因子によって引き起こされる不均一性を解析する可能性があります。一方、半教師ありクラスタリング手法は、疾患の不均一性が空間的および時間的に連続体に沿って広がるとい
Image2Gif: Generating Continuous Realistic Animations with Warping NODEs 限られた数の連続した観察から滑らかなアニメーションを生成することは、視覚において多くのアプリケーションを持っています。たとえば、1秒あたりのフレーム数を増やしたり、顔の感情の動きなど、最初と最後のフレームのみに基づいて新しい軌道を生成したりするために使用できます。離散的な観測データ(フレーム)にもかかわらず、新しい軌道を生成する問題は継続的な問題です。さらに、知覚的に現実的であるために、画像のドメインは、変化の軌跡によって大幅に変化してはなりません。この論文では、アニメーションの開始と終了を示す2つの(「離れた」)フレームを指定して、スムーズなアニメーション(ビデオフレーム補間)を連続的に生成するための新しいフレームワーク、WarpingNeur
マルチビューステレオ(MVS)は、複数のキャリブレーションされた画像から高密度点群などの3Dモデルを再構築する重要な3Dビジョンタスクです。オプティカルフロー用に開発されたRAFT(Recurrent All-Pairs Field Transforms)アーキテクチャに基づく新しいアプローチであるCER-MVS(Cascaded Epipolar RAFT Multiview Stereo)を提案します。 CER-MVSは、RAFTに5つの新しい変更を導入します。エピポーラコストボリューム、コストボリュームカスケード、コストボリュームのマルチビュー融合、動的監視、および深度マップの多重解像度融合です。 CER-MVSは、マルチビューステレオでの以前の作業とは大きく異なります。 3Dコストボリュームを更新することによって動作する以前の作業とは異なり、CER-MVSは視差フィールドを更新する
Skin disease diagnosis using image analysis and natural language processing ザンビアでは、医療スタッフが深刻に不足しており、各開業医が特定の地区の約17000人の患者に対応している一方で、他の患者は10km以上移動して基本的な医療サービスにアクセスしています。この研究では、臨床診断プロセスを実行できる深層学習モデルを実装します。この研究は、画像分析が臨床診断を実行できるかどうかを証明します。また、画像分析を使用して、一部のタスクをAIに委任することで、開業医の作業負荷を軽減できるかどうかを理解することもできます。この研究の成功は、ビジョン2030の国家目標の1つである、ザンビアへの医療サービスのアクセス可能性を高める可能性を秘めています。 In Zambia, there is a serious shortage
Differentiable Electron Microscopy Simulation: Methods and Applications for Visualization 物理的な電子顕微鏡イメージングの結果と同様に、顕微鏡写真の視覚的なスタイルで原子モデルを描くことができる新しい顕微鏡シミュレーションシステムを提案します。このシステムはスケーラブルで、数十のウイルス粒子の電子顕微鏡のシミュレーションを表すことができ、以前の方法よりも高速に画像を合成します。その上、シミュレーターは、顕微鏡写真で信号とノイズの表現を形成する決定論的段階と確率論的段階の両方で微分可能です。この注目すべき特性は、最適化によって逆問題を解決する機能を備えているため、実際のデータから推定されたパラメーター設定を使用して顕微鏡シミュレーションを生成できます。この学習機能は、(1)シミュレートされた顕微鏡写真と
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く