Shot boundary detection method based on a new extensive dataset and mixed features ビデオのショット境界検出は、ビデオデータ処理の重要な段階の1つです。色ヒストグラムやオブジェクト境界など、いくつかのビデオ機能に基づくショット境界検出の新しい方法が提案されています。開発されたアルゴリズムは、オープンなBBC Planet Earth [1]およびRAI [2]データセットでテストされ、MSUで実施されたビデオコーデックの比較で使用されたビデオとIBMセットのビデオに基づいて、MSUCCデータセットがテストされました。また、プロットされます。アルゴリズムの開発とテストの合計データセットは、既知のTRECVIDデータセットを超えました。テスト結果に基づいて、シーン変更検出のために提案されたアルゴリズムは、0.97
広範な教師なしドメイン適応(UDA)研究は、深いモデルを使用して、ラベル付きのソースドメインとラベルなしのターゲットドメイン間で転送可能な表現を学習することにより、実際に大きな成功を収めています。ただし、これまでの作業では、実際のアプリケーションで重要な敵対的な堅牢性を考慮せずに、クリーンな例でのUDAモデルの一般化能力を向上させることに焦点を当てています。従来の敵対的トレーニング方法は、教師あり損失関数によって生成された敵対的例を使用してモデルをトレーニングするため、UDAのラベルなしターゲットドメインでの敵対的ロバスト性には適していません。この作業では、複数の堅牢なImageNetモデルによって学習された中間表現を活用して、UDAモデルの堅牢性を向上させます。私たちの方法は、UDAモデルの機能を、ドメイン適応トレーニングとともにImageNetの事前トレーニング済みモデルによって学習さ
Impact of Attention on Adversarial Robustness of Image Classification Models 深層学習モデルに対する敵対的攻撃は大きな注目を集めており、最近の研究では、これらの攻撃からモデルを防御するための敵対的例と手法の存在についての説明が提案されています。コンピュータビジョンへの注意は、重要な機能の集中的な学習を組み込むために使用されており、精度の向上につながっています。最近、敵対者のロバスト性を強化するために、注意メカニズムを備えたモデルが提案されています。このコンテキストに続いて、この作業は、敵対者の頑健性に対する注意の影響の一般的な理解を目的としています。この作品は、人気のあるホワイトボックスとブラックボックスの攻撃の下でCIFAR-10、CIFAR-100、FashionMNISTデータセットでトレーニングされた非注意
テキストから画像への合成は、特定の自然言語の説明から写実的な画像を生成することを目的としています。以前の作業は、Generative Adversarial Networks(GAN)で大きな進歩を遂げました。それでも、無傷のオブジェクトやクリアなテクスチャを生成することは依然として困難です(図1)。この問題に対処するために、機能認識生成的敵対的ネットワーク(FA-GAN)を提案し、自己監視型弁別器と機能認識損失の2つの手法を統合して高品質の画像を合成します。まず、補助デコーダーを備えた自己監視型ディスクリミネーターを設計して、ディスクリミネーターがより適切な表現を抽出できるようにします。次に、特徴認識損失を導入して、自己監視あり弁別器からの特徴表現を使用することにより、ジェネレーターにより直接的な監視を提供します。 MS-COCOデータセットでの実験は、提案された方法が最先端のFIDスコ
Deep Learning-based mitosis detection in breast cancer histologic samples これは、MIDOG2021チャレンジのコンテキストでの有糸分裂検出の提出です。これは、ニューラルネットワークアーキテクチャのバックボーンとして、2段階の異議モデルFasterRCNNとDenseNetに基づいています。予備テストフェーズリーダーボードで0.6645のF1スコアを達成します。 This is the submission for mitosis detection in the context of the MIDOG 2021 challenge. It is based on the two-stage objection model Faster RCNN as well as DenseNet as a backbone
ゼロショット学習(ZSL)は、近年急速に進歩しています。手話認識(SLR)の注釈のボトルネックを克服するために、テキストによる説明を活用して、注釈付きの視覚的な例のないゼロショット手話認識(ZS-SLR)のアイデアを探ります。このように、スケルトンベースのものと融合した深い特徴の補完的な機能を利用したマルチモーダルゼロショット手話認識(ZS-SLR)モデルを提案します。 TransformerベースのモデルとC3Dモデルは、それぞれ手の検出と深部特徴抽出に使用されます。スケルトンベースの機能と深い機能の次元の間でトレードオフを行うために、Long Short Term Memory(LSTM)ネットワーク上でAuto-Encoder(AE)を使用します。最後に、セマンティックスペースを使用して、視覚的特徴をクラスラベルの言語埋め込みにマッピングします。これは、トランスフォーマーからの双方向
このペーパーでは、フェイスビデオの修復の問題について説明します。既存のビデオ修復方法は、主に繰り返しパターンのある自然なシーンを対象としています。破損した顔の対応を取得するために、顔に関する事前の知識を利用しません。したがって、特に顔のコンポーネントがフレーム間で非常に異なって表示される大きなポーズや表情のバリエーションの下にある顔の場合、これらは次善の結果しか達成しません。本論文では、顔ビデオ修復のための2段階の深層学習法を提案する。画像空間とUV(テクスチャ)空間の間で顔を変換する前に、3D顔として3DMMを使用します。ステージIでは、UV空間でフェイスインペインティングを行います。これにより、顔のポーズや表情の影響を大幅に取り除くことができ、顔の特徴を適切に調整することで学習タスクがはるかに簡単になります。フレームごとの注意モジュールを導入して、隣接するフレームの対応を十分に活用し、
A Bayesian Evaluation Framework for Subjectively Annotated Visual Recognition Tasks 自動視覚認識の興味深い開発は、画像に客観的なラベルを割り当てることができないが、それでも画像に関する人間の判断を反映する注釈を収集することが可能なタスクの出現です。これらのタスクの機械学習ベースの予測子は、アノテーターの動作をモデル化する教師ありトレーニングに依存しています。つまり、画像に対する平均的な人の判断はどうなるでしょうか。このタイプの作業、特に人間の行動との不一致が倫理的失効につながる可能性があるアプリケーションの重要な未解決の質問は、訓練された予測子の認識論的不確実性、つまり予測子のモデルから生じる不確実性をどのように評価するかです。予測子の内部構造にとらわれない、この体制でブラックボックス予測子を評価するための
Pulmonary Disease Classification Using Globally Correlated Maximum Likelihood: an Auxiliary Attention mechanism for Convolutional Neural Networks 畳み込みニューラルネットワーク(CNN)は、胸部X線写真の肺の異常を分類および検出するために現在広く使用されています。 CNNの2つの補完的な一般化プロパティ、並進不変性と同変は、画像内の空間的な位置に関係なく、肺疾患に関連する明らかな異常を検出するのに特に役立ちます。ただし、これらのプロパティには、ローカル領域で検出された異常の正確な空間情報とグローバルな相対位置の損失も伴います。このような異常のグローバルな相対位置は、COVID-19やウイルス性肺炎などの同様の状態を区別するのに役立つ可能性がありま
An Automated Approach for the Recognition of Bengali License Plates 自動ナンバープレート認識(ALPR)は、任意の車両のナンバープレートを自動的に識別するためのシステムです。このプロセスは、とりわけ、追跡、発券、およびあらゆる請求システムにとって重要です。情報通信技術(ICT)の使用により、車両追跡システムを含むすべてのシステムが自動化されています。本研究では、ナンバープレートの文字を使用してナンバープレートを検出するハイブリッド手法を提案します。撮影した画像情報は、本研究のテーマであるバングラデシュ車の認識手順に使用されました。ここでは、ナンバープレートの検出に、81%が正しく予測されたYOLOモデルが使用されました。そして、ナンバープレートのセグメンテーションには大津のしきい値処理が使用され、最終的には文字認識にCNN
Assessing domain adaptation techniques for mitosis detection in multi-scanner breast cancer histopathology images 乳がんは世界で最も蔓延しているがんであり、毎年200万人以上の新しい症例が診断されています。腫瘍の等級付けプロセスの一環として、組織病理学者は、有糸分裂と呼ばれる生物学的プロセスで、分裂している細胞の数を手動で数えます。人工知能(AI)法は、有糸分裂像を自動的に検出するために開発されましたが、これらの方法は、元の(トレーニング)ドメインの外部からのデータに適用するとパフォーマンスが低下することがよくあります。さまざまなスキャナーを使用してデジタル化。ドメイン適応の一形態であるスタイル転送は、画像を異なるドメインから共有の視覚的外観に変換する手段を提供し、ドメインシフ
TransforMesh: A Transformer Network for Longitudinal modeling of Anatomical Meshes アルツハイマー病(AD)に関連する神経解剖学的変化の縦断的モデリングは、疾患の進行を研究するために重要です。この目的のために、3D解剖学的メッシュの縦方向の形状変化をモデル化するトランスフォーマーに基づく時空間ネットワークであるTransforMeshを紹介します。トランスフォーマーとメッシュネットワークは最近、自然言語処理とコンピュータービジョンで印象的なパフォーマンスを示していますが、医療画像分析への適用は非常に限られています。私たちの知る限り、これは変圧器とメッシュネットワークを組み合わせた最初の作業です。私たちの結果は、TransforMeshが、時間依存性をキャプチャしない他のベースラインアーキテクチャよりも優れた形
Domain Adaptive Cascade R-CNN for MItosis DOmain Generalization (MIDOG) Challenge デジタル組織病理学画像の有糸分裂検出のためのドメイン適応カスケードR-CNN法の概要を提示します。包括的なデータ拡張と既存の一般的な検出アーキテクチャの適応により、提案された方法は、MICCAI2021のMItosis DOmain Generalization(MIDOG)チャレンジで設定された予備テストで0.7500のF1スコアを達成しました。 We present a summary of the domain adaptive cascade R-CNN method for mitosis detection of digital histopathology images. By comprehensive data
Towards Fine-grained Image Classification with Generative Adversarial Networks and Facial Landmark Detection カテゴリを区別するには複雑で局所的な違いを学習する必要があるため、きめ細かい分類は依然として困難な作業です。画像内のオブジェクトのポーズ、スケール、および位置の多様性は、問題をさらに困難にします。最近のVisionTransformerモデルは高性能を実現していますが、大量の入力データが必要です。この問題に対処するために、GANベースのデータ拡張を最大限に活用して、追加のデータセットインスタンスを生成しました。 Oxford-IIIT Petsは、この実験で選択したデータセットでした。スケール、ポーズ、照明が異なる37品種の猫と犬で構成されているため、分類作業の難しさが増して
オブジェクトを形状で分類したいことがよくあります。確かに、形状の研究は、進化生物学、構造生物学、画像処理、考古学などの多くの科学分野の重要な部分です。最も広く使用されている形状分析の方法であるGeometricMorphometricsは、形状が表される数学的空間が線形であることを前提としています。しかし、形状空間は実際にはかなり複雑であり、確かに非線形であることが長い間知られていました。この非線形性を考慮に入れて、形状間の距離をより正確に推定する微分同相写像法は存在しますが、実際の問題に適用されることはめったにありません。機械分類器を使用して、さまざまな有機および人工のオブジェクトの形状を記述および分類するこれらのメソッドのいくつかの機能をテストしました。 1つの方法である平方根速度関数(SRVF)は、標準の幾何学的形態計測法(固有形状)を含む他のすべての方法よりも優れていることがわかり
ほとんどのドメイン適応方法は、単一ソース-単一ターゲット適応設定に焦点を合わせています。マルチターゲットドメインの適応は、ラベルのない複数のターゲットドメインに対して単一の分類子が学習される強力な拡張機能です。マルチターゲット分類子を構築するには、ラベル付きソースとラベルなしのさまざまなターゲットドメインから機能を効果的に集約することが重要です。これに向けて、最近導入されたドメイン対応カリキュラムグラフ共同教育(D-CGCT)は、グラフニューラルネットワークに基づくデュアル分類器ヘッドを活用しています。 D-CGCTは、ネットワークがそのようなターゲットドメインへの適応が容易であると想定して、ソースにより類似したターゲットドメインから開始して一度に1つのドメインを適応させるシーケンシャル適応戦略を使用します。ただし、絶対的な意味で簡単なドメインや難しいドメインはなく、各ドメインには異なる特
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く