SQ-VAE: Variational Bayes on Discrete Representation with Self-annealed Stochastic Quantization ベクトル量子化変分オートエンコーダー(VQ-VAE)の注目すべき問題の1つは、学習された離散表現がコードブックの全容量のごく一部しか使用しないことです。これはコードブックの崩壊としても知られています。慎重に設計されたヒューリスティックを含むVQ-VAEのトレーニングスキームがこの問題の根底にあると仮定します。この論文では、確率的に量子化された変分オートエンコーダ(SQ-VAE)と呼ばれる、新しい確率的量子化と量子化を介して標準VAEを拡張する新しいトレーニングスキームを提案します。 SQ-VAEでは、量子化はトレーニングの初期段階では確率的であるが、自己アニーリングと呼ばれる決定論的量子化に向かって徐
拡散ベースの修復は、スパースデータから画像を再構築するための強力なツールです。その品質は、既知のデータの選択に大きく依存します。それらの空間的位置(修復マスク)を最適化することは困難です。このタスクで一般的に使用されるツールは、確率的最適化戦略です。ただし、複数の修復結果を計算するため、速度は遅くなります。学習したマスク生成モデルの観点から救済策を提供します。マスク生成とニューラルサロゲート修復用の2つのネットワークを使用して完全な修復パイプラインをエミュレートすることにより、高効率の適応マスク生成のモデルを取得します。実験によると、私たちのモデルは4桁もの加速で競争力のある品質を達成できます。私たちの調査結果は、高速エンコーディングが非常に望ましい画像圧縮などのアプリケーションにとって、拡散ベースの修復をより魅力的にするための基礎として役立ちます。 Diffusion-based inp
Conditional Vector Graphics Generation for Music Cover Images 敵対的生成ネットワーク(GAN)は、コンピューター画像合成の領域の急速な成長を動機付けています。ほとんどすべての既存の画像合成アルゴリズムは画像をピクセルマトリックスと見なすため、高解像度の画像合成は複雑です。適切な代替手段はベクトル画像です。ただし、それらは高度に洗練されたパラメトリック空間に属しており、GANによるベクトルグラフィックスの合成タスクを解決するための制限です。この論文では、この制限を劇的に緩和し、ベクター画像合成の使用を可能にする特定のアプリケーションドメインを検討します。音楽のカバー画像は、インターネットストリーミングサービスと印刷標準の要件を満たす必要があります。これは、そのような画像のコンテンツに追加の要件がなくても、グラフィック素材の高解像度
視覚的分類問題の予測精度で大きな成功を収めたにもかかわらず、ディープニューラルネットワーク(DNN)は、分布外(OOD)データに自信過剰の確率を提供することに苦しんでいます。それでも、安全で信頼性の高いロボットの自律性には、正確な不確実性の推定が不可欠です。この論文では、OODデータのキャリブレーション方法の従来の評価とは明らかに異なる方法で、開集合条件の一般的なキャリブレーション手法を評価します。私たちの結果は、閉集合DNNキャリブレーションアプローチは、開集合認識にはあまり効果的ではないことを示しています。これは、この問題に対処するための新しいDNNキャリブレーション方法を開発する必要性を浮き彫りにします。 Despite achieving enormous success in predictive accuracy for visual classification proble
Classification of Astronomical Bodies by Efficient Layer Fine-Tuning of Deep Neural Networks SDSS-IVデータセットには、天文台によってキャプチャされた銀河、星、クエーサーなどのさまざまな天体に関する情報が含まれています。 SDSS-IVデータセットを分類するために転移学習を利用したディープマルチモーダル学習の研究に触発され、分類シナリオでの効果を研究するために、これらのアーキテクチャの微調整に関する研究をさらに拡張しました。 Resnet-50、DenseNet-121 VGG-16、Xception、EfficientNetB2、MobileNetV2、NasnetMobileなどのアーキテクチャは、さまざまなレベルでレイヤーごとの微調整を使用して構築されています。私たちの調査結果は、Ima
マルチスケールのコンテキスト情報を効果的にエンコードすることは、正確なセマンティックセグメンテーションにとって非常に重要です。既存の変圧器ベースのセグメンテーションモデルは、選択なしでスケール全体の機能を組み合わせます。最適ではないスケールの機能は、セグメンテーションの結果を低下させる可能性があります。ビジョントランスフォーマーの固有の特性を活用して、マルチスケール機能を最適に組み合わせるためのシンプルで効果的なモジュールであるトランスフォーマースケールゲート(TSG)を提案します。TSGは、スケール選択のためにビジョントランスフォーマーの自己の手がかりとクロスアテンションを活用します。 TSGは、柔軟性の高いプラグアンドプレイモジュールであり、エンコーダーデコーダーベースの階層型ビジョンTransformerアーキテクチャーに簡単に組み込むことができます。 PascalコンテキストとAD
Evaluating the Generalization Ability of Super-Resolution Networks パフォーマンスと一般化能力は、深層学習モデルを評価するための2つの重要な側面です。ただし、超解像(SR)ネットワークの一般化能力に関する研究は現在ありません。 SRネットワーク、すなわちSRGAの一般化評価指標を提案する最初の試みを行います。 SRGAは、一般化能力を測定するために出力画像ではなく、ディープネットワークの内部機能の統計的特性を利用します。特に、それはノンパラメトリックで非学習のメトリックです。私たちの方法をよりよく検証するために、合成画像と実世界の画像の両方を含み、さまざまな劣化をカバーするパッチベースの画像評価セット(PIES)を収集します。 SRGAおよびPIESデータセットを使用して、一般化機能について既存のSRモデルのベンチマークを行
Panoptic-PHNet:クラスタリング疑似ヒートマップを介したリアルタイムで高精度のLiDARPanopticセグメンテーションに向けて Panoptic-PHNet: Towards Real-Time and High-Precision LiDAR Panoptic Segmentation via Clustering Pseudo Heatmap 新たな課題として、パノラマセグメンテーションはセマンティックセグメンテーションとインスタンスセグメンテーションの両方で課題に直面しています。ただし、速度と精度の観点から、この分野の既存のLiDARメソッドはまだ制限されています。この論文では、Panoptic-PHNetと呼ばれる高速で高性能なLiDARベースのフレームワークを提案します。3つの魅力的な側面があります。1)新しいパラダイムとしてクラスタリング疑似ヒートマップを導入し
RiCS: A 2D Self-Occlusion Map for Harmonizing Volumetric Objects ディープラーニングを使用したコンピュータービジョンでは、目覚ましい成功を収めています。このようなブレークスルーは堅牢なパフォーマンスを示していますが、オクルージョンや物理的相互作用の予測など、詳細な知識の学習には依然として多くの課題があります。最近のいくつかの研究は、そのようなコンテキストを提供する際の3Dデータの可能性を示していますが、2Dと3Dの間の次元の不整合のために、2Dモデルに3D入力を効率的に提供する方法は不明です。自己閉塞の予測で2Dモデルの成功を活用するために、カメラ空間でのレイマーチング(RiCS)を設計します。これは、前景オブジェクトの自己閉塞を3Dで2D自己閉塞マップに表現する新しい方法です。与えられた背景画像とコヒーレントなシェーディング
A Saliency-Guided Street View Image Inpainting Framework for Efficient Last-Meters Wayfinding 全地球測位システム(GPS)は、さまざまなナビゲーションアプリケーションで重要な役割を果たしてきました。それにもかかわらず、最後の数メートル以内に完璧な目的地を特定することは重要ですが、未解決の問題のままです。 GPS測位精度によって制限され、ナビゲーションシステムは常に目的地の近くをユーザーに表示しますが、正確な位置は表示しません。没入型メディアテクノロジーとしての地図のストリートビュー画像(SVI)は、人間のラストメーターの経路探索に物理的な環境を提供するための補助として役立ちました。ただし、地理的コンテキストと取得条件が非常に多様であるため、キャプチャされたSVIには常にさまざまな注意散漫なオブジェ
ImageSig: A signature transform for ultra-lightweight image recognition この論文は、画像認識のための新しい軽量の方法を紹介した。 ImageSigは署名の計算に基づいており、畳み込み構造や注意ベースのエンコーダーを必要としません。 a)64 X 64 RGB画像の精度が、最先端の方法の多くを超え、同時にb)必要なFLOPS、電力、およびメモリフットプリントが桁違いに少ないことは、著者にとって驚くべきことです。事前にトレーニングされたモデルのサイズは、44.2KBまで小さくすることができます。 ImageSigは、RaspberryPiやJetson-nanoなどのハードウェアで前例のないパフォーマンスを示しています。 ImageSigは、画像を複数のチャネルを持つストリームとして扱います。これらのストリームは、空間方向
Unsupervised Representation Learning for 3D MRI Super Resolution with Degradation Adaptation 高解像度(HR)MRIは、医師の診断と画像誘導治療を支援する上で重要ですが、取得時間が長いため、臨床現場では取得が困難です。そのため、研究コミュニティは、取得時間を短縮してHR MRI画像を再構成するために、深層学習ベースの超解像(SR)技術を調査しました。ただし、このようなニューラルネットワークのトレーニングには、通常、HRと低解像度(LR)の生体内画像のペアが必要です。これらの画像は、画像取得中および取得間の患者の動きのために取得が困難です。硬組織の硬い動きは画像レジストレーションで修正できますが、変形した軟組織の位置合わせは困難であり、このような本物のHRおよびLR画像ペアを使用してニューラルネットワ
Using Augmented Face Images to Improve Facial Recognition Tasks 機械学習モデルのトレーニングのために、GANで拡張された画像を使用して、通常は過小評価されている特定の属性を補完するフレームワークを紹介します。これにより、顔認識タスクのこれらの属性よりも推論品質を向上させることができます。 We present a framework that uses GAN-augmented images to complement certain specific attributes, usually underrepresented, for machine learning model training. This allows us to improve inference quality over those attribut
From Images to Probabilistic Anatomical Shapes: A Deep Variational Bottleneck Approach 3D医療画像から直接統計的形状モデリング(SSM)は、病理を検出し、病気を診断し、人口レベルの形態分析を行うための十分に活用されていないツールです。ディープラーニングフレームワークは、従来のSSMワークフローで専門家主導の手動および計算のオーバーヘッドを削減することにより、医療現場でSSMを採用する可能性を高めました。ただし、ニューラルネットワークは、機密性の高い臨床的意思決定では信頼できない自信過剰な予測を生成する可能性があるため、このようなフレームワークを臨床診療に変換するには、不確実性の調整が必要です。気晴らし(データ依存)の不確実性を伴う形状を予測するための既存の手法は、モデルトレーニングから分離して計算された
A Framework for Event-based Computer Vision on a Mobile Device イベントカメラから携帯電話に直接データをストリーミングする最初の公開されたAndroidフレームワークを紹介します。今日のモバイルデバイスは、これまでになく幅広いワークロードを処理し、デバイスをよりスマートで、よりユーザーフレンドリーで、安全にするセンサーの範囲が拡大しています。特に従来のカメラはそのようなタスクで中心的な役割を果たしますが、記録される冗長な情報の量は処理にコストがかかるため、継続的に記録することはできません。一方、バイオインスパイアードイベントカメラは、視覚シーンの変化のみを記録し、顔検出、ジェスチャ認識、視線追跡などのモバイルタスクに特に適した有望な低電力アプリケーションを示しています。私たちのプロトタイプデバイスは、このようなイベントカメラをバ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く