Knowledge-enriched Attention Network with Group-wise Semantic for Visual Storytelling 技術的に挑戦的なトピックとして、視覚的なストーリーテリングは、関連する画像のグループから物語のマルチセンテンスを備えた架空の一貫したストーリーを生成することを目的としています。既存の方法は、画像以外の暗黙の情報を探索することができないため、見かけの画像ベースのコンテンツの直接的かつ厳密な記述を生成することがよくあります。したがって、これらのスキームは、全体論的な表現から一貫した依存関係を捉えることができず、合理的で流暢なストーリーの生成を損ないます。これらの問題に対処するために、グループごとのセマンティックモデルを備えた新しい知識豊富な注意ネットワークが提案されています。 3つの主要な新規コンポーネントは、実用的な利点を
SelfTune: Metrically Scaled Monocular Depth Estimation through Self-Supervised Learning 野生の単眼深度推定は、本質的に未知のスケールまでの深度を予測します。スケールのあいまいさの問題を解決するために、固有受容センサーを備えた単眼同時ローカリゼーションおよびマッピング(SLAM)を活用する学習アルゴリズムを提示します。このような単眼SLAMシステムは、計量的にスケーリングされたカメラポーズを提供できます。これらのメトリックポーズと単眼シーケンスを考慮して、メトリックスケーリングされた深度推定を可能にするために、事前にトレーニングされた監視あり単眼深度ネットワークの自己監視学習方法を提案します。私たちのアプローチは、高品質の深さを予測するために私たちのネットワークを導く教師と生徒の定式化に基づいています。私
Semi-supervision semantic segmentation with uncertainty-guided self cross supervision 半教師ありセグメンテーションを実現する強力な方法として、相互監視法は、豊富なラベルなし画像を使用して、独立したアンサンブルモデルに基づいて相互整合性を学習します。ただし、相互監視によって生成された誤った疑似ラベリング情報は、トレーニングプロセスを混乱させ、セグメンテーションモデルの有効性に悪影響を及ぼします。さらに、このような方法でのアンサンブルモデルのトレーニングプロセスは、計算リソースのコストを増大させ、トレーニング効率を低下させます。これらの問題を解決するために、我々は新しい交差監視方法、すなわち不確実性誘導自己交差監視(USCS)を提案します。アンサンブルモデルに加えて、最初に、共有モデルで複数の出力を生成できる
ツリー構造のマルチタスクアーキテクチャは、マルチタスク学習(MTL)のコンテキストで複数のビジョンタスクに共同で取り組むために採用されています。主な課題は、タスクの精度と計算効率の両方を最適化するために、バックボーンモデルを指定して、各タスクの分岐先を決定することです。この課題に対処するために、このペーパーでは、一連のタスクと畳み込みニューラルネットワークベースのバックボーンモデルを前提として、ユーザー指定の計算を満たしながら高いタスクパフォーマンスを実現できるツリー構造のマルチタスクアーキテクチャを自動的に提案する推奨事項を提案します。モデルトレーニングを実行せずに予算を立てます。人気のあるMTLベンチマークの広範な評価は、推奨されるアーキテクチャが、最先端のMTLメソッドと比較して競争力のあるタスクの精度と計算効率を達成できることを示しています。 Tree-structured mul
NLX-GPT: A Model for Natural Language Explanations in Vision and Vision-Language Tasks 自然言語説明(NLE)モデルは、人間にやさしく、高レベルで、きめの細かい自然言語文を生成することにより、ブラックボックスシステムの意思決定プロセスを説明することを目的としています。現在のNLEモデルは、GPTなどの言語モデル(説明モデル)を介して、VQAモデルなどのビジョンまたはビジョン言語モデル(別名、タスクモデル)の意思決定プロセスを説明します。タスクモデルに必要な追加のメモリリソースと推論時間を除いて、タスクモデルと説明モデルは完全に独立しているため、説明と回答を予測するために行われた推論プロセスとの関連付けが解除されます。答えを予測し、それを説明することができる、一般的でコンパクトで忠実な言語モデルであるNLX
The Transitive Information Theory and its Application to Deep Generative Models 逆説的ですが、変分オートエンコーダー(VAE)は、強力なデコーダーモデルを利用してリアルな画像を生成し、学習した表現を折りたたむか、正則化係数を増やして表現を解きほぐし、最終的にぼやけた例を生成することで、2つの反対方向にプッシュできます。既存の方法では、問題を圧縮と再構築の間のレート歪みのトレードオフに絞り込みます。優れた再構成モデルは、より詳細な情報をエンコードする大容量の潜在性を学習すると主張しますが、その使用は2つの主要な問題によって妨げられます。平均場変分推論は、これらのユニットをもっともらしい新しい出力に再結合するタスクを実行不可能にする階層構造を強制しません。その結果、解きほぐされた表現の階層を学習するシステムと、学習
歩行者の軌道予測は、自動運転やロボット工学などの幅広いAIアプリケーションに不可欠なコンポーネントです。既存の方法は通常、潜在的な分布の違い(たとえば、ショッピングモールと通り)を無視しながら、トレーニングとテストの動作が同じパターンに従うことを前提としています。この問題により、必然的にパフォーマンスが低下します。この問題に対処するために、統一されたフレームワークで軌道予測とドメインアラインメントを共同で実行する新しいTransferable Graph Neural Network(T-GNN)フレームワークを提案します。具体的には、ドメイン固有の知識が削減された構造運動の知識を探索するために、ドメイン不変のGNNが提案されます。さらに、注意ベースの適応知識学習モジュールは、知識伝達のためのきめ細かい個人レベルの特徴表現を探索するためにさらに提案されます。このようにして、異なる軌道ドメイ
Resource-Efficient Invariant Networks: Exponential Gains by Unrolled Optimization 迷惑な変換に対する不変性を実現することは、堅牢で信頼性の高いビジョンシステムを構築する上での基本的な課題です。不変性への既存のアプローチは、変換のファミリーの次元に応じて指数関数的にスケーリングし、ポーズや視点の変化などの視覚データの自然な変動に対処できなくなります。これらのアプローチの一般的な制限を特定し(変換の高次元空間をトラバースするためにサンプリングに依存します)、最適化に基づいて不変ネットワークを構築するための新しい計算プリミティブを提案します。これにより、多くのシナリオで、より効率的な方法が提供されます。サンプリングよりも高次元の探索に。提案した方法の効率の向上と健全性の経験的および理論的な裏付けを提供し、展開された
Metastatic Cancer Outcome Prediction with Injective Multiple Instance Pooling がんの病期は、多くの種類のがんにおける患者の予後と管理の大きな決定要因であり、CTやMRIなどの医用画像診断法を使用して評価されることがよくあります。これらの医用画像には、予後アルゴリズムをさらに改善するために各ステージグループ内の患者を層別化するために調査できる豊富な情報が含まれています。癌による死亡の大部分は転移性および多発性疾患に起因しますが、注釈付きのデータセットと標準的な研究フレームワークがないため、複数の腫瘍を持つ患者のイメージングバイオマーカーを構築することは困難な作業でした。この論文では、2つの公開データセットを処理して、多発性転移性癌の転帰予測を研究するために、合計341人の患者のベンチマークコホートを設定します。一般
Neural Data-Dependent Transform for Learned Image Compression 学習した画像圧縮は、その優れたモデリング能力により大きな成功を収めていますが、各入力画像のレート歪み最適化(RDO)をさらに考慮することはめったにありません。学習したコーデックでこの可能性を探求するために、ニューラルデータに依存する変換を構築し、個々の画像のコーディング効率を共同で最適化する連続オンラインモード決定メカニズムを導入する最初の試みを行います。具体的には、画像コンテンツストリームとは別に、追加のモデルストリームを使用して、デコーダー側で変換パラメーターを生成します。モデルストリームの存在により、モデルはより抽象的な神経構文を学習できるようになり、画像の潜在表現をよりコンパクトにクラスター化するのに役立ちます。変換段階を超えて、追加のデコードオーバーヘッドに
Sharing Generative Models Instead of Private Data: A Simulation Study on Mammography Patch Classification ディープラーニングベースのコンピューター支援検出システムを介したマンモグラフィスクリーニングでの乳がんの早期発見は、乳がんの治癒可能性と死亡率を改善する上で有望な可能性を示しています。ただし、多くの臨床センターでは、(i)有望なパフォーマンスを達成し、(ii)取得プロトコルとドメイン全体で十分に一般化するために、そのようなモデルをトレーニングするために利用可能なデータの量と不均一性に制限があります。センター間でのデータの共有は患者のプライバシーの懸念により制限されているため、実際の患者データの代わりに、トレーニングされた生成モデルをセンター間で共有するという潜在的な解決策を提案しま
ModDrop ++:モダリティが欠落している多発性硬化症病変セグメンテーションのための被験者内共同トレーニングを備えた動的フィルターネットワーク ModDrop++: A Dynamic Filter Network with Intra-subject Co-training for Multiple Sclerosis Lesion Segmentation with Missing Modalities 多発性硬化症(MS)は慢性神経炎症性疾患であり、MS病変を監視するためにマルチモダリティMRIが日常的に使用されています。多くの自動MS病変セグメンテーションモデルが開発され、人間レベルのパフォーマンスに達しています。ただし、ほとんどの確立された方法は、トレーニング中に使用されるMRIモダリティがテスト中にも利用可能であることを前提としています。これは、臨床診療では保証されていませ
Fluid registration between lung CT and stationary chest tomosynthesis images 登録は、画像誘導治療および画像誘導手術で広く使用されており、計画画像と治療画像の間の関心のある臓器間の空間的対応を推定します。ただし、高品質のコンピュータ断層撮影(CT)画像は計画時に利用できることがよくありますが、放射線の懸念やイメージング時間の制約のために、治療中に限定された角度の取得が頻繁に使用されます。これには、限られた角度の取得に基づいてCT画像を登録するためのアルゴリズムが必要です。したがって、測定された投影とデジタルで再構成されたCTのX線写真に基づいて3D変形を推測する3D/2D登録アプローチを策定します。ほとんどの3D/2D登録アプローチは、単純な変換モデルを使用するか、根本的な最適化問題を定式化するために複雑な数学的導
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く