部分空間クラスタリングは、人間の動きのセグメンテーションやその他の関連タスクに広く使用されている古典的な手法です。ただし、既存のセグメンテーション方法では、事前の知識がなくてもデータがクラスタリングされることが多く、結果として不十分なセグメンテーション結果が得られます。この目的のために、我々は、新しい一貫性と多様性によって誘発される人間の動きのセグメンテーション(CDMS)アルゴリズムを提案します。具体的には、私たちのモデルは、ソースデータとターゲットデータを別個の多層特徴空間に因数分解します。この空間では、転送部分空間学習がさまざまな層で実行され、マルチレベルの情報がキャプチャされます。ソースデータとターゲットデータ間のドメインギャップを減らすために、複数の相互整合性学習戦略が実行されます。このようにして、ドメイン固有の知識とドメイン不変のプロパティを同時に調べることができます。さらに、
Geometric Digital Twinning of Industrial Facilities: Retrieval of Industrial Shapes このホワイトペーパーでは、既存の産業施設の個々のラベル付きポイントクラスター(インスタンス)をそれぞれのCADモデルと正確に一致させることができる、新しい形状検索方法を考案、実装、ベンチマークします。画像と点群の深層学習ネットワークの組み合わせを使用して、インスタンスを分類し、幾何学的に類似したCADモデルに一致させます。これは、現在退屈な手動プロセスである点群データからの幾何学的デジタルツイン生成に関する以前の研究を拡張したものです。共同ネットワークでの実験により、85.2%の精度でCADモデルを確実に取得できることが明らかになりました。提案された研究は、幾何学的デジタルツイン(gDT)パイプラインを可能にし、実際の幾何学
Decreasing Annotation Burden of Pairwise Comparisons with Human-in-the-Loop Sorting: Application in Medical Image Artifact Rating ペアワイズ比較によるランク付けは、順序分類よりも信頼性が向上していることを示しています。ただし、ペアワイズ比較の注釈は2次関数的にスケーリングされるため、データセットが大きい場合、これは実用的ではなくなります。定量的メトリックによるランク付けに必要なペアワイズ比較の数を減らす方法を提案し、この概念実証研究での画質による医用画像のランク付けにおけるアプローチの有効性を示します。私たちが開発した医用画像注釈ソフトウェアを使用して、ループ内の人間の評価者による並べ替えアルゴリズムを使用して、ペアワイズ比較を積極的にサブサンプリングします。こ
The Abduction of Sherlock Holmes: A Dataset for Visual Abductive Reasoning 人間は、画像の文字通りの内容を超えて何が存在するかについて、誘拐的に推論し、仮説を立てる驚くべき能力を持っています。シーン全体に散らばっている具体的な視覚的手がかりを特定することで、私たちの日常の経験と世界に関する知識に基づいて、文字通りのシーンを超えて、ありそうな推論を引き出すしかありません。たとえば、道路の横に「20 mph」の標識が表示されている場合、家が描かれていなくても、通りは(高速道路ではなく)住宅地にあると見なすことができます。マシンは同様の視覚的推論を実行できますか?文字通りの画像コンテンツを超えたアブダクション推論のためにマシンの容量をテストするための103K画像の注釈付きコーパスであるSherlockを紹介します。フリービ
現実的で多様な画像を生成するための、シンプルだが効果的な教師なしの方法を紹介します。手動で注釈を付けたクラスラベルを使用せずに、クラス条件付きGANモデルをトレーニングします。その代わり、私たちのモデルは、弁別器の特徴空間でのクラスタリングから自動的に導出されたラベルを条件としています。私たちのクラスタリング手順は自動的に多様なモードを発見し、ジェネレーターがそれらをカバーすることを明示的に要求します。標準モードの折りたたみベンチマークでの実験は、モードの折りたたみに対処する場合、このメソッドがいくつかの競合するメソッドよりも優れていることを示しています。私たちの方法は、ImageNetやPlaces365などの大規模なデータセットでも良好に機能し、以前の方法と比較して、画像の多様性と標準品質の指標の両方が向上しています。 We introduce a simple but effecti
Estimation of Clinical Workload and Patient Activity using Deep Learning and Optical Flow 熱画像を使用した非接触監視は、病院での患者の悪化を監視するために、最近ではCOVID-19パンデミック中の発熱や感染を検出するためにますます提案されています。この手紙では、同様の技術的設定を使用して、患者の動きを推定し、臨床ワークロードを観察するための新しい方法を提案しますが、オープンソースオブジェクト検出アルゴリズム(YOLOv4)とオプティカルフローを組み合わせます。患者の動きの推定は、患者の動揺と鎮静を概算するために使用され、一方、労働者の動きは、介護者の作業負荷の代理として使用されました。集中治療室で記録された患者のビデオからの32000フレーム以上を、臨床労働者によって記録された臨床的興奮スコアと比較す
オンラインレコメンデーション/広告はウェブビジネスに遍在しています。画像の表示は、顧客とやり取りするために最も一般的に使用される形式の1つと見なされています。状況に応じた多腕バンディットは、推奨手順に存在する探索-搾取のジレンマを解決するための広告の適用に成功していることを示しています。視覚認識の推奨事項に触発されて、この論文では、畳み込みニューラルネットワーク(CNN)を利用して、探索の上限信頼限界(UCB)とともに報酬関数を学習するコンテキストバンディットアルゴリズムを提案します。また、ネットワークがパラメーター化されすぎている場合に、ほぼ最適な後悔限界O(T)を証明し、畳み込みニューラルタンジェントカーネル(CNTK)との強力な接続を確立します。最後に、提案されたアルゴリズムの経験的パフォーマンスを評価し、実際の画像データセットで他の最先端のUCBベースのバンディットアルゴリズムより
ハイスループット顕微鏡ビデオで細胞追跡のための新しいグラフニューラルネットワーク(GNN)アプローチを提示します。タイムラプスシーケンス全体を、セルインスタンスがノードで表され、それらの関連付けがエッジで表される直接グラフとしてモデル化することにより、グラフ内の最大パスを探して、セル軌道のセット全体を抽出します。これは、エンドツーエンドのディープラーニングフレームワークに組み込まれたいくつかの重要な貢献によって達成されます。ディープメトリック学習アルゴリズムを利用して、異なる生体細胞のインスタンスを区別し、同じ細胞インスタンスを組み立てる細胞特徴ベクトルを抽出します。ノードとエッジの特徴ベクトルの相互更新を可能にする新しいGNNブロックタイプを導入し、基礎となるメッセージパッシングプロセスを容易にします。メッセージパッシングの概念は、GNNブロックの数によって範囲が決定されますが、連続する
PINs: Progressive Implicit Networks for Multi-Scale Neural Representations 多層パーセプトロン(MLP)は、一般に位置エンコーディングと呼ばれる、入力の高次元投影と組み合わせると、効果的なシーンエンコーダーであることが証明されています。ただし、周波数スペクトルが広いシーンは依然として課題です。位置エンコーディングに高周波数を選択すると、低構造領域にノイズが発生しますが、低周波数では詳細領域のフィッティングが不十分になります。これに対処するために、階層的なMLP構造を周波数エンコーディングのインクリメンタルセットに公開する、プログレッシブポジショナルエンコーディングを提案します。私たちのモデルは、広い周波数帯域のシーンを正確に再構築し、レベルごとの明示的な監視なしに、プログレッシブレベルの詳細でシーン表現を学習します。
A Joint Variational Multichannel Multiphase Segmentation Framework 本論文では、Chan-Veseアクティブ輪郭モデルに基づくマルチチャネル多相画像セグメンテーションのための変分画像セグメンテーションフレームワークを提案します。私たちの方法の中核は、複数の画像の情報を組み合わせるマルチチャネルエネルギー汎関数を最小化することにより、セグメンテーションをエンコードする変数uを見つけることにあります。マルチチャネルフィルタリングによって、または単純な自然RGB、またはすでに複数のチャネルで構成されている医用画像を使用して、入力の分解を作成します。続いて、チャネルごとに提案された機能を同時に最小化します。私たちのモデルは、Chambolle-Pock法のような最適化手法によって効率的に解くことができるように、必要な仮定を満たしてい
少量のデータから学ぶことができることは、人間の知性の重要な特徴ですが、正確にはどれほど小さいのでしょうか。この論文では、データが非常に少ない環境で分類を調べることができる新しい実験パラダイムを紹介し、人間が模範よりも多くのカテゴリを学習できるかどうか(つまり、人間は「1ショット未満」の学習を行うことができるかどうか)を尋ねます。 ?)。このパラダイムを使用して実施された実験は、人々がそのような設定で学習できることを明らかにし、根本的なメカニズムへのいくつかの洞察を提供します。まず、人々はごくわずかなデータから高次元の特徴空間を正確に推測して表現することができます。第二に、関連するスペースを推論した後、人々は(模範ベースではなく)プロトタイプベースの分類の形式を使用して、カテゴリの推論を行います。最後に、応答の体系的で機械学習可能なパターンは、人々がこのクラスのデータ不足の問題に対処するため
Class Distance Weighted Cross-Entropy Loss for Ulcerative Colitis Severity Estimation 内視鏡的メイヨースコアおよび潰瘍性大腸炎内視鏡的重症度指数は、潰瘍性大腸炎の内視鏡的重症度を評価するために一般的に使用されるスコアリングシステムです。それらは、病気の活動に関連するスコアの割り当てに基づいており、レベル間のランクが作成され、通常の回帰問題になります。一方、ほとんどの研究では、深層学習モデルをトレーニングするために、通常の回帰問題には最適ではないカテゴリ別のクロスエントロピー損失関数を使用しています。本研究では、クラスの順序を尊重し、コストの計算にクラスの距離を考慮に入れる、クラス距離加重クロスエントロピー(CDW-CE)と呼ばれる新しい損失関数を提案します。実験的評価は、CDW-CEが、通常の回帰問題のた
Multi-modal unsupervised brain image registration using edge maps 微分同相変形可能なマルチモーダル画像レジストレーションは、異なるモダリティによって取得された画像を同じ座標空間に持ち込むと同時に、トポロジーと変換の可逆性を維持することを目的とした挑戦的なタスクです。最近の研究では、従来の反復登録方法よりも計算効率が高く、競争力のある登録精度を達成することが示されているため、このタスクにディープラーニングアプローチを活用することに焦点が当てられています。この作業では、トレーニング中に画像の勾配の大きさ、つまり画像のエッジから得られる補助情報から利益を得る、シンプルでありながら効果的な教師なし深層学習ベースのマルチモーダル画像レジストレーションアプローチを提案します。この背後にある直感は、強い勾配のある画像の場所は、組織の遷移を
A Novel Encoder-Decoder Network with Guided Transmission Map for Single Image Dehazing この論文では、単一画像の曇り除去スキームのためのガイド付き伝送マップ(EDN-GTM)を備えた新しいエンコーダ-デコーダネットワークを提案します。提案されたEDN-GTMは、ネットワークの入力として事前にダークチャネルを採用することによって推定された伝送マップと組み合わせて、従来のRGBヘイジー画像を取得します。提案されたEDN-GTMは、コアネットワークとして画像セグメンテーションにU-Netを利用し、空間ピラミッドプーリングモジュールやSwishアクティベーションなどのさまざまな変更を利用して、最先端の曇り除去性能を実現します。ベンチマークデータセットでの実験は、提案されたEDN-GTMが、PSNRおよびSSIMメ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く