Contrastive Learning with Large Memory Bank and Negative Embedding Subtraction for Accurate Copy Detection 画像がデータベース内の画像の変更されたコピーであるかどうかを判断するタスクであるコピー検出は、未解決の問題です。したがって、対照的な学習で畳み込みニューラルネットワーク(CNN)をトレーニングすることにより、コピー検出に取り組みました。大容量のメモリバンクとハードデータ拡張を使用したトレーニングにより、CNNはより識別力のある表現を取得できます。提案された負の埋め込み減算は、コピー検出の精度をさらに高めます。私たちの手法を使用して、Facebook AI画像類似性チャレンジ:記述子トラックで1位を獲得しました。私たちのコードはここで公開されています:https://github.
Skinned Multi-Person Linear(SMPL)モデルは、ポーズと形状のパラメーターをボディメッシュにマッピングすることにより、人体を表すことができます。これは、さまざまな学習モデルを介して画像から3D人間のポーズと形状を推測するのを容易にすることが示されています。ただし、すべてのポーズと形状のパラメータ値が、物理的に妥当な、または現実的なボディメッシュを生成するわけではありません。言い換えると、SMPLは制約が不十分であるため、パラメータを直接最適化するか、画像からこれらのパラメータへのマッピングを学習することにより、画像から人間を再構築するために使用すると、無効な結果につながる可能性があります。したがって、この論文では、SMPLパラメータを敵対的なトレーニングを介して現実的なポーズを生成する値に制限する事前確率を学習します。学習した事前情報が実データ分布の多様性をカバ
本論文では、新しい点群表現であるニューラルポイントを提案する。各ポイントが3D空間内の位置またはローカル平面のみを表す従来のポイントクラウド表現とは異なり、ニューラルポイントの各ポイントは、ニューラルフィールドを介してローカルの連続した幾何学的形状を表します。したがって、ニューラルポイントは、はるかに複雑な詳細を表現できるため、より強力な表現能力を備えています。ニューラルポイントは、豊富な幾何学的詳細を含む高解像度のサーフェスでトレーニングされているため、トレーニングされたモデルはさまざまな形状に対して十分な表現能力を備えています。具体的には、ポイント上の深い局所的な特徴を抽出し、2Dパラメトリックドメインと3D局所パッチの間の局所同型を介して神経場を構築します。最後に、ローカルニューラルフィールドが統合されてグローバルサーフェスが形成されます。実験結果は、ニューラルポイントが強力な表現能
Scalable 3D Semantic Segmentation for Gun Detection in CT Scans 3Dデータの可用性が高まるにつれ、それらを処理するソリューションの必要性も急速に高まりました。ただし、すでに確実に正確な2Dアプローチに次元を追加すると、膨大なメモリ消費と計算の複雑さが増します。これらの問題により、現在のハードウェアは限界に達し、ほとんどの方法で入力解像度を大幅に下げる必要があります。私たちの主な貢献は、手荷物CTスキャンでの銃の検出のための新しいディープ3Dセマンティックセグメンテーション手法であり、高解像度のボクセル化されたボリュームの高速トレーニングと低ビデオメモリ消費を可能にします。インスタンスをセグメント化するために推論時に複数のフォワードパスを利用する移動ピラミッドアプローチを紹介します。 With the increased ava
What I Cannot Predict, I Do Not Understand: A Human-Centered Evaluation Framework for Explainability Methods 多数の説明可能性の方法と理論的評価スコアが提案されています。ただし、まだわかっていません。(1)これらの方法が実際のシナリオでどれほど有用であるか、および(2)理論的尺度が人間による実際の使用に対するこれらの方法の有用性をどれだけうまく予測するか。このギャップを埋めるために、人間の精神物理学実験を大規模に実施して、代表的な帰属方法を活用してさまざまな画像分類子の決定を予測することを学ぶ人間の参加者(n = 1,150)の能力を評価しました。私たちの結果は、説明可能性の方法をスコアリングするために使用される理論的尺度が、実際のシナリオにおける個々の帰属方法の実際的な有用性を十分
Iterative Contrast-Classify For Semi-supervised Temporal Action Segmentation 時間的アクションセグメンテーションは、各フレームのアクションを(長い)ビデオシーケンスに分類します。フレームごとのラベリングのコストが高いため、時間的アクションセグメンテーションのための最初の半教師あり方法を提案します。私たちの方法は、教師なし表現学習に依存します。これは、時間的アクションのセグメンテーションでは、固有の課題をもたらします。トリミングされていない動画のアクションは長さが異なり、ラベルと開始/終了時間が不明です。動画全体でのアクションの順序も異なる場合があります。時間近接条件と多重解像度類似性を追加して入力特徴をクラスタリングすることにより、時間畳み込みネットワーク(TCN)からフレーム単位の表現を学習する新しい方法を提案し
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く