予測をトレーニングデータに追跡するための影響関数の効率的な計算に取り組みます。アーノルディ法に基づく逆ヘッセ計算を高速化するための新しいアプローチを提案し、分析します。この改善により、私たちの知る限り、数億のパラメーターを持つフルサイズ(言語およびビジョン)のTransformerモデルにスケーリングする影響関数の最初の実装に成功しました。数千万から数億のトレーニング例を使用して、画像分類とシーケンス間のタスクに関するアプローチを評価します。私たちのコードはhttps://github.com/google-research/jax-influenceで入手できます。 We address efficient calculation of influence functions for tracking predictions back to the training data. We p
TransCMD: Cross-Modal Decoder Equipped with Transformer for RGB-D Salient Object Detection 既存のRGB-D顕著なオブジェクト検出方法のほとんどは、畳み込み演算を利用し、複雑な織り合わせ融合構造を構築して、クロスモーダル情報統合を実現します。畳み込み演算に固有のローカル接続により、畳み込みベースのメソッドのパフォーマンスが制限されます。この作業では、グローバルな情報の調整と変換の観点からこのタスクを再考します。具体的には、提案された方法(TransCMD)は、いくつかのクロスモーダル統合ユニットをカスケード接続して、トップダウンの変圧器ベースの情報伝播パス(TIPP)を構築します。 TransCMDは、マルチスケールおよびマルチモーダル機能の統合を、トランスフォーマー上に構築されたシーケンス間のコンテ
曲のダンスの振り付けは挑戦的な仕事であり、音楽のテーマとリズムを考慮しながら、独特のスタイルのダンス要素を提示する際に創造的でなければなりません。類似性の取得、シーケンス間のモデリング、生成的敵対的ネットワークなどのさまざまなアプローチで取り組んできましたが、生成されたダンスシーケンスは、モーションリアリズム、多様性、音楽の一貫性に欠けていることがよくあります。本稿では、音楽から3Dダンスの振り付けを生成する方法を学ぶために、最適なトランスポートネットワーク(MDOT-Net)を使用したMusic-to-Danceを提案します。生成されたダンス分布の信憑性を評価するための最適な輸送距離と、ダンス分布と入力音楽の間の対応を測定するためのGromov-Wasserstein距離を紹介します。これにより、不安定性や発散性の発電機損失の問題に悩まされることが多い標準的なGANトレーニングの制限を緩
3D Pose Estimation and Future Motion Prediction from 2D Images この論文では、3D人体ポーズを推定し、RGB画像シーケンスから将来の3Dモーションを予測するという、相関性の高いタスクに共同で取り組むことを検討しています。リー代数のポーズ表現に基づいて、人間の運動運動学を自然に保存する新しい自己投影メカニズムが提案されています。これは、エンコーダー-デコーダートポロジに基づくシーケンス間マルチタスクアーキテクチャによってさらに促進されます。これにより、両方のタスクで共有される共通の基盤を活用できます。最後に、フレームワークのパフォーマンスを向上させるために、グローバルな改良モジュールが提案されています。 PoseMoNetと呼ばれる私たちのアプローチの有効性は、Human3.6MおよびHumanEva-Iベンチマークでのアブレーシ
Investigation of Speaker-adaptation methods in Transformer based ASR エンドツーエンドモデルは、自動音声認識において従来のハイブリッドモデルに急速に取って代わっています。機械翻訳タスクで一般的に使用されている自己注意に基づくシーケンス間モデルであるTransformerは、自動音声認識に使用すると有望な結果をもたらしました。このホワイトペーパーでは、音声認識パフォーマンスを向上させるためにトランスフォーマーベースのモデルをトレーニングしながら、エンコーダー入力にスピーカー情報を組み込むさまざまな方法について説明します。スピーカー情報は、スピーカーごとにスピーカー埋め込みの形式で表示されます。前の作業で提案されたxベクトルと新しいsベクトルの2種類のスピーカー埋め込みを使用して実験します。 2つのデータセットa)NPTEL講
Sequence-to-Sequence Modeling for Action Identification at High Temporal Resolution ビデオおよび運動学的データからの自動アクション識別は、ロボット工学からスマートヘルスに至るまでのアプリケーションにおける重要な機械学習の問題です。既存の作品のほとんどは、野菜の走り、登り、刈り取りなど、比較的長時間の粗い行動を特定することに焦点を当てています。これは、高い時間分解能で微妙な動きを識別する必要があるアプリケーションにとって重要な制限です。たとえば、脳卒中の回復では、リハビリテーションの線量を定量化するには、1秒未満の持続時間で動作を区別する必要があります。私たちの目標は、このギャップを埋めることです。この目的のために、大規模なマルチモーダルデータセットであるStrokeRehabを、高い時間分解能でラベル付けさ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く