[B! seq2seq][arXiv reaDer] [8ページ] arxiv

arxiv_reader id:arxiv_reader

seq2seqとarXiv reaDerに関するarxiv_readerのブックマーク (209)

CSformer：圧縮センシングのためのブリッジングコンボリューションとトランス
arxiv_reader 2022/01/03
畳み込みニューラルネットワーク（CNN）は、圧縮画像センシングに成功しました。ただし、局所性と重みの共有の誘導バイアスにより、畳み込み演算は、長距離依存性のモデル化に固有の制限を示しています。当初はシ

convolutional

representation learning

CNN

arXiv

arXiv reaDer

reconstruction

transformer

seq2seq

localization

dataset
リンク
ディープラーニングモデルを使用した継続的なオフライン手書き認識
arxiv_reader 2021/12/28
手書きのテキスト認識は、自動ドキュメント画像分析の分野で非常に興味深い未解決の問題です。デジタル化された文書に存在する手書きのコンテンツの転記は、過去のアーカイブを分析したり、手書きの文書、フォーム、

CNN

arXiv reaDer

learning

seq2seq

arXiv
リンク
UniMiSS: 次元の壁を打ち破るユニバーサルメディカルセルフスーパーバイズドラーニング
arxiv_reader 2021/12/20
自己監視学習（SSL）は、ラベルのないデータをより有効に活用するための大きな機会を開きます。注釈がないことで一般的に知られている医療画像分析には不可欠です。ただし、SSLでラベルのない医療画像をできる

segmentation

transformer

arXiv

self-supervised

U-Net

embedding

3D

arXiv reaDer

seq2seq
リンク
インフルエンス関数のスケールアップ
予測をトレーニングデータに追跡するための影響関数の効率的な計算に取り組みます。アーノルディ法に基づく逆ヘッセ計算を高速化するための新しいアプローチを提案し、分析します。この改善により、私たちの知る限り、数億のパラメーターを持つフルサイズ（言語およびビジョン）のTransf ormerモデルにスケーリングする影響関数の最初の実装に成功しました。数千万から数億のトレーニング例を使用して、画像分類とシーケンス間のタスクに関するアプローチを評価します。私たちのコードはhttps://github.com/google-research/jax-influenceで入手できます。 We address efficient calculation of influence functions for tracking predictions back to the training data. We p
arxiv_reader 2021/12/07
予測をトレーニングデータに追跡するための影響関数の効率的な計算に取り組みます。アーノルディ法に基づく逆ヘッセ計算を高速化するための新しいアプローチを提案し、分析します。この改善により、私たちの知る限り

arXiv reaDer

arXiv

seq2seq

classification

tracking

transformer
リンク
TransCMD：RGB-D顕著な物体検出用のトランスフォーマーを備えたクロスモーダルデコーダー
TransCMD: Cross-Modal Decoder Equipped with Transf ormer for RGB-D Salient Object Detection 既存のRGB-D顕著なオブジェクト検出方法のほとんどは、畳み込み演算を利用し、複雑な織り合わせ融合構造を構築して、クロスモーダル情報統合を実現します。畳み込み演算に固有のローカル接続により、畳み込みベースのメソッドのパフォーマンスが制限されます。この作業では、グローバルな情報の調整と変換の観点からこのタスクを再考します。具体的には、提案された方法（TransCMD）は、いくつかのクロスモーダル統合ユニットをカスケード接続して、トップダウンの変圧器ベースの情報伝播パス（TIPP）を構築します。 TransCMDは、マルチスケールおよびマルチモーダル機能の統合を、トランスフォーマー上に構築されたシーケンス間のコンテ
arxiv_reader 2021/12/07
既存のRGB-D顕著なオブジェクト検出方法のほとんどは、畳み込み演算を利用し、複雑な織り合わせ融合構造を構築して、クロスモーダル情報統合を実現します。畳み込み演算に固有のローカル接続により、畳み込みベ

saliency

benchmark

dataset

arXiv reaDer

convolutional

arXiv

seq2seq

RGB-D

detection

transformer
リンク
最適なトランスポートによる音楽からダンスへの生成
曲のダンスの振り付けは挑戦的な仕事であり、音楽のテーマとリズムを考慮しながら、独特のスタイルのダンス要素を提示する際に創造的でなければなりません。類似性の取得、シーケンス間のモデリング、生成的敵対的ネットワークなどのさまざまなアプローチで取り組んできましたが、生成されたダンスシーケンスは、モーションリアリズム、多様性、音楽の一貫性に欠けていることがよくあります。本稿では、音楽から3Dダンスの振り付けを生成する方法を学ぶために、最適なトランスポートネットワーク（MDOT-Net）を使用したMusic-to-Danceを提案します。生成されたダンス分布の信憑性を評価するための最適な輸送距離と、ダンス分布と入力音楽の間の対応を測定するためのGromov-Wasserstein距離を紹介します。これにより、不安定性や発散性の発電機損失の問題に悩まされることが多い標準的なGANトレーニングの制限を緩
arxiv_reader 2021/12/06
曲のダンスの振り付けは挑戦的な仕事であり、音楽のテーマとリズムを考慮しながら、独特のスタイルのダンス要素を提示する際に創造的でなければなりません。類似性の取得、シーケンス間のモデリング、生成的敵対的ネ

3D

arXiv

arXiv reaDer

learning

seq2seq

GAN
リンク
2D画像からの3Dポーズ推定と将来のモーション予測
3D Pose Estimation and Future Motion Prediction from 2D Images この論文では、3D人体ポーズを推定し、RGB画像シーケンスから将来の3Dモーションを予測するという、相関性の高いタスクに共同で取り組むことを検討しています。リー代数のポーズ表現に基づいて、人間の運動運動学を自然に保存する新しい自己投影メカニズムが提案されています。これは、エンコーダー-デコーダートポロジに基づくシーケンス間マルチタスクアーキテクチャによってさらに促進されます。これにより、両方のタスクで共有される共通の基盤を活用できます。最後に、フレームワークのパフォーマンスを向上させるために、グローバルな改良モジュールが提案されています。 PoseMoNetと呼ばれる私たちのアプローチの有効性は、Human3.6MおよびHumanEva-Iベンチマークでのアブレーシ
arxiv_reader 2021/11/29
この論文では、3D人体ポーズを推定し、RGB画像シーケンスから将来の3Dモーションを予測するという、相関性の高いタスクに共同で取り組むことを検討しています。リー代数のポーズ表現に基づいて、人間の運動運

arXiv

multi-task

3D

benchmark

seq2seq

representation

human

arXiv reaDer

pose estimation
リンク
UFO：視覚言語表現学習のための統一されたトランスフォーマー
arxiv_reader 2021/11/22
この論文では、視覚言語（たとえば、画像または質問）のユニモーダル入力（たとえば、画像または言語）またはマルチモーダル入力（たとえば、画像と質問の連結）のいずれかを処理できる単一のUniFiedトランス

representation learning

multi-task

arXiv

seq2seq

transformer

arXiv reaDer

contrastive

pre-training

captioning

attention
リンク
TransformerベースのASRにおけるスピーカー適応方法の調査
Investigation of Speaker-adaptation methods in Transf ormer based ASR エンドツーエンドモデルは、自動音声認識において従来のハイブリッドモデルに急速に取って代わっています。機械翻訳タスクで一般的に使用されている自己注意に基づくシーケンス間モデルであるTransf ormerは、自動音声認識に使用すると有望な結果をもたらしました。このホワイトペーパーでは、音声認識パフォーマンスを向上させるためにトランスフォーマーベースのモデルをトレーニングしながら、エンコーダー入力にスピーカー情報を組み込むさまざまな方法について説明します。スピーカー情報は、スピーカーごとにスピーカー埋め込みの形式で表示されます。前の作業で提案されたxベクトルと新しいsベクトルの2種類のスピーカー埋め込みを使用して実験します。 2つのデータセットa）NPTEL講
arxiv_reader 2021/11/19
エンドツーエンドモデルは、自動音声認識において従来のハイブリッドモデルに急速に取って代わっています。機械翻訳タスクで一般的に使用されている自己注意に基づくシーケンス間モデルであるTransformer

dataset

arXiv

transformer

embedding

seq2seq

arXiv reaDer
リンク
高い時間分解能でのアクション識別のためのシーケンス間モデリング
Sequence-to-Sequence Modeling for Action Identification at High Temporal Resolution ビデオおよび運動学的データからの自動アクション識別は、ロボット工学からスマートヘルスに至るまでのアプリケーションにおける重要な機械学習の問題です。既存の作品のほとんどは、野菜の走り、登り、刈り取りなど、比較的長時間の粗い行動を特定することに焦点を当てています。これは、高い時間分解能で微妙な動きを識別する必要があるアプリケーションにとって重要な制限です。たとえば、脳卒中の回復では、リハビリテーションの線量を定量化するには、1秒未満の持続時間で動作を区別する必要があります。私たちの目標は、このギャップを埋めることです。この目的のために、大規模なマルチモーダルデータセットであるStrokeRehabを、高い時間分解能でラベル付けさ
arxiv_reader 2021/11/05
ビデオおよび運動学的データからの自動アクション識別は、ロボット工学からスマートヘルスに至るまでのアプリケーションにおける重要な機械学習の問題です。既存の作品のほとんどは、野菜の走り、登り、刈り取りなど

arXiv reaDer

arXiv

segmentation

dataset

benchmark

identification

action recognition

seq2seq

activity
リンク
あなたは1つのシーケンスだけを見ます：オブジェクト検出による視覚のトランスフォーマーの再考
arxiv_reader 2021/10/28
Transformerは、2D空間構造に関する最小限の知識で、純粋なシーケンス間の観点から2Dオブジェクトレベルおよび領域レベルの認識を実行できますか？この質問に答えるために、バニラビジョントランスフ

detection

benchmark

bias

arXiv reaDer

arXiv

dataset

pre-training

transformer

seq2seq
リンク
良いプロンプトは何百万ものパラメータに値する：視覚言語モデルのための低リソースのプロンプトベースの学習
arxiv_reader 2021/10/19
大規模な事前トレーニング済みの視覚言語（VL）モデルは、いくつかの例を使用して新しいタスクを学習したり、微調整せずに新しいタスクに一般化したりできます。ただし、これらの巨大なVLモデルは、モデルサイズ

seq2seq

few-shot

learning

VQA

arXiv reaDer

zero-shot

arXiv

transformer

captioning

dataset
リンク
CTCプレフィックスを使用したテキスト行認識のためのシーケンス間モデルのスコアリング
arxiv_reader 2021/10/13
コネクショニスト時分類（CTC）アプローチとは対照的に、手書きテキスト認識（HTR）のシーケンス間（S2S）モデルには、シーケンスの最後で頻繁に発生する単語のスキップや繰り返しなどのエラーが発生します

arXiv reaDer

seq2seq

synthesis

classification

LSTM

arXiv

CNN

attention

transformer
リンク
無人航空機システムアプリケーション向けの深層学習アンサンブルによるマルチオブジェクト追跡
arxiv_reader 2021/10/06
マルチオブジェクトトラッキング（MOT）は、軍事防衛アプリケーションにおける状況認識の重要なコンポーネントです。無人航空機システム（UAS）の使用が増えるにつれ、空中監視のためのMOT手法の需要が高ま

learning

pre-training

seq2seq

attention

CNN

arXiv reaDer

real time

arXiv

MOT

embedding
リンク
画像を地図に翻訳する
arxiv_reader 2021/10/05
翻訳の問題として、画像をトップダウンの世界観に変換する瞬間的なマッピングに取り組みます。単一のエンドツーエンドネットワークで、新しい形式のトランスネットワークを使用して、画像やビデオから世界のオーバー

arXiv reaDer

video

arXiv

transformer

seq2seq

convolutional

dataset
リンク
ポーズトランスフォーマー（POTR）：非自己回帰トランスフォーマーを使用した人間の動きの予測
arxiv_reader 2021/09/17
非自己回帰の人間の動きの予測にTransformerアーキテクチャを活用することを提案します。私たちのアプローチは、最先端のRNNベースのアプローチなどの以前の予測を条件付けるのではなく、クエリシーケ

3D

classification

activity

transformer

human

arXiv

pose

arXiv reaDer

seq2seq

dataset
リンク
放射線療法のための変形駆動Seq2Seq縦方向腫瘍およびリスクのある臓器の予測
arxiv_reader 2021/09/01
目的：放射線療法は、治療中の縦方向の腫瘍とリスクのある臓器（OAR）の予測に固有の課題と臨床要件を提示します。課題には、腫瘍の炎症/浮腫および放射線誘発性の臓器形状の変化が含まれますが、臨床要件では、

3D

convolutional

seq2seq

arXiv

metric

CT

representation

arXiv reaDer

dataset
リンク
Drop-DTW：外れ値をドロップしながらシーケンス間の共通信号を整列させる
arxiv_reader 2021/08/30
この作業では、外れ値を含む信号のシーケンス間アラインメントの問題を検討します。外れ値がないと仮定すると、標準の動的タイムワーピング（DTW）アルゴリズムは、2つの（一般的に）可変長シーケンス間の最適な

seq2seq

arXiv reaDer

localization

differentiable

unsupervised

representation learning

video

arXiv
リンク
トランスフォーマーを使用したシーケンス間の観点からのステレオ深度推定の再検討
arxiv_reader 2021/08/27
ステレオ深度推定は、深度を推測するために、左右の画像のエピポーラ線上のピクセル間の最適な対応マッチングに依存しています。この作業では、シーケンス間の対応の観点から問題を再検討し、コストボリュームの構築

attention

estimation

synthesis

stereo

seq2seq

dataset

domain

arXiv

transformer

arXiv reaDer
リンク
野生のカテゴリー的で継続的な感情認識のための視聴覚的および文脈的アプローチ
arxiv_reader 2021/08/16
この作品では、第2回ワークショップと野外での感情行動分析に関するコンペティション（ABAW2）の敷地内で、ビデオベースの視聴覚感情認識のタスクに取り組んでいます。不十分な照明条件、頭/体の向き、および

arXiv reaDer

seq2seq

human

arXiv

learning

face

dataset

emotion
リンク
前のページ 2 3 4 5 6 7 8 9 10 11 次のページ