[B! seq2seq][transformer] [3ページ] arxiv_readerのブックマーク

arxiv_reader id:arxiv_reader

seq2seqとtransformerに関するarxiv_readerのブックマーク (101)

NeRF Attention によるエンドツーエンドのビュー合成
arxiv_reader 2022/09/16
この論文では、ビュー合成のための単純な seq2seq 式を提示します。ここでは、光線に対応する入力および出力カラーとして一連の光線ポイントを使用します。この seq2seq 式に標準変換を直接適用す

transformer

arXiv reaDer

seq2seq

bias

attention

arXiv

synthesis
リンク
TransCrowd: トランスフォーマーを使用した教師付きの弱い群衆カウント
arxiv_reader 2022/09/09
主流の群衆カウント方法は通常、畳み込みニューラルネットワーク (CNN) を利用して密度マップを回帰させ、ポイントレベルの注釈を必要とします。ただし、各人にポイントを付けて注釈を付けるのは、費用が

convolutional

arXiv reaDer

benchmark

dataset

weakly-supervised

CNN

transformer

person

seq2seq

arXiv
リンク
シーケンスからシーケンスへの変換による、完全に統合され、タイムスタンプが監視された一時的なアクションのセグメンテーション
arxiv_reader 2022/09/02
このホワイトペーパーでは、完全なタイムスタンプ監視セットアップでのシーケンスからシーケンスへの変換 (seq2seq) によるビデオアクションセグメンテーションの統合フレームワークを紹介します。

arXiv

segmentation

seq2seq

loss function

dataset

arXiv reaDer

action

transformer

video
リンク
UniLayout: グラフィックレイアウト生成のための統合された Sequence-to-Sequence トランスフォーマーの使いこなし
arxiv_reader 2022/08/18
さまざまなユーザーのニーズを満たすために、グラフィックレイアウト生成のさまざまなサブタスクが近年集中的に調査されています。既存の研究では、通常、多様な入出力形式、専用のモデルアーキテクチャ、および

arXiv reaDer

arXiv

seq2seq

transformer

learning

dataset
リンク
レイアウトブリッジのテキストから画像への合成
arxiv_reader 2022/08/15
テキストから画像への合成の核心は、入力テキストと合成された画像の間でモダリティを超えた意味の一貫性を維持することの難しさにあります。テキストから画像へのマッピングを直接モデル化しようとする典型的な方法

learning

metric

dataset

transformer

action

arXiv

seq2seq

arXiv reaDer

synthesis
リンク
NeRF Attention によるエンドツーエンドのビュー合成
arxiv_reader 2022/08/01
この論文では、ビュー合成のための単純な seq2seq 式を提示します。ここでは、光線に対応する入力および出力カラーとして一連の光線ポイントを使用します。この seq2seq 式に標準変換を直接適用す

transformer

arXiv reaDer

bias

arXiv

attention

seq2seq

synthesis
リンク
ニューラルネットワークを使用した、制約のないオーディオスプライシングの検出とローカリゼーションに向けて
arxiv_reader 2022/08/01
無料で利用できる使いやすいオーディオ編集ツールを使用すると、オーディオのスプライシングを簡単に実行できます。説得力のある偽造は、同じ人物のさまざまな音声サンプルを組み合わせることで作成できます。このよ

transformer

localization

arXiv reaDer

arXiv

person

seq2seq

detection
リンク
TransNorm：Transformerは、ディープセグメンテーションモデルに強力な空間正規化メカニズムを提供します
arxiv_reader 2022/07/28
過去数年間、畳み込みニューラルネットワーク（CNN）、特にU-Netは、医用画像処理の時代に普及した技術でした。具体的には、独創的なU-Netとその代替手段は、さまざまな医療画像セグメンテーションタス

localization

CNN

arXiv reaDer

U-Net

seq2seq

segmentation

arXiv

transformer
リンク
Transformerを使用した視覚表現学習：シーケンス間の視点
arxiv_reader 2022/07/20
視覚表現学習は、さまざまな視覚問題を解決するための鍵です。独創的なグリッド構造の優先順位に依存して、畳み込みニューラルネットワーク（CNN）は、ほとんどのディープビジョンモデルの事実上の標準アーキテク

semantic segmentation

attention

seq2seq

classification

CNN

arXiv

representation learning

transformer

detection

arXiv reaDer
リンク
非黒色腫皮膚がんの表現力の高い機械学習モデルに向けて
arxiv_reader 2022/07/14
病理学者は、細胞形態のすべてのニュアンスを説明できる豊富な語彙を持っています。彼らの世界には、画像と言葉の自然な組み合わせがあります。最近の進歩は、機械学習モデルをトレーニングして、高品質の画像の特徴

transformer

generative

arXiv reaDer

learning

seq2seq

arXiv

domain
リンク
クエリによるアウトペインティング
arxiv_reader 2022/07/13
畳み込みニューラルネットワーク（CNN）ベースのフレームワークで十分に研究されている画像のアウトペインティングは、最近、コンピュータービジョンでより注目を集めています。ただし、CNNは、効果的なサンプ

convolutional

transformer

arXiv

dataset

arXiv reaDer

attention

computer vision

bias

seq2seq

CNN
リンク
PolarFormer: Polar Transformer を使用したマルチカメラ 3D オブジェクト検出
arxiv_reader 2022/07/13
自動運転での3Dオブジェクト検出は、3D世界に存在する対象オブジェクトの「何」と「どこ」を推論することを目的としています。以前の2Dオブジェクト検出の従来の知識に従って、既存の方法では、垂直軸を持つ正

semantic segmentation

transformer

arXiv

seq2seq

detection

3D

autonomous driving

representation learning

arXiv reaDer

attention
リンク
PolarFormer：PolarTransformersを使用したマルチカメラ3Dオブジェクト検出
arxiv_reader 2022/07/12
自動運転での3Dオブジェクト検出は、3D世界に存在する対象オブジェクトの「何」と「どこ」を推論することを目的としています。以前の2Dオブジェクト検出の従来の知識に従って、既存の方法では、垂直軸を持つ正

seq2seq

transformer

autonomous driving

semantic segmentation

arXiv reaDer

3D

detection

arXiv

attention

representation learning
リンク
PolarFormer：PolarTransformersを使用したマルチカメラ3Dオブジェクト検出
arxiv_reader 2022/07/01
自動運転での3Dオブジェクト検出は、3D世界に存在する対象オブジェクトの「何」と「どこ」を推論することを目的としています。以前の2Dオブジェクト検出の従来の知識に従って、既存の方法では、垂直軸を持つ正

semantic segmentation

detection

arXiv reaDer

transformer

representation learning

arXiv

seq2seq

autonomous driving

3D

attention
リンク
コンテンツが豊富なテキストから画像への生成のための自己回帰モデルのスケーリング
arxiv_reader 2022/06/23
Pathways Autoregressive Text-to-Image（Parti）モデルを紹介します。このモデルは、忠実度の高いフォトリアリスティックな画像を生成し、複雑な構成と世界の知識を含む

zero-shot

arXiv

autoregressive

benchmark

synthesis

arXiv reaDer

seq2seq

transformer
リンク
アバター：制約のない視聴覚音声認識
arxiv_reader 2022/06/16
視聴覚自動音声認識（AV-ASR）は、ASRの拡張機能であり、多くの場合、話者の口の動きからの視覚的な手がかりを組み込んでいます。唇の動きだけに焦点を当てた作品とは異なり、視覚的なフレーム全体（視覚的

transformer

action

attention

arXiv reaDer

benchmark

arXiv

seq2seq

video
リンク
Tutel：大規模な適応型の専門家の混合
近年、Mixture-of-Experts（MoE）は、スパース計算によって計算コストを削減しながら、モデル容量を数兆以上のパラメーターに拡張できるディープラーニングの有望な手法として登場しました。 MoEは非常に大きなモデルの新しいフロンティアを開きますが、MoEの動的な性質とシステムの静的な並列処理/パイプライン化の不一致により、数千のGPUでの実装は制限されています。動的に適応する並列処理とパイプライン化を備えたMoEの拡張性の高いスタック設計と実装であるTutelを紹介します。 Tutelは、実行時に適応型並列処理スイッチングと適応型パイプラインを提供し、それぞれ最大1.74倍と2.00倍の単一MoEレイヤーの高速化を実現します。また、MoE通信の高速化のための新しい2次元階層アルゴリズムを提案します。これは、2,048GPUで最大20.7倍の以前の最先端技術を上回ります。すべての
arxiv_reader 2022/06/08
近年、Mixture-of-Experts（MoE）は、スパース計算によって計算コストを削減しながら、モデル容量を数兆以上のパラメーターに拡張できるディープラーニングの有望な手法として登場しました。

pre-training

computer vision

transformer

sparse

arXiv reaDer

arXiv

seq2seq

detection

learning
リンク
ビジョントランスフォーマーによる表面分析
arxiv_reader 2022/06/01
畳み込みニューラルネットワーク（CNN）を非ユークリッド幾何学に拡張することで、多様体を研究するための複数のフレームワークが生まれました。これらの方法の多くは、不規則な表面への畳み込みの一般化が自明で

seq2seq

mesh

arXiv

computer vision

transformer

human

dataset

pre-training

CNN

arXiv reaDer
リンク
それはSh！tpostingではありません、それは私のCAT投稿です
arxiv_reader 2022/05/19
この論文では、与えられた入力画像に対して陽気なキャプションを生成できる新しいアーキテクチャについて説明します。アーキテクチャは2つに分割されます。つまり、画像のキャプションと陽気なテキスト変換です。ア

pre-training

transformer

CNN

attention

arXiv

captioning

seq2seq

arXiv reaDer

LSTM
リンク
CAVER: バイモーダルの顕著なオブジェクト検出のためのクロスモーダルビュー混合トランスフォーマー
arxiv_reader 2022/05/02
既存のバイモーダル（RGB-DおよびRGB-T）の顕著なオブジェクト検出方法のほとんどは、畳み込み演算を利用し、複雑な織り交ぜ構造を構築して、クロスモーダル情報統合を実現します。畳み込み演算の固有のロ

convolutional

detection

seq2seq

saliency

attention

arXiv reaDer

RGB-D

dataset

arXiv

transformer
リンク
前のページ 1 2 3 4 5 6 次のページ

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx