並び順

ブックマーク数

期間指定

  • から
  • まで

361 - 400 件 / 453件

新着順 人気順

Transformerの検索結果361 - 400 件 / 453件

  • Zero-Shot Text-to-Image Generation

    Text-to-image generation has traditionally focused on finding better modeling assumptions for training on a fixed dataset. These assumptions might involve complex architectures, auxiliary losses, or side information such as object part labels or segmentation masks supplied during training. We describe a simple approach for this task based on a transformer that autoregressively models the text and

    • 時系列異状検知にもTransformer

      3つの要点 ✔️ いよいよ多変量時系列異状検知にもTransformerが現れました ✔️ グラフも含めた深層学習により多変量の時系列の表現力は向上してきましたが、まだ単一時点に限ります ✔️ Transformerのグローバルおよび長期の連関に対しての表現力を活かして、改造したAnomaly-Attentionを含む2分岐の構造で従来のSOTAを超える性能を確認しています Anomaly Transformer: Time Series Anomaly Detection with Association Discrepancy written by Jiehui Xu, Haixu Wu, Jianmin Wang, Mingsheng Long (Submitted on 6 Oct 2021 (v1), last revised 13 Feb 2022 (this version,

        時系列異状検知にもTransformer
      • NeurIPS 2023 Tutorial: Reconsidering Overfitting in the Age of Overparameterized Models

        NeurIPS 2023 Tutorial: Reconsidering Overfitting in the Age of Overparameterized Models ` Large, overparameterized models such as neural networks are now the workhorses of modern machine learning. These models are often trained to near-zero error on noisy datasets and simultaneously generalize well to unseen data, in contrast to the textbook intuition regarding the perils of overfitting. At the sa

        • Introducing RWKV - An RNN with the advantages of a transformer

          ChatGPT and chatbot-powered applications have captured significant attention in the Natural Language Processing (NLP) domain. The community is constantly seeking strong, reliable and open-source models for their applications and use cases. The rise of these powerful models stems from the democratization and widespread adoption of transformer-based models, first introduced by Vaswani et al. in 2017

            Introducing RWKV - An RNN with the advantages of a transformer
          • Kazunori Sato on X: "Geminiの開発エンジニアが書いたスタンフォード講義資料「Transformer と大規模言語モデル」の日本語版 by @yoshiyukinakai これはがっつり読みたい。書籍紹介ページ https://t.co/yGRRKsOjS8 と、無償のチートシートもある。https://t.co/bs29hscLBf https://t.co/zMpUpGslbP"

            • Zoology (Blogpost 2): Simple, Input-Dependent, and Sub-Quadratic Sequence Mixers

              Table 1: Perplexity of 355 million parameter models trained for 10 billion tokens on the Pile. Yet, some subquadratic gated-convolutions match attention on the non AR slice! Can we capture the strengths of both gated convolutions and attention in one purely sub-quadratic architecture? We find the AR gap is because gated convolution models (e.g. Hyena, H3, RWKV, RetNet) need model dimension that sc

                Zoology (Blogpost 2): Simple, Input-Dependent, and Sub-Quadratic Sequence Mixers
              • A Gentle Introduction to 8-bit Matrix Multiplication for transformers at scale using transformers, accelerate and bitsandbytes

                The 3 models are BLOOM-176B, T5-11B and T5-3B. Hugging Face transformers integration nuances Next let's discuss the specifics of the Hugging Face transformers integration. Let's look at the usage and the common culprit you may encounter while trying to set things up. Usage The module responsible for the whole magic described in this blog post is called Linear8bitLt and you can easily import it fro

                  A Gentle Introduction to 8-bit Matrix Multiplication for transformers at scale using transformers, accelerate and bitsandbytes
                • GitHub - neuml/txtai: 💡 All-in-one open-source embeddings database for semantic search, LLM orchestration and language model workflows

                  All-in-one embeddings database txtai is an all-in-one embeddings database for semantic search, LLM orchestration and language model workflows. Embeddings databases are a union of vector indexes (sparse and dense), graph networks and relational databases. This foundation enables vector search and/or serves as a powerful knowledge source for large language model (LLM) applications. Build autonomous

                    GitHub - neuml/txtai: 💡 All-in-one open-source embeddings database for semantic search, LLM orchestration and language model workflows
                  • Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth

                    Attention-based architectures have become ubiquitous in machine learning, yet our understanding of the reasons for their effectiveness remains limited. This work proposes a new way to understand self-attention networks: we show that their output can be decomposed into a sum of smaller terms, each involving the operation of a sequence of attention heads across layers. Using this decomposition, we p

                    • AI言語モデルは今--精度の進化、倫理、管理のあり方

                      George Anadiotis (Special to ZDNET.com) 翻訳校正: 村上雅章 野崎裕子 2022-05-12 06:30 統計によって理解度を定量化できるのだろうか。人工知能(AI)は倫理基準を満たしているのだろうか。いずれの疑問も表面的には同じくらい奇妙なものであり、その答えは同じくらいに明らかだ。しかし、AIのハイプが高まる中、この種の疑問は折に触れて何度も投げかけられるだろう。その答えを探る上で最先端の研究が助けとなるはずだ。 AI言語モデルと人間による選別 Gary N. Smith氏はMind Mattersへの投稿記事で、AI研究者らは数十年前に、極めて柔軟な人間の知性を模倣するコンピューターを構築するという目標をおおむね放棄し、有益な(つまり利益につながる)アルゴリズムを作り上げたと述べている。その上で、このような回り道が無理からぬものだったにもかかわ

                        AI言語モデルは今--精度の進化、倫理、管理のあり方
                      • Huggingface Transformers 入門 (4) - 訓練とファインチューニング|npaka

                        1. PyTorchでのファインチューニング「TF」で始まらない「Huggingface Transformers」のモデルクラスはPyTorchモジュールです。推論と最適化の両方でPyTorchのモデルと同じように利用できます。 テキスト分類のデータセットでモデルをファインチューニングする一般的なタスクを考えてみます。from_pretrained()を用いてモデルをインスタンス化すると、指定されたモデルの「モデルの構成」と「事前学習した重み」が、モデルの初期化に使用されます。このライブラリには,指定された事前学習済みモデルに含まれていない場合には、ランダムにインスタンス化される重みを持つタスク固有の「最終層」または「ヘッド」も多数含まれています。例えば、BertForSequenceClassification.from_pretrained('bert-base-uncased',

                          Huggingface Transformers 入門 (4) - 訓練とファインチューニング|npaka
                        • はじめての自然言語処理 Transformer 系モデルの推論高速化の検証 | オブジェクトの広場

                          今回は Transformer 系のモデル、具体的には BERT, T5, GPT の推論を高速化してみます。高速化手法として FasterTransformer, Torch-TensorRT, AWS Neuron を用い、素 の transfomers に比べ、どの程度速くなるか(ならないか)、利点・欠点を確認してみましょう。 1. はじめに 今回は Transformer 系のモデル、具体的には BERT, T5, GPT の推論を様々な技術を使って高速化してみます。 高速化の元ネタは Hugging Face の transformers1 縛りとして、素の transformers で推論する場合に比べ、 どの程度速くなるか(ならないか)見てみましょう。 推論を高速化する技術としては FasterTransfomer2, Torch-TensorRT3, AWS Neuron(

                            はじめての自然言語処理 Transformer 系モデルの推論高速化の検証 | オブジェクトの広場
                          • The RWKV language model: An RNN with the advantages of a transformer

                            For a while, I’ve been following and contributing to the RWKV language model, an open source large language model with great potential. As ChatGPT and large language models in general have gotten a lot of attention recently, I think it’s a good time to write about RWKV. In this post, I will try to explain what is so special about RWKV compared to most language models (transformers). The other RWKV

                            • Your Transformer is Secretly Linear

                              This paper reveals a novel linear characteristic exclusive to transformer decoders, including models such as GPT, LLaMA, OPT, BLOOM and others. We analyze embedding transformations between sequential layers, uncovering a near-perfect linear relationship (Procrustes similarity score of 0.99). However, linearity decreases when the residual component is removed due to a consistently low output norm o

                              • Amazon.co.jp: 物体検出とGAN、オートエンコーダー、画像処理入門 PyTorch/TensorFlow2による発展的・実装ディープラーニング: チーム・カルポ: 本

                                  Amazon.co.jp: 物体検出とGAN、オートエンコーダー、画像処理入門 PyTorch/TensorFlow2による発展的・実装ディープラーニング: チーム・カルポ: 本
                                • Metaは大規模AI言語モデル「OPT-175B」を開発、これを無償で提供することを発表、オープンサイエンスの手法でAIの危険性を解明する

                                  Metaは大規模なAI言語モデル「Open Pretrained Transformer (OPT-175B)」を開発し、これを無償で提供することを明らかにした。世界の研究者は、最先端のAIを自由に使うことができ、これにより自然言語解析の研究が進むことが期待される。AIモデルは、その規模が拡大すると、アルゴリズムが新たなスキルを習得することが知られている。同時に、アルゴリズムが内包する危険性が増大し、社会に甚大な被害を及ぼすことが問題となっている。Metaはオープンサイエンスの手法で研究を進め、AIの危険性を解明することを目指している。 OPT-175Bとは Metaが開発したOPT-175Bとは大規模な言語モデルで、自然言語解析(Natural Language Processing)と呼ばれる言葉を理解する機能を持つ。OPT-175BはTransformerベースの言語モデルで、Met

                                    Metaは大規模AI言語モデル「OPT-175B」を開発、これを無償で提供することを発表、オープンサイエンスの手法でAIの危険性を解明する
                                  • CG★ソフトなんでも覚書: 【VFX】ILM:トランスフォーマーの制作技術(2007年)

                                    映画「トランスフォーマー」の視覚効果について、Siggraph 2007 でのILM 基調講演の模様が、YouTubeにアップされています。 ロボットの動きは、人間のモーションキャプチャーによるもので、顔の動きもキャプチャーして、ロボットの口も人間と変わらない動きとなっています。 via.VFXTalk

                                    • Agents and tools

                                      What is an agent? Large Language Models (LLMs) trained to perform causal language modeling can tackle a wide range of tasks, but they often struggle with basic tasks like logic, calculation, and search. When prompted in domains in which they do not perform well, they often fail to generate the answer we expect them to. One approach to overcome this weakness is to create an agent. An agent is a sys

                                        Agents and tools
                                      • Differential Transformer

                                        Transformer tends to overallocate attention to irrelevant context. In this work, we introduce Diff Transformer, which amplifies attention to the relevant context while canceling noise. Specifically, the differential attention mechanism calculates attention scores as the difference between two separate softmax attention maps. The subtraction cancels noise, promoting the emergence of sparse attentio

                                        • フルサイズタブレットを比較--「Surface」「iPad」「Transformer」

                                          ほぼ毎日のように新しいタブレットがリリースされている気がする。全くの個人的な観点から言うと、筆者はタブレット市場に失速の兆候が全く見られないことに興奮しているが、同時に休息を求める気分にもなっている。 ただし、筆者はタブレットの入手を予定していない。Microsoftとそのパートナーは先週から、新しい「Windows RT」および「Windows 8」タブレットの発売を開始した。そして今後数週間のうちに、AppleやBarnes & Noble、Amazon、そしてGoogleの主要タブレットが続々とリリースされる予定だ。 メーカーはあまりにも多くの選択肢を市場に投入しているのだろうか。筆者は、品質が高い水準で維持される限り(ある場合にはさらに向上する限り)、問題はないと考えている。 「Surface」がリリースされた今、「Windows」と「iOS」、および「Android」を搭載する現

                                            フルサイズタブレットを比較--「Surface」「iPad」「Transformer」
                                          • 携帯電話←→トランスフォーマーを自作

                                            実際に携帯電話からロボットにトランスフォームするおもちゃを、黙々と自分で作りこんだ方がいらっしゃいます。 元になった携帯電話はMOTOROKR E6。変形後は…その雰囲気からして、たぶんデスプティコンの方ではないかと思われます。以下の変形の様子を写した写真ギャラリーを見てください。まーよくできてますから。 [PhoneDaily via New Launches] ADDY DUGDALE(いちる) 【関連記事】 ジャケット←→ショルダーバッグに変形する 【関連記事】 変形した形に合わせて光る場所が変わる照明 【関連記事】 アナログ世界にデジタルなデザインを:自ら変形する食器棚(動画)

                                            • はじめての自然言語処理 Switch Transformer の検証 | オブジェクトの広場

                                              Transformer のパラメータ数を増やしながらも必要な計算量の増加を抑えることができる Switch Transfomer のご紹介です。Google さんのように1兆6千億パラメータは無理ですが、規模が小さいモデルでも効果が見込めるようなので、実際に動かして確認してみたいと思います。 1. はじめに 今回は今年1月に発表された Switch Transformer 1 の話です。 Transformer というモデルはそのサイズに応じて性能が伸びることが良く知られています2。近年どんどん巨大化しており、 Switch Transformer ではついにパラメータ数が1兆6千億個に達しました3。 この連載ではこの手の巨大なモデルは「スゴイのはわかるんですけれど、デモをつつくぐらいで手元で動かせないなぁ~。」とスルーしていたのですが、 Switch Transformer はパラメータ

                                                はじめての自然言語処理 Switch Transformer の検証 | オブジェクトの広場
                                              • NLPコロキウム | Transformerの学習理論: In-context learningにおける汎化と最適化の理論 (鈴木大慈)

                                                鈴木大慈 / Taiji Suzuki (東京大学) [Webサイト] 東京大学大学院情報理工学系研究科数理情報学専攻教授および理化学研究所・革新知能統合研究センター・深層学習理論チーム・チームリーダー.深層学習を含む様々な学習機構について理論的側面から研究を進めている.より少ないデータでより精度良く学習するにはどうすればよいか.学習理論を通じて各種学習手法の性能を解明し複雑な学習過程の本質への理解を深め,さらに理論をもとに新しい機械学習手法の構築や応用への還元を行っている.また,確率的最適化などの方法論により大規模かつ複雑な機械学習問題を効率的に解く手法の開発も行っている. 概要 In-context leaningを主たる題材として,Transformerの学習能力を理論的に明らかにする最近の理論研究を紹介する.まず表現力の理論として,Transformerは非等方的滑らかさを持つ関数

                                                  NLPコロキウム | Transformerの学習理論: In-context learningにおける汎化と最適化の理論 (鈴木大慈)
                                                • Transformerとは?数学を用いた徹底解説:Encoder編 - Qiita

                                                  Transformerとは Transformerは、NLPで主に使用される深層学習アーキテクチャの一つです。Transformerが出現した後、様々なタスクに活用されていたRNNとLSTMはTransformerに置き換えられました。そしてBERT, GPT, T5などのNLPモデルにTransformerアーキテクチャが適用されました。 この記事ではTransformerの基本的な意味から構造まで説明します。この記事、Encoder編で扱うTransformer内容は次の2件です。 Transformerの全体的な構造紹介 TransformerのEncoder理解 そしてDecoder編では続いて次の3つの主題を取り上げます。 TransformerのDecoder理解 EncoderとDecoderの結合 Transformerの学習 この記事ではコードを用いた説明は行いません。数

                                                    Transformerとは?数学を用いた徹底解説:Encoder編 - Qiita
                                                  • えるエル on Twitter: "最近のTransformer研究について,非常によくまとまっており,Transformerゆるふわ勢(私のこと)でも一気に周辺知識を付けられる良資料でした Transformerとその派生系などのNLPの本流はもちろん, 最近のV… https://t.co/mSiPaYKRTz"

                                                    最近のTransformer研究について,非常によくまとまっており,Transformerゆるふわ勢(私のこと)でも一気に周辺知識を付けられる良資料でした Transformerとその派生系などのNLPの本流はもちろん, 最近のV… https://t.co/mSiPaYKRTz

                                                      えるエル on Twitter: "最近のTransformer研究について,非常によくまとまっており,Transformerゆるふわ勢(私のこと)でも一気に周辺知識を付けられる良資料でした Transformerとその派生系などのNLPの本流はもちろん, 最近のV… https://t.co/mSiPaYKRTz"
                                                    • Simple Transformers — Named Entity Recognition with Transformer Models

                                                      PrefaceThe Simple Transformers library was conceived to make Transformer models easy to use. Transformers are incredibly powerful (not to mention huge) deep learning models which have been hugely successful at tackling a wide variety of Natural Language Processing tasks. Simple Transformers enabled the application of Transformer models to Sequence Classification tasks (binary classification initia

                                                        Simple Transformers — Named Entity Recognition with Transformer Models
                                                      • Attentionを理解するためにRNN、Word2Vec、LSTM、Seq2Seq、Attentionの順に整理してみた - Qiita

                                                        Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Attentionを理解するために、学習した事を整理します。 #参考文献 ①「深層学習による自然言語処理」 講談社  坪井祐太 海野裕也 鈴木潤 著 ②「ゼロから作るDeep Learning2 自然言語処理編」 オライリー 斎藤康毅 著 #■RNN(recurrent neural network) 文献①によると、再帰ニューラルネットワーク(RNN)は可変長の入力列を扱うことに優れたネットワーク構造で、前の時刻の隠れ状態ベクトルと現時刻の入力ベクトル(または下層の隠れ状態ベクトル)を使って、現在の隠れ状態ベクトルを更新するとのこと。

                                                          Attentionを理解するためにRNN、Word2Vec、LSTM、Seq2Seq、Attentionの順に整理してみた - Qiita
                                                        • Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition

                                                          ■イベント 
:第六回 全日本コンピュータビジョン勉強会 https://kantocv.connpass.com/event/205271/ ■登壇概要 タイトル:Read Like Humans: Autonomous, Bidirectional and Iterative Langua…

                                                            Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition
                                                          • Jamba: A Hybrid Transformer-Mamba Language Model

                                                            We present Jamba, a new base large language model based on a novel hybrid Transformer-Mamba mixture-of-experts (MoE) architecture. Specifically, Jamba interleaves blocks of Transformer and Mamba layers, enjoying the benefits of both model families. MoE is added in some of these layers to increase model capacity while keeping active parameter usage manageable. This flexible architecture allows reso

                                                            • Transformerを理解するため!今からでもAttention入門 ~ イメージ・仕組み・コードの3面で理解する ~

                                                              はじめに どうもどうも、やまぐちです。 今回はTransformerアーキテクチャの中核をなすAttentionについて重点的に解説したいと思います。 Attentionのイメージ・仕組み・コードの三つの側面から解説することでAttentionの理解につながるかと思います。 記事全体を通して、Attentionの説明にはTransformerの文脈を交えながら解説するように心がけましたのでAttention自体の理解は進むはずです! 解説はできる限り理解しやすいイメージに落とし込んでいます。できる限り正確に解説することを心掛けていますが、もし不正確な点があればご指摘いただけると幸いです。 Transformerの中のAttention まずはよくあるTransformerの全体図です。 (Referenced by https://arxiv.org/pdf/1706.03762) 上記の

                                                                Transformerを理解するため!今からでもAttention入門 ~ イメージ・仕組み・コードの3面で理解する ~
                                                              • Adaptive Computation Time for Recurrent Neural Networks

                                                                This paper introduces Adaptive Computation Time (ACT), an algorithm that allows recurrent neural networks to learn how many computational steps to take between receiving an input and emitting an output. ACT requires minimal changes to the network architecture, is deterministic and differentiable, and does not add any noise to the parameter gradients. Experimental results are provided for four synt

                                                                • GitHub - NVIDIA/Megatron-LM: Ongoing research training transformer models at scale

                                                                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                    GitHub - NVIDIA/Megatron-LM: Ongoing research training transformer models at scale
                                                                  • GitHub - huggingface/trl: Train transformer language models with reinforcement learning.

                                                                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                      GitHub - huggingface/trl: Train transformer language models with reinforcement learning.
                                                                    • Transformerは何をやっているのか

                                                                      Transformerが結局のところ何をやっているのかを図メインで説明しています。 研究室の論文読み会で用いた資料の一部です。

                                                                        Transformerは何をやっているのか
                                                                      • MLP-Mixer: An all-MLP Architecture for Vision

                                                                        Convolutional Neural Networks (CNNs) are the go-to model for computer vision. Recently, attention-based networks, such as the Vision Transformer, have also become popular. In this paper we show that while convolutions and attention are both sufficient for good performance, neither of them are necessary. We present MLP-Mixer, an architecture based exclusively on multi-layer perceptrons (MLPs). MLP-

                                                                        • TabPFN - Qiita

                                                                          初めに このシリーズでは、機械学習や数理最適化などの数理モデルのざっくりとした理論と実装コードを紹介します. 今回紹介するのは,TabPFNというテーブルデータのためのTransformerモデルです.論文では「小さな表形式データに対して1秒以内に教師あり分類タスクを実行でき,ハイパーパラメータのチューニングがいらない高精度のモデル」と紹介されています.精度としてはOpenML-CC18というデータセットの中の30個のデータセットでGBDTの性能を上回ったほか,AutoMLに対して同等の精度を70倍の速度で達成したそうです. 論文:TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second 目次 1. 概要 2. ざっくり理論 3. 実装 4. おわりに 5. 参考文献 1. 概要

                                                                            TabPFN - Qiita
                                                                          • Is Attention All You Need? Part 1Transformer を超える(?)新モデルS4 - GMOインターネットグループ グループ研究開発本部

                                                                            2023.03.31 Is Attention All You Need? Part 1 Transformer を超える(?)新モデルS4 Is Attention All You Need? こんにちは、グループ研究開発本部・AI研究室のT.I.です。“Attention Is All You Need”といって発表されたTransformer(とAttention Layer)は、驚異的なAIの性能改善をもたらしました。以来、自然言語処理(NLP)などの分野では、従来のRecurrent Neural Network(RNN)ではなく、Transformer-based modelがデファクトスタンダードとなり、その延長線上に今日のChat-GPTなどの高性能AIが生まれました。 Transformer とその改良版については、これまでのBlogで何度も紹介してきました(Reform

                                                                              Is Attention All You Need? Part 1Transformer を超える(?)新モデルS4 - GMOインターネットグループ グループ研究開発本部
                                                                            • Large Transformer Model Inference Optimization

                                                                              Date: January 10, 2023 | Estimated Reading Time: 9 min | Author: Lilian Weng [Updated on 2023-01-24: add a small section on Distillation.] Large transformer models are mainstream nowadays, creating SoTA results for a variety of tasks. They are powerful but very expensive to train and use. The extremely high inference cost, in both time and memory, is a big bottleneck for adopting a powerful transf

                                                                              • 無限次元sequence to sequence 関数に対するTransformeの近似及び推論能力 - Google ドライブ

                                                                                このブラウザ バージョンのサポートは終了しました。サポートされているブラウザにアップグレードしてください。

                                                                                • 自然言語処理モデルを直感的に理解したい(1) Transformer | 自然言語処理を使ったソフトウエア開発

                                                                                  「ChatGPTはなぜ自然な会話ができる様になったのか?」 多くの人が不思議に思うことだと思います。私はAIの研究者ではなくシステム開発者なので、元となる自然言語処理モデルを自分で作ったり、評価したりすることはないと思います。 それでもどのような仕組みなのかは理解したいと思い、自分なりに整理をしてみました。 AIモデルとコンピュータプログラム自然言語処理モデルとは何なのかを理解する前に、汎用的な「AIのモデル」について、「従来のプログラム」と何が違うのかをざっくりと理解します。ここでいうAIモデルとは、深層学習(Deep Learning)以降のモデルを指しています。 プログラムを説明する場合には、プロセス(処理)という言葉をよく使います。一本のプログラムは、「データを入力」すると、「手順に従って状態を変化させながら」「データを出力する」します。この「手順に従って状態を変化させながら」の部