並び順

ブックマーク数

期間指定

  • から
  • まで

281 - 320 件 / 328件

新着順 人気順

Transformerの検索結果281 - 320 件 / 328件

  • CS25: Tranformers United!

    CS25: Transformers United V4 Spring 2024 Apr. 4 - May 30 Description Interested in Transformers, the deep learning model that has taken the world by storm? Want to have intimate discussions with researchers? If so, this course is for you! It's not every day that you get to personally hear from and chat with the authors of the papers you read! Each week, we invite folks at the forefront of Transfor

      CS25: Tranformers United!
    • Metaは大規模AI言語モデル「OPT-175B」を開発、これを無償で提供することを発表、オープンサイエンスの手法でAIの危険性を解明する

      Metaは大規模なAI言語モデル「Open Pretrained Transformer (OPT-175B)」を開発し、これを無償で提供することを明らかにした。世界の研究者は、最先端のAIを自由に使うことができ、これにより自然言語解析の研究が進むことが期待される。AIモデルは、その規模が拡大すると、アルゴリズムが新たなスキルを習得することが知られている。同時に、アルゴリズムが内包する危険性が増大し、社会に甚大な被害を及ぼすことが問題となっている。Metaはオープンサイエンスの手法で研究を進め、AIの危険性を解明することを目指している。 OPT-175Bとは Metaが開発したOPT-175Bとは大規模な言語モデルで、自然言語解析(Natural Language Processing)と呼ばれる言葉を理解する機能を持つ。OPT-175BはTransformerベースの言語モデルで、Met

        Metaは大規模AI言語モデル「OPT-175B」を開発、これを無償で提供することを発表、オープンサイエンスの手法でAIの危険性を解明する
      • [論文紹介コード付] 時系列Transformerを自然言語処理のお作法で鍛えたらゼロショットで未来の系列を予測することができました|斑鳩イカリング@金融AI

        [論文紹介コード付] 時系列Transformerを自然言語処理のお作法で鍛えたらゼロショットで未来の系列を予測することができました タイトル:Chronos: Learning the Language of Time Series 著者:Abdul Fatir Ansari1∗ , Lorenzo Stella1∗ , Caner Turkmen1 , Xiyuan Zhang2† , Pedro Mercado1 , Huibin Shen1 , Oleksandr Shchur1 , Syama Sundar Rangapuram1 , Sebastian Pineda Arango3‡ , Shubham Kapoor1 , Jasper Zschiegner, Danielle C. Maddix1 , Michael W. Mahoney4 , Kari Torkkola4

          [論文紹介コード付] 時系列Transformerを自然言語処理のお作法で鍛えたらゼロショットで未来の系列を予測することができました|斑鳩イカリング@金融AI
        • MLP-Mixer: An all-MLP Architecture for Vision

          Convolutional Neural Networks (CNNs) are the go-to model for computer vision. Recently, attention-based networks, such as the Vision Transformer, have also become popular. In this paper we show that while convolutions and attention are both sufficient for good performance, neither of them are necessary. We present MLP-Mixer, an architecture based exclusively on multi-layer perceptrons (MLPs). MLP-

          • Transformerは何をやっているのか

            Transformerが結局のところ何をやっているのかを図メインで説明しています。 研究室の論文読み会で用いた資料の一部です。

              Transformerは何をやっているのか
            • Large Transformer Model Inference Optimization

              Date: January 10, 2023 | Estimated Reading Time: 9 min | Author: Lilian Weng [Updated on 2023-01-24: add a small section on Distillation.] Large transformer models are mainstream nowadays, creating SoTA results for a variety of tasks. They are powerful but very expensive to train and use. The extremely high inference cost, in both time and memory, is a big bottleneck for adopting a powerful transf

              • 無限次元sequence to sequence 関数に対するTransformeの近似及び推論能力 - Google ドライブ

                メイン コンテンツにスキップキーボード ショートカットユーザー補助に関するフィードバックドライブ名前オーナー最終更新ファイルサイズ その他の並べ替えオプションフォルダ旧verオーナーは非公開です2023/10/30—ダウンロードファイル研究室輪講2023A_ver1.5.pdfオーナーは非公開です2023/11/016.5 MB詳細(Alt+→)このフォルダにはファイルがありません。このフォルダにファイルを追加するにはログインしてくださいGoogle アプリメインメニュー

                • Introducing RWKV - An RNN with the advantages of a transformer

                  ChatGPT and chatbot-powered applications have captured significant attention in the Natural Language Processing (NLP) domain. The community is constantly seeking strong, reliable and open-source models for their applications and use cases. The rise of these powerful models stems from the democratization and widespread adoption of transformer-based models, first introduced by Vaswani et al. in 2017

                    Introducing RWKV - An RNN with the advantages of a transformer
                  • 自然言語処理モデルを直感的に理解したい(1) Transformer | 自然言語処理を使ったソフトウエア開発

                    「ChatGPTはなぜ自然な会話ができる様になったのか?」 多くの人が不思議に思うことだと思います。私はAIの研究者ではなくシステム開発者なので、元となる自然言語処理モデルを自分で作ったり、評価したりすることはないと思います。 それでもどのような仕組みなのかは理解したいと思い、自分なりに整理をしてみました。 AIモデルとコンピュータプログラム自然言語処理モデルとは何なのかを理解する前に、汎用的な「AIのモデル」について、「従来のプログラム」と何が違うのかをざっくりと理解します。ここでいうAIモデルとは、深層学習(Deep Learning)以降のモデルを指しています。 プログラムを説明する場合には、プロセス(処理)という言葉をよく使います。一本のプログラムは、「データを入力」すると、「手順に従って状態を変化させながら」「データを出力する」します。この「手順に従って状態を変化させながら」の部

                    • 恥ずかしいほどシンプルなVision Transformer

                      3つの要点 ✔️ ViTの肝は、MetaFormerというメタ構造 ✔️ パラメータのないPooling層を用いるPoolFormerを提案 ✔️ PoolFormerが少ないパラメータ数で比較手法より高い精度を実現 MetaFormer is Actually What You Need for Vision written by Weihao Yu, Mi Luo, Pan Zhou, Chenyang Si, Yichen Zhou, Xinchao Wang, Jiashi Feng, Shuicheng Yan (Submitted on 22 Nov 2021 (v1), last revised 29 Nov 2021 (this version, v2)) Comments: Published on arxiv. Subjects: Computer Vision and

                        恥ずかしいほどシンプルなVision Transformer
                      • Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

                        In deep learning, models typically reuse the same parameters for all inputs. Mixture of Experts (MoE) defies this and instead selects different parameters for each incoming example. The result is a sparsely-activated model -- with outrageous numbers of parameters -- but a constant computational cost. However, despite several notable successes of MoE, widespread adoption has been hindered by comple

                        • Attention Is Off By One | Hacker News

                          1. SummaryThe author is suggesting that we add 1 to the denominator of the softmax that is used within attention mechanisms (not the final output softmax). The softmax inside an attention unit allows it to see key/query matches as probabilities; those probabilities support a continuous-valued version of a key-value lookup (instead of 1/0 output of a lookup, we get weights where a high weight = the

                          • GitHub - neuml/txtai: 💡 All-in-one open-source embeddings database for semantic search, LLM orchestration and language model workflows

                            All-in-one embeddings database txtai is an all-in-one embeddings database for semantic search, LLM orchestration and language model workflows. Embeddings databases are a union of vector indexes (sparse and dense), graph networks and relational databases. This enables vector search with SQL, topic modeling, retrieval augmented generation and more. Embeddings databases can stand on their own and/or

                              GitHub - neuml/txtai: 💡 All-in-one open-source embeddings database for semantic search, LLM orchestration and language model workflows
                            • Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth

                              Attention-based architectures have become ubiquitous in machine learning, yet our understanding of the reasons for their effectiveness remains limited. This work proposes a new way to understand self-attention networks: we show that their output can be decomposed into a sum of smaller terms, each involving the operation of a sequence of attention heads across layers. Using this decomposition, we p

                              • はじめての Monad, Monad Transformer, Extensible Effects | Recruit Tech Blog

                                はじめての Monad, Monad Transformer, Extensible Effects Ariizumi Shumpei こんにちは。RECRUIT Job for Student 2021 Summer で、スタディサプリ ENGLISH の開発を行なっていた有泉洵平です。 スタディサプリ ENGLISH のサーバサイドでは Extensible Effects を導入しています。それを扱うにあたり Monad, Monad Transformer, Extensible Effects を学んだため、この記事にまとめます。 また、RECRUIT Job for Student 2021 Summer に興味のある方は、そちらについても記事を書いたため、参考にしてください。 要約 Monad とは、pure と flatMap というメソッドを持ち、Monad 則を満たすも

                                  はじめての Monad, Monad Transformer, Extensible Effects | Recruit Tech Blog
                                • SSII2023 [TS1] Vision Transformerの歩みとこれから

                                  © Seitaro Shinagawa, NAIST 品川 政太朗(しながわ せいたろう)と申します 奈良先端科学技術大学院大学 先端科学技術研究科 知能コミュニケーション研究室 助教 • Vision and Language(画像と言語の融合領域) • 対話システム CV最前線Winter2021 CVIMチュートリアル1 「ニュウモンVision and Language」 CV最前線Summer2023 「フカヨミCLIP」 Vision Transformer入門 7章8章を担当 1/59

                                    SSII2023 [TS1] Vision Transformerの歩みとこれから
                                  • Your Transformer is Secretly Linear

                                    This paper reveals a novel linear characteristic exclusive to transformer decoders, including models such as GPT, LLaMA, OPT, BLOOM and others. We analyze embedding transformations between sequential layers, uncovering a near-perfect linear relationship (Procrustes similarity score of 0.99). However, linearity decreases when the residual component is removed due to a consistently low output norm o

                                    • Stock predictions with state-of-the-art Transformer and Time Embeddings

                                      Photo by Morning Brew on UnsplashIn my previous post, I have shared my first research results for predicting stock prices which will be subsequently used as input for a deep learning trading bot. While upscaling my datasets to thousands of equity tickers equating to almost 1…

                                        Stock predictions with state-of-the-art Transformer and Time Embeddings
                                      • AlphaFold - Wikipedia

                                        AlphaFold(アルファフォールド)は、タンパク質の構造予測を実行するGoogleのDeepMindによって開発された人工知能プログラムである[1]。このプログラムは、タンパク質の折り畳み構造を原子の幅に合わせて予測する深層学習システムとして設計されている[2]。 AIソフトウェア「AlphaFold」は、2つの主要バージョンで注目されている。研究者チームはAlphaFold 1 (2018年) を使用して、2018年12月に開催された「第13回 タンパク質構造予測精密評価 (CASP)」の総合ランキングで1位を獲得した。このプログラムは、部分的に類似した配列を持つタンパク質から既存のテンプレート構造(英語版)が利用できない、競技会主催者によって最も難しいと評価されたターゲットの最も正確な構造を予測することに特に成功した。チームは、AlphaFold 2 (2020年) を使用して、2

                                        • GitHub - lucidrains/vit-pytorch: Implementation of Vision Transformer, a simple way to achieve SOTA in vision classification with only a single transformer encoder, in Pytorch

                                          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                            GitHub - lucidrains/vit-pytorch: Implementation of Vision Transformer, a simple way to achieve SOTA in vision classification with only a single transformer encoder, in Pytorch
                                          • Chinese AI lab challenges Google, OpenAI with a model of 1.75 trillion parameters - PingWest

                                            Close deep learning BAAI OpenAI Chinese AI lab challenges Google, OpenAI with a model of 1.75 trillion parameters Chen Du posted on June 1, 2021 3:12 pm In the race to build the underlying technologies that can power the next wave of AI revolution, a Chinese lab just toppled OpenAI, the venerated US-based research lab, in terms of who can train a gigantic deep learning model with the most training

                                              Chinese AI lab challenges Google, OpenAI with a model of 1.75 trillion parameters - PingWest
                                            • TensorFlow Transformer モデルを高速化するには | Google Cloud 公式ブログ

                                              ※この投稿は米国時間 2023 年 4 月 1 日に、Google Cloud blog に投稿されたものの抄訳です。 近年注目を集めている Transformer モデルは、自然言語処理(NLP)の進歩に大きく寄与してきました。Transformer モデルは多くの場合、機械翻訳、テキスト要約、ドキュメント分類などのさまざまなユースケースで、再帰型ニューラル ネットワークに代わる存在になっています。Transformer モデルを本番環境にデプロイして推論を行うことは、組織にとって困難な場合もあります。それは、推論が高価であり、実装が複雑であるためです。このたび Google は、Vertex AI Prediction サービス上の TensorFlow(TF)モデルのサービングを最適化する、新しいランタイムの公開プレビュー版を発表しました。そして最適化された TensorFlow ラ

                                                TensorFlow Transformer モデルを高速化するには | Google Cloud 公式ブログ
                                              • A Primer on the Inner Workings of Transformer-based Language Models

                                                The rapid progress of research aimed at interpreting the inner workings of advanced language models has highlighted a need for contextualizing the insights gained from years of work in this area. This primer provides a concise technical introduction to the current techniques used to interpret the inner workings of Transformer-based language models, focusing on the generative decoder-only architect

                                                • The Transformer Family Version 2.0

                                                  Date: January 27, 2023 | Estimated Reading Time: 46 min | Author: Lilian Weng Many new Transformer architecture improvements have been proposed since my last post on “The Transformer Family” about three years ago. Here I did a big refactoring and enrichment of that 2020 post — restructure the hierarchy of sections and improve many sections with more recent papers. Version 2.0 is a superset of the

                                                  • Transformerとは?数学を用いた徹底解説:Encoder編 - Qiita

                                                    Transformerとは Transformerは、NLPで主に使用される深層学習アーキテクチャの一つです。Transformerが出現した後、様々なタスクに活用されていたRNNとLSTMはTransformerに置き換えられました。そしてBERT, GPT, T5などのNLPモデルにTransformerアーキテクチャが適用されました。 この記事ではTransformerの基本的な意味から構造まで説明します。この記事、Encoder編で扱うTransformer内容は次の2件です。 Transformerの全体的な構造紹介 TransformerのEncoder理解 そしてDecoder編では続いて次の3つの主題を取り上げます。 TransformerのDecoder理解 EncoderとDecoderの結合 Transformerの学習 この記事ではコードを用いた説明は行いません。数

                                                      Transformerとは?数学を用いた徹底解説:Encoder編 - Qiita
                                                    • GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding

                                                      Neural network scaling has been critical for improving the model quality in many real-world machine learning applications with vast amounts of training data and compute. Although this trend of scaling is affirmed to be a sure-fire approach for better model quality, there are challenges on the path such as the computation cost, ease of programming, and efficient implementation on parallel devices.

                                                      • 【川端祐一郎】「鏡」としての人工知能――我々はChatGPTに何を学び得るのか | 表現者クライテリオン

                                                        地に足の着かないAI論 表現者クライテリオン最新号の特集テーマは「SDGs/AI批判序説」というもので、私は「AIの知能観――シンギュラリティ論に惑わされないために」という記事を書いています。思想誌でAI(人工知能)批判というと、 「AIが人間に追いつくことはない」 「AIの安易な導入には弊害がある」 というような内容を想像する人もいるかも知れませんが、私が言いたいのはそういうことではありません。AIの周辺では「言葉の定義」も「現存する技術との対応関係」も定かでない言説が飛び交いがちで、礼讃論と懐疑論のいずれも地に足が着いていないと感じることが多いので、まずは現代の人工知能技術の特徴を大まかにでも確認して頭を冷やしたほうがよいのではないかという話です。 また、AIが話題に上ると、すぐ「機械が人間に追いつき、追い越すことは可能なのか」という議論をしたくなる人は多いと思うのですが、そもそも「追

                                                        • 【Techの道も一歩から】第26回「BERTで日本語固有表現抽出器を作ってみた」 - Sansan Tech Blog

                                                          こんにちは。DSOC 研究開発部の高橋寛治です。 流行りの BERT(Bidirectional Encoder Represenations from Transformers) ですが、論文を読んだあと、マスク部分を当てるというサンプルを動かしその的確さに驚いたところで、手が止まっていました。 今回は、BERTの特徴である優れた言語モデルを利用して、日本語固有表現抽出器を作ってみました。 その手順をいくつかかいつまんで紹介します。 準備から学習 BERT の実装には、 Hugging Face, Inc. が提供する transformers ライブラリを利用します。 実装は、固有表現抽出のサンプルに準じて行います。 transformers ライブラリは、例によって pip install transformers で完了します。素晴らしい。 ディレクトリ構成のイメージ data デ

                                                            【Techの道も一歩から】第26回「BERTで日本語固有表現抽出器を作ってみた」 - Sansan Tech Blog
                                                          • Text2Light

                                                            Text2Light: Zero-Shot Text-Driven HDR Panorama Generation TOG 2022 (Proc. SIGGRAPH Asia) Abstract High-quality HDRIs (High Dynamic Range Images), typically HDR panoramas, are one of the most popular ways to create photorealistic lighting and 360-degree reflections of 3D scenes in graphics. Given the difficulty of capturing HDRIs, a versatile and controllable generative model is highly desired, whe

                                                              Text2Light
                                                            • 小猫遊りょう(たかにゃし・りょう) on Twitter: "今年1月にOpenAIが発表した激ヤバなニューラルネット「DALL-E」の論文がとうとう公開された。開発者も予想していなかった多種多様な画像を作り出すことができる。高い抽象度で珍しい概念を構成する能力も確認。さらに、画像から画像へ… https://t.co/Tz0h4MbfSM"

                                                              今年1月にOpenAIが発表した激ヤバなニューラルネット「DALL-E」の論文がとうとう公開された。開発者も予想していなかった多種多様な画像を作り出すことができる。高い抽象度で珍しい概念を構成する能力も確認。さらに、画像から画像へ… https://t.co/Tz0h4MbfSM

                                                                小猫遊りょう(たかにゃし・りょう) on Twitter: "今年1月にOpenAIが発表した激ヤバなニューラルネット「DALL-E」の論文がとうとう公開された。開発者も予想していなかった多種多様な画像を作り出すことができる。高い抽象度で珍しい概念を構成する能力も確認。さらに、画像から画像へ… https://t.co/Tz0h4MbfSM"
                                                              • Spark NLPでTransformerモデルをスケールする - GMOインターネットグループ グループ研究開発本部

                                                                こんにちは、T.Y.です。並列分散処理のフレームワークであるSpark上で自然言語処理(Natural Language Processing, NLP)の様々なタスクを行いたい、特に、BERTやGPTなどのTransformerモデルの学習や推論を試したいという動機のもとでSpark NLPについて調べた内容をこちらのブログで解説します。環境構築の過程でSparkからGPUを使用するための手順や、SparkとGPUを利用する他の機械学習フレームワークについても紹介したいと思います。 目次 Summary クラスタ構成 Spark Rapids XGBoost4j-Spark-GPU Spark NLP ChatGPTとテストしてみる Fine-tuningについて Sample Model Spark NLP Displayによる可視化 Synapse ML 最後に 1. Summary

                                                                  Spark NLPでTransformerモデルをスケールする - GMOインターネットグループ グループ研究開発本部
                                                                • GitHub - google-research/robotics_transformer

                                                                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                    GitHub - google-research/robotics_transformer
                                                                  • What Are Transformer Models and How Do They Work?

                                                                    Introducing Command R+: Our new, most powerful model in the Command R family. Learn More

                                                                      What Are Transformer Models and How Do They Work?
                                                                    • 🤖Transformer学習用おすすめサイトまとめ - Qiita

                                                                      はじめに 初めまして、ktakumi_fishです。 最近話題のchatGPT(Generative Pretrained Transformer)の中心技術である「Transformer」を学習した際に参考にしたサイトを今後学習する方のためになればと思い記録しておこうと思います。 初級者向け 【図解】誰でもわかるTransformer入門!凄さ・仕組みをわかりやすく解説 非常にわかりやすいサイトです。Transformerについて全く知らない人でもなんとなく理解できるのではないかと思います。 Deep Learning入門:Attention(注意) Transformerに使用されている技術であるAttentionについてわかりやすく説明してくれるYoutube動画です。特にkey,query,valueの概念についてわかりやく説明していただけていると感じました。 深層学習による自然言

                                                                        🤖Transformer学習用おすすめサイトまとめ - Qiita
                                                                      • ◆ 言語 AIの急激な発展: Open ブログ

                                                                        ChatGPT のような言語AIが急激な発展を遂げている。それはどうしてか? ── ChatGPT のような言語AIが急激な発展を遂げている。それも、ここ数カ月ぐらいの間に、あちこちの研究所でいっせいにそうなっている。技術的な発展というのは、通常はなだらかな変化を遂げるものだが、この変化はあまりにも急激だ。人類が過去の歴史上においてなし遂げたことのすべてを、一挙に跳躍してしまうような急激さだ。それはいわば、猿から人間への進化をたったの数カ月でなしてしまうような急激さだ。……では、それはどうしてか? このことは大きな謎だが、その理由がおおまかに推察できた。以下の話は、必ずしも絶対的に真理だという保証はないのだが、十分に納得できる話だと思うので、興味があれば読んでほしい。 ── まず、大規模で急激な進歩があったことについては、下記の項目で説明されている。 → ChatGPTを筆頭に信じられない

                                                                        • ICLR 2022 Spotlight: Demystifying local attention and dynamic depth-wise convolution - Microsoft Research

                                                                          In the past two years, there have been numerous papers written on Transformer, and researchers are designing Transformer models for all kinds of tasks. However, is attention, the core module of Transformer, really stronger than convolution? This paper may bring to you a new perspective. Researchers from Microsoft Research Asia have looked into local attention and dynamic depth-wise convolution and

                                                                            ICLR 2022 Spotlight: Demystifying local attention and dynamic depth-wise convolution - Microsoft Research
                                                                          • How AI Transformers Mimic Parts of the Brain | Quanta Magazine

                                                                            Understanding how the brain organizes and accesses spatial information — where we are, what’s around the corner, how to get there — remains an exquisite challenge. The process involves recalling an entire network of memories and stored spatial data from tens of billions of neurons, each connected to thousands of others. Neuroscientists have identified key elements such as grid cells, neurons that

                                                                              How AI Transformers Mimic Parts of the Brain | Quanta Magazine
                                                                            • Google QUEST Q&A Labeling の反省文 - guchiBLO はてな

                                                                              本記事の概要 kaggle の NLP コンペである Google QUEST Q&A Labeling に参加し、その社内反省会を主催したので、その時の資料をブログに落としておきます。筆者は 1,571 チーム中 19 位でした。 shake 力たりんかったか... pic.twitter.com/L4bJGp5oil— ぐちお (@ihcgT_Ykchi) February 11, 2020 NLP コンペには初めて参加してのですが、系列データを NN でさばく上での学びが多く非常に楽しめました。個人的には良いコンペだったと感じていて、コンペ終了後にはブログ化する方々*1や勉強会を開催する方々がいつもより気持ち多かったような気がします。 一方で、post-process のスコアへの寄与度が大きすぎたこと等に起因する苦言も散見されてはいました。*2 本記事の概要 コンペ概要と基礎知識

                                                                                Google QUEST Q&A Labeling の反省文 - guchiBLO はてな
                                                                              • GitHub - NVIDIA/Megatron-LM: Ongoing research training transformer models at scale

                                                                                You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                                  GitHub - NVIDIA/Megatron-LM: Ongoing research training transformer models at scale
                                                                                • piqcy on Twitter: "Transformerの速習ができるスライド。メリット・デメリットから基本ブロックの解説、学習形式までコンパクトにまとめられている。 https://t.co/pPd3Yplk0O"

                                                                                  Transformerの速習ができるスライド。メリット・デメリットから基本ブロックの解説、学習形式までコンパクトにまとめられている。 https://t.co/pPd3Yplk0O

                                                                                    piqcy on Twitter: "Transformerの速習ができるスライド。メリット・デメリットから基本ブロックの解説、学習形式までコンパクトにまとめられている。 https://t.co/pPd3Yplk0O"