[B! transformer] petite_blueのブックマーク

petite_blue id:petite_blue

transformerに関するpetite_blueのブックマーク (25)

ニューラルネットワークの中身を分割してAIの動作を分析・制御する試みが成功、ニューロン単位ではなく「特徴」単位にまとめるのがポイント
GoogleやAmazonが投資するAIスタートアップのAnthropicの研究チームが、ニューラルネットワークがどのように言語や画像を扱っているのかを解き明かす研究において、個々のニューロンを「特徴」と呼ばれる単位にまとめることでニューラルネットワークの中身を解釈しやすくなるという研究結果を発表しました。 Anthropic \ Decomposing Language Models Into Understandable Components https://www.anthropic.com/index/decomposing-language-models-into-understandable-components 大規模言語モデルは多数のニューロンが接続されたニューラルネットワークで、ルールに基づいてプログラミングされるのではなく、多数のデータを元にトレーニングを行うことでタス
petite_blue 2023/10/11
transformer

ai
リンク
Transformers as Support Vector Machines
Since its inception in "Attention Is All You Need", transf ormer architecture has led to revolutionary advancements in NLP. The attention layer within the transf ormer admits a sequence of input tokens $X$ and makes them interact through pairwise similarities computed as softmax$(XQK^\top X^\top)$, where $(K,Q)$ are the trainable key-query parameters. In this work, we establish a formal equivalence
petite_blue 2023/09/04
論文

transformer

svm
リンク
225行のコードでGPTの仕組みを理解する
概要 LLMに関心があり、ChatGPTやtransf ormerの仕組みを理解したいと思っていたところ、雰囲気を掴むのにこちらの動画がとても参考になりました。動画の内容としては、以下のコーパスを学習して、直前の数文字から次の1文字（単語ではないことに注意）予測機を作成するというものです。この動画で完成するコードは以下で、225行しかなくとても読みやすいです。また短いですがtransf ormerのエッセンスが詰まっていて勉強になりそうです。このコードを読み解くことでGPTやtransf ormerがどのように動いているのか、ざっくり理解してみようと思います。ちなみに完成するとこんな感じの文字列が生成されます。ぱっと見文章っぽいですね。 first Scitizen: He's enough; but he cannot give his friends. MARCIUS: Do yo
petite_blue 2023/08/29
transformer

llm
リンク
Attention Is Off By One | Hacker News
1. SummaryThe author is suggesting that we add 1 to the denominator of the softmax that is used within attention mechanisms (not the final output softmax). The softmax inside an attention unit allows it to see key/query matches as probabilities; those probabilities support a continuous-valued version of a key-value lookup (instead of 1/0 output of a lookup, we get weights where a high weight = the
petite_blue 2023/07/25
transformer
リンク
Attention Is Off By One
By Evan Miller July 24, 2023 About which one cannot speak, one must pass over in silence. –Wittgenstein Do you see the off-by-one error in this formula? \[ \textrm{Attention}(Q, K, V) = \textrm{softmax}\left(\frac{QK^T}{\sqrt{d}}\right)V \] The attention formula is the central equation of modern AI, but there’s a bug in it that has been driving me nuts the last week. I tried writing a serious-look
petite_blue 2023/07/25
transformer

llm

あとで読む
リンク
GitHub - clovaai/donut: Official Implementation of OCR-free Document Understanding Transformer (Donut) and Synthetic Document Generator (SynthDoG), ECCV 2022
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
petite_blue 2023/05/29
ocr

transformer
リンク
BERTのAttentionは何を見ているのか？
3つの要点 ✔️BERTのAttention機構の分析手法の提案 ✔️Attentin機構は全体的には区切り文字や[CLS]、[SEP]を見ている ✔️特定のAttention機構では「動詞とその目的語」、「名詞と修飾語」、「前置詞とその目的語」などの簡単な文法関係から、照応関係などの複雑な文法関係も獲得している前書き現在の自然言語処理ではTransf ormer以降、Attention機構を用いたモデルが流行となっています。その中でも最近はBERTなどの巨大な事前学習済みのモデルが大きな成功を収めています。それらモデルが何を学習しているのかを分析する取り組みは行われてきましたが、モデルの出力自体や隠れ層でのベクトル表現に焦点を当てた分析手法が中心でした。この論文では、Attention機構が何を見ているのかに焦点を当てたモデルの分析手法が提案されており、BERTのAttention
petite_blue 2023/05/20
bert

transformer

論文
リンク
https://arxiv.org/pdf/2302.10866.pdf
petite_blue 2023/03/12
transformer

gpt
リンク
GPTを超える大規模言語アーキテクチャ「Hyena」とは何か？
GPTを超える大規模言語アーキテクチャ「Hyena」とは何か？：清水亮の「世界を変えるAI」（1/2 ページ） 3月7日、刺激的なブログがHazy Researchから投稿された。新しい大規模言語モデルHyena（ハイエナ）の登場だ。 Hazy Researchはスタンフォード大学とモントリオール大学による共同の研究チームだ。特に深層学習の世界ではトップ研究者として知られ、コンピュータ業界におけるノーベル賞に相当するチューリング賞受賞者であるヨシュア・ベンジオ博士も論文に名を連ねていることから話題になっている。現在、広く使われているのはGPT-3やChatGPTといったいわゆる「Transf ormer（トランスフォーマー）」というモデルだ。「Transf ormer」は、並列化がしやすく大規模な学習に向いているという特徴を持っている。GPTも、実は「Generative Pre-train
petite_blue 2023/03/12
transformer

gpt

ai
リンク
フリーで使える日本語の主な大規模言語モデル（LLM）まとめ
ありがとうございます！実は私本人がそのモデルの構築に関わっているのですが、詳細はまだ言えない状況です...。来年3月の言語処理学会年次大会(NLP 2023)での続報をお待ちください！このモデルに関する論文が公開される予定です（一応それを待ってからこの記事にも掲載します）。（私が書いたものではありませんが、現段階で公開できる情報をまとめた記事があります: https://note.com/utokyo_itc/n/nb18b2a753f23 ）
petite_blue 2023/03/05
gpt

nlp

transformer
リンク
30分で完全理解するTransformerの世界
はじめに初めまして。ZENKIGENデータサイエンスチームのはまなすです。正式な所属はDeNAデータ本部AI 技術開発部なのですが[1]、業務委託という形で今年度から深層学習系の開発等に携わっています。深層学習界隈では、2017年に衝撃的なタイトル（Attention Is All You Need）の論文が発表されてから早5年半、元出自の機械翻訳タスクを大きく越えて、Transf ormer関連の技術が様々な領域で用いられる汎用アーキテクチャとして目覚ましく発展し続けています。今回はそんなTransf ormerが現時点までにどのように活用されてきたか、また、どのように工夫されてきたかをざっくりと俯瞰し、流れをおさらいする目的の記事になります。本記事の大枠は、2021年時点でのサーベイ論文である A Survey of Transf ormers に倣いつつ、適宜、2023年2月上旬現在ま
petite_blue 2023/02/15
transformer

bert

あとで読む

論文
リンク
The Transformer Family Version 2.0
Date: January 27, 2023 | Estimated Reading Time: 46 min | Author: Lilian Weng Many new Transf ormer architecture improvements have been proposed since my last post on “The Transf ormer Family” about three years ago. Here I did a big refactoring and enrichment of that 2020 post — restructure the hierarchy of sections and improve many sections with more recent papers. Version 2.0 is a superset of the
petite_blue 2023/01/30
transformer

deep learning

bert

gpt
リンク
はじめての自然言語処理 T5 によるテキスト生成の検証 | オブジェクトの広場
前回はテキストマイニングの手法と OSS を用いた実践について紹介しました。今回は、Google の T5(Text-to-Text Transfer Transf ormer) によるテキスト生成について、学習や推論のコード例と実験結果を交えてご紹介します。 1. はじめに本記事では Google の T5(Text-to-Text Transfer Transf ormer) 1によるテキスト生成について、学習や推論のコード例と実験結果を交えてご紹介します。実験としては livedoor ニュースコーパス2での文章分類、やさしい日本語コーパス3及びやさしい日本語拡張コーパス4を用いたやさしい日本語変換を行いました。今回も Google Colaboratory で動かすことを想定したコードスニペットを入れていきますので、実際に動かしたり対象を変えてみたりして試して頂けると良いかと思います
petite_blue 2023/01/28
transformer
リンク
Google BrainのSwitch Transformer言語モデル、16兆個のパラメータに到達
Google Brainの研究者たちは、より大きく、より良いものを追求し続ける中で、新たに提案したSwitch Transf ormer言語モデルを、計算コストを抑えながら1.6兆個のパラメータにまでスケールアップした。研究チームは、Mixture of Experts (MoE) ルーティングアルゴリズムを単純化し、データ、モデル、専門家の並列性を効率的に組み合わせ、この「法外な数のパラメータ」を可能にした。最近の多くのシンプルなディープラーニングアーキテクチャは、より複雑なアルゴリズムよりも優れた性能を発揮していますが、このような性能向上には膨大な計算予算、膨大なデータセット、膨大なパラメータ数が必要となる。研究チームは、ディープラーニングモデルはすべての入力に対して同じパラメータを再利用する傾向があるのに対し、Mixture of Experts (MoE)モデルは異なるパラメータを
petite_blue 2023/01/28
deep learning

transformer
リンク
はじめての自然言語処理 Switch Transformer の検証 | オブジェクトの広場
Transf ormer のパラメータ数を増やしながらも必要な計算量の増加を抑えることができる Switch Transfomer のご紹介です。Google さんのように1兆6千億パラメータは無理ですが、規模が小さいモデルでも効果が見込めるようなので、実際に動かして確認してみたいと思います。 1. はじめに今回は今年1月に発表された Switch Transf ormer 1 の話です。 Transf ormer というモデルはそのサイズに応じて性能が伸びることが良く知られています2。近年どんどん巨大化しており、 Switch Transf ormer ではついにパラメータ数が1兆6千億個に達しました3。この連載ではこの手の巨大なモデルは「スゴイのはわかるんですけれど、デモをつつくぐらいで手元で動かせないなぁ～。」とスルーしていたのですが、 Switch Transf ormer はパラメータ
petite_blue 2023/01/28
deep learning

transformer
リンク
オフライン強化学習② Decision Transformerの系譜 - どこから見てもメンダコ
Decision transoformer (2021)は、自然言語モデルGPTにおける次トークン予測の枠組みでオフライン強化学習タスクを解けることを示し新たなパラダイムをもたらしました。最近ではDeepMindの超汎用エージェントGATOなどもDecision Transf ormerベースのアーキテクチャを採用しており、その重要性が増しています。 Decision Transf ormer とはオフライン強化学習の新たなパラダイム言語を生成するように行動を生成する自然言語風アプローチのメリット条件付き生成：Reward conditioned Sequence modelingの系譜 Multi-Game Decision Transoformer（NeurIPS 2022） Uni[Mask]（NeurIPS 2022）： MaskedLMの導入 GATO（2022）：超汎用エー
petite_blue 2023/01/10
強化学習

transformer

gpt
リンク
仕事用にTransformer/BERTの情報をまとめる – かものはしの分析ブログ
都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーターほしいものリスト最近、『Transf ormerによる自然言語処理』という書籍を買って、これまであまり追いかけていなかったTransf ormerについて仕事でカジュアルに使えるレベルまで色々と準備してみようと思い、その過程で見つけた色々な情報をまとめてみました。以前、『BERTによる自然言語処理入門: Transf ormersを使った実践プログラミング』も買って、写経しながら試していたのですが、仕事であまり使う機会がなかったのであまり身につかなかったです。その反省も込めて、仕事でその
petite_blue 2022/06/27
bert

transformer
リンク
DALL·E mini by craiyon.com on Hugging Face
Discover amazing ML apps made by the community
petite_blue 2022/06/19
AI

deep learning

nlp

transformer
リンク
自然言語処理とVision-and-Language / A Tutorial on NLP & Vision-and-Language
2022年度人工知能学会全国大会（第36回）チュートリアル講演資料
petite_blue 2022/06/15
nlp

bert

transformer
リンク
より良いTransformerをつくる
2022年6月名古屋地区NLPセミナーでのトーク
petite_blue 2022/06/08
deep learning

nlp

bert

transformer
リンク
1 2 次のページ