ducky19999のブックマーク - はてなブックマーク

論文解説 Attention Is All You Need (Transformer) - ディープラーニングブログ
こんにちは Ryobot (りょぼっと) です．本紙は RNN や CNN を使わず Attention のみ使用したニューラル機械翻訳 Transf ormer を提案している．わずかな訓練で圧倒的な State-of-the-Art を達成し，華麗にタイトル回収した．また注意を非常にシンプルな数式に一般化したうえで，加法注意・内積注意・ソースターゲット注意・自己注意に分類した．このうち自己注意はかなり汎用的かつ強力な手法であり他のあらゆるニューラルネットに転用できる． WMT'14 の BLEU スコアは英仏: 41.0, 英独: 28.4 で第 1 位 Attention Is All You Need [Łukasz Kaiser et al., arXiv, 2017/06] Transf ormer: A Novel Neural Network Architecture f
ducky19999 2023/02/27
リンク
OpenAIが発見したScaling Lawの秘密 - ディープラーニングブログ
OpenAIはGPT-3の次の研究を始めています．世間がGPT-3のデモに湧き上がる中，OpenAIはScaling Lawに関する2本の論文をひっそりと公開しました． Scaling Lawを一言で説明するなら「Transf ormerの性能はたった3つの変数のべき乗則に支配されている」というものです． Scaling Lawはそれ単体だけなら興味深い話で終わるかもしれません．実際に英語圏でもあまり話題にあがっていません．しかし，この法則の本当の凄さに気づいている研究者もいて，なぜ話題にならないのか困惑しています． I am curious why people are not talking more about the OpenAI scaling law papers. For me, they seem very significant. What I heard so far:
ducky19999 2021/01/06
リンク
GPT-3の衝撃 - ディープラーニングブログ
この1週間はGPT-3のユースケースの広さに驚かされる毎日でした．シリコンバレーでは話題騒然ですが日本ではほとんど話題になっていないので，勢いで書くことにしました． GPT-3はOpenAIが開発した言語生成モデルです．名前の由来であるGenerative Pretrained Transf ormerの通り，自然言語処理で広く使われるTransf ormerモデルを言語生成タスクで事前学習しています．先月申請すれば誰でもGPT-3を利用できるOpenAI APIが発表され，様々な業種の開発者によって驚くべきデモンストレーションがいくつも公開されています．特に話し言葉からJSXやReactのコードを生成するデモは著名なベンチャーキャピタルから注目を集め，誇大広告気味だと警鐘を鳴らす事態に発展しています． This is mind blowing. With GPT-3, I built
ducky19999 2020/07/21
リンク
1