Inspecting gradient magnitudes in context can be a powerful tool to see when recurrent units use short-term or long-term contextual understanding. This connectivity visualization shows how strongly previous input characters influence the current target character in an autocomplete problem. For example, in the prediction of “grammar” the GRU RNN initially uses long-term memorization but as more cha
(Fig. 1 from Rumelhart, Hinton & Williams, Nature, 1986) これはちょっとした小ネタです。僕自身はニューラルネットワーク (Neural Network, NN)の学術的専門家でもなければ況してやNNの研究史家でもないので、たかだか僕自身がかつて脳の研究者だった頃に把握していた事由に基づいて、極めていい加減な私見を書いているに過ぎないことを予めお断りしておきます。よって、この辺の事情に詳しい方いらっしゃいましたら、後学のためにも是非ご遠慮なくツッコミを入れて下さると有難いですm(_ _)m 先日のことですが、@tmaeharaさんがこんなことを呟いておられました。 オリジナル論文 https://t.co/kXfu8jIat3 これです.本当にただチェインルールで微分して勾配法しているだけにしか見えない…….— ™ (@tmaehara
今回は、NIPS2018に投稿されたUnderstanding Batch Normalizationという論文を読んだので、紹介していきたいと思います。この論文は、なぜバッチ正規化(Batch Normalization)が学習に効果的なのかを実証的なアプローチで検証した論文です。 この記事は、ニューラルネットワークの基礎(全結合層や畳み込み層)を理解している方を対象にしています。また、可能な限りバッチ正規化を知らない方でも理解できるようにしています。この記事を読み終わるころには、「なぜバッチ正規化が学習に効果的なのか」が分かるようになっています。 ニューラルネットの基礎は以下の記事で紹介しています。 ニューラルネットワーク入門 KelpNetでCNN この記事は論文を要約したものに説明を加えたものとなっています。記事内で1人称で語られている文章については、多くが論文の主張となっています
はじめに 前回の記事で時系列入力に対するオートエンコーダーを組んだ。 aotamasaki.hatenablog.com 今回は潜在変数を正規分布に押し込むというVariational AutoEncoderを組んでみた。CNNとVAEを組み合わせる記事は割と見つかるのに、RNNとなったとたん見つからないものである。 データはMNISTであるが後述するように、時系列だと見なして入力した。 まずはモデルとデータの概要を説明する。そのあと、結果で再構成された数字と生成された数字の例を示す。最後に、潜在変数Zが正規分布になっているのか確かめる。 はじめに モデルの概要 データの概要 結果 Zは本当に正規分布をしているのか? まとめ 参考文献 モデルの概要 また、赤字で示した損失関数についての数式は以下のようになっている。詳しくは最後に示す参考文献を見ていただきたい。 コードはこんな感じ def
News: ml5.jsは、TensorFlow.jsをベースにより機械学習機能を簡単に取り入れられるようにしたライブラリになっています。こちらを使えば、Webカメラで手の動きに合わせてPongのゲームをするといったこともできそうです。Depth First Learningは一本の論文を丁寧に読んでいくような形で、前提知識や参考文献について細かい解説がしっかりと行われています。 Articles: DeepProbLog~やTo Trust Or Not~は、機械学習が実際にシステムに入ってきたときにどう扱うべきかについて示唆を与えてくれる研究です。Relational inductive biases~はグラフニューラルネット時代の到来を予感させる研究になっています。数年後振り返ったときに、この論文が転換点だったと振り返られる可能性もあると思います。
はじめに 全結合層 全結合層の数式 非全結合層 畳み込み層 入力成分のindexに着目した非全結合層 非全結合・重み共有層 1D畳み込み層 2Dの畳み込み層 最後に はじめに 今回はニューラルネットワークの基本的な構成要素である線形(全結合)層と畳み込み層について簡単に説明します。 これを説明するモチベーションは、「畳み込み層は線形層よりも優れた発展的手法、複雑な手法であるという勘違いが 初学者の中であるのではないかと感じ、それの解消をするためです。 以降、畳み込み層と線形層の最たる違いを主張するために、線形層のことを全結合層と呼ぶことにします。 この呼び名は、TensorFlowやKerasなどのフレームワークで採用されています(layers.dense)。 全結合層 全結合層の数式 まず全結合層について数式を以下に示します。 入力ベクトル$x \in \mathbb R^{D}$に対し
1. 概要下記のarXiv論文を紹介します。 Jinshan Zeng, Tim Tsz-Kit Lau, Shaobo Lin, Yuan Yao (2018). Block Coordinate Descent for Deep Learning: Unified Convergence Guarantees.arXiv:1803.00225 現時点では投稿されて間もない論文ですが、個人的には機械学習の論文を読んでいて久々に楽しい気持ちになれました。 論文の提案手法はgradient-free methodと呼ばれる手法の一種なので、本記事はそのあたりのレビューも少し兼ねます。 2. 勾配法の収束条件ニューラルネットの構造をひとつ固定し、その構造を使って表せる関数の全体を $\mathcal{F}$ と書きます。ニューラルネットの学習とは、与えられた損失を最小化する関数を見つけることで
こんにちは Ryobot (りょぼっと) です. 本紙は RNN や CNN を使わず Attention のみ使用したニューラル機械翻訳 Transformer を提案している. わずかな訓練で圧倒的な State-of-the-Art を達成し,華麗にタイトル回収した. また注意を非常にシンプルな数式に一般化したうえで,加法注意・内積注意・ソースターゲット注意・自己注意に分類した.このうち自己注意はかなり汎用的かつ強力な手法であり他のあらゆるニューラルネットに転用できる. WMT'14 の BLEU スコアは英仏: 41.0, 英独: 28.4 で第 1 位 Attention Is All You Need [Łukasz Kaiser et al., arXiv, 2017/06] Transformer: A Novel Neural Network Architecture f
先日、こんな記事が上がっていました。 グーグルの天才AI研究者、ニューラルネットワークを超える「カプセルネットワーク」を発表 中々刺激的なタイトルですね。 ニューラルネットワークといえば、近年の機械学習分野を支える最も大きな技術の一つであると言えます。そんなニューラルネットワークを超えたカプセルネットワークとは一体何なのでしょうか。また、本当にニューラルネットワークを超えたのでしょうか。 本記事では、カプセルネットワークの仕組みを理解することで、従来のニューラルネットワークとの違いを比較していきます。 CNN カプセルネットワークに触れるにあたり、まず畳み込みニューラルネットワーク(Convolutional Neural Network; CNN)について理解しなければなりません。なぜなら、カプセルネットワークは、CNNをベースとして、CNNの欠点を克服するために生まれたモデルだからです
はじめに DQN(Deep Q Network)は Minh et al. 20151(以下論文)で登場した深層強化学習の先駆けです.Atariのゲームで非常に高い得点を修めるというパフォーマンスで有名になりました. 9月頃に強化学習の勉強をした際に実装してみたのですが,一向に学習が進まず放置していたのですが,最近Implementing the Deep Q-Network 2を読み再開してみたところ,動いてしまったので,この記事を書くことになりました. 今回の実装はこちらにあります. 強化学習とは David Silver先生に聞きましょう.ただしこの講義では深層強化学習は扱われていません. Deep Q-Networkとは 論文を読みましょう.Q-Learningの応用で,複雑ではありませんが,学習を安定させるための工夫が各所にあるので見逃すと動かないようです. DQNの学習アルゴリ
はじめに Rで確率的プログラミング言語STANが利用できる{rstan}パッケージ。 私は普段、ベイズ統計モデリングを行うために使っています。 今回は、rstanを使って多層ニューラルネット(フルコネクションの中間層2層)に挑戦する機会があったので、 備忘録としてまとめておこうと思います。 kerasやmxnetでやるよりも圧倒的に時間がかかります。圧倒的です。 一方で、係数やニューロンの値を事後分布として求めることが出来ます。テストデータのラベルも事後予測分布で求めます。 モチベーションは、この先に考えている「ネットワークのベイズ統計モデリング」にあります。 認知モデリングと組み合わせれば、神経活動のベイズ統計モデリングなんかができちゃうかもしれませんね。 現実的な時間内で求まる程度の小規模データならば、ですが。 参照元は Stanでニューラルネットの実装に関する議論です。コードがそのま
はじめに PyTorch v0.2では"Higher order gradients” (double backpropagation)がサポートされました.Chainerもv3においてこれがサポートされます.今回Chainer Meetupの資料を読んで雰囲気が分かったのでまとめました. Comparison of deep learning frameworks from a viewpoint of double backpropagation Chainer v3 筆者は長くdouble backpropagationという名称から \[\mathrm{loss}\longrightarrow \frac{\partial^2 \mathrm{loss}}{\partial x_i \partial x_j} \] と思い込んでいました.そう思っているのでdocumentを読んでも
Sound examples Contact: {merlijn.blaauw, jordi.bonada}@upf.edu [extended journal paper] Published: 18 December 2017. [original paper] [poster] Presented at Interspeech 2017, August 20-24, 2017, Stockholm, Sweden. [voice cloning demos] To be presented at ICASSP 2019, May 12-17, 2019, Brighton, UK. Demos English male voice (M1) - Take the A train In the following examples only timbre is generated by
Created on Aug. 19, 2017, 5:56 p.m. So you're developing the next great breakthrough in deep learning but you've hit an unfortunate setback: your neural network isn't working and you have no idea what to do. You go to your boss/supervisor but they don't know either - they are just as new to all of this as you - so what now? Well luckily for you I'm here with a list of all the things you've probabl
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く