3層ニューラルネットワークの普遍性定理のはなし。関数解析の基本的な定理から、こんな面白いことが証明できる。数学楽しいよ! https://t.co/jBFto4WBLa

本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。 近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。 "Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise. The slides are made by the lecturer from outside our company, and shared here with his/her permission. Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステム
統計力学は, 気体の分子の運動のようなミクロ記述とボイル=シャルルの法則のようなマクロ記述とをつなぐ学問です. 統計力学を学ぶと, 我々はミクロからマクロへつながる階層的な構造が自然界のいたるところに存在することを意識し, 物理学の枠組みを超えて統計力学が活躍できるような気がしてきます. 例えば, 脳や情報にもミクロとマクロの階層性が存在します. 脳にある百億以上の神経細胞の活動から, 我々の意識や感情が生じています. 0 と 1 のビットがある種のルールに従って並ぶと, そのビット系列は画像や音声などの意味ある情報になります. これらを統計力学的に議論できる鍵はスピングラス・レプリカ法に代表されるランダムスピン系の統計力学にありました. ± 1 の二値状態を取る Ising スピンを脳の神経細胞の活動や情報のビットに対応させることで, 統計力学は脳の神経回路モデルや情報・通信理論の難問を
今日、英語版Wikipediaの「制限ボルツマンマシン」のページの翻訳を終えました。終えましたけれども、内容はよく理解出来ていません。それでも得るところはありました。ひとつは自分のボルツマンマシンの理解がかなり表面的であったことを自覚したことです。私はボルツマンマシンの元になったホップフィールド・ネットワークを勉強していた時、ホップフィールド・ネットワークのエネルギーの定義がいかにも取ってつけたような感じがして、これは別段エネルギーと見なす必要はなくてたとえばエントロピーと見なしてもいいではないか、などと思っていました。しかし、英語版Wikipediaの制限ボルツマンマシンのページに登場した の式を見た時に、おお、まさしく統計力学の式だ、と感じました。この式に出てくるは統計力学であればエネルギーが出てくる位置にあります。なぜ、こんなにうまくいくのだろう? なぜ、統計力学との平行関係がこんな
この内容は拙著『進化しすぎた脳』の巻末に「付論」として掲載されたもので、 脳科学講義として中学生・高校生たちに説明したときの録音テープから起こした文章です。 (朝日出版社の許可を得てここに掲載しております) この課外時間では、数学を使っただけで簡単に「記憶」のモデルができるという話をしよう。 この講義で習った知識を使っただけで簡単な脳のモデルができるんだ。神経細胞がたった3個からなる模型。ほんとの脳ははるかに複雑だけど、ここでは単純化したネットワークを考えてみよう。 まず、モデルの話をする前に、ちょっと基礎練習をしてみよう。いま、この図のように、2つの神経が結合している。 こんな感じで神経1は神経2とシナプスを作っている。丸が神経で、矢印がシナプスの記号。この場合は神経1が送信側で、神経2が受信側だ。つまり信号は神経1から2へ行く。 この図で重要なのは何かというと、2つの神経が結びつく強さ
#勾配降下法は何に使う?# 勾配降下法は統計学や機械学習で多く使われています。特に機械学習というのは基本的に何かしらの関数を最小化(最大化)する問題を数値解析的に解くことに帰結する場合が多いです。(e.g. 最小二乗法 → 誤差の二乗和を最小化(参考)、ニューラルネットワークのパラメータ決定 etc...) なので、基本的にはひたすら微分して0となるところを探す問題ですね、微分して0。で、その微分して0となる値は何か、をプログラムで解く場合に重要になるのがこの勾配降下法です。幾つか勾配法にも種類がありますがここでは最急降下法、確率的勾配降下法の2つを扱います。まずはイメージをつかむために1次元のグラフで確認していきたいと思います。 ##1次元の場合## 1次元の場合は、確率的という概念はなく、ただの勾配降下法になります。 (どういうことか、はのちほど) 1次元の例は、正規分布をマイナスにし
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く