強化学習の概要,応用上の利点,適用例,基礎理論,代表的手法,応用に必要な技術などの説明。 本ページの記述は下記の解説記事をもとにWEB用に修正したものである: 木村 元,宮崎 和光,小林 重信: 強化学習システムの設計指針, 計測と制御, Vol.38, No.10, pp.618--623 (1999), 計測自動制御学会. 6 pages, postscript file, sice99.ps (1.31MB) PDF file, sice99.pdf (148KB) 第1章: 強化学習の概要 1.1 強化学習 (Reinforcement Learning) とは? 1.2 制御の視点から見た強化学習の特徴 1.3 応用上期待できること 第2章: 強化学習の適用例:ロボットの歩行動作獲得 第3章: 強化学習の基礎理論 3.1 マルコフ決定過程(Markov decision proc
Random thoughts of a computer scientist who is working behind the enemy lines; and lately turned into a double agent. Last week, while working with Foster Provost and Xiahoan Zhang, one of our PhD students, we were trying to understand the internals of the Latent Dirichlet Allocation. In particular, we were getting strange results from the LDA-C program by David Blei, and we wanted to figure out w
9月24日に「図解即戦力 ChatGPT」という本が出ます。タイトルは ChatGPT ですが、中身は大規模言語モデルの仕組みを解説する本になっています。 図解即戦力 ChatGPTのしくみと技術がこれ1冊でしっかりわかる教科書 作者:中谷 秀洋技術評論社Amazon ChatGPTなどのAIを扱った入門書はすでに数え切れないほど出ており、何番煎じ? 柳の下にもうドジョウ残ってないでしょ? と突っ込まれたら返す言葉もないですが(苦笑)、同じジャンルの他の本とは異なる特長を備えるように書いたつもりです。 大規模言語モデル(生成AI)は情報科学や機械学習、自然言語処理、数学などさまざまな技術や分野が複合した複雑な体系を持ちます。そのことを指して「大規模言語モデルは総合格闘技」とも言われたりします。しかし、実際に『総合格闘技』として扱った入門書、つまり関係するさまざまな技術にわたってAIを解説す
生成モデル (generative model) / 識別モデル (discriminative model)† クラス分類を解くための手法は識別モデルと生成モデルに分けられる. データとクラスの確率変数をそれぞれ \(X\) と\(C\) で表す. パラメータは \(\theta=(\theta_1,\theta_2)\). 生成モデル (generative model) \(X\) と\(C\) の結合確率をモデル化: \[\Pr[X,C|\theta]=\Pr[X|C,\theta_1]\Pr[C|\theta_2]\] パラメータはデータ集合とパラメータの同時確率を最大化するように学習: \[\Pr[\{x_i,c_i\}_i^N,\theta]=\Pr[\theta]\prod_i^N\Pr[x_i,c_i|\theta]=\Pr[\theta]\prod_i^N\Pr[x_i
The support of the Dirichlet distribution is the set of K-dimensional vectors whose entries are real numbers in the interval [0,1] such that , i.e. the sum of the coordinates is equal to 1. These can be viewed as the probabilities of a K-way categorical event. Another way to express this is that the domain of the Dirichlet distribution is itself a set of probability distributions, specifically the
パープレキシティ 情報処理辞書 > パープレキシティ 英語:perplexity 日本語:パープレキシティ (パープレキシティ) 分野:自然言語処理 説明: パープレキシティ(PP)は情報理論の指標であり、エントロピー(H)の2のべき乗として定義される。n-gram言語モデルの評価基準として用いるときは、評価用の文集合(長さL)に対して以下の通りに計算される。一般的にはパープレキシティが低いとモデルは評価文集合をうまくモデリングできていることを意味する。 しかし、低いパープレキシティは必ずしもうまく機能する言語モデルと同等であるとは限らない。言語モデルの唯一の正確な評価基準はタスクで誤差が下がるかどうかである。 参考文章: 英語:http://en.wikipedia.org/wiki/Perplexity
Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode
One application of LDA in machine learning - specifically, topic discovery, a subproblem in natural language processing – is to discover topics in a collection of documents, and then automatically classify any individual document within the collection in terms of how "relevant" it is to each of the discovered topics. A topic is considered to be a set of terms (i.e., individual words or phrases) th
probabilistic latent semantic analysis (pLSA)† 文書と単語など,離散2変数の計数データの生成モデル. 文書(document):\(d\in\mathcal{D}=\{d_1,\ldots,d_N\}\), 語(word):\(w\in\mathcal{W}=\{w_1,\ldots,w_M\}\), 潜在変数の話題(topic):\(z\in\mathcal{Z}=\{z_1,\ldots,z_K\}\) を使った文書と単語の生成モデルがpLSA (probabilistic latent semantic analysis) \[\Pr[d,w]=\Pr[d]\sum_{z\in\mathcal{Z}}\Pr[w|z]\Pr[z|d]\] これは,文書と語について対称に定義することもできる \[\Pr[d,w]=\sum_{z\in\mat
Gibbsサンプラー (Gibbs sampler)† 一度に一つの確率変数だけを更新するMCMCの一つであり,MCMC の中でも最もよく使われるものであろう. 目的の分布から決まる条件付分布に従って乱数を発生させる. いわゆる rejection rate は 0 だが,確率変数の値がとどまる確率は 0 ではないので,Metropolis-Hastings法より必ずよく動くというわけではない. -- あかほ ↑
いよいよGibbs Samplingについてのメモです。 教科書などでは「ギブスサンプラー」と書かれている方が多いのですが、 私はGibbs Samplingで習ったのでここではこれで通します。 【Gibbs Samplingの手順】 #include <stdlib.h> #include <stdio.h> #include <math.h> #include "randlib.h" int main( void ) { // 母集団の平均値 double trueMean = 5.0; // 母集団の分散 double trueVar = 1.0; // 観測値数 int dataNum = 1000; // 観測値格納域 double y[dataNum]; // 観測値の平均 double xbar = 0.0; // 観測値の分散 double xvar = 0.0; // 事
引き続き「パターン認識と機械学習」(PRML) 11章予習中。 Gibbs サンプリング、これはもう試してみるしか。 syou6162 さんが試してはるの( http://d.hatena.ne.jp/syou6162/20090115/1231965900 )をなぞるだけでもいいんだけど、せっかくだから多次元一般化しよう。 r_mul_norm1 <- function(x, mu, Sig) { idx <- 1:length(mu); for(a in idx) { b <- idx[idx!=a]; # b = [1,D] - a s <- Sig[b,a] %*% solve(Sig[b,b]); # Σ_ab Σ_bb ^ -1 # (PRML 2.81) μ_a|b = μ_a + Σ_ab Σ_bb ^ -1 (x_b - μ_b) mu_a_b <- mu[a] + s
Latent Dirichlet Allocationはテキストのような不連続データのための生成的確率モデル。入力はドキュメント。出力はドキュメントを特徴づける何か(tf-idfみたいなもん)。 基本的なアイディアは、あるドキュメントは潜在的ないくつかのトピックが混合していて、それぞれのトピックは語の分布で特徴づけられている、ということ。 論文[1]ではαとβというパラメータを用いてドキュメントが以下のように生成されると仮定している。 ドキュメントのトピックの分布θがディリクレ分布Dir(α)に基づいて選ばれる。 ドキュメントの語数N個になるまで以下を繰り返す。 トピックznが多項分布Mult(θ)に基づいて選ばれる。 単語wnが確率p(wn|zn,β)で選ばれる。 ただし、トピックzの数をk個、単語wの種類をV個とすると、パラメータαはk次元のベクトル、βはk x V次元の行列でβij=
LDA とは "Latent Dirichlet Allocation"。文書中の単語の「トピック」を確率的に求める言語モデル。 「潜在的ディリクレ配分法」と訳されていることもあるが、その名前だと「それってなんだっけ?」という人のほうが多そうw。 各単語が「隠れトピック」(話題、カテゴリー)から生成されている、と想定して、そのトピックを文書集合から教師無しで推定することができる。特徴は、果物の apple と音楽の apple とコンピュータ関連の apple を区別することが出来る(ことが期待される)という点。そのために、どのトピックを生成しやすいかという分布を各文章も持つ。細かい話は略。 結果の見方としては、定量的にはパープレキシティを見るし(一般に小さいほどいい)、定性的には各トピックがどのような単語を生成するか、その確率上位のものを見てふむふむする。この「各トピックが生成する単語」
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く