読んだ自然言語処理や機械学習の論文を twitter でちょこっと紹介してみたりしている。 さらっと手短に書けていい感じ(と勝手に思っている)なのだが、論文名を書く余白がないのと、短いとは言え2個3個の tweet には分離してしまうあたりが減点。 というわけで、はてなダイアリーの twitter 記法で試しにまとめてみたのだが、うーん、決して見やすくはないなあ……。 再編集してまで紹介したい論文なら、別途記事を書けばいいし。悩ましい。 半教師CRF "Semi-Supervised Conditional Random Fields for Improved Sequence Segmentation and Labeling" (Jiao+, COLING/ACL 2006) http://www.metabolomics.ca/News/publications/Jiao_et_al
9月24日に「図解即戦力 ChatGPT」という本が出ます。タイトルは ChatGPT ですが、中身は大規模言語モデルの仕組みを解説する本になっています。 図解即戦力 ChatGPTのしくみと技術がこれ1冊でしっかりわかる教科書 作者:中谷 秀洋技術評論社Amazon ChatGPTなどのAIを扱った入門書はすでに数え切れないほど出ており、何番煎じ? 柳の下にもうドジョウ残ってないでしょ? と突っ込まれたら返す言葉もないですが(苦笑)、同じジャンルの他の本とは異なる特長を備えるように書いたつもりです。 大規模言語モデル(生成AI)は情報科学や機械学習、自然言語処理、数学などさまざまな技術や分野が複合した複雑な体系を持ちます。そのことを指して「大規模言語モデルは総合格闘技」とも言われたりします。しかし、実際に『総合格闘技』として扱った入門書、つまり関係するさまざまな技術にわたってAIを解説す
One application of LDA in machine learning - specifically, topic discovery, a subproblem in natural language processing – is to discover topics in a collection of documents, and then automatically classify any individual document within the collection in terms of how "relevant" it is to each of the discovered topics. A topic is considered to be a set of terms (i.e., individual words or phrases) th
probabilistic latent semantic analysis (pLSA)† 文書と単語など,離散2変数の計数データの生成モデル. 文書(document):\(d\in\mathcal{D}=\{d_1,\ldots,d_N\}\), 語(word):\(w\in\mathcal{W}=\{w_1,\ldots,w_M\}\), 潜在変数の話題(topic):\(z\in\mathcal{Z}=\{z_1,\ldots,z_K\}\) を使った文書と単語の生成モデルがpLSA (probabilistic latent semantic analysis) \[\Pr[d,w]=\Pr[d]\sum_{z\in\mathcal{Z}}\Pr[w|z]\Pr[z|d]\] これは,文書と語について対称に定義することもできる \[\Pr[d,w]=\sum_{z\in\mat
Gibbsサンプラー (Gibbs sampler)† 一度に一つの確率変数だけを更新するMCMCの一つであり,MCMC の中でも最もよく使われるものであろう. 目的の分布から決まる条件付分布に従って乱数を発生させる. いわゆる rejection rate は 0 だが,確率変数の値がとどまる確率は 0 ではないので,Metropolis-Hastings法より必ずよく動くというわけではない. -- あかほ ↑
いよいよGibbs Samplingについてのメモです。 教科書などでは「ギブスサンプラー」と書かれている方が多いのですが、 私はGibbs Samplingで習ったのでここではこれで通します。 【Gibbs Samplingの手順】 #include <stdlib.h> #include <stdio.h> #include <math.h> #include "randlib.h" int main( void ) { // 母集団の平均値 double trueMean = 5.0; // 母集団の分散 double trueVar = 1.0; // 観測値数 int dataNum = 1000; // 観測値格納域 double y[dataNum]; // 観測値の平均 double xbar = 0.0; // 観測値の分散 double xvar = 0.0; // 事
引き続き「パターン認識と機械学習」(PRML) 11章予習中。 Gibbs サンプリング、これはもう試してみるしか。 syou6162 さんが試してはるの( http://d.hatena.ne.jp/syou6162/20090115/1231965900 )をなぞるだけでもいいんだけど、せっかくだから多次元一般化しよう。 r_mul_norm1 <- function(x, mu, Sig) { idx <- 1:length(mu); for(a in idx) { b <- idx[idx!=a]; # b = [1,D] - a s <- Sig[b,a] %*% solve(Sig[b,b]); # Σ_ab Σ_bb ^ -1 # (PRML 2.81) μ_a|b = μ_a + Σ_ab Σ_bb ^ -1 (x_b - μ_b) mu_a_b <- mu[a] + s
Latent Dirichlet Allocationはテキストのような不連続データのための生成的確率モデル。入力はドキュメント。出力はドキュメントを特徴づける何か(tf-idfみたいなもん)。 基本的なアイディアは、あるドキュメントは潜在的ないくつかのトピックが混合していて、それぞれのトピックは語の分布で特徴づけられている、ということ。 論文[1]ではαとβというパラメータを用いてドキュメントが以下のように生成されると仮定している。 ドキュメントのトピックの分布θがディリクレ分布Dir(α)に基づいて選ばれる。 ドキュメントの語数N個になるまで以下を繰り返す。 トピックznが多項分布Mult(θ)に基づいて選ばれる。 単語wnが確率p(wn|zn,β)で選ばれる。 ただし、トピックzの数をk個、単語wの種類をV個とすると、パラメータαはk次元のベクトル、βはk x V次元の行列でβij=
LDA とは "Latent Dirichlet Allocation"。文書中の単語の「トピック」を確率的に求める言語モデル。 「潜在的ディリクレ配分法」と訳されていることもあるが、その名前だと「それってなんだっけ?」という人のほうが多そうw。 各単語が「隠れトピック」(話題、カテゴリー)から生成されている、と想定して、そのトピックを文書集合から教師無しで推定することができる。特徴は、果物の apple と音楽の apple とコンピュータ関連の apple を区別することが出来る(ことが期待される)という点。そのために、どのトピックを生成しやすいかという分布を各文章も持つ。細かい話は略。 結果の見方としては、定量的にはパープレキシティを見るし(一般に小さいほどいい)、定性的には各トピックがどのような単語を生成するか、その確率上位のものを見てふむふむする。この「各トピックが生成する単語」
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く