サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
iPhone 17
chasen.org/~daiti-m
2022年の年末に, 自然言語処理の実質的に全論文が集まる ACL anthologyの論文を「内容」で検索できるニューラル検索システム, "ACL2Vec" http://clml.ism.ac.jp/ACL2Vec/を公開しました。これは, 2021年の言語処理学会年次大会で発表した "Researcher2Vec" [PDF] の方法を, 2022年秋までのACL anthologyの内容が全て含まれている新しいデータセット, https://github.com/shauryr/ACL-anthology-corpus に対して適用したものです。 この方法は完全に統計的に動いており, 内部的には1000次元のニューラル文書ベクトルをSVDで効率的に計算し, 基本的な線形代数を用いて最適解を返すものになっています。 この方法を拡張して, Researcher2Vecにもあるように,
本書の特徴 統計的自然言語処理を基礎から学ぶための教科書です。深層学習フレームワークで自然言語処理を「やった気」になるのではなく, 確率や情報理論の基礎から始めて, ブラックボックスを使わずにテキストを統計的に扱えるようになることを目指しています. Pythonを使って実際の計算例を示しながら解説しています. 計算例は, 下のJupyter NotebookおよびGoogle Colaboratoryですべて試すことができます. TransformerやLSTMといった多層の深層学習はその動作原理(実装や目的関数ではなく)がほとんど不明なため含めていませんが, 単語ベクトルや文ベクトル, 文書ベクトルなどについては知られている数理的背景を丁寧に解説しています. トピックモデルや隠れマルコフモデル, そのためのEMアルゴリズムやGibbsサンプリングのような学習法についても, 可能な限りわか
bhmm.py: Bayesian HMM in Python. Daichi Mochihashi The Institute of Statistical Mathematics, Tokyo $Id: index.html,v 1.3 2021/10/24 03:03:13 daichi Exp $ bhmm.py is a simple Python implementation of Bayesian (discrete) hidden Markov model (HMM). It is written basically for educational and research purposes, and implements standard forward filtering-backward sampling (Bayesian version of forward-ba
Mikolov+(2013)の有名な Word2Vecの論文 では, 単語ベクトルを作る際に, "New York" や "Toronto Maple Leafs" (アイスホッケーチーム)の意味は要素である "new" や "maple" "leafs" とは基本的に 関係ないので, 先にフレーズを認識して "new_york", "toronto_maple_leafs" と 単語をまとめてからWord2Vecを適用する方法が述べられています。 もちろん固有表現認識(NER)を動かせばできますが, NERは事前に人が作成した教師データに依存する ため, 教師データを使わない方法として, word2vecの論文では単語vと単語wがフレーズとなる スコアを score(v,w) = (n(v,w) - δ)/(n(v)*n(w)) とする, という方法が述べられています((6)式)。 ここ
lda.py: LDA in Python. Daichi Mochihashi The Institute of Statistical Mathematics, Tokyo $Id: index.html,v 1.3 2018/12/09 16:14:16 daichi Exp $ lda.py is a Python/Cython implementation of a standard Gibbs sampling for the latent Dirichlet allocation (Blei+, 2003). This is a package basically for learning and extension; however, since it is written in Cython, it runs much faster than a pure Python
News: Kindle版の配信が4/26に始まりました. (2019/4/26) [Amazon Kindle] 大羽さん担当章に関する, 本サポートページの補足はこちらです. (2019年4月7日) Google Colaboratoryの実習用ノートブックを追加しました. (2019年3月14日) 無事発売されました. (2019年3月9日) [Amazon] [紀伊国屋書店] (正誤表) さまざまな分野でのガウス過程の例 天文学: "Finding Galaxies in the Shadows of Quasers with Gaussian Processes", Roman Garnett, Shirley Ho, Jeff Schneider, ICML 2015. 紹介スライド (持橋): gpgalaxy.pdf [paper] 生態学: "Fast and flexi
下で書いたような離散確率の時系列の他に, 特に社会科学などで, 観測値が ロジスティック正規分布に従っている場合が多くあると思います。 つまり具体的には, 観測値 y ∈ {1,0} (1:生起, 0:非生起)だとして, y 〜 Bernoulli(σ(x)) = Bernoulli (1 / (1 + exp(-x))) x 〜 N(0,σ2) になっているようなモデル。回帰モデルでは x がさらに wTxと回帰になっている場合を考えますが, 議論は基本的に同じです。 これは多項分布の場合はいわゆる対数線形モデルで, 自然言語処理では通常 gradientを計算してL-BFGSやSGDなどの最適化で解くことが多いと思います。 ただし, 最適化の前提となる共変量xが既知ではなく, 学習途中に決まる 潜在変数だったりすると, 最適化してしまうと最初に変な局所解にトラップされて しまい, 学習
Daichi Mochihashi The Institute of Statistical Mathematics $Id: index.html,v 1.1 2013/06/28 13:02:38 daichi Exp $ rsm is a modified Python implementation of Replicated Softmax Model of Salakhutdinov and Hinton (2009) [PDF], a simple single-layer "Deep Net" for documents. This code is a modification to a Python implementation by Joerg Landthaler, http://www.fylance.de/rsm/, in several aspects: Incl
1 § ¦ ¤ ¥招待論文 Invited Paper 統計的自然言語処理と機械学習・統計学の未来 Statistical natural language processing and Statistics in the future 持橋 大地 Daichi Mochihashi 統計数理研究所 モデリング研究系 Department of Statistical Modeling, The Institute of Statistical Mathematics daichi@ism.ac.jp, http://www.ism.ac.jp/˜daichi/ keywords: computational linguistics, statistics, statistical machine learning Summary This paper reviews the la
* NTT daichi@cslab.kecl.ntt.co.jp 2011 2011-3-10(Fri), z PDF : http://chasen.org/~daiti-m/paper/nlp2011semiseg.pdf – , “ ” z ( , , , ...) – ...(Brain damaged!) Twitter Blog z (“ ”,“ ”,“ ”...) – z ... CSJ (+, ACL2009) z , – : NPYLM (Nested Pitman-Yor LM) 1 2 10 50 100 200 NPYLM as a Semi-Markov model z Semi-Markov HMM (Murphy 02, Ostendorf 96) +MCMC z (n ) BOS EOS Æ z , – “ ”, “ ” – “ ”Æ“ ”, “ ”Æ“
前に日記で書いた, 自己組織化二分探索木であるSplay Treeは struct splay { splay *left; splay *right; void *item; }; というデータ構造を持っているため, データ構造へのポインタのきっかり3倍の 記憶容量を必要とする。 順番は多くの場合関係ないので, こうした動的なデータ構造には本来ハッシュを 使えばいいはず だが, 普通のハッシュでは不要なメモリが沢山確保される可能性があるため, スプレー木を使っていた。 ハッシュテーブルが1つなら大した問題ではないですが, テーブル自体が何万個も あったりすると, そのロスは膨大なものになります。 最近, 開発環境をCからC++に変えたため(理由はそのうち), Googleの提供している Memory-efficientな Google Sparse Hash が使えるようになったので,
1週間ほど前に, 京大の Neubigさん から, FST上の教師なし単語分割ツール latticelm [LINK] の実装を公開した, との連絡をもらったので, 試してみました。 このツールは僕が前にやった教師なし形態素解析ができる他 (NTTではどうやっても 僕のコードは公開できないのですが), Neubigさん自身の研究 で, 音声認識結果の音素ラティスからの直接の言語モデル学習が可能なようです。 インストールには普通に OpenFST を configure; make してから, latticelm の ディレクトリでmakeを実行するだけ。以下は京大コーパスに対して実行してみた ものです。 sj205:~/work/neubig/latticelm% time ./latticelm -annealsteps 0 -unkn 5 -burnin 10 -samps 12 -p
Percy Liang の "Type-Based MCMC" (NAACL 2010) [PDF] を何回かに分けて読んでいて, ようやくほぼ理解できた。 これはすごい論文です。非常に基礎的な話で, 統計の専門ジャーナルにも余裕で 通る話だと思いましたが, NAACLという。Michael Jordanが第2(第3でなく)著者なので, 恐らく Jordan のテイストが結構入っているのだと思います。 よくこれだけの内容を8ページに書いたなぁ..というのが最初の感想で, ちなみに, かなりベイズ的な議論に慣れていないと, 普通の自然言語処理の人だとそもそも何を 言っているのかさっぱりわからないかも知れないと思いました。 少し前に情処論文誌でトンデモ査読をされて唖然としたので, 余計にそう思うのかもしれませんが..。 *1 内部のベイズ勉強会では別の話 ("Painless Unsuperv
次のページ
このページを最初にブックマークしてみませんか?
『Daichi Mochihashi Home Page』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く