Daichi Mochihashi Home Page[B!]新着記事・評価 - はてなブックマーク

『Daichi Mochihashi Home Page』

http://chasen.org/~daiti-m/paper/MP2021-Lect3-NLP.pdf
3 users
chasen.org/~daiti-m
- 暮らし
- 2023/03/30 16:43

mots quotidiens.
3 users
chasen.org/~daiti-m

2022年の年末に, 自然言語処理の実質的に全論文が集まる ACL anthologyの論文を「内容」で検索できるニューラル検索システム, "ACL2Vec" http://clml.ism.ac.jp/ACL2Vec/を公開しました。これは, 2021年の言語処理学会年次大会で発表した "Researcher2Vec" [PDF] の方法を, 2022年秋までのACL anthologyの内容が全て含まれている新しいデータセット, https://github.com/shauryr/ACL-anthology-corpus に対して適用したものです。この方法は完全に統計的に動いており, 内部的には1000次元のニューラル文書ベクトルをSVDで効率的に計算し, 基本的な線形代数を用いて最適解を返すものになっています。この方法を拡張して, Researcher2Vecにもあるように,
- テクノロジー
- 2023/01/07 14:34
「見えないデータ」を推定する - 持橋大地 - 小石川中等教育学校スーパーサイエンス・ハイスクール 2022-9-7 (水)
7 users
chasen.org/~daiti-m
- 世の中
- 2022/09/08 00:45
- 機械学習
岩波書店『統計的テキストモデル』サポートページ
14 users
chasen.org/~daiti-m

本書の特徴統計的自然言語処理を基礎から学ぶための教科書です。深層学習フレームワークで自然言語処理を「やった気」になるのではなく, 確率や情報理論の基礎から始めて, ブラックボックスを使わずにテキストを統計的に扱えるようになることを目指しています. Pythonを使って実際の計算例を示しながら解説しています. 計算例は, 下のJupyter NotebookおよびGoogle Colaboratoryですべて試すことができます. TransformerやLSTMといった多層の深層学習はその動作原理(実装や目的関数ではなく)がほとんど不明なため含めていませんが, 単語ベクトルや文ベクトル, 文書ベクトルなどについては知られている数理的背景を丁寧に解説しています. トピックモデルや隠れマルコフモデル, そのためのEMアルゴリズムやGibbsサンプリングのような学習法についても, 可能な限りわか
- テクノロジー
- 2022/08/18 05:58
Bayesian HMM in Python
3 users
chasen.org/~daiti-m

bhmm.py: Bayesian HMM in Python. Daichi Mochihashi The Institute of Statistical Mathematics, Tokyo $Id: index.html,v 1.3 2021/10/24 03:03:13 daichi Exp $ bhmm.py is a simple Python implementation of Bayesian (discrete) hidden Markov model (HMM). It is written basically for educational and research purposes, and implements standard forward filtering-backward sampling (Bayesian version of forward-ba
- テクノロジー
- 2021/10/24 19:00
- Python
mots quotidiens.
14 users
chasen.org/~daiti-m

Mikolov+(2013)の有名な Word2Vecの論文では, 単語ベクトルを作る際に, "New York" や "Toronto Maple Leafs" (アイスホッケーチーム)の意味は要素である "new" や "maple" "leafs" とは基本的に関係ないので, 先にフレーズを認識して "new_york", "toronto_maple_leafs" と単語をまとめてからWord2Vecを適用する方法が述べられています。もちろん固有表現認識(NER)を動かせばできますが, NERは事前に人が作成した教師データに依存するため, 教師データを使わない方法として, word2vecの論文では単語vと単語wがフレーズとなるスコアを score(v,w) = (n(v,w) - δ)/(n(v)*n(w)) とする, という方法が述べられています((6)式)。ここ
- アニメとゲーム
- 2021/04/14 16:54
http://chasen.org/~daiti-m/paper/ismstat-lstm.pdf
4 users
chasen.org/~daiti-m
- 世の中
- 2019/05/16 04:59
- あとで読む
LDA in Python
5 users
chasen.org/~daiti-m

lda.py: LDA in Python. Daichi Mochihashi The Institute of Statistical Mathematics, Tokyo $Id: index.html,v 1.3 2018/12/09 16:14:16 daichi Exp $ lda.py is a Python/Cython implementation of a standard Gibbs sampling for the latent Dirichlet allocation (Blei+, 2003). This is a package basically for learning and extension; however, since it is written in Cython, it runs much faster than a pure Python
- テクノロジー
- 2018/12/13 00:58
- python
- あとで読む
http://chasen.org/~daiti-m/paper/MLwakate-2018-nlp.pdf
11 users
chasen.org/~daiti-m
- 学び
- 2018/08/10 22:58
- モデル
http://chasen.org/~daiti-m/paper/SNLP10sentence.pdf
7 users
chasen.org/~daiti-m
- テクノロジー
- 2018/08/06 09:33
- あとで読む
MLPシリーズ『ガウス過程と機械学習』サポートページ
43 users
chasen.org/~daiti-m

News: Kindle版の配信が4/26に始まりました. (2019/4/26) [Amazon Kindle] 大羽さん担当章に関する, 本サポートページの補足はこちらです. (2019年4月7日) Google Colaboratoryの実習用ノートブックを追加しました. (2019年3月14日) 無事発売されました. (2019年3月9日) [Amazon] [紀伊国屋書店] (正誤表) さまざまな分野でのガウス過程の例天文学: "Finding Galaxies in the Shadows of Quasers with Gaussian Processes", Roman Garnett, Shirley Ho, Jeff Schneider, ICML 2015. 紹介スライド (持橋): gpgalaxy.pdf [paper] 生態学: "Fast and flexi
- テクノロジー
- 2018/04/03 10:58
http://chasen.org/~daiti-m/paper/vb-to-vae.pdf
37 users
chasen.org/~daiti-m
- テクノロジー
- 2018/02/07 21:03
- vae
- 機械学習
- Stat
- 統計
mots quotidiens.
9 users
chasen.org/~daiti-m

下で書いたような離散確率の時系列の他に, 特に社会科学などで, 観測値がロジスティック正規分布に従っている場合が多くあると思います。つまり具体的には, 観測値 y ∈ {1,0} (1:生起, 0:非生起)だとして, y 〜 Bernoulli(σ(x)) = Bernoulli (1 / (1 + exp(-x))) x 〜 N(0,σ2) になっているようなモデル。回帰モデルでは x がさらに wTxと回帰になっている場合を考えますが, 議論は基本的に同じです。これは多項分布の場合はいわゆる対数線形モデルで, 自然言語処理では通常 gradientを計算してL-BFGSやSGDなどの最適化で解くことが多いと思います。ただし, 最適化の前提となる共変量xが既知ではなく, 学習途中に決まる潜在変数だったりすると, 最適化してしまうと最初に変な局所解にトラップされてしまい, 学習
- テクノロジー
- 2017/05/01 19:27
- 統計
A Latent Variable Model Approach to PMI-based Word Embeddings
17 users
chasen.org/~daiti-m
- テクノロジー
- 2016/10/01 17:54
A Latent Variable Model Approach to PMI-based Word Embeddings
5 users
chasen.org/~daiti-m
- テクノロジー
- 2016/09/11 23:35
- NLP
- 機械学習
http://chasen.org/~daiti-m/paper/daichi15topicmodel-for-ecology.pdf
13 users
chasen.org/~daiti-m
- 世の中
- 2015/06/07 23:02
- あとで読む
http://chasen.org/~daiti-m/paper/ISMopen2014-langmusique.pdf
4 users
chasen.org/~daiti-m
- エンタメ
- 2014/06/14 13:49
rsm, the Replicated Softmax Model.
3 users
chasen.org/~daiti-m

Daichi Mochihashi The Institute of Statistical Mathematics $Id: index.html,v 1.1 2013/06/28 13:02:38 daichi Exp $ rsm is a modified Python implementation of Replicated Softmax Model of Salakhutdinov and Hinton (2009) [PDF], a simple single-layer "Deep Net" for documents. This code is a modification to a Python implementation by Joerg Landthaler, http://www.fylance.de/rsm/, in several aspects: Incl
- テクノロジー
- 2013/09/22 13:25
http://chasen.org/~daiti-m/paper/jsai12nlp-future.pdf
7 users
chasen.org/~daiti-m
- テクノロジー
- 2012/08/24 10:14
- nlp
- 機械学習
- 勉強
最近のベイズ理論の進展と応用 (III) ノンパラメトリックベイズ
9 users
chasen.org/~daiti-m
- テクノロジー
- 2012/03/19 23:03
- 統計
ノンパラメトリックベイズ法による言語モデル
11 users
chasen.org/~daiti-m
- テクノロジー
- 2012/03/19 23:02
- NLP
- 機械学習
- 数学
- 統計
統計的自然言語処理と機械学習・統計学の未来
42 users
chasen.org/~daiti-m

1 § ¦ ¤ ¥招待論文 Invited Paper 統計的自然言語処理と機械学習・統計学の未来 Statistical natural language processing and Statistics in the future 持橋大地 Daichi Mochihashi 統計数理研究所モデリング研究系 Department of Statistical Modeling, The Institute of Statistical Mathematics daichi@ism.ac.jp, http://www.ism.ac.jp/˜daichi/ keywords: computational linguistics, statistics, statistical machine learning Summary This paper reviews the la
- テクノロジー
- 2012/02/27 21:57
- nlp
- 機械学習
- 自然言語処理
- 論文
- machinelearning
- 問題
- statistics
- language
- pdf
条件付確率場とベイズ階層言語モデルの統合による半教師あり形態素解析
17 users
chasen.org/~daiti-m

* NTT daichi@cslab.kecl.ntt.co.jp 2011 2011-3-10(Fri), z PDF : http://chasen.org/~daiti-m/paper/nlp2011semiseg.pdf – , “ ” z ( , , , ...) – ...(Brain damaged!) Twitter Blog z (“ ”,“ ”,“ ”...) – z ... CSJ (+, ACL2009) z , – : NPYLM (Nested Pitman-Yor LM) 1 2 10 50 100 200 NPYLM as a Semi-Markov model z Semi-Markov HMM (Murphy 02, Ostendorf 96) +MCMC z (n ) BOS EOS Æ z , – “ ”, “ ” – “ ”Æ“ ”, “ ”Æ“
- テクノロジー
- 2011/10/06 15:48
- nlp
- pdf
mots quotidiens.
3 users
chasen.org/~daiti-m

前に日記で書いた, 自己組織化二分探索木であるSplay Treeは struct splay { splay *left; splay *right; void *item; }; というデータ構造を持っているため, データ構造へのポインタのきっかり3倍の記憶容量を必要とする。順番は多くの場合関係ないので, こうした動的なデータ構造には本来ハッシュを使えばいいはずだが, 普通のハッシュでは不要なメモリが沢山確保される可能性があるため, スプレー木を使っていた。ハッシュテーブルが1つなら大した問題ではないですが, テーブル自体が何万個もあったりすると, そのロスは膨大なものになります。最近, 開発環境をCからC++に変えたため(理由はそのうち), Googleの提供している Memory-efficientな Google Sparse Hash が使えるようになったので,
- テクノロジー
- 2011/06/15 14:11
- C++
http://chasen.org/~daiti-m/paper/nlp2011semiseg.pdf
3 users
chasen.org/~daiti-m
- 学び
- 2011/03/09 16:11
- あとで読む
http://chasen.org/~daiti-m/diary/image/bayesian.png
3 users
chasen.org/~daiti-m
- おもしろ
- 2010/10/05 22:37
- neta
- ネタ
mots quotidiens. LatticeLM
5 users
chasen.org/~daiti-m

1週間ほど前に, 京大の Neubigさんから, FST上の教師なし単語分割ツール latticelm [LINK] の実装を公開した, との連絡をもらったので, 試してみました。このツールは僕が前にやった教師なし形態素解析ができる他 (NTTではどうやっても僕のコードは公開できないのですが), Neubigさん自身の研究で, 音声認識結果の音素ラティスからの直接の言語モデル学習が可能なようです。インストールには普通に OpenFST を configure; make してから, latticelm のディレクトリでmakeを実行するだけ。以下は京大コーパスに対して実行してみたものです。 sj205:~/work/neubig/latticelm% time ./latticelm -annealsteps 0 -unkn 5 -burnin 10 -samps 12 -p
- 世の中
- 2010/10/04 19:47
http://chasen.org/~daiti-m/text/zsh-exec.html
4 users
chasen.org/~daiti-m
- テクノロジー
- 2010/08/01 14:34
- zsh
Type based MCMC: mots quotidiens.
4 users
chasen.org/~daiti-m

Percy Liang の "Type-Based MCMC" (NAACL 2010) [PDF] を何回かに分けて読んでいて, ようやくほぼ理解できた。これはすごい論文です。非常に基礎的な話で, 統計の専門ジャーナルにも余裕で通る話だと思いましたが, NAACLという。Michael Jordanが第2(第3でなく)著者なので, 恐らく Jordan のテイストが結構入っているのだと思います。よくこれだけの内容を8ページに書いたなぁ..というのが最初の感想で, ちなみに, かなりベイズ的な議論に慣れていないと, 普通の自然言語処理の人だとそもそも何を言っているのかさっぱりわからないかも知れないと思いました。少し前に情処論文誌でトンデモ査読をされて唖然としたので, 余計にそう思うのかもしれませんが..。 *1 内部のベイズ勉強会では別の話 ("Painless Unsuperv
- 暮らし
- 2010/06/10 08:32
- NAACL

次のページ

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx