Percy Liang の "Type-Based MCMC" (NAACL 2010) [PDF] を何回かに分けて読んでいて, ようやくほぼ理解できた。 これはすごい論文です。非常に基礎的な話で, 統計の専門ジャーナルにも余裕で 通る話だと思いましたが, NAACLという。Michael Jordanが第2(第3でなく)著者なので, 恐らく Jordan のテイストが結構入っているのだと思います。 よくこれだけの内容を8ページに書いたなぁ..というのが最初の感想で, ちなみに, かなりベイズ的な議論に慣れていないと, 普通の自然言語処理の人だとそもそも何を 言っているのかさっぱりわからないかも知れないと思いました。 少し前に情処論文誌でトンデモ査読をされて唖然としたので, 余計にそう思うのかもしれませんが..。 *1 内部のベイズ勉強会では別の話 ("Painless Unsuperv
たまたま検索していて, http://52nlp.cn 「我愛自然語言処理」という中国の非常に充実した自然言語処理サイトがあるのを 知った。 2009年4月の 「自然語言処理及計算語言学常見縮略語」 (以下, 簡体字を僕に分かる範囲で日本語の漢字に翻案) なんかを見ると, NLPの専門用語をどうやって漢字で言うかがわかって面白い。 SVMは支持向量機, CRFは条件随機場で, PLSAは「概率潜在語義分析」らしい。 中国語と言っても専門領域なので, 漢文の知識で大体は読める感じです。 ACL 2010に(中国)国内からどれ位通ったか, のようなエントリ 「ACL 2010Paper国内研究単位録用情況」 があったり。 中科院(中国科学院のことだと思われる)や微軟(マイクロソフト), 北京大学からは通っているが, 清華大学がないのは単にNLPで強力な先生がいない ということかな, と想像。
何だか最近硬いことばかり書いている気がするので。 朝9:22天王寺発のオーシャンアロー3号に乗って, 南紀・紀伊勝浦に 行ってきました。 この日記には書いていないですが, 博士課程を修了した時(2005年)に記念に個人的に 本州最南端の串本・潮岬に行っていて, その時に南紀の本場は やはり紀伊勝浦だという思いがあって(例えば, かつての寝台特急「紀伊」は 東京-紀伊勝浦を結んでいたし, 今でも特急ワイドビュー南紀は紀伊勝浦止まりだったり する), まだ行っていない所がある, と思って気になっていました。 去年 お花見に行った山中渓の今年も満開の桜をグリーン車の窓から見て通りすぎた後, 列車はいよいよ白浜から南紀へ。 串本まで乗った時はそう思わなかったのですが, 串本―紀伊勝浦間の海は青いという より, まさにトルコブルーで, オーシャンアローの色がそうなっているのも分かる気が します。 *
連休中に学習させておいた毎日新聞と New York Times のモデルを 置いておきました。 ただ, 教師なし学習に共通することですが, (識別学習のように「ルール」を使うわけ ではないので)適用したいドメインのテキストで直接学習した方が, 結果が良いよう です。データが少ないと, nグラムのスパースさに引きずられて, 意味的というより 文法的な同意語が出てしまうようになる模様。 さて, 潜在語言語モデルは, NLPの立場からは観測値のnグラムをそのまま使うのでは なく, 「真のnグラム」を推定して, そこから観測語が生まれたと考えるモデル ですが, この学習は言うほど簡単ではありません。 各単語について数万次元(=語彙次元)の隠れ変数が存在するため, EMアルゴリズムで Forward-Backwardを使おうとすると, 数億を超える組み合わせのテーブルを計算する ことになってしまう
Daichi Mochihashi NTT Communication Science Laboratories $Id: lwlm.html,v 1.1 2010/03/19 10:15:06 daichi Exp $ lwlm is an exact, full Bayesian implementation of the Latent Words Language Model (Deschacht and Moens, 2009). It automatically learns synonymous words to infer context-dependent "latent word" for each word appearance, in a completely unsupervised fashion. Technically, LWLM is a higher-or
あまり前の仕事にこだわるつもりはないのですが, 来週NTT R&Dの偉い人へのプレゼン& NTT言語系内部コロキウム@横須賀でデモをするので, 言語モデルからランダム ウォーク生成してみました。 (実は論文にある通り, 学習の際に単語モデルからモンテカルロ法の中で生成している のですが, あまり真面目に結果を見ていなかった。) 英語の単語モデル(文字∞-gram)から生成した例。(Penn Treebank+オバマ就任演説) sj:~/work/segment/src% ./spygen -c -n 30 ../model/obama+ptb varied grain classistor ruminus read headof myhome eastgo smoke her garry nexty . hunkyu stify feckless s dinnie ener stis pi
IBIS 2009 が終わって, 博多の九大医学部から京都に帰ってきました。 今年は各所への色々なアナウンスのせいか, 去年の160人 をさらにしのぐ215人の参加者があったそうで, 東京並みだそうです。 渡部さん と二人で企画した二日目のセッション 『音声・音響処理と機械学習』 も無事に終わり, 内容の濃い話が続いて, 個人的にはかなり面白いセッションになった のではないかと思いました(多分)。 上のページから講演者の方の発表スライドがすべて見られますのでどうぞ。 一日目のセッション『金融リスクと統計的学習』も勉強になりまくりでした。ただ, 普通半年で話す内容を30分で話す(極値統計学)という凄いことになっていた上, 午前中に休憩がなかったので, 集中力を維持するのが結構大変でした。 僕は極値統計学を予習していたので, 説明を超速で飛ばされても多少大丈夫でしたが, 普通は辛いかもという気
ついに一般人の軍門に下って(?), ハリーポッター [Vicipaedia] を買ってしまいました。(笑) 上の写真はクリックすると大きくなります。 訳者のPeter Needham氏はイートン校の古典の先生だったのだそうです。 同時に "X-Treme Latin" (amazon) という本も買ってしまったのですが(まだ届いていない), こちらの著者の Henry Beard氏 はハーバードでラテン語を学んで Harvard Lampoon というハーバードのユーモア学内誌 (があるらしい。日本で言うと時代錯誤社みたいなものか) の編集長だったらしい。 二人ともなるほどというか..。 以下自分用のメモ代わり。ちょっと調べると, イートン校で使われてきた "The Eton Latin Grammar"がGoogle Booksで読めるようです。 [LINK] 1856年版の全文 [LI
9月1日から, Washingtonの Kevin Duh がRA *1 として 言語グループに来たらしい。(らしいというのは, 僕は学習グループなので 階が違うため, まだ会っていないから。) マジですか。 sjx002:~% ypcat passwd | grep kevin kevinduh:********:21798:800:Kevin Duh:/chisho/kevinduh:/bin/bash きっと鈴木さん効果なのだと思いますが, CS研最強すぎる..。 これまでに, NAISTにもATRにもCS研にも外国人の方はいましたが, 誰でも知っている 有名な人が来るのは知っている限り, 初めてなような気がする。 実際のところ, 外国人が日本で研究する場合は漢字の問題が大きいようで, (Duhは台湾の出身の方みたいですが) 中国や韓国, 香港, 台湾の場合は比較的壁が薄い ので,
工藤君のエントリ 面白いですね。 工藤君は「ハードウェア」寄りなのでそちらの方が多いですが, 僕はどう見ても「ソフトウェア」プログラマなので, *1 「ソフトウェア」プログラマの方に対応する記述を追加。 何が「最適」かはユニークには決まらないと思っている 様々なハードの持つ違いに興味がある CやC++だけでなく, 様々な言語を知りたい 電車のスケジューリングを決める統計的基礎に興味がある 数学は美学だ 折り紙やレゴブロックが好き 僕は自分がソフトウェア寄りなので, 逆に最適化や省メモリ化を意識的に 考えないといけないと思っていて, LispやHaskellではなく, あえてCやC++で書いて いるのもそういう理由だったりします。 ただ, 最近は Stalin という超最適化 scheme コンパイラが超爆速(普通のCより速い) という話を聞いているので, 若干揺れています。 *2 それと面
信学会のノンパラメトリックベイズ講座をようやく書き終えました。 具体的な学習例(上のイメージ)や細かい図を描く必要があり, 結局連休後半からずっと かかった気がします。 最後のページではInfinite HMM (NIPS 2001) [pdf] の紹介をしています。 ちょうど岡野原君がohmmをリリースした所で, やたらとタイミングがいいのですが..。 HMMはよく考えるとかなり凄いモデルですが, 上のohmmも含め, 普通のHMMは 隠れ状態の数は事前にセットしておく必要があります。 これに対し, IHMMは隠れ状態の総数すらも観測データを見るだけで決めてくれる という驚異的なモデルで, 僕はD3の時(2003年くらい)に知って, かなり感動しました。 ただ, IHMMは理論を理解するのもそうですが, 実装がかなりややこしいので *1 僕は実際に実装はしていなかったのですが, 最近素晴
ACLに通りました。 "Bayesian Unsupervised Word Segmentation with Nested Pitman-Yor Language Modeling". Daichi Mochihashi, Takeshi Yamada, Naonori Ueda, ACL-IJCNLP 2009, to appear. これで落ちたら完全にACLを見限るところだったので, とりあえずよかった, と思います。 *1 ただ, Accepted Papers を見ると, 明らかにACLレベルなものとかなりmarginalに見える論文が混じっていて, 微妙な感じもします。 実際, 査読の時に明らかに素晴らしいアイデアだと思った論文が通っていなかったり して, *2 きっとどうでもいい細かい所をつつかれて落とされたんだろうな, という気がします。 通っていないので, 内容を紹介
無事NL研の発表が終わって, 京都に帰ってきました。 発表は面白いと言ってくれた方が多く, よかったような気がします。 論文のページ に発表資料を置いておきましたので, ご興味のある方はどうぞ。 小町君のブログから来ている人が沢山いるようなので, もし「日本語の文字が全部等確率」というのが気になった人がいたら, そうではない ので安心して下さい, ということだけ書いておきます。 正確には文字の生起確率=文字1-gramのさらに事前分布が均一になっているという 意味で, どんな漢字や数字が出やすいか(文字1-gram), どんな文字の組み合わせが 単語になりやすいか(文字2-gram, 3-gram, 4-gram, …)はすべてモデル化されて います。 なお, 発表では言わなかったのですが, 後ろ向き変数βを同様に導入すれば, 文字の間が切れる周辺確率も計算することが可能なはずで *1 ,
LaTeXのメモ。 LaTeXのtabularを見やすくするために, セルに色をつけたい時は colortblパッケージ を使えばよいらしい。 \usepackage{colortbl}してから, \cellcolor[gray]{0.7} 内容 & .. とか \cellcolor[rgb]{0.2,0.7,0.9} 内容 & .. のようにすればOK。 ただし, こうすると\clineを使って罫線を部分的に引いている時に, 罫線が色で上書きされてしまう(!)。 これは難しいですね的議論があったが, さらに調べるとCTANの colortblのページ の文書に対処法が書いてあって, そもそも \cline を使わずに, hhlineパッケージ を使えとのこと。 \usepackage{hhline}しておいてから, \cline{2-4}(たとえば) の代わりに, \hhline{~--
LaTeXのメモ。 LaTeXのtabularを見やすくするために, セルに色をつけたい時は colortblパッケージ を使えばよいらしい。 \usepackage{colortbl}してから, \cellcolor[gray]{0.7} 内容 & .. とか \cellcolor[rgb]{0.2,0.7,0.9} 内容 & .. のようにすればOK。 ただし, こうすると\clineを使って罫線を部分的に引いている時に, 罫線が色で上書きされてしまう(!)。 これは難しいですね的議論があったが, さらに調べるとCTANの colortblのページ の文書に対処法が書いてあって, そもそも \cline を使わずに, hhlineパッケージ を使えとのこと。 \usepackage{hhline}しておいてから, \cline{2-4}(たとえば) の代わりに, \hhline{~--
アラビア語形態素解析デキターー!!!! Xが単語境界です。 setenv LANG ar_AE.utf8 で行けました。 嬉しい。 教師データなんてものは一切使っていません(Arabic gigawordの生テキストのみ) ので注意。完全ベイズです。 語彙を見ると, それなりに高頻度なものが出ている感じです。 問題はこれを読めないことです。(T_T) 内部で先月Talkをした時に, 渡辺さん が, C/C++でこういう文字タイプの判別を行うにはIBMの ICU を使うといいと教えてくれた。 ICUはUnicodeを扱うフリーソフトで, 基本的にUTF-16を扱うもののようなので, 内部表現がUTF-16になるglibcでは, そのまま wchar_t や wstring の要素を渡すこと ができるようです。 ICUには正規表現やcharacter iteratorなど様々な機能があるようで
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く