mamorukのブックマーク - はてなブックマーク

mailaddresses

mamoruk 2012/04/13

自分もこういうのを作って整理してみたいが、思い出せないアカウントもあるな〜

リンク

Type based MCMC: mots quotidiens.

Percy Liang の "Type-Based MCMC" (NAACL 2010) [PDF] を何回かに分けて読んでいて, ようやくほぼ理解できた。これはすごい論文です。非常に基礎的な話で, 統計の専門ジャーナルにも余裕で通る話だと思いましたが, NAACLという。Michael Jordanが第2(第3でなく)著者なので, 恐らく Jordan のテイストが結構入っているのだと思います。よくこれだけの内容を8ページに書いたなぁ..というのが最初の感想で, ちなみに, かなりベイズ的な議論に慣れていないと, 普通の自然言語処理の人だとそもそも何を言っているのかさっぱりわからないかも知れないと思いました。少し前に情処論文誌でトンデモ査読をされて唖然としたので, 余計にそう思うのかもしれませんが..。 *1 内部のベイズ勉強会では別の話 ("Painless Unsuperv

mamoruk 2010/06/10

NLP
NAACL

リンク

mots quotidiens.

たまたま検索していて, http://52nlp.cn 「我愛自然語言処理」という中国の非常に充実した自然言語処理サイトがあるのを知った。 2009年4月の「自然語言処理及計算語言学常見縮略語」 (以下, 簡体字を僕に分かる範囲で日本語の漢字に翻案) なんかを見ると, NLPの専門用語をどうやって漢字で言うかがわかって面白い。 SVMは支持向量機, CRFは条件随機場で, PLSAは「概率潜在語義分析」らしい。中国語と言っても専門領域なので, 漢文の知識で大体は読める感じです。 ACL 2010に(中国)国内からどれ位通ったか, のようなエントリ「ACL 2010Paper国内研究単位録用情況」があったり。中科院(中国科学院のことだと思われる)や微軟(マイクロソフト), 北京大学からは通っているが, 清華大学がないのは単にNLPで強力な先生がいないということかな, と想像。

mamoruk 2010/05/09

我愛自然語言処理

リンク

mots quotidiens.

何だか最近硬いことばかり書いている気がするので。朝9:22天王寺発のオーシャンアロー3号に乗って, 南紀・紀伊勝浦に行ってきました。この日記には書いていないですが, 博士課程を修了した時(2005年)に記念に個人的に本州最南端の串本・潮岬に行っていて, その時に南紀の本場はやはり紀伊勝浦だという思いがあって(例えば, かつての寝台特急「紀伊」は東京-紀伊勝浦を結んでいたし, 今でも特急ワイドビュー南紀は紀伊勝浦止まりだったりする), まだ行っていない所がある, と思って気になっていました。去年お花見に行った山中渓の今年も満開の桜をグリーン車の窓から見て通りすぎた後, 列車はいよいよ白浜から南紀へ。串本まで乗った時はそう思わなかったのですが, 串本―紀伊勝浦間の海は青いというより, まさにトルコブルーで, オーシャンアローの色がそうなっているのも分かる気がします。 *

mamoruk 2010/04/15

准教授相当職とのことで、おめでとうございます！

NAIST

リンク

mots quotidiens.

連休中に学習させておいた毎日新聞と New York Times のモデルを置いておきました。ただ, 教師なし学習に共通することですが, (識別学習のように「ルール」を使うわけではないので)適用したいドメインのテキストで直接学習した方が, 結果が良いようです。データが少ないと, nグラムのスパースさに引きずられて, 意味的というより文法的な同意語が出てしまうようになる模様。さて, 潜在語言語モデルは, NLPの立場からは観測値のnグラムをそのまま使うのではなく, 「真のnグラム」を推定して, そこから観測語が生まれたと考えるモデルですが, この学習は言うほど簡単ではありません。各単語について数万次元(=語彙次元)の隠れ変数が存在するため, EMアルゴリズムで Forward-Backwardを使おうとすると, 数億を超える組み合わせのテーブルを計算することになってしまう

mamoruk 2010/03/26

やはり実装上の工夫がかなりなされていた。これ真面目にやると破綻するなーと思っていた……

NLP

リンク

lwlm, The Latent Words Language Model.

Daichi Mochihashi NTT Communication Science Laboratories $Id: lwlm.html,v 1.1 2010/03/19 10:15:06 daichi Exp $ lwlm is an exact, full Bayesian implementation of the Latent Words Language Model (Deschacht and Moens, 2009). It automatically learns synonymous words to infer context-dependent "latent word" for each word appearance, in a completely unsupervised fashion. Technically, LWLM is a higher-or

mamoruk 2010/03/20

NLP

リンク

mots quotidiens.

連携講座関係の打ち合わせでCS研に来られた京大の田中先生に, ずっとお話を伺う。色々なお話を聞いて, 本当楽しかったです。最近つくづく思うことは, もし関西に来ずに東京にずっといたら, こういう機会はまずなかっただろうなぁ, ということ。日本の自然言語処理の実質上の本場である京阪奈に来て(京阪奈がそうなのは, 結局長尾先生の影響だと思います), 関西の色々な方と話すことができているのは, 非常に貴重な経験だと思っている。あまり就職先等を選ぶときにそういうことを気にしている人は少ないのかも知れないですが..。

mamoruk 2010/02/15

「もし関西に来ずに東京にずっといたら, こういう機会はまずなかっただろうなぁ」「あまり就職先等を選ぶときにそういうことを気にしている人は少ないのかも」確かに。

研究

リンク

mots quotidiens.

あまり前の仕事にこだわるつもりはないのですが, 来週NTT R&Dの偉い人へのプレゼン& NTT言語系内部コロキウム＠横須賀でデモをするので, 言語モデルからランダムウォーク生成してみました。 (実は論文にある通り, 学習の際に単語モデルからモンテカルロ法の中で生成しているのですが, あまり真面目に結果を見ていなかった。) 英語の単語モデル(文字∞-gram)から生成した例。(Penn Treebank+オバマ就任演説) sj:~/work/segment/src% ./spygen -c -n 30 ../model/obama+ptb varied grain classistor ruminus read headof myhome eastgo smoke her garry nexty . hunkyu stify feckless s dinnie ener stis pi

mamoruk 2010/01/20

ランダム源氏物語は文字nグラムじゃないっぽいですね

リンク

mots quotidiens.

IBIS 2009 が終わって, 博多の九大医学部から京都に帰ってきました。今年は各所への色々なアナウンスのせいか, 去年の160人をさらにしのぐ215人の参加者があったそうで, 東京並みだそうです。渡部さんと二人で企画した二日目のセッション『音声・音響処理と機械学習』も無事に終わり, 内容の濃い話が続いて, 個人的にはかなり面白いセッションになったのではないかと思いました(多分)。上のページから講演者の方の発表スライドがすべて見られますのでどうぞ。一日目のセッション『金融リスクと統計的学習』も勉強になりまくりでした。ただ, 普通半年で話す内容を30分で話す(極値統計学)という凄いことになっていた上, 午前中に休憩がなかったので, 集中力を維持するのが結構大変でした。僕は極値統計学を予習していたので, 説明を超速で飛ばされても多少大丈夫でしたが, 普通は辛いかもという気

mamoruk 2009/10/29

リンク

mots quotidiens.

ついに一般人の軍門に下って(?), ハリーポッター [Vicipaedia] を買ってしまいました。(笑) 上の写真はクリックすると大きくなります。訳者のPeter Needham氏はイートン校の古典の先生だったのだそうです。同時に "X-Treme Latin" (amazon) という本も買ってしまったのですが(まだ届いていない), こちらの著者の Henry Beard氏はハーバードでラテン語を学んで Harvard Lampoon というハーバードのユーモア学内誌 (があるらしい。日本で言うと時代錯誤社みたいなものか) の編集長だったらしい。二人ともなるほどというか..。以下自分用のメモ代わり。ちょっと調べると, イートン校で使われてきた "The Eton Latin Grammar"がGoogle Booksで読めるようです。 [LINK] 1856年版の全文 [LI

mamoruk 2009/09/26

イートン校といえば武蔵と毎年交換留学しているのでなじみ深いです

リンク

mots quotidiens.

9月1日から, Washingtonの Kevin Duh がRA *1 として言語グループに来たらしい。(らしいというのは, 僕は学習グループなので階が違うため, まだ会っていないから。) マジですか。 sjx002:~% ypcat passwd | grep kevin kevinduh:********:21798:800:Kevin Duh:/chisho/kevinduh:/bin/bash きっと鈴木さん効果なのだと思いますが, CS研最強すぎる..。これまでに, NAISTにもATRにもCS研にも外国人の方はいましたが, 誰でも知っている有名な人が来るのは知っている限り, 初めてなような気がする。実際のところ, 外国人が日本で研究する場合は漢字の問題が大きいようで, (Duhは台湾の出身の方みたいですが) 中国や韓国, 香港, 台湾の場合は比較的壁が薄いので,

mamoruk 2009/09/03

Kevin は前も NTT SP 研でインターンしてましたね。海外に行くっての、ありだと思います！

NLP
就活

リンク

mots quotidiens.

工藤君のエントリ面白いですね。工藤君は「ハードウェア」寄りなのでそちらの方が多いですが, 僕はどう見ても「ソフトウェア」プログラマなので, *1 「ソフトウェア」プログラマの方に対応する記述を追加。何が「最適」かはユニークには決まらないと思っている様々なハードの持つ違いに興味がある CやC++だけでなく, 様々な言語を知りたい電車のスケジューリングを決める統計的基礎に興味がある数学は美学だ折り紙やレゴブロックが好き僕は自分がソフトウェア寄りなので, 逆に最適化や省メモリ化を意識的に考えないといけないと思っていて, LispやHaskellではなく, あえてCやC++で書いているのもそういう理由だったりします。ただ, 最近は Stalin という超最適化 scheme コンパイラが超爆速(普通のCより速い) という話を聞いているので, 若干揺れています。 *2 それと面

mamoruk 2009/07/21

「僕は自分がソフトウェア寄りなので, 逆に最適化や省メモリ化を意識的に考えないといけないと思っていて, LispやHaskellではなく, あえてCやC++で書いているのもそういう理由」

研究

リンク

mots quotidiens.

信学会のノンパラメトリックベイズ講座をようやく書き終えました。具体的な学習例(上のイメージ)や細かい図を描く必要があり, 結局連休後半からずっとかかった気がします。最後のページではInfinite HMM (NIPS 2001) [pdf] の紹介をしています。ちょうど岡野原君がohmmをリリースした所で, やたらとタイミングがいいのですが..。 HMMはよく考えるとかなり凄いモデルですが, 上のohmmも含め, 普通のHMMは隠れ状態の数は事前にセットしておく必要があります。これに対し, IHMMは隠れ状態の総数すらも観測データを見るだけで決めてくれるという驚異的なモデルで, 僕はD3の時(2003年くらい)に知って, かなり感動しました。ただ, IHMMは理論を理解するのもそうですが, 実装がかなりややこしいので *1 僕は実際に実装はしていなかったのですが, 最近素晴

mamoruk 2009/05/23

Infinite HMM の紹介。

リンク

mots quotidiens.

ACLに通りました。 "Bayesian Unsupervised Word Segmentation with Nested Pitman-Yor Language Modeling". Daichi Mochihashi, Takeshi Yamada, Naonori Ueda, ACL-IJCNLP 2009, to appear. これで落ちたら完全にACLを見限るところだったので, とりあえずよかった, と思います。 *1 ただ, Accepted Papers を見ると, 明らかにACLレベルなものとかなりmarginalに見える論文が混じっていて, 微妙な感じもします。実際, 査読の時に明らかに素晴らしいアイデアだと思った論文が通っていなかったりして, *2 きっとどうでもいい細かい所をつつかれて落とされたんだろうな, という気がします。通っていないので, 内容を紹介

mamoruk 2009/04/15

ひきこもごもですね

NLP

リンク

mots quotidiens.

無事NL研の発表が終わって, 京都に帰ってきました。発表は面白いと言ってくれた方が多く, よかったような気がします。論文のページに発表資料を置いておきましたので, ご興味のある方はどうぞ。小町君のブログから来ている人が沢山いるようなので, もし「日本語の文字が全部等確率」というのが気になった人がいたら, そうではないので安心して下さい, ということだけ書いておきます。正確には文字の生起確率=文字1-gramのさらに事前分布が均一になっているという意味で, どんな漢字や数字が出やすいか(文字1-gram), どんな文字の組み合わせが単語になりやすいか(文字2-gram, 3-gram, 4-gram, …)はすべてモデル化されています。なお, 発表では言わなかったのですが, 後ろ向き変数βを同様に導入すれば, 文字の間が切れる周辺確率も計算することが可能なはずで *1 ,

mamoruk 2009/03/28

教師なし形態素解析の発表資料(スライドもおもしろかった。ちぃちゃんが出てくる)

NLP

リンク

教師なし形態素解析 - mots quotidiens.

LaTeXのメモ。 LaTeXのtabularを見やすくするために, セルに色をつけたい時は colortblパッケージを使えばよいらしい。 \usepackage{colortbl}してから, \cellcolor[gray]{0.7} 内容 & .. とか \cellcolor[rgb]{0.2,0.7,0.9} 内容 & .. のようにすればOK。ただし, こうすると\clineを使って罫線を部分的に引いている時に, 罫線が色で上書きされてしまう(!)。これは難しいですね的議論があったが, さらに調べるとCTANの colortblのページの文書に対処法が書いてあって, そもそも \cline を使わずに, hhlineパッケージを使えとのこと。 \usepackage{hhline}しておいてから, \cline{2-4}(たとえば) の代わりに, \hhline{~--

mamoruk 2009/03/12

教師なし形態素解析の原稿公開。すごいなー

NLP

リンク

mots quotidiens.

LaTeXのメモ。 LaTeXのtabularを見やすくするために, セルに色をつけたい時は colortblパッケージを使えばよいらしい。 \usepackage{colortbl}してから, \cellcolor[gray]{0.7} 内容 & .. とか \cellcolor[rgb]{0.2,0.7,0.9} 内容 & .. のようにすればOK。ただし, こうすると\clineを使って罫線を部分的に引いている時に, 罫線が色で上書きされてしまう(!)。これは難しいですね的議論があったが, さらに調べるとCTANの colortblのページの文書に対処法が書いてあって, そもそも \cline を使わずに, hhlineパッケージを使えとのこと。 \usepackage{hhline}しておいてから, \cline{2-4}(たとえば) の代わりに, \hhline{~--

mamoruk 2009/03/07

グラフ上で到達確率を計算するのに接続行列を何回も掛ける必要はなく, モンテカルロ実験を繰り返して到達するかどうか見ればよい, というのは最近DBで流行っているらしいですが, 60年前の論文ですでにUlamが言っていた

ML

リンク

mots quotidiens.

アラビア語形態素解析デキターー!!!! Xが単語境界です。 setenv LANG ar_AE.utf8 で行けました。嬉しい。教師データなんてものは一切使っていません(Arabic gigawordの生テキストのみ) ので注意。完全ベイズです。語彙を見ると, それなりに高頻度なものが出ている感じです。問題はこれを読めないことです。(T_T) 内部で先月Talkをした時に, 渡辺さんが, C/C++でこういう文字タイプの判別を行うにはIBMの ICU を使うといいと教えてくれた。 ICUはUnicodeを扱うフリーソフトで, 基本的にUTF-16を扱うもののようなので, 内部表現がUTF-16になるglibcでは, そのまま wchar_t や wstring の要素を渡すことができるようです。 ICUには正規表現やcharacter iteratorなど様々な機能があるようで

mamoruk 2009/01/30

リンク

はてなブックマーク

タグ

ブックマーク / chasen.org/~daiti-m (18)

お知らせ

今週のはてなブックマーク数ランキング（2025年4月第3週）

今週のはてなブックマーク数ランキング（2025年4月第2週）

今週のはてなブックマーク数ランキング（2025年4月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス