3年前に実装したものの github に転がして放ったらかしにしてた Labeled LDA (Ramage+ EMNLP2009) について、英語ブログの方に「試してみたいんだけど、どういうデータ食わせたらいいの?」という質問コメントが。 うーん、そうね、そういうところ書いてないから全然わかんないよね。手に入りやすいコーパスをだれでも食わせられるようにしてあると、やっぱり評価しやすいよね。 ということで、Labeled LDA に nltk のコーパスを食わせるスクリプトをさっくり書いてみた。 https://github.com/shuyo/iir/blob/master/lda/llda_nltk.py 同じディレクトリに llda.py がある状態で、そのまま起動すれば nltk.corpus.reuters から 100件のドキュメントをサンプリングして、適当なパラメータで La
LDA Python 実装編 LDA 解説編 というわけで連載じゃあないけど第3回。わざわざ自前で実装したんだから、LDA で細かい設定で実験してみる。 NLTK のブラウンコーパスの 0〜99 までの 100 個のドキュメントをコーパスとし、トピック数は K=20、ハイパーパラメータはα=0.5, β=0.5、イテレーションは 100 回、というのが基本条件。*1 そして stop words の扱いを「除外(-s 0)」、「除外しないで他の単語と同様に扱う(-s 1)」、そして「初期化時にストップワードを1つのトピック(k=0)に集中させる。その他の単語は残りのトピック(k>0)に分散させる (-s 2)」と変えてみて、それぞれ 10回推論を行わせて、perplexity やトピック-単語分布について確認する。ただし -s 0 のときは -s 2 との対比でトピック数 K=19 にして
, 2006.3.13 Topic URL= http://www.mibel.cs.tsukuba.ac.jp/~myama/pdf/topic2006.pdf • – • ex. • – – – • • UM DM PLSI LDA [ 1999] HDP � �� �� �� �� �� ��������������������������������������������������������� Eurospeech 㖸㗀ቇળ⎇ⓥ⊒ળ ᤐ ⛔ ⸘ ⊛ ⸒ ⺆ ࡕ ࠺ ࡞ 㑐 ㅪ ⺰ ᢥ ᢙ ࡐࠬ࠲㒰ߊ㧕 1/2 • • n-gram – Noisy Channel Models – – • – – 2/2 • PLSI LDA Probabilisitic LSI Latent Dirichlet Allocation UM DM Unigram Mixtures Diri
latent Dirichlet allocation (LDA)† probabilistic latent semantic analysis (pLSA) を改良した,文書集合の生成モデル.各文書は,\(k\)個の話題に応じて発生した語で構成されている. 以下の過程で,文書に含まれる\(N\)個の語を生成する. \(N\sim\mathrm{Poisson}(\xi)\) … Poisson分布で語数を生成 \(\theta\sim\mathrm{Dir}(\alpha)\) … Dirichlet分布で,\(k\)個の話題を生成するモデルのパラメータを生成. \(N\)個のそれぞれの語\(w_n\)について (a) \(z_n\sim\mathrm{Multinomial}(\theta)\) … 多項分布で話題を生成 (b) 語\(w_n\)を,話題\(z_n\)で条件付けした分
1 名前: マヌルネコ(愛知県):2013/03/19(火) 14:40:03.20 ID:dZun94jU0 38度線で警戒任務に当たっていた韓国人兵士が死亡 韓国メディアの18日付報道によれば、江原道(カンウォンド)鉄原(チョルウォン)郡の韓国と北朝鮮の国境にある歩哨所で17日午前、韓国の陸軍兵士1人が銃の事故により死亡した。中国国際放送局が報じた。 韓国メディアによれば、死亡した兵士は事故発生時、鉄柵で北朝鮮の動向を見張る警戒任務にあたっていたとされ、韓国陸軍は遺体を解剖し、詳しい死因について調査を行っている。 http://news.searchina.ne.jp/disp.cgi?y=2013&d=0319&f=politics_0319_005.shtml 4 : ピューマ(神奈川県):2013/03/19(火) 14:41:20.00 ID:SinHo/Dc0 むじ
無事NL研の発表が終わって, 京都に帰ってきました。 発表は面白いと言ってくれた方が多く, よかったような気がします。 論文のページ に発表資料を置いておきましたので, ご興味のある方はどうぞ。 小町君のブログから来ている人が沢山いるようなので, もし「日本語の文字が全部等確率」というのが気になった人がいたら, そうではない ので安心して下さい, ということだけ書いておきます。 正確には文字の生起確率=文字1-gramのさらに事前分布が均一になっているという 意味で, どんな漢字や数字が出やすいか(文字1-gram), どんな文字の組み合わせが 単語になりやすいか(文字2-gram, 3-gram, 4-gram, …)はすべてモデル化されて います。 なお, 発表では言わなかったのですが, 後ろ向き変数βを同様に導入すれば, 文字の間が切れる周辺確率も計算することが可能なはずで *1 ,
昨日のNL190で以前より日記を拝見させていただいていた持橋さんの発表「ベイズ階層言語モデルによる教師なし形態素解析」がありました。辞書なしで文字単位のテキスト(コーパス)処理をして、情報理論的な基準で形態素解析(というか単語分割)を行うというもので、理論的にもよく考えられているようです。言語の文字列を階層Pitman-Yor過程による文字-単語階層nグラムモデルの出力とみなし, ベイズ学習を行うことで, 教師データや辞書を一切用いない形態素解析を可能にする。これにより, 教師データの存在しない古文や話し言葉,口語体などの形態素解析と言語モデルの作成が可能になる。発表は分かりやすく、結果はかな漢字変換にも応用が効きそうなもので、大変刺激を受けました。理論的な面については付け焼刃でなんとかなるようなものではなさそうなので、持橋さんのサイトで公開されている論文を読みながら勉強してみようと思いま
This article relies excessively on references to primary sources. Please improve this article by adding secondary or tertiary sources. Find sources: "Pachinko allocation" – news · newspapers · books · scholar · JSTOR (September 2010) (Learn how and when to remove this message) In machine learning and natural language processing, the pachinko allocation model (PAM) is a topic model. Topic models ar
Markov Cluster Algorithm Web † † Web Web Kleinberg HITS Web Web HITS Web Markov Cluster Algorithm ( ) Web The Discovery Method of Multiple Web Communities with Markov Cluster Algorithm Kazutami KATO† and Hiroshi MATSUO† A web community is a set of web pages created by individuals or associations with a common interest on a topic. Kleinberg’s HITS algorithm find a web community on a query topic by
JGibbLDA A Java Implementation of Latent Dirichlet Allocation (LDA) using Gibbs Sampling for Parameter Estimation and Inference http://jgibblda.sourceforge.net/ Copyright © 2008 by Xuan-Hieu Phan (pxhieu at gmail dot com), Graduate School of Information Sciences, Tohoku University Cam-Tu Nguyen (ncamtu at gmail dot com), College of Technology, Vietnam National University, Hanoi 1. Introduction 1.1
※この記事は、Machine Learning Advent Calendar 2012(http://qiita.com/advent-calendar/2012/machinelearning)の10日目用に書かれています。 はじめに Machine Learning Advent Calendar 2012の10日目を担当します、@risuoku です。 今回は、数ある機械学習手法の中で、以下の2つに焦点を当て、いくつかのアプローチを紹介します。 回帰分析 クラスタリング 特に、パラメトリックな手法とノンパラメトリックな手法の違いや、それぞれの特徴の理解を目指しています。 また、@risuokuはPRMLをよりどころに機械学習を勉強してきました。なので、この本の影響を強く受けていることを初めにお伝えしておきます。 回帰分析 「形」の発見 突然ですが、以下の画像から、どんな知識が得られ
昔書いたことがあったけど、どこかにいってしまったのでもう一度書いてみた。推論方法にはギブスサンプリングと変分ベイズの2つがあるけど、導出も実装もより楽なcollapsed gibbs sampling(Griffiths and Steyvers, PNAS, 2004)の方を採用。 Token.java package lda; public class Token { public int docId; public int wordId; public Token(int d , int w){ docId = d; wordId = w; } } LDA.java package lda; import java.util.*; public class LDA { int D; // number of document int K; // number of topic int
ท้าทาย เพิ่มเติมประสบการณ์ รวมไปถึงลุ้นเงินรางวัลได้อย่างมีอิสระ บาคาร่า99 ทางเลือกที่จะเข้ามาเติมเต็มให้กับนักพนันทุกคนอย่างทั่วถึง สำหรับคนทั่วไปที่มีความสนใจตัวเกมพนันออนไลน์ อยากจะให้เริ่มต้นกับทาง บาคาร่า99th ที่มีการเน้นบริการเกมพนันยอดนิยมระดับโลกอย่าง Baccarat เกมพนันที่กลายมาเป็นอันดับที่ 1 สามารถครองใจนักพนันไปทั่วโลก เนื่องจากว่าขึ้นชื่อว่าเกมพนัน จะต้องง่ายและหลากหลาย สามารถตอบสนองทั้ง
1953年神奈川県生まれ。一橋大学商学部卒業後、第一勧業銀行(現みずほ銀行)入行。ロンドン大学経営学部大学院卒業後、メリル・リンチ社ニューヨーク本社出向。みずほ総研主席研究員、信州大学経済学部教授、法政大学大学院教授などを経て、2022年4月から現職。著書は「下流にならない生き方」「行動ファイナンスの実践」「はじめての金融工学」など多数。 今週のキーワード 真壁昭夫 経済・ビジネス・社会現象……。いま世の中で話題となっているトピックス、注目すべきイノベーションなどに対して、「キーワード」という視点で解説していきます。 バックナンバー一覧 「韓国経済悲観論」に信憑性はあるか ウォン高だけに止まらない3つの不安 最近、韓国経済に対する悲観的な見方が強くなっている。その背景には、足もとのウォン高による輸出の伸び悩みもあり、経済成長率が鈍化していることがある。 また、朴新政権の閣僚人事の遅れなど、
2013年03月18日23:55 数学の興味深い話 Tweet 1:以下、名無しにかわりましてVIPがお送りします:2013/03/17(日) 01:13:18.77 ID:Y3KPFH9h0 極限とか。是非教えてください。 極限(きょくげん、limit)とは、あるものに限りなく近付くさま。物事の果て。 数学においては、数列など、ある種の数学的対象をひとまとまりに並べて考えたものについての極限がしばしば考察される。数の列がある値に限りなく近づくとき、その値のことを数列の極限あるいは極限値といい、この数列は収束するという。 http://ja.wikipedia.org/wiki/極限 数学SUGEEEEEEEEってなる話聞かせて http://blog.livedoor.jp/nwknews/archives/4249561.html 数学大好きな俺に数学のSUGEEEEってなる事教えてく
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く