dayafterneetのブックマーク / 2013年3月19日

Dirichlet Process を用いたクラスタリング(PDF)

dayafterneet 2013/03/19

リンク

Labeled LDA: A supervised topic model for credit attribution in multi-labeled corpora(PDF)

The ACL Anthology is currently maintained at http://aclanthology.info/ Will bring you to the Server in a few seconds ...

dayafterneet 2013/03/19

リンク

Labeled LDA (Ramage+ EMNLP2009) の perplexity 導出と Python 実装 - 木曜不足

3年前に実装したものの github に転がして放ったらかしにしてた Labeled LDA (Ramage+ EM NLP2009) について、英語ブログの方に「試してみたいんだけど、どういうデータ食わせたらいいの？」という質問コメントが。うーん、そうね、そういうところ書いてないから全然わかんないよね。手に入りやすいコーパスをだれでも食わせられるようにしてあると、やっぱり評価しやすいよね。ということで、Labeled LDA に nltk のコーパスを食わせるスクリプトをさっくり書いてみた。 https://github.com/shuyo/iir/blob/master/lda/llda_nltk.py 同じディレクトリに llda.py がある状態で、そのまま起動すれば nltk.corpus.reuters から 100件のドキュメントをサンプリングして、適当なパラメータで La

dayafterneet 2013/03/19

リンク

LDA で実験その１:stop words の扱い方でどう変わる？ - 木曜不足

LDA Python 実装編 LDA 解説編というわけで連載じゃあないけど第3回。わざわざ自前で実装したんだから、LDA で細かい設定で実験してみる。 NLTK のブラウンコーパスの 0〜99 までの 100 個のドキュメントをコーパスとし、トピック数は K=20、ハイパーパラメータはα=0.5, β=0.5、イテレーションは 100 回、というのが基本条件。*1 そして stop words の扱いを「除外(-s 0)」、「除外しないで他の単語と同様に扱う(-s 1)」、そして「初期化時にストップワードを１つのトピック(k=0)に集中させる。その他の単語は残りのトピック(k>0)に分散させる (-s 2)」と変えてみて、それぞれ 10回推論を行わせて、perplexity やトピック-単語分布について確認する。ただし -s 0 のときは -s 2 との対比でトピック数 K=19 にして

dayafterneet 2013/03/19

リンク

Topicに基づく統計的言語モデルの最前線 PLSIからHDPまで

, 2006.3.13 Topic URL= http://www.mibel.cs.tsukuba.ac.jp/~myama/pdf/topic2006.pdf • – • ex. • – – – • • UM DM PLSI LDA [ 1999] HDP � �� Eurospeech 㖸㗀ቇળ⎇ⓥ⊒⴫ળ ᤐ ⛔ ⸘ ⊛ ⸒ ⺆ ࡕ ࠺ ࡞ 㑐 ㅪ ⺰ ᢥ ᢙ ࡐࠬ࠲࡯㒰ߊ㧕 1/2 • • n-gram – Noisy Channel Models – – • – – 2/2 • PLSI LDA Probabilisitic LSI Latent Dirichlet Allocation UM DM Unigram Mixtures Diri

dayafterneet 2013/03/19

リンク

latent Dirichlet allocation - 機械学習の「朱鷺の杜Wiki」

latent Dirichlet allocation (LDA)† probabilistic latent semantic analysis (pLSA) を改良した，文書集合の生成モデル．各文書は，\(k\)個の話題に応じて発生した語で構成されている．以下の過程で，文書に含まれる\(N\)個の語を生成する． \(N\sim\mathrm{Poisson}(\xi)\) … Poisson分布で語数を生成 \(\theta\sim\mathrm{Dir}(\alpha)\) … Dirichlet分布で，\(k\)個の話題を生成するモデルのパラメータを生成． \(N\)個のそれぞれの語\(w_n\)について (a) \(z_n\sim\mathrm{Multinomial}(\theta)\) … 多項分布で話題を生成 (b) 語\(w_n\)を，話題\(z_n\)で条件付けした分

dayafterneet 2013/03/19

リンク

ソ連ジョーク : 2chコピペ保存道場

dayafterneet 2013/03/19

リンク

痛いニュース(ﾉ∀`) : 38度線で警戒任務に当たっていた韓国人兵士が死亡 - ライブドアブログ

1 名前：マヌルネコ(愛知県)：2013/03/19(火) 14:40:03.20 ID:dZun94jU0 38度線で警戒任務に当たっていた韓国人兵士が死亡韓国メディアの18日付報道によれば、江原道（カンウォンド）鉄原（チョルウォン）郡の韓国と北朝鮮の国境にある歩哨所で17日午前、韓国の陸軍兵士1人が銃の事故により死亡した。中国国際放送局が報じた。韓国メディアによれば、死亡した兵士は事故発生時、鉄柵で北朝鮮の動向を見張る警戒任務にあたっていたとされ、韓国陸軍は遺体を解剖し、詳しい死因について調査を行っている。 http://news.searchina.ne.jp/disp.cgi?y=2013&d=0319&f=politics_0319_005.shtml 4 ：ピューマ(神奈川県)：2013/03/19(火) 14:41:20.00 ID:SinHo/Dc0 むじ

dayafterneet 2013/03/19

リンク

Pitman-Yor過程に基づく可変長n-gram言語モデル(PDF)

dayafterneet 2013/03/19

リンク

mots quotidiens.

無事NL研の発表が終わって, 京都に帰ってきました。発表は面白いと言ってくれた方が多く, よかったような気がします。論文のページに発表資料を置いておきましたので, ご興味のある方はどうぞ。小町君のブログから来ている人が沢山いるようなので, もし「日本語の文字が全部等確率」というのが気になった人がいたら, そうではないので安心して下さい, ということだけ書いておきます。正確には文字の生起確率=文字1-gramのさらに事前分布が均一になっているという意味で, どんな漢字や数字が出やすいか(文字1-gram), どんな文字の組み合わせが単語になりやすいか(文字2-gram, 3-gram, 4-gram, …)はすべてモデル化されています。なお, 発表では言わなかったのですが, 後ろ向き変数βを同様に導入すれば, 文字の間が切れる周辺確率も計算することが可能なはずで *1 ,

dayafterneet 2013/03/19

リンク

ノンパラベイズを勉強してみる (0) - nokunoの日記

昨日のNL190で以前より日記を拝見させていただいていた持橋さんの発表「ベイズ階層言語モデルによる教師なし形態素解析」がありました。辞書なしで文字単位のテキスト（コーパス）処理をして、情報理論的な基準で形態素解析（というか単語分割）を行うというもので、理論的にもよく考えられているようです。言語の文字列を階層Pitman-Yor過程による文字-単語階層nグラムモデルの出力とみなし, ベイズ学習を行うことで, 教師データや辞書を一切用いない形態素解析を可能にする。これにより, 教師データの存在しない古文や話し言葉,口語体などの形態素解析と言語モデルの作成が可能になる。発表は分かりやすく、結果はかな漢字変換にも応用が効きそうなもので、大変刺激を受けました。理論的な面については付け焼刃でなんとかなるようなものではなさそうなので、持橋さんのサイトで公開されている論文を読みながら勉強してみようと思いま

dayafterneet 2013/03/19

リンク

LDAを用いた著者推定(PDF)

dayafterneet 2013/03/19

リンク

Pachinko allocation - Wikipedia

This article relies excessively on references to primary sources. Please improve this article by adding secondary or tertiary sources. Find sources: "Pachinko allocation" – news · newspapers · books · scholar · JSTOR (September 2010) (Learn how and when to remove this message) In machine learning and natural language processing, the pachinko allocation model (PAM) is a topic model. Topic models ar

dayafterneet 2013/03/19

リンク

rep.dvi

Markov Cluster Algorithm Web † † Web Web Kleinberg HITS Web Web HITS Web Markov Cluster Algorithm ( ) Web The Discovery Method of Multiple Web Communities with Markov Cluster Algorithm Kazutami KATO† and Hiroshi MATSUO† A web community is a set of web pages created by individuals or associations with a common interest on a topic. Kleinberg’s HITS algorithm find a web community on a query topic by

dayafterneet 2013/03/19

リンク

GitHub - thallium205/BitcoinVisualizer: Creates a graph of the bitcoin blockchain and visually displays the "owner network" to the user's browser.

dayafterneet 2013/03/19

リンク

MapR获3000万美元融资，助力Hadoop深耕企业市场-36氪

dayafterneet 2013/03/19

リンク

JGibbLDA: A Java Implementation of Latent Dirichlet Allocation (LDA) using Gibbs Sampling for Parameter Estimation and Inference

JGibbLDA A Java Implementation of Latent Dirichlet Allocation (LDA) using Gibbs Sampling for Parameter Estimation and Inference http://jgibblda.sourceforge.net/ Copyright © 2008 by Xuan-Hieu Phan (pxhieu at gmail dot com), Graduate School of Information Sciences, Tohoku University Cam-Tu Nguyen (ncamtu at gmail dot com), College of Techno logy, Vietnam National University, Hanoi 1. Introduction 1.1

dayafterneet 2013/03/19

リンク

最近のベイズ理論の進展と応用 (III) ノンパラメトリックベイズ

dayafterneet 2013/03/19

リンク

“Inﬁnite LDA” – Implementing the HDP with minimum code complexity(PDF)

dayafterneet 2013/03/19

リンク

パラメトリックとノンパラメトリックの狭間 - risuo's blog

※この記事は、Machine Learning Advent Calendar 2012（http://qiita.com/advent-calendar/2012/machinelearning）の10日目用に書かれています。はじめに Machine Learning Advent Calendar 2012の10日目を担当します、@risuoku です。今回は、数ある機械学習手法の中で、以下の２つに焦点を当て、いくつかのアプローチを紹介します。回帰分析クラスタリング特に、パラメトリックな手法とノンパラメトリックな手法の違いや、それぞれの特徴の理解を目指しています。また、@risuokuはPRMLをよりどころに機械学習を勉強してきました。なので、この本の影響を強く受けていることを初めにお伝えしておきます。回帰分析「形」の発見突然ですが、以下の画像から、どんな知識が得られ

dayafterneet 2013/03/19

リンク

[機械学習] LDAのコードを書いてみた - tsubosakaの日記

昔書いたことがあったけど、どこかにいってしまったのでもう一度書いてみた。推論方法にはギブスサンプリングと変分ベイズの2つがあるけど、導出も実装もより楽なcollapsed gibbs sampling(Griffiths and Steyvers, PNAS, 2004)の方を採用。 Token.java package lda; public class Token { public int docId; public int wordId; public Token(int d , int w){ docId = d; wordId = w; } } LDA.java package lda; import java.util.*; public class LDA { int D; // number of document int K; // number of topic int

dayafterneet 2013/03/19

リンク

腾讯CDC

dayafterneet 2013/03/19

リンク

想像の斜め上をいくエピソードを持つ故人 : あごひげ海賊団

2013年03月19日12:00 カテゴリ画像想像の斜め上をいくエピソードを持つ故人仮面ライダーSPIRITS画集『改造人間』posted with AZlink at 2013.3.19村枝賢一,石ノ森章太郎講談社 Amazon.co.jp で詳細を見る「画像」カテゴリの最新記事タグ：#画像

dayafterneet 2013/03/19

リンク

บาคาร่าออนไลน์ Baccarat99 เว็บตรง ทางเข้าสมัครสมาชิก ฟรี 300

ท้าทาย เพิ่มเติมประสบการณ์ รวมไปถึงลุ้นเงินรางวัลได้อย่างมีอิสระ บาคาร่า99 ทางเลือกที่จะเข้ามาเติมเต็มให้กับนักพนันทุกคนอย่างทั่วถึง สำหรับคนทั่วไปที่มีความสนใจตัวเกมพนันออนไลน์ อยากจะให้เริ่มต้นกับทาง บาคาร่า99th ที่มีการเน้นบริการเกมพนันยอดนิยมระดับโลกอย่าง Baccarat เกมพนันที่กลายมาเป็นอันดับที่ 1 สามารถครองใจนักพนันไปทั่วโลก เนื่องจากว่าขึ้นชื่อว่าเกมพนัน จะต้องง่ายและหลากหลาย สามารถตอบสนองทั้ง

dayafterneet 2013/03/19

リンク

いよいよ鮮明化する“強い韓国経済”崩壊の足音グローバル市場の雄を脅かす3つのリスクと視界不良

1953年神奈川県生まれ。一橋大学商学部卒業後、第一勧業銀行（現みずほ銀行）入行。ロンドン大学経営学部大学院卒業後、メリル・リンチ社ニューヨーク本社出向。みずほ総研主席研究員、信州大学経済学部教授、法政大学大学院教授などを経て、2022年4月から現職。著書は「下流にならない生き方」「行動ファイナンスの実践」「はじめての金融工学」など多数。今週のキーワード　真壁昭夫経済・ビジネス・社会現象……。いま世の中で話題となっているトピックス、注目すべきイノベーションなどに対して、「キーワード」という視点で解説していきます。バックナンバー一覧「韓国経済悲観論」に信憑性はあるかウォン高だけに止まらない3つの不安最近、韓国経済に対する悲観的な見方が強くなっている。その背景には、足もとのウォン高による輸出の伸び悩みもあり、経済成長率が鈍化していることがある。また、朴新政権の閣僚人事の遅れなど、

dayafterneet 2013/03/19

リンク

http://arxiv.org/pdf/1010.3003&embedded=true&embedded=true

dayafterneet 2013/03/19

リンク

Correlating Financial Time Series with Micro-Blogging Activity

dayafterneet 2013/03/19

リンク

数学の興味深い話 : 哲学ニュースnwk

2013年03月18日23:55 数学の興味深い話 Tweet 1：以下、名無しにかわりましてVIPがお送りします：2013/03/17(日) 01:13:18.77 ID:Y3KPFH9h0 極限とか。是非教えてください。極限（きょくげん、limit）とは、あるものに限りなく近付くさま。物事の果て。数学においては、数列など、ある種の数学的対象をひとまとまりに並べて考えたものについての極限がしばしば考察される。数の列がある値に限りなく近づくとき、その値のことを数列の極限あるいは極限値といい、この数列は収束するという。 http://ja.wikipedia.org/wiki/極限数学SUGEEEEEEEEってなる話聞かせて http://blog.livedoor.jp/nwknews/archives/4249561.html 数学大好きな俺に数学のＳＵＧＥＥＥＥってなる事教えてく