ozw3253t2c0390aのブックマーク / 2015年4月28日

ozw3253t2c0390a id:ozw3253t2c0390a

2015年4月28日のブックマーク (5件)

LDAについて
トピックモデル（今回はLDA: 潜在的ディリクレ配分法）について、今後自分で実装したり研究に生かしたりしたいと思ったので、すごく簡単な例で考えてみました。（肝心なD（ディリクレ分布）についてはスルーしている・・・汗）何か間違いとか指摘とかあれば教えて頂けると嬉しいです。トピック同じ文書内で使われる確率が高いような、似た意味を持つ単語の集まり。例えば政治のトピックなら、「選挙」「国会」「内閣」が出やすい。トピックモデルでは、文書のトピック（文書で、どのトピックがどのくらい出やすいか）と、トピックの単語（トピックで、どの単語がどのくらい出やすいか）を求める。参考URL: http://sucrose.hatena blog.com/entry/20120322/p1 以下、具体例を用いて具体的に流れを追ってみる。参考URL: http://blog.echen.me/2011/
ozw3253t2c0390a 2015/04/28
すごくわかりやすい

自然言語処理

LDA
リンク
PythonでLDAを実装してみる
Latent Dirichlet Allocationはテキストのような不連続データのための生成的確率モデル。入力はドキュメント。出力はドキュメントを特徴づける何か（tf-idfみたいなもん）。基本的なアイディアは、あるドキュメントは潜在的ないくつかのトピックが混合していて、それぞれのトピックは語の分布で特徴づけられている、ということ。論文[1]ではαとβというパラメータを用いてドキュメントが以下のように生成されると仮定している。ドキュメントのトピックの分布θがディリクレ分布Dir(α)に基づいて選ばれる。ドキュメントの語数N個になるまで以下を繰り返す。トピックznが多項分布Mult(θ)に基づいて選ばれる。単語wnが確率p(wn|zn,β)で選ばれる。ただし、トピックzの数をk個、単語wの種類をV個とすると、パラメータαはk次元のベクトル、βはk x V次元の行列でβij=
ozw3253t2c0390a 2015/04/28
リンク
Graham Neubig's Teaching
Classes Spring 2024: Advanced NLP (CS11-711 @ CMU) Fall 2022: Advanced NLP (CS11-711 @ CMU) Spring 2022: Multilingual NLP (CS11-737 @ CMU) Fall 2021: Advanced NLP (CS11-711 @ CMU) Spring 2021: Neural Networks for NLP (CS11-747 @ CMU) Fall 2020: Multilingual NLP (CS11-737 @ CMU) Spring 2020: Neural Networks for NLP (CS11-747 @ CMU) Fall 2019: Machine Translation and Sequence-to-sequence Models (CS1
ozw3253t2c0390a 2015/04/28
リンク
python - 機械学習の「朱鷺の杜Wiki」
python一般† python.org：公式サイト Wiki Package Index iOS用Python環境 Computable Python for iOS Python Math PyPad Pythonista 英語資料 Python Course：Python のいろいろなトピックについての講義を集めたサイト Python Quick Reference @ Richard Gruet (旧版日本語訳) Google's Python Class OLamp.com -- Python Dev Center：O'Reillyのpython関連ニュース Python Miro Community：チュートリアル講演ビデオのポータル Wikipedia:Python_(programming_language) Python tools that everyone shou
ozw3253t2c0390a 2015/04/28
リンク
大辞林のデータについて。大学のレポートの一部で、大辞林一冊は何バイト分にあたるかという問いが出ました。 - 私は大辞林の総文字数を... - Yahoo!知恵袋
大辞林のデータについて。大学のレポートの一部で、大辞林一冊は何バイト分にあたるかという問いが出ました。大辞林のデータについて。大学のレポートの一部で、大辞林一冊は何バイト分にあたるかという問いが出ました。私は大辞林の総文字数を概算して、2バイトをかければよいのではないかと思ったのですが、この方法で求めることは可能でしょうか。もし考え違いや、ほかの方法があるのでしたらアドバイスをお願いしたいです。
ozw3253t2c0390a 2015/04/28
リンク
- 2015年4月29日
- 2015年4月28日
- 2015年4月27日