タグ

2014年9月1日のブックマーク (2件)

  • Microsoft PowerPoint - Canon-MachineLearning27-jp.pptx

    Canon 2012年9月13日 トピックモデル概論 東京工業大学 計算工学専攻 杉山 将 sugi@cs.titech.ac.jp http://sugiyama-www.cs.titech.ac.jp/~sugi/ 概要 文書のモデル化は,自然言語処理や 機械学習の分野で盛んに研究されて いる 講義では,文書のモデル化技術の 発展の経緯を概観する 2 講義の流れ 1. 2. 3. 4. 5. 6. 潜在意味解析(LSA) 多項混合(MM)モデル ポリヤ混合(PM)モデル 確率的潜在意味解析(pLSA)モデル 潜在的ディリクレ配分(LDA)モデル 拡張LDAモデル 3 文書単語行列 :全文書データ(文書数 :文書(長さ ) :単語(語彙数 ) :文書 中の単語 の出現回数を 要素に持つ文書単語行列 (大きさ ,一般にスパース) ) 4 潜在意味解析(LSA) 文書

  • Mallet TopicModeling - decadence

    Mallet is MAchine Learning for LanguagE Toolkit MALLETはstatistical NLP, Document Classification, クラスタリング,トピックモデリング,情報抽出,及びその他のテキスト向け機会学習アプリケーションを行うためのJavaツール 特にLDAなどを含めたトピックモデルに関して得意としているようだ これらの処理を行う際に,すぐにpythonだ,GenSimだ,と言ってしまわないよう Javaでも出来る事を空いた時間に遊びも兼ねて触ってみようと思う. 公式のQuickStartも良いが,今回は以下のものを軽く翻訳しながらsample-dataをいじる Getting Started with Topic Modeling and MALLET データのインポート.enディレクトリ以下に,各文書ファイルが個々にt

    Mallet TopicModeling - decadence