simakawaのブックマーク / 2014年9月1日

simakawa id:simakawa

2014年9月1日のブックマーク (2件)

Microsoft PowerPoint - Canon-MachineLearning27-jp.pptx
Canon ２０１２年９月１３日トピックモデル概論東京工業大学計算工学専攻杉山将 sugi@cs.titech.ac.jp http://sugiyama-www.cs.titech.ac.jp/~sugi/ 概要文書のモデル化は，自然言語処理や機械学習の分野で盛んに研究されている本講義では，文書のモデル化技術の発展の経緯を概観する 2 講義の流れ 1. 2. 3. 4. 5. 6. 潜在意味解析（LSA）多項混合（MM）モデルポリヤ混合（PM）モデル確率的潜在意味解析（pLSA）モデル潜在的ディリクレ配分（LDA）モデル拡張LDAモデル 3 文書単語行列：全文書データ（文書数：文書（長さ）：単語（語彙数）：文書中の単語の出現回数を要素に持つ文書単語行列（大きさ，一般にスパース）） 4 潜在意味解析（LSA）文書
simakawa 2014/09/01
LDA

アルゴリズム

機械学習

トピックモデル

LSA

NLP

自然言語処理

PLSA
リンク
Mallet TopicModeling - decadence
Mallet is MAchine Learning for LanguagE Toolkit MALLETはstatistical NLP, Document Classification, クラスタリング，トピックモデリング，情報抽出，及びその他のテキスト向け機会学習アプリケーションを行うためのJavaツール特にLDAなどを含めたトピックモデルに関して得意としているようだこれらの処理を行う際に，すぐにpythonだ，GenSimだ，と言ってしまわないよう Javaでも出来る事を空いた時間に遊びも兼ねて触ってみようと思う．公式のQuickStartも良いが，今回は以下のものを軽く翻訳しながらsample-dataをいじる Getting Started with Topic Modeling and MALLET データのインポート．enディレクトリ以下に，各文書ファイルが個々にt
simakawa 2014/09/01
LDA

Java

ツール
リンク
- 2014年11月9日
- 2014年9月1日
- 2014年8月19日