毎日新聞91年分のデータを語数10000,話題数100でLDAにかけた.ただし語は自立語の基本形のみ. 確認のため,各トピックkについてmodel.betaから取ってきたP(w|k)らしきものの順に単語wを出してみた.32個目のトピックはこんな感じ. topic 32: 県,市,町,郡,同,千葉,神奈川,日,埼玉,静岡,長野,兵庫,奈良,愛知,福島,新潟,村,茨城,広島,青森,和歌山,福岡,鹿児島,岐阜,山梨,熊本,群馬,滋賀,石川,栃木 県名がうまくまとまってる. 「何日どこどこで〜〜があった。」みたいな新聞記事でよく出てきそうなトピックをあらわしてるのかな. わかりやすいところでは他にも選挙のトピック topic 98: 選挙,制,区,小,制度,総,導入,定数,比例,人口,代表,是正,する,議員,政党,衆院,中,人,答申,配分,都道府県,最大,行う,案,自民党,数,来年,実施,倍,全国