概要 最近、LDAを(pythonで)実装する機会がありました。 サンプリングを用いる実装だったので、Python等のスクリプト言語だとどうしても計算時間が問題になってしまいます(特に大規模なデータに対して)。 せっかくなのでコンパイル系の言語であるJavaで実装し直し、ついでに日本語PDFファイル(というか日本語論文)をLDAで分析してみました。 全体的な手順としては、 PDFからテキスト抽出 正規表現で日本語を抽出 Mecabで形態素解析 特徴語(今回は名詞)の選択 ストップワードの除去 LDAで分析 となっています。 分析に使ったLDAの実装やスクリプトはGithubにあります。 LDAのJava実装 https://github.com/breakbee/LDA4J PDF分析のスクリプト https://github.com/breakbee/PDFAnalysis Python