こんにちは。白木(@YojiShiraki)です。デザイナーです。 前回はpolyglotを用いて英文から名詞を抽出する処理を行いました。今回は、その延長でLDAという手法にチャレンジしたいと思います。 背景 当社ではぼちぼち大量の自然文章データを取り扱っています。通常、これらのデータを読み解いてクライアントへの提案に繋げているのですが、概観を把握する場合は、膨大なデータを一つ一つ丁寧に読んでいる余裕などありません。 そうなると、できる限りメタ情報を付与して、対象データの中身を読まずにだいたい把握するニーズが高くなりますが、残念ながら最初からデータに豊かなメタ情報が付与されているケースは稀であり、あってもカテゴリが一つ与えられているくらいです。 そこで自分たちでメタ情報を付与できないか、ということでLDAをやってみたという流れです。 LDAとは? ざっくり言うと、対象となる文書がどういった
![お手軽に英文文書にメタ情報を!!Pythonでgensimを使ったLDAに挑戦してみた。 - astamuse Lab](https://cdn-ak-scissors.b.st-hatena.com/image/square/5ec35789aa457f9a88e0c1ff7cefdc2457326f55/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fa%2Fastamuse%2F20171101%2F20171101221349.jpg)