
エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
話題になっているトピックを抽出 - LDA with Spark MLlib - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
話題になっているトピックを抽出 - LDA with Spark MLlib - Qiita
LDA (Latent Dirichlet Allocation) は機械学習により大量のテキストデータから何がトピック (話題) と... LDA (Latent Dirichlet Allocation) は機械学習により大量のテキストデータから何がトピック (話題) となっているかを推測します。より具体的には文書集合内の単語の出現頻度 (Bag of Words) を特徴ベクトルとしてクラスタリングを行い、クラスタごとに中心に近い単語を抽出します。 例えば最近トレンドになっているキーワード (Twitter のトレンドのようなもの) や、サポートメールに含まれる単語から最近多い問い合わせのネタを抽出するようなケースで利用できます。 機能 Spark MLlib 1.6.0 の LDA では以下の機能が実装されています。 文書集合に含まれている単語を k 個のトピック (クラスタ) に分類。 あるトピックに含まれている (トピックを特徴付けている) 単語を重み付けし上位を抽出: LDAModel#discribeTopics