タグ

Pythonとapacheに関するs-fengのブックマーク (1)

  • Spark mllibのPrefixSpan実装 - Qiita

    はじめに この記事はApache Spark Advent Calendar 2015の7日目の記事です。 Spark 1.5から系列パターンマイニングアルゴリズムの1つ PrefixSpanがmllibに実装されました。 我々は文書や検索クエリー内のキーワードの並びから有益な情報を抽出する目的でPrefixSpanアルゴリズムに以前より興味を持っていました。 OSSで公開されているPrefixSpan実装はオンメモリー上でデータを処理するため、大規模データを処理することが難しかったのですが、Sparkを使った分散PrefixSpan実装が登場したことで、大規模データに対して系列パターン抽出が可能になりました。 今回は、このSpark mllibの分散PrefixSpan実装が、どのくらいのサイズのデータを、どのくらいの処理時間で処理できるのかを確認するために、日語ngramコーパス [

    Spark mllibのPrefixSpan実装 - Qiita
    s-feng
    s-feng 2017/05/16
    Apache Spark でのPrefixSpanの実装
  • 1