タグ

2017年6月27日のブックマーク (3件)

  • How to use mllib.recommendation if the user ids are string instead of contiguous integers?

    I want to use Spark's mllib.recommendation library to build a prototype recommender system. However, the format of the user data I have is something of the following format: AB123XY45678 CD234WZ12345 EF345OOO1234 GH456XY98765 .... If I want to use the mllib.recommendation library, according to the API of the Rating class, the user ids have to be integers (also have to be contiguous?) It looks like

    How to use mllib.recommendation if the user ids are string instead of contiguous integers?
  • Apache Spark MLlibのレコメンドアルゴリズムを使う - 記録目録

    1年くらい前にレコメンドロジックを実装するにあたってSpark MLlibのmllibパッケージ内のRDD版を使っていたのですが、 データの整形など不便だったため、その後リリースされたmlパッケージ以下のDataFrame版を使ってみたい。 きっと楽なはずということでサンプル的なものを実装してみました。 RDDとDataFrame RDD(Resilient Distributed Datasets)は、Spark上で分散処理可能なimmutableなデータセット DataFrameは、RDDを構造化したもので、RDBのテーブル的に処理が可能 DataFrameがより抽象化されたレイヤーで扱えるので、使う側からは楽なのとDataFrameのAPIがジョブを最適化してくれるというメリットもあります。 レコメンドアルゴリズム Spark MLlibに用意されているALSというクラスを使います。

    Apache Spark MLlibのレコメンドアルゴリズムを使う - 記録目録
  • Kafka+Spark Streaming+Elasticserachによるシステム構築と検証の進め方

    はじめに 前回はSpark Streamingの概要と検証シナリオ、および構築するシステムの概要を解説しました。今回はシステムの詳細構成と検証の進め方、および初期設定における性能測定結果について解説します。 この検証ではメッセージキューのKafka、ストリームデータ処理のSpark Streaming、検索エンジンのElasticsearchを組み合わせたリアルタイムのセンサデータ処理システムを構築しています。今回はKafkaとElasticsearchの詳細なアーキテクチャやKafkaとSparkの接続時の注意点も解説します。 システムの詳細構成 マシン構成とマシンスペック 評価に向けたマシンの初期構成を図1に示します。システムは以下のノードから構成されます。 センサデータを収集してKafkaに送信する収集・配信ノード Kafkaクラスタを構成してメッセージの受け渡しを行うキューとして

    Kafka+Spark Streaming+Elasticserachによるシステム構築と検証の進め方