tatsu_toraのブックマーク / 2017年6月27日

tatsu_tora id:tatsu_tora

2017年6月27日のブックマーク (3件)

How to use mllib.recommendation if the user ids are string instead of contiguous integers?
I want to use Spark's mllib.recommendation library to build a prototype recommender system. However, the format of the user data I have is something of the following format: AB123XY45678 CD234WZ12345 EF345OOO1234 GH456XY98765 .... If I want to use the mllib.recommendation library, according to the API of the Rating class, the user ids have to be integers (also have to be contiguous?) It looks like
tatsu_tora 2017/06/27
Spark
リンク
Apache Spark MLlibのレコメンドアルゴリズムを使う - 記録目録
1年くらい前にレコメンドロジックを実装するにあたってSpark MLlibのmllibパッケージ内のRDD版を使っていたのですが、データの整形など不便だったため、その後リリースされたmlパッケージ以下のDataFrame版を使ってみたい。きっと楽なはずということでサンプル的なものを実装してみました。 RDDとDataFrame RDD(Resilient Distributed Datasets)は、Spark上で分散処理可能なimmutableなデータセット DataFrameは、RDDを構造化したもので、RDBのテーブル的に処理が可能 DataFrameがより抽象化されたレイヤーで扱えるので、使う側からは楽なのとDataFrameのAPIがジョブを最適化してくれるというメリットもあります。レコメンドアルゴリズム Spark MLlibに用意されているALSというクラスを使います。
tatsu_tora 2017/06/27
Spark

recommendation
リンク
Kafka+Spark Streaming+Elasticserachによるシステム構築と検証の進め方
はじめに前回はSpark Streamingの概要と検証シナリオ、および構築するシステムの概要を解説しました。今回はシステムの詳細構成と検証の進め方、および初期設定における性能測定結果について解説します。この検証ではメッセージキューのKafka、ストリームデータ処理のSpark Streaming、検索エンジンのElasticsearchを組み合わせたリアルタイムのセンサデータ処理システムを構築しています。今回はKafkaとElasticsearchの詳細なアーキテクチャやKafkaとSparkの接続時の注意点も解説します。システムの詳細構成マシン構成とマシンスペック評価に向けたマシンの初期構成を図1に示します。本システムは以下のノードから構成されます。センサデータを収集してKafkaに送信する収集・配信ノード Kafkaクラスタを構成してメッセージの受け渡しを行うキューとして
tatsu_tora 2017/06/27
kafka

Spark

elasticsearch

SparkStreaming
リンク
- 2017年6月28日
- 2017年6月27日
- 2017年6月26日