はじめに エムスリーAdvent Calendar 2016 最終日はデータ活用の王道、協調フィルタリングによるレコメンドをAmazon EMR上のSparkで実装します。 O'REILLYのSparkによる実践データ解析の第3章を元ネタに音楽の再生時間のデータを元にしたアーティストのレコメンドを実装してみます。 協調フィルタリングって何?という方は、ECサイトの「この商品を買った人はこんな商品も買っています」というのをイメージしてもらえれば分かりやすいと思います。 推薦システムの体系的な解説はこちらのスライドがおすすめです。 情報推薦のやり方には大きく分けて協調フィルタリングと内容ベース/知識ベースフィルタリングがあります。 内容ベースフィルタリング:ユーザが好むアイテムの内容に基いて推薦するアイテムを決める 知識ベースフィルタリング:ユーザが好むアイテムに関する知識に基いて推薦するアイ