14. UserName Tweet tanaka おそ松さん面白い mika ガンダム面白い tanaka おそ松最高 daken ガンダム面白い mika ラブライブ見る UserID Product Rate 1 1 2 2 2 1 2 3 1 3 2 1 • 協調フィルタリングに読み込ませるため右表のフォーマットに BigQueryで加工する。(AmazonMLもAzureMLなどもこの形式) • SparkMLlibがUserIDがIntでないといけないという制限があるため TwitterIDは内部的にシーケンスな番号を付ける。 データの加工 15. 80万Twitterユーザー x 43 (2015年冬期アニメ作品数) 3440万レコードが推薦データとしてMySQLに格納 されている MLlibで処理した結果 UserID ProductID Rate 354796 242 1