皆様、遅くなりましたが明けましておめでとうございます。本年も宜しくお願い申し上げます。 今回は前回に引き続き、ユーザシーケンスからコサイン関数の計算に必要な値(図1のa1:b1、a1、およびb1)を取り出す方法を紹介します。 おさらい Hadoopはデータをクラスタ内のローカルディスクに分散し、そのデータがあるノード上で処理を実行するというデータローカリティを実現しているため、コサイン関数をMapReduceのフレームワークに変換して処理することを紹介しました。 その設計方法として、処理結果の形式から逆に考える方法を紹介しました。 図1 計算結果から考えた処理フロー ユーザシーケンスからアクセスユーザ数のカウントまで 第二段階の処理フローは次の通りです。ここでもアイテムIDを具体的なアイテム名で示しています。 図2 第二段階の処理フロー ①では、各ユーザシーケンスからシーケンス内に含まれる