タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

mapreduceに関するtakemikamiのブックマーク (1)

  • MapReduceで巨大データ同士をJOINする

    立春をすぎて、暖かく感じる日も増えてきた今日この頃です。さて春といえばミツバチ、ミツバチといえばHiveですが、今日はHiveを使わないで純粋なMapReduceで、巨大データ同士をJOINするための一つの方法を書き留めたいと思います。 よくある問題 具体的に考えるために、状況を想定してみます。例えば以下の2つのテーブル、アクセスログ(日時,ユーザID,アクセスURL)とユーザマスタ(ユーザID,年齢,性別,住所)があるとします。これらのテーブルをユーザIDで結合したいとしましょう。 SQLで言えば次のような処理ということになります。 SELECT * FROM access_log LEFT OUTER JOIN user USING (user_id); つまり何ということはない普通のJOINなのですが、この2つのデータがとても大きなものであるとき、私たちは問題に直面します。 解 この

    takemikami
    takemikami 2013/05/15
    MapReduceで巨大データ同士をJoinするアルゴリズムの説明
  • 1