タグ

2013年5月15日のブックマーク (2件)

  • BigQuery gets big new features to make data analysis even easier

    BigQuery gets big new features to make data analysis even easier Share Facebook Twitter LinkedIn Mail By Michael Manoochehri, Developer Programs Engineer, Cloud Platform Google BigQuery is designed to make it easy to analyze large amounts of data quickly. Overwhelmingly, developers have asked us for features to help simplify their work even further. Today we are launching a collection of updates t

    BigQuery gets big new features to make data analysis even easier
    takemikami
    takemikami 2013/05/15
    GoogleBigQueryの機能拡張紹介、2つの巨大テーブルをJoinするBigJOINの使い方etc
  • MapReduceで巨大データ同士をJOINする

    立春をすぎて、暖かく感じる日も増えてきた今日この頃です。さて春といえばミツバチ、ミツバチといえばHiveですが、今日はHiveを使わないで純粋なMapReduceで、巨大データ同士をJOINするための一つの方法を書き留めたいと思います。 よくある問題 具体的に考えるために、状況を想定してみます。例えば以下の2つのテーブル、アクセスログ(日時,ユーザID,アクセスURL)とユーザマスタ(ユーザID,年齢,性別,住所)があるとします。これらのテーブルをユーザIDで結合したいとしましょう。 SQLで言えば次のような処理ということになります。 SELECT * FROM access_log LEFT OUTER JOIN user USING (user_id); つまり何ということはない普通のJOINなのですが、この2つのデータがとても大きなものであるとき、私たちは問題に直面します。 解 この

    takemikami
    takemikami 2013/05/15
    MapReduceで巨大データ同士をJoinするアルゴリズムの説明