タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

Hadoopに関するasuka0801のブックマーク (3)

  • SQL感覚でHiveQLを書くと痛い目にあう例 - still deeper

    Hadoop Advent Calendar 2013 4日目の記事です tl;dr explainとjob historyを読め 1 reducerは悪 data skewは悪 前書き みんな大好きSQLでHadoop上での処理を実行できるHiveにはみなさん普段からお世話になっていることでしょう。ちょっと調べ物でググる度に目に入る愛らいしいマスコットが、荒んだ心に清涼な風をはこんでくれます。 ですがHiveのクエリ言語はSQLではなくHiveQLですし、実行エンジンもRDBのそれとは全く異なるMapReduceです。SQLのつもりでHiveQLを書いていると地雷を踏んでしまうことがまれによくあります。エントリでは陥りがちなHiveQLの落とし穴を2つ紹介します。 例1 SELECT count(DISTINCT user_id) FROM access_log SQLに慣れた方であれ

    asuka0801
    asuka0801 2013/12/05
    Hadoop+Hiveはまだまだ発展途中だと思う。HiveQLはクセがありすぎる
  • TechCrunch | Startup and Technology News

    Welcome back to TechCrunch’s Week in Review — TechCrunch’s newsletter recapping the week’s biggest news. Want it in your inbox every Saturday? Sign up here. Over the past eight years,…

    TechCrunch | Startup and Technology News
    asuka0801
    asuka0801 2013/10/31
    相変わらず単一障害点はそのままなんですかね。まあHDFS自体どうにかしないと駄目だと思うけど
  • Hadoopがバージョン1.0へ。2.0、3.0の議論も進む

    大規模分散処理フレームワークのHadoopの最新安定版「Hadoop 1.0.0」が、昨年12月27日に公開されました。これは、これまで安定版として開発されていた「Hadoop 0.20」ブランチの最新バージョンを1.0.0としたものです。 Hadoopは、前身となるNutchが2002年にDoug Cutting氏によって開発され、(このビデオの10分頃のCutting氏の発言によると)2008年にNutchからHadoopプロジェクトが分離。約4年を経てバージョン1.0へと到達したことになります。 今回バージョン1.0.0となった旧0.20ブランチのほかに、Hadoopには0.22、0.23など複数のブランチで開発が進んでおり、Hadoopに対する新しい機能、例えば従来のMapReduceを完全に書き換えたMapReduce 2などはこれら新しいブランチに対して実装が行われています。

    Hadoopがバージョン1.0へ。2.0、3.0の議論も進む
    asuka0801
    asuka0801 2012/01/05
    あとで
  • 1