タグ

2017年10月6日のブックマーク (4件)

  • あの日見たYARNのお仕事を僕達はまだ知らない。 - Qiita

    あなたが実行したジョブのこと考えてない間、ずっとYARNがジョブのこと考えててくれてたんだ みなさんはYARNの存在をどれだけ気づいてあげられているだろうか。 よくSparkと一緒にYARNって単語はよくみるよねー 知ってる知ってる、よく図とかでMapReduceとかの下にいるやつだよね? クラスタのリソースを管理してるんでしょ、たしか? いや、間違ってはいないし、やっていることをあたっているんだけど、実はいつも頑張ってくれているYARNのことをもっと理解してあげてもいいじゃないか! ただ、 いざ調べてみると日語の情報が少ない なんかざっくりリソース管理を行うぐらいしか書いてない もしくはいきなり細かい話から始まってよくわからない というのがちまたの現状なので、聖なる夜に暇を持て余した私が、いつも頑張ってるYARNのお仕事を紹介しようと思います。 YARNの素晴らしさを熱く語りたいところ

    あの日見たYARNのお仕事を僕達はまだ知らない。 - Qiita
  • SQL感覚でHiveQLを書くと痛い目にあう例 - still deeper

    Hadoop Advent Calendar 2013 4日目の記事です tl;dr explainとjob historyを読め 1 reducerは悪 data skewは悪 前書き みんな大好きSQLでHadoop上での処理を実行できるHiveにはみなさん普段からお世話になっていることでしょう。ちょっと調べ物でググる度に目に入る愛らいしいマスコットが、荒んだ心に清涼な風をはこんでくれます。 ですがHiveのクエリ言語はSQLではなくHiveQLですし、実行エンジンもRDBのそれとは全く異なるMapReduceです。SQLのつもりでHiveQLを書いていると地雷を踏んでしまうことがまれによくあります。エントリでは陥りがちなHiveQLの落とし穴を2つ紹介します。 例1 SELECT count(DISTINCT user_id) FROM access_log SQLに慣れた方であれ

  • Hive――RDB使いのためのHadoopガイド

    前回の記事では、手元のマシン上にHadoop環境を構築してHiveを導入し、基的な操作を確認しました。今回は同じ環境を使って、より実践的なデータ操作についてみていきます。

    Hive――RDB使いのためのHadoopガイド
  • Spark SQLとHive、Hadoop上でのクエリ処理性能を比較してみた

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 年々拡大するビッグデータ市場。IDC Japanの予測によれば、国内のビッグデータソフトウェア市場の規模は2014~2019年にかけて年間平均成長率33.5%で拡大し、2019年には470億6100万円に達する。 ビッグデータを分散処理・管理するためのソフトウェア基盤としてメジャーなOSSに「Apache Hadoop」がある。Hadoop上のデータ処理には、従来から「Hadoop MapReduce」や、MapReduce上で動作するクエリ処理技術である「Apache Hive」が利用されてきた。しかし、MapReduceとHiveには、大規模データの処理に活用する上での課題がある。 MapReduceはスループット重視の設計であるた

    Spark SQLとHive、Hadoop上でのクエリ処理性能を比較してみた