タグ

2016年3月28日のブックマーク (4件)

  • Impala Performance Update

    shiumachi
    shiumachi 2016/03/28
    ここだけの話なんだけど、次期バージョンの Apache Impala (incubating) 2.5 は現行より363%速くなるらしいよ……
  • 第18回 Impalaの設計と実装[2] | gihyo.jp

    はじめに 今回は、ImpalaのSQL処理の高速化において重要な役割を占めるクエリ処理について説明します。 Impalaのクエリ処理の特徴 Impalaは、MapReduceやSparkをはじめとする既存の手続き型のデータ処理エンジンを使用せず、アドホックなSQLクエリの処理の高効率化に焦点を置いた設計と実装が特徴です。たとえば、結合方法を見てみると、MapやReduceもしくはMapReduceジョブなどのブロッキングオペレータ(第16回)を組み合わせていく処理エンジンにおいては、Impalaにおけるパイプライン結合処理などを実現することは必ずしも容易ではありません(第8回「Impala/Prestoにおける結合処理」⁠)⁠。 また、MapReduceやSparkでは中間データをディスクに書き込むことにより高い耐障害性を実現しますが、Impalaでは耐障害性を多少犠牲にしてメモリ上で処理

    第18回 Impalaの設計と実装[2] | gihyo.jp
    shiumachi
    shiumachi 2016/03/28
    “MapReduceで複数表の結合を行う場合,1つの結合処理が完了しから次の結合処理を行いますが,Impalaでは上記のようにデータを連続的に結合していく(すなわち,複数の結合を同時に実行する)戦略を取ります”
  • Cloudera Director のインストール方法 - Qiita

    原文: http://www.cloudera.com/documentation/director/latest/topics/director_get_started_aws.html システム要件 Cloudera Director は VPC必須。 Cloudera Director はデフォルトで無制限のアウトバウンドの接続を必要とする。 必要があれば、プロキシサーバを経由するか、必要なリポジトリのローカルミラーを使うことができる。 Cloudera Director を使う場合、以下の権限を持つ IAM が必須。 http://www.cloudera.com/documentation/director/latest/topics/director_iam_methods.html Cloudera Director は専用の EC2 インスタンスが必要。 Cloudera

    Cloudera Director のインストール方法 - Qiita
    shiumachi
    shiumachi 2016/03/28
  • Cloudera Directorからスレーブ追加 - Qiita

    qiita初投稿です。 最近、Cloudera Director 触っています。 公式以外の情報がなかなか少なく、手探りな状態でいろいろやっています。 ※ Cloudera Director2.0の内容です 前置き、Cloudera Director? オンプレミス環境でHadoopクラスタを運用していてスレーブ追加、、 案外やることが、あったりします。 HW周りの設定、NWの配線といった物理作業、OSインスト、OS/kernel周りの設定、bonding設定。。。あ、、あぁ。。。 自動化できる作業もありますが、物理作業といった自動化できない作業/リードタイムが発生する事がオンプレミス環境では多くあります。 そもそも予備機がなく、発注から という事もあるでしょう。 そこで、クラウド、クラウドでCloudera Manager/CDHクラスタ使うならCloudera Director。クラウ

    Cloudera Directorからスレーブ追加 - Qiita
    shiumachi
    shiumachi 2016/03/28