タグ

ブックマーク / open-groove.net (4)

  • ほぼやけくそHive Hacks – OpenGroove

    Hive Hacksあれこれ。内容はほぼO’REILLY Hadoop Hacksからの引用そのまんま。ただの個人メモなのだが、ずうずうしく公開させてもらいます。いろんなところに記録しておいてもすぐに「あれ、あのメモどこやったっけ」となるのでここに書くのが一番なんだよね。書いたからって理解できるわけでもないんだが… (初めに書いておくと、この投稿長いです) 基原則的なこと。 ●UPDATEは回避する 処理速度が遅延するため、UPDATEを多数含むようなSQLをHiveSQLに変換することは避けるべき ●MapReduceタスクのオーバーヘッド Hiveは「高スループットを目指す処理には向いているが、低レンテンシを目指す処理には向いていない」というMapReduce処理の特徴を引き継いでいる。MapReduceタスクのオーバーヘッドが付きまとうことを念頭におく。 ●並列分散ができない処理

    showyou
    showyou 2018/10/23
  • Hive Hacks その2 – Hiveのログ、圧縮など – OpenGroove

    注1 :スプリット不可の形式はHDFSで指定したブロックサイズよりも大きな圧縮ファイルをMapReduceの入力とした場合、入力が複数のMapタスクに分散されずに単一のMapタスクで処理されてしまうため、分散処理のメリットが損なわれてしまう。 注2 :ネイティブライブラリは、CDHの場合hadoop/lib/native/にインストールされている。Hadoopのデフォルトの動作では自動的にこのライブラリをロードして使用する。 MapReduceプログラムの出力圧縮 MapReduceにてMap(中間出力)とReduce(最終出力)それぞれを圧縮することができる。中間データ圧縮により性能改善が期待できる。 mapred.compress.map.output true: Mapの出力を圧縮する(SequenceFileを使用) false: 圧縮しない(デフォルト) mapred.map.o

  • Ansibleを使ってHadoop(CDH4) アップデート – OpenGroove

    (毎日同じようなAnsibleネタ記事を書いているようだが、これでも微妙に違う) つい先日Hadoop CDH4が4.3.0から4.3.1になったので、せっかくだからAnsibleを使ってアップデートをやってみた。対象は疑似分散環境だからわざわざAnsibleを使わなくてもいいと言えばいいのだが、こういう定型作業の抽象化に慣れておきたいので、ま、練習のつもりで。 実行環境 管理用マシンからAnsible実行 (AWS t1.micro CentOS 6.3) アップデート対象のHadoop疑似分散モードマシン (AWS m1.small CentOS 6.3) メインのplaybookとなるcdh_update.yml 実行場所直下のtasksディレクトリに子playbookを分けて格納し、それらを順次実行させる処理を記述した。ホストの定義はserversファイルに記述。 servers(

  • NagiosでMySQLを監視する – OpenGroove

    オープンソースの監視ツール、NagiosでMySQLを監視するには。 NagiosでのMySQL監視の実装にあたってはネット上に多くの情報が存在するが、 自分の実感としては正直、分かりにくい。情報も錯綜している。 ネットは一見お手軽に情報を入手できそうでいて、ときに正解にたどり着くまでに 余計な手間と時間がかかるのが痛いところだ。 そんなわけで、いつものように自分が分かるようにまとめるのである。 いくつかのサイトを覗いた中で、MySQLの設定はないにせよ、以下の解説は親切で分かりやすかった。 ↓ ↓ ↓ http://www.marsandares.jp/tools/nagios-config.html これも。 ↓ ↓ ↓ http://www.atmarkit.co.jp/fnetwork/rensai/netman06/netman01.html 上記を中心に引用させてもらいつつ、こ

    showyou
    showyou 2012/07/20
  • 1