2011年6月2日のブックマーク (3件)

  • Hiveクエリチューニングメモ - 科学と非科学の迷宮

    Hadoop2版を買ったその一週間後にDeals of the day で半額セールやられて死にたくなったので腹いせに書く はじめに ここに書いてあるのは全部参考リンク・文献からひっぱってきただけで、ほとんど全部検証してない。間違いがあればなるべく早めに更新するよう努力はするが、鵜呑みにして何が起きても自己責任で。 Hive のクエリチューニングに関するメモ書きである。以下のことは「書いていない」 Hadoop自体のチューニング Hive のクエリチューニング以外の話 例えば、圧縮ファイルを Hive 上で扱うにはどうするかとか JOIN 一番左のテーブルに最も大きなテーブルを持ってくる 一番左のテーブルがMRでいう入力データとして流れる。インナーテーブルのデータはメモリに保持される。 同一 JOIN キー 通常は 1 JOIN = 1 MR ジョブだが、同一の JOIN キーを使ってい

    Hiveクエリチューニングメモ - 科学と非科学の迷宮
    arakash
    arakash 2011/06/02
    色々チューニングメモ 効果は未検証
  • 分割可能なLZO圧縮をhadoopで使う

    Twitterでは基的にファイルはLZO圧縮しているようで, 3,4倍のストレージの節約 分割可能 CPUは少ししか使わない IOバウンドのジョブは3,4倍の性能向上 などのメリットがあると言っています.これは使わない手はないということで試してみました. clouderaのこのブログ記事を参考にして進めます. code.google.com/p/hadoop-gpl-compressionもありますが,Twitterが公開している分割可能なのを使います. http://github.com/kevinweil/hadoop-lzo 今回の環境はclouderaのamiをベースにしました. cloudera-ec2-hadoop-images/cloudera-hadoop-fedora-20090623-x86_64 ami-2359bf4 CDH3で,hadopoのバージョンは

    arakash
    arakash 2011/06/02
    lzoのインストール・ビルド
  • Runtime error - Meta Search

    Error message : Directory is not found or not writable (DATA_DIR) Directory is not found or not writable (DIFF_DIR) Directory is not found or not writable (BACKUP_DIR) Directory is not found or not writable (CACHE_DIR) Site admin: whitestar Copyright © 2006-2023 whitestar. All Rights Reserved. Icons powered by famfamfam. PukiWiki 1.5.0 Copyright © 2001-2006 PukiWiki Developers Team. License is GPL

    arakash
    arakash 2011/06/02
    ファイルの圧縮によるパフォーマンスチューニング