タグ

ブックマーク / dayafterneet.blogspot.com (2)

  • "Programming Hive" 輪読会 #1

    掲題の会を社内で実施しました。 幸い(?!)なことに、メンバー中で僕が一番Hiveについて詳しくない、という状況で輪読会が実施できたので、「皆に教える」というより、「自分の拙い部分を指摘してもらい、僕が勉強する」という、僕としては理想的な会になりました。 使用した資料は以下です。 "Programming Hive" Reading #1 from moai kids 資料としてはかなり説明不足な点が多いので、会の中で教えてもらった事も含めて補足します。 ◯P8 Bucketing Table "CLUSTERD BY" に指定したカラムがBucket数分一様に分散されるのであれば動作するが、たとえば特定のBucketにデータが偏るような状況では上手く動作しないケースがある。 Bucketing Tableの作成時には、基的にはBucket数分Reducerが動作します。 たとえばBuc

    wyukawa
    wyukawa 2013/01/09
    「HiveでCUBE的な処理をするときに使用する」の情報ソースはこちら>http://d.hatena.ne.jp/tagomoris/20121122/1353558064
  • HDFSのbalancerによるデータ転送速度設定

    新たにDataNodeを増設した際など、DataNode間のデータサイズの偏りが生じることがあります。 それを解消する機能としてbalancerがあります。 #balancer起動 start-balancer.sh #balancer停止 stop-balancer.sh ただプロダクション環境などでいきなり動作させるとネットワーク帯域を使いきってしまいHadoop Jobの実行等々に支障を与える事があります。 hdfs-site.xmlに「dfs.balance.bandwidthPerSec」を設定すると、転送帯域を抑制することが出来ます。こちらでネットワーク帯域を逼迫させない程度に値を設定してbalancerを起動させると、プロダクション環境でも比較的安心してbalancing処理が行えますね。 <property> <name>dfs.balance.bandwidthPerSe

    wyukawa
    wyukawa 2012/08/28
    試してないけどCDH3u5からThe DataNode balancer bandwidth can now be changed without restart.らしい
  • 1