wyukawaのブックマーク / 2012年8月28日

wyukawa id:wyukawa

2012年8月28日のブックマーク (3件)

使い捨て python コードの書き方
[db tech showcase Tokyo 2014] B26: PostgreSQLを拡張してみよう by SRA OSS, Inc. 日本支社高塚遥Insight Techno logy, Inc.
wyukawa 2012/08/28
人生相談w

Hadoop

Python

gist
リンク
HDFSのbalancerによるデータ転送速度設定
新たにDataNodeを増設した際など、DataNode間のデータサイズの偏りが生じることがあります。それを解消する機能としてbalancerがあります。 #balancer起動 start-balancer.sh #balancer停止 stop-balancer.sh ただプロダクション環境などでいきなり動作させるとネットワーク帯域を使いきってしまいHadoop Jobの実行等々に支障を与える事があります。 hdfs-site.xmlに「dfs.balance.bandwidthPerSec」を設定すると、転送帯域を抑制することが出来ます。こちらでネットワーク帯域を逼迫させない程度に値を設定してbalancerを起動させると、プロダクション環境でも比較的安心してbalancing処理が行えますね。 <property> <name>dfs.balance.bandwidthPerSe
wyukawa 2012/08/28
試してないけどCDH3u5からThe DataNode balancer bandwidth can now be changed without restart.らしい

Hadoop
リンク
Hadoop Pig の使いどころ - Tech-Sketch
「PigとHive何が違うの？」「Difference between Pig and Hive? Why have both?(PigとHive何が違うの？)」という質問を、先日、StackOverFlowで見かけました。恐らくHadoopを触ると一度は疑問に思う事ではではないでしょうか。 PigとHiveは、共にSQLライクな記法でMapReduceを書けるDSLですが、利用者数においてはHiveに軍配が上がっているようにみえます。一方で、「Pigをもっと早く試せば良かった」というお話を伺うこともあり、有用（かもしれない）ツールであれば、正しく理解しておいた方がよさそうです。というわけで、ここではPigの活用を探ります。 Pigの性能 Pigが今一つ利用されていないのは、SQLとの親和性に加え、性能面で、「Java MapReduce＞Hive＞Pig」という傾向があるからで
wyukawa 2012/08/28
へー、PigってHiveより遅いんだ。ただメタデータが要らないので導入しやすいよな。

Hadoop

pig

hive
リンク
- 2012年8月29日
- 2012年8月28日
- 2012年8月27日