タグ

2012年8月28日のブックマーク (3件)

  • 使い捨て python コードの書き方

    [db tech showcase Tokyo 2014] B26: PostgreSQLを拡張してみよう by SRA OSS, Inc. 日支社 高塚遥Insight Technology, Inc.

    使い捨て python コードの書き方
    wyukawa
    wyukawa 2012/08/28
    人生相談w
  • HDFSのbalancerによるデータ転送速度設定

    新たにDataNodeを増設した際など、DataNode間のデータサイズの偏りが生じることがあります。 それを解消する機能としてbalancerがあります。 #balancer起動 start-balancer.sh #balancer停止 stop-balancer.sh ただプロダクション環境などでいきなり動作させるとネットワーク帯域を使いきってしまいHadoop Jobの実行等々に支障を与える事があります。 hdfs-site.xmlに「dfs.balance.bandwidthPerSec」を設定すると、転送帯域を抑制することが出来ます。こちらでネットワーク帯域を逼迫させない程度に値を設定してbalancerを起動させると、プロダクション環境でも比較的安心してbalancing処理が行えますね。 <property> <name>dfs.balance.bandwidthPerSe

    wyukawa
    wyukawa 2012/08/28
    試してないけどCDH3u5からThe DataNode balancer bandwidth can now be changed without restart.らしい
  • Hadoop Pig の使いどころ - Tech-Sketch

    「PigとHive何が違うの?」 「Difference between Pig and Hive? Why have both?(PigとHive何が違うの?)」 という質問を、先日、StackOverFlowで見かけました。恐らくHadoopを触ると一度は疑問に思う事ではではないでしょうか。 PigとHiveは、共にSQLライクな記法でMapReduceを書けるDSLですが、利用者数においてはHiveに軍配が上がっているようにみえます。 一方で、「Pigをもっと早く試せば良かった」というお話を伺うこともあり、有用(かもしれない)ツールであれば、正しく理解しておいた方がよさそうです。 というわけで、ここではPigの活用を探ります。 Pigの性能 Pigが今一つ利用されていないのは、SQLとの親和性に加え、性能面で、「JavaMapReduce>Hive>Pig」という傾向があるからで

    wyukawa
    wyukawa 2012/08/28
    へー、PigってHiveより遅いんだ。ただメタデータが要らないので導入しやすいよな。