タグ

2010年2月16日のブックマーク (2件)

  • Pig on Hadoop - kuangueの日記

    Pigってのは,googleで言うところのsawzallに対応するようです.が,ちょっと見たところでは,Sawzallどころではなくて,もっと意欲的です.Sawzallは,MapReduce処理モデルに思い切り引っ張られているけど,Pigは,リレーショナル演算をHadoop::MapReduce上の処理に変換しようという割と壮大な試み.Hadoopは利用しているけども,完全に別プロジェクトでやっています.yahooで作られていたものをオープンソースにしましたということですね. たとえば,下のように書くことができるような言語になっています. VISITS = load '/visits' as (user, url, time); USER_VISITS = group VISITS by user; USER_COUNTS = foreach USER_VISITS generate gr

    Pig on Hadoop - kuangueの日記
    restartr
    restartr 2010/02/16
    pigとhbaseは違うものと。 ・pig=ロウベース&MapReduce ・hbase=カラムデータベース,HDFS(テキストファイル)
  • Twitterのクジラ解剖学、あるいは彼らがいかにサーバの処理能力を向上させたか

    Twitterを利用していると、ときどきクジラの絵の画面が表示されることがあります。これはTwitterの処理能力がパンクして一時的に利用不可になったときに表示されるお馴染みの画面。 2月9日にTwitter Engineeringブログにポストされたエントリ「The Anatomy of a Whale」(クジラの解剖学)では、Twitterエンジニアたちがこのクジラの内部に分け入ってどのようにTwitterサーバの処理能力を向上させたのか、という話が詳しく語られています。 彼らが行ったのは、まず詳細なデータを取得して原因がどの辺にあるのかを推測すること。そこから多数の無駄な処理を発見し、ソースコードの修正による性能の向上に成功します。 元記事は非常に長いエントリになっていますが、問題の調査から解決に至るアプローチについて多くのエンジニアの方の参考になりそうな内容が含まれていますし、T

    Twitterのクジラ解剖学、あるいは彼らがいかにサーバの処理能力を向上させたか
    restartr
    restartr 2010/02/16
    "全体から部分へと処理していく"が重要。事前の調査と計画が大事と。