タグ

ブックマーク / ozalog.blogspot.com (2)

  • RCFile,Parquet,ORCFile

    この2ヶ月で,Cloudera/Twitter,Hortonworks からそれぞれ別の列指向ファイルフォーマットが公開されました.Parquet と ORCFile です. この記事では,まず RCFile の復習をして,その後 Parquet と ORCFile それぞれの共通点と違いをおおまかに見ていこうと思います.コードレベルの詳細な違いについては,次回以降で見ていきます. RCFile の復習 RCFile は Record Columnar File の略で,Hive から利用できるストレージフォーマットです.特に,HDFS や S3 といった分散ストレージ上でパフォーマンスがでるように設計されています. HDFS/S3 といったストレージでは,基的にデータを計算機間で同じ負荷になるようにデータを分散配置します.このため,従来の列指向ストレージフォーマットのように適当に列毎に

    mooz
    mooz 2013/03/18
    ポスト RCFile なフォーマットについて
  • スケーラビリティ自体に魅せられちゃいけない

    自戒を込めた日記. IT システムというのは何らかの問題を解決するために存在している.しかし,技術的な面白さから,システム自体にとりつかれていしまう人々が存在する.多くの場合,それは "hacker" と呼ばれている人々に多いように思う.それ自体はすばらしいことだ…仕事にさえしなければ. 仕事の場合,ユーザはITシステムを問題を解決するために導入している.中身がどうなっているかは知ったこっちゃない.言い換えると,ユーザがシステムにお金を払ってくれるのは「実際にある問題を解決しているから」である.「決して技術的に楽しそうだから」ではない. さて,ここ1-2年で NoSQL という技術が流行している.RDBMSの提供しているセマンティクスのうち一部を弱めて,RDBMS では得ることが難しかった利点を得られる技術と心得ている.例えば,Cassandra は一貫性を犠牲として可用性を高め,さらに数

    mooz
    mooz 2011/11/06
    「誰のための技術?」
  • 1