タグ

*あとで読むとhiveに関するmsyktのブックマーク (2)

  • VLDBにSQL on Hadoopの論文が出ています

    備忘録がわりのメモ: VLDBに「SQL-on-Hadoop: Full Circle Back to Shared-Nothing Database Architectures」というIBMの研究社による論文が公開されていました。 http://www.vldb.org/pvldb/vol7/p1295-floratou.pdf ParquetとImpala、RCFileとHive、ORCとHive+TezなどをTPC-DSを使ったベンチマークの比較と考察があり、かなり興味深いです。最新バージョンでの比較ではないですが、かなりいろんな角度から比較をしているようなので、この夏に時間をかけてゆっくり読みたいところ。 #HDFS cachingの恩恵などもあるので、Imapala1.4はもっと速い(はず)

    VLDBにSQL on Hadoopの論文が出ています
  • Apache HiveにおけるJSON連想配列処理の最適化 - mixi engineer blog

    あけましておめでとうございます. 平野啓一郎著「葬送」がようやく読み終わった技術部の石川有です.ショパンの死を題材とした内容が難解で重く,すべて読み終えるのに都合5ヶ月ぐらい掛かっていたのではないかと思います.当にとても重い内容ですが,濃厚で至福な時間を過ごせました. さて「重い」と言えば,「大規模データ解析」という言葉が頭に思い浮かびますよね.以前の記事「mixi の解析基盤とApache Hive での JSON パーサの活用の紹介」の通り,ミクシィの解析基盤として Apache Hive を利用しています. また Apache Hive で"No More 「刺身の上にタンポポをのせる仕事」 - 単純作業の繰り返しで開発者の時間を浪費しないために。"を実現するための Hive の JSON パーサを活用しています. 新年最初のエントリーは,Apache Hive で JSON 連想

    Apache HiveにおけるJSON連想配列処理の最適化 - mixi engineer blog
  • 1