[B! *あとで読む][hive] msyktのブックマーク

msykt id:msykt

*あとで読むとhiveに関するmsyktのブックマーク (2)

VLDBにSQL on Hadoopの論文が出ています
備忘録がわりのメモ: VLDBに「SQL-on-Hadoop: Full Circle Back to Shared-Nothing Database Architectures」というIBMの研究社による論文が公開されていました。 http://www.vldb.org/pvldb/vol7/p1295-floratou.pdf ParquetとImpala、RCFileとHive、ORCとHive+TezなどをTPC-DSを使ったベンチマークの比較と考察があり、かなり興味深いです。最新バージョンでの比較ではないですが、かなりいろんな角度から比較をしているようなので、この夏に時間をかけてゆっくり読みたいところ。＃HDFS cachingの恩恵などもあるので、Imapala1.4はもっと速い（はず）
msykt 2014/09/09
*あとで読む

hive

parquet

rcfile

orcfile
リンク
Apache HiveにおけるJSON連想配列処理の最適化 - mixi engineer blog
あけましておめでとうございます．平野啓一郎著「葬送」がようやく読み終わった技術部の石川有です．ショパンの死を題材とした内容が難解で重く，すべて読み終えるのに都合５ヶ月ぐらい掛かっていたのではないかと思います．本当にとても重い内容ですが，濃厚で至福な時間を過ごせました．さて「重い」と言えば，「大規模データ解析」という言葉が頭に思い浮かびますよね．以前の記事「mixi の解析基盤とApache Hive での JSON パーサの活用の紹介」の通り，ミクシィの解析基盤として Apache Hive を利用しています．また Apache Hive で"No More 「刺身の上にタンポポをのせる仕事」 - 単純作業の繰り返しで開発者の時間を浪費しないために。"を実現するための Hive の JSON パーサを活用しています．新年最初のエントリーは，Apache Hive で JSON 連想
msykt 2013/01/12
*あとで読む

hive
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx