msyktのブックマーク - はてなブックマーク

VLDBにSQL on Hadoopの論文が出ています

備忘録がわりのメモ: VLDBに「SQL-on-Hadoop: Full Circle Back to Shared-Nothing Database Architectures」というIBMの研究社による論文が公開されていました。 http://www.vldb.org/pvldb/vol7/p1295-floratou.pdf ParquetとImpala、RCFileとHive、ORCとHive+TezなどをTPC-DSを使ったベンチマークの比較と考察があり、かなり興味深いです。最新バージョンでの比較ではないですが、かなりいろんな角度から比較をしているようなので、この夏に時間をかけてゆっくり読みたいところ。＃HDFS cachingの恩恵などもあるので、Imapala1.4はもっと速い（はず）

msykt 2014/09/09

リンク

オライリーのHadoop関連本リリース予定 (2014/8時点)

最近、米O’ReillyからHadoop関連書籍の出版予定が目白押しです。リリース予定がわかりにくいので、表にまとめてみました。 ※2015/1/8補足: 最新情報は別ページにまとめました Hadoopをエンタープライズで利用したい方は必読ですね。（ちょっとリリースラッシュで積ん読になりそうなところが怖いです）もちろん、日本語に翻訳されるのも楽しみです 🙂 NoTitleRelease date和書名出版日雑感

msykt 2014/08/29

hadoop

リンク

HDFSが高速に？mmapによるzero-copyでの読み込み

通常、アプリケーションはread()などのシステムコール経由でファイルを読み出します。このHDFS-4953はmmap()システムコールを使用することで、読み取り時にかかるオーバーヘッドを減らそうというもののようです。参考までに、通常アプリケーションがファイルを読み出す場合、以下のようなフローでカーネルからの読み込み処理が行われます。アプリからの読み込み要求 v fread()など (stdlib) v read()システムコール(glibc) v （以下カーネル空間） v sys_read() v vfs_read() v …. 参考資料：ページキャッシュのメモ P.12 アプリケーションからの読み出し要求によりシステムコールが呼ばれるのは上記の通りですが、問題となるのは、 read()が頻繁に呼びだされる場合、コンテキストスイッチが多く発生してコストがかかる※コストの計測には s

msykt 2014/02/21

hdfs

リンク

Cloudera Impalaのアーキテクチャ

（本ブログは若干古くなっているので、Impala情報ページをご覧下さい。比較的新しい情報をまとめています）一人アドベントカレンダー２５日目、最終日です。最終日はCloudera Impala（以下Impala）について。Impalaは分散クエリエンジンです。最近EMRでも利用できるようになりました。 Hiveとは何が違うのか、なぜHiveを高速化しなかったのかというような意見もあるようですが、その答えはClouderaの創業者でもあるMike Olsonが今週公開したブログ（Impala v Hive）に詳しく書かれています。かなり興味深い内容ですが、今のところ英語のみです。きっと日本語の記事もいずれ読めるようになるはず。。。さて、最終日はCloudera Impalaのアーキテクチャについて書いてみます。引用している資料はSlideshareでClouderaが公開しているものです

msykt 2014/01/06

impala

リンク

MapReduceの中間データを保持する

MapReduceでジョブの実行時に生成される中間データは、ジョブの終了時に削除されます。これにより不要なデータは削除され、ディスク容量が圧迫されることがなくなります。しかし、デバッグのために中間データを保持しておきたいと言うこともあるでしょう。今回はCDH3を使用した2つのやり方を紹介します。 1. 失敗時のみファイルを残す keep.failed.task.files このパラメータをtrueにすることにより、失敗したジョブの中間データは削除されないようになります。 2. 条件に基づいてファイルを残す keep.task.files.pattern このパラメータを”.*_m_0000.*”のように指定します。条件に一致したファイルは削除されません。なお、CDH4からはパラメータ名が以下のように変更となりますのでご注意下さい。 keep.failed.task.files -> m

msykt 2012/08/19

hadoop

リンク

はてなブックマーク

タグ

ブックマーク / linux.wwing.net (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第2週）

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス