タグ

ブックマーク / linux.wwing.net (5)

  • VLDBにSQL on Hadoopの論文が出ています

    備忘録がわりのメモ: VLDBに「SQL-on-Hadoop: Full Circle Back to Shared-Nothing Database Architectures」というIBMの研究社による論文が公開されていました。 http://www.vldb.org/pvldb/vol7/p1295-floratou.pdf ParquetとImpala、RCFileとHive、ORCとHive+TezなどをTPC-DSを使ったベンチマークの比較と考察があり、かなり興味深いです。最新バージョンでの比較ではないですが、かなりいろんな角度から比較をしているようなので、この夏に時間をかけてゆっくり読みたいところ。 #HDFS cachingの恩恵などもあるので、Imapala1.4はもっと速い(はず)

    VLDBにSQL on Hadoopの論文が出ています
  • オライリーのHadoop関連本リリース予定 (2014/8時点)

    最近、米O’ReillyからHadoop関連書籍の出版予定が目白押しです。リリース予定がわかりにくいので、表にまとめてみました。 ※2015/1/8補足: 最新情報は別ページにまとめました Hadoopをエンタープライズで利用したい方は必読ですね。(ちょっとリリースラッシュで積ん読になりそうなところが怖いです) もちろん、日語に翻訳されるのも楽しみです 🙂 NoTitleRelease date和書名出版日雑感

    オライリーのHadoop関連本リリース予定 (2014/8時点)
    msykt
    msykt 2014/08/29
  • HDFSが高速に?mmapによるzero-copyでの読み込み

    通常、アプリケーションはread()などのシステムコール経由でファイルを読み出します。 このHDFS-4953はmmap()システムコールを使用することで、読み取り時にかかるオーバーヘッドを減らそうというもののようです。 参考までに、通常アプリケーションがファイルを読み出す場合、以下のようなフローでカーネルからの読み込み処理が行われます。 アプリからの読み込み要求 v fread()など (stdlib) v read()システムコール(glibc) v (以下カーネル空間) v sys_read() v vfs_read() v …. 参考資料:ページキャッシュのメモ P.12 アプリケーションからの読み出し要求によりシステムコールが呼ばれるのは上記の通りですが、問題となるのは、 read()が頻繁に呼びだされる場合、コンテキストスイッチが多く発生してコストがかかる※コストの計測には s

    HDFSが高速に?mmapによるzero-copyでの読み込み
    msykt
    msykt 2014/02/21
  • Cloudera Impalaのアーキテクチャ

    ブログは若干古くなっているので、Impala情報ページをご覧下さい。比較的新しい情報をまとめています) 一人アドベントカレンダー25日目、最終日です。 最終日はCloudera Impala(以下Impala)について。Impalaは分散クエリエンジンです。最近EMRでも利用できるようになりました。 Hiveとは何が違うのか、なぜHiveを高速化しなかったのかというような意見もあるようですが、その答えはClouderaの創業者でもあるMike Olsonが今週公開したブログ(Impala v Hive)に詳しく書かれています。かなり興味深い内容ですが、今のところ英語のみです。きっと日語の記事もいずれ読めるようになるはず。。。 さて、最終日はCloudera Impalaのアーキテクチャについて書いてみます。引用している資料はSlideshareでClouderaが公開しているものです

    Cloudera Impalaのアーキテクチャ
    msykt
    msykt 2014/01/06
  • MapReduceの中間データを保持する

    MapReduceでジョブの実行時に生成される中間データは、ジョブの終了時に削除されます。これにより不要なデータは削除され、ディスク容量が圧迫されることがなくなります。 しかし、デバッグのために中間データを保持しておきたいと言うこともあるでしょう。今回はCDH3を使用した2つのやり方を紹介します。 1. 失敗時のみファイルを残す keep.failed.task.files このパラメータをtrueにすることにより、失敗したジョブの中間データは削除されないようになります。 2. 条件に基づいてファイルを残す keep.task.files.pattern このパラメータを”.*_m_0000.*”のように指定します。条件に一致したファイルは削除されません。 なお、CDH4からはパラメータ名が以下のように変更となりますのでご注意下さい。 keep.failed.task.files -> m

    MapReduceの中間データを保持する
    msykt
    msykt 2012/08/19
  • 1