タグ

ブックマーク / dayafterneet.blogspot.com (4)

  • TEXTFILE/SEQUENCEFILE/RCFILEのサイズ比較

    的には以下のエントリーを自分なりに再試・咀嚼したものです。 HDFS and Hive storage - comparing file formats and compression methods - Adaltas Hiveテーブルを作成する際、SequenceFileはTextFileに比べてMapReduce時の処理効率は概ね良くなる傾向にありますが、様々なヘッダー情報が付与されるためファイルサイズ的には若干冗長になります。 僕もHiveを触り始めてまだ1ヶ月ちょっとなので色々調べている中、RCFileという、HDFS上でHiveテーブルのように構造化されたデータを扱うのに適したデータ構造がある、という事を知ったので、それぞれ以下3種のデータフォーマットについてデータサイズの比較を行いました。 TEXTFILE SEQUENCEFILE RCFILE ◯前提条件 今回試験に使

    TEXTFILE/SEQUENCEFILE/RCFILEのサイズ比較
  • Hiveのファイル圧縮とSTOREの種類とマージの関係

    Hiveの設定項目に「hive.merge.size.per.task」という項目があります。 マージ処理が有効になっている(hive.merge.mapredfiles=true)上で、上述の項目で指定した所定のファイルサイズにHiveの計算結果ファイル(MapReduceの結果ファイル)のサイズが満たない場合、所定のサイズを超えるようにマージ処理が行われます。 用途としては、結果ファイルとしてあまりに細かいファイルが大量に作られHDFSのブロックが有効活用出来ない状況を回避するため、と認識しています。 (できるだけ1ファイルをHDFSのブロックサイズに一致するようなサイズにマージしたい。) もしくは解析時に大量のMapタスクを生成したくない、という目的もあると思います。 ただ、こちらのパラメータはケースによっては有効にならないようです。 ◯有効になるケース 計算結果ファイルを非圧縮にし

  • Sqoopの動作オプション(import編)

    いや多分export編やcodegen編等々は書きませんが、、Sqoopのimportコマンド実行時のオプションについて。 SqoopはHadoop上でのデータのImport/Exportに最適化されており、特に実運用的にはHiveテーブルへのImport/Export機能が便利です。 この記事ではSqoopのRDBMS→HDFS/Hiveへのデータインポート機能について書きます。 ◯基的な動かし方。 Sqoopの基機能はコマンドラインツールとして用意されています。 ${SQOOP_HOME}/bin/sqoop import [options…] オプションに色々な設定項目を指定するのですが、このオプションの種類が多い・・・ http://sqoop.apache.org/docs/1.4.1-incubating/SqoopUserGuide.html#_syntax いくつかに分

  • HBase本輪読会資料:11章 - Performance Tuning

    先月中旬くらいからピンポイントで章を指定して社内でHBase( HBase: The Definitive Guide )の輪読会を行っています。 今回はまとまった資料になったので、輪読会の資料を公開してみます。 ちなみに11章は「Performance Tuning」の...

    wlbhiro
    wlbhiro 2014/12/01
    チューニング
  • 1