タグ

ブックマーク / linux.wwing.net (3)

  • HBaseでバルクロード | Tech Blog

    HBaseのバルクロード HBaseにデータを初期投入する場合など、大量のデータをデータのロードが必要な場合があります。例えばRDBMS からのデータをインポートしたい場合には Sqoop を利用することができます。 Sqoop User Guide: 7.2.11. Importing Data Into HBase しかし、大量のデータをロードする場合は、メムストアが頻繁にフラッシュされてしまい、結果として頻繁にコンパクションが生じる可能性があります。大量のデータの場合はリージョン分割が生じたり、シーケンシャルや時系列データでは、ひとつのリージョンサーバーに書き込みが集中してホットスポットになるかもしれません。また、WALへの書き込み(無効化可能)によるオーバーヘッドや、GCが生じる場合もあります。 幸いなことにHBaseにはバルクロードツールがあり、このツールはMapReduceでH

    HBaseでバルクロード | Tech Blog
    yuyhiraka
    yuyhiraka 2018/11/16
  • HDFSのイレイジャーコーディング (Erasure Coding)

    2017/5/19追記: ClouderaのHDFS Erasure Codingのブログ翻訳しました -> Apache HadoopのHDFS Erasure Codingの紹介 以前紹介したHDFSのイレイジャーコーディング「HDFSが変わる?HDFSのイレイジャーコーディング対応」について詳しく書かれたブログがClouderaから公開されました。Hadoop 3.0をターゲットにして開発されているようです。 http://blog.cloudera.com/blog/2015/09/introduction-to-hdfs-erasure-coding-in-apache-hadoop/ 背景から設計の方針、評価まで幅広くかなり詳しく網羅されており読み応えがあります。しかし、日語訳が出るかわからないので、自分用にまとめてみました。間違いを発見したらご指摘下さい。 ※Erasure

    HDFSのイレイジャーコーディング (Erasure Coding)
    yuyhiraka
    yuyhiraka 2017/04/20
  • CDH 5.4でHive on Sparkを試す

    Hive on Spark (on CDH5.4) ※Hive on Sparkはテクノロジープレビュー扱いです。現時点ではサポート対象外なのでご注意を。 CDH5.4に含まれているHiveはHive 1.1です。このバージョンのHiveから、Hiveの実行エンジンとしてSparkが利用できるようになりました。(Hive on Spark [1][2]) [1] https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started [2] https://issues.apache.org/jira/browse/HIVE-7292 ドキュメントも発見したので早速試してみます。 http://www.cloudera.com/content/cloudera/en/documentation/co

    CDH 5.4でHive on Sparkを試す
    yuyhiraka
    yuyhiraka 2015/05/24
  • 1