yuyhirakaのブックマーク - はてなブックマーク

HBaseでバルクロード | Tech Blog
HBaseのバルクロード HBaseにデータを初期投入する場合など、大量のデータをデータのロードが必要な場合があります。例えばRDBMS からのデータをインポートしたい場合には Sqoop を利用することができます。 Sqoop User Guide: 7.2.11. Importing Data Into HBase しかし、大量のデータをロードする場合は、メムストアが頻繁にフラッシュされてしまい、結果として頻繁にコンパクションが生じる可能性があります。大量のデータの場合はリージョン分割が生じたり、シーケンシャルや時系列データでは、ひとつのリージョンサーバーに書き込みが集中してホットスポットになるかもしれません。また、WALへの書き込み（無効化可能）によるオーバーヘッドや、GCが生じる場合もあります。幸いなことにHBaseにはバルクロードツールがあり、このツールはMapReduceでH
yuyhiraka 2018/11/16
リンク
HDFSのイレイジャーコーディング (Erasure Coding)
2017/5/19追記: ClouderaのHDFS Erasure Codingのブログ翻訳しました -> Apache HadoopのHDFS Erasure Codingの紹介以前紹介したHDFSのイレイジャーコーディング「HDFSが変わる？HDFSのイレイジャーコーディング対応」について詳しく書かれたブログがClouderaから公開されました。Hadoop 3.0をターゲットにして開発されているようです。 http://blog.cloudera.com/blog/2015/09/introduction-to-hdfs-erasure-coding-in-apache-hadoop/ 背景から設計の方針、評価まで幅広くかなり詳しく網羅されており読み応えがあります。しかし、日本語訳が出るかわからないので、自分用にまとめてみました。間違いを発見したらご指摘下さい。 ※Erasure
yuyhiraka 2017/04/20
リンク
CDH 5.4でHive on Sparkを試す
Hive on Spark (on CDH5.4) ※Hive on Sparkはテクノロジープレビュー扱いです。現時点ではサポート対象外なのでご注意を。 CDH5.4に含まれているHiveはHive 1.1です。このバージョンのHiveから、Hiveの実行エンジンとしてSparkが利用できるようになりました。（Hive on Spark [1][2]） [1] https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started [2] https://issues.apache.org/jira/browse/HIVE-7292 ドキュメントも発見したので早速試してみます。 http://www.cloudera.com/content/cloudera/en/documentation/co
yuyhiraka 2015/05/24
リンク
1

はてなブックマーク

タグ

ブックマーク / linux.wwing.net (3)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / linux.wwing.net (3)

HBaseでバルクロード | Tech Blog

HDFSのイレイジャーコーディング (Erasure Coding)

CDH 5.4でHive on Sparkを試す

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス