2017-02-12はじめにBeringei: A high-performance time series storage engine | Engineering Blog | Facebook Code という記事を読んで、Facebookが2015年に “Gorilla: A Fast, Scalable, In-Memory Time Series Database” という論文でGorillaという時系列データベースについて発表したものをBeringeiとしてオープンソースで公開したのを知りました。 この論文は読んだことがなかったので読んでみたのですが、時系列データベースのデータの特徴をうまく活かした独自の圧縮方法が興味深かったので、自分でも試してみたのでメモです。 Gorillaでは高い圧縮率によってデータをオンメモリで扱うことができるようになり、書き込みと問い合わせの速度が
fileコマンドで対象のファイルがどんな形式で圧縮されているか確認できます。 以下例ではtest1.tar.gzはgzipで、test1.bz2はbzip2で圧縮されていることがわかりました。 # ls -lh 合計 8.0K -rw-r--r-- 1 root root 135 9月 17 14:21 2016 test1.tar.gz -rw-r--r-- 1 root root 47 9月 17 14:17 2016 test1.txt.bz2 # file test1.txt.bz2 test1.txt.bz2: bzip2 compressed data, block size = 900k # file test1.tar.gz test1.tar.gz: gzip compressed data, from Unix, last modified: Sat Sep 17 14
やりたいこと あるインスタンスで動いてるElasticsearchサーバのインデックスデータのdumpを、たとえば自分のローカルにコピーしたい こんなのがある elasticdump これ便利だった 最低限の使い方(書いてあるんですけど↑) % npm install -g elasticdump % elasticdump --input=http:/my.elasticsearch.server.com:9200/my_index --output=http://localhost:9200/my_index あるいは、 % elasticdump --input=http://my.elasticsearch.server.com:9200/my_index --output=$ | gzip > my_index.json.gz 解凍 % gzip -dc my_index.jso
This document summarizes a benchmark study of file formats for Hadoop, including Avro, JSON, ORC, and Parquet. It found that ORC with zlib compression generally performed best for full table scans. However, Avro with Snappy compression worked better for datasets with many shared strings. The document recommends experimenting with the benchmarks, as performance can vary based on data characteristic
LZ4は、圧縮と展開の速さに焦点を当てた可逆圧縮アルゴリズムである。バイト指向の圧縮方法であるLZ77ファミリーに属する。Yann Collet が2011年より開発している。 Yann Collet は LZ4 の開発を始めた4年後の2015年より Zstandard も開発している。 gzipのようなアルゴリズムより低い圧縮率であるLZOよりわずかに圧縮率が低い。しかし、圧縮速度はLZOと同等であり、gzipより数倍速い。展開速度はLZOより著しく速くなりうる[2]。 Zstandard の開発者によると LZ4 と Zstandard の --fast=4 が同程度の圧縮率だが、解凍速度は LZ4 の方が速い。[3] LZ4はデータをシーケンスの連続として表現する。それぞれのシーケンスは、2つの4ビットフィールドに分けられた1バイトのトークンで始まる。最初のフィールドは、出力にコピー
基本的には以下のエントリーを自分なりに再試・咀嚼したものです。 HDFS and Hive storage - comparing file formats and compression methods - Adaltas Hiveテーブルを作成する際、SequenceFileはTextFileに比べてMapReduce時の処理効率は概ね良くなる傾向にありますが、様々なヘッダー情報が付与されるためファイルサイズ的には若干冗長になります。 僕もHiveを触り始めてまだ1ヶ月ちょっとなので色々調べている中、RCFileという、HDFS上でHiveテーブルのように構造化されたデータを扱うのに適したデータ構造がある、という事を知ったので、それぞれ以下3種のデータフォーマットについてデータサイズの比較を行いました。 TEXTFILE SEQUENCEFILE RCFILE ◯前提条件 今回試験に使
Hiveの設定項目に「hive.merge.size.per.task」という項目があります。 マージ処理が有効になっている(hive.merge.mapredfiles=true)上で、上述の項目で指定した所定のファイルサイズにHiveの計算結果ファイル(MapReduceの結果ファイル)のサイズが満たない場合、所定のサイズを超えるようにマージ処理が行われます。 用途としては、結果ファイルとしてあまりに細かいファイルが大量に作られHDFSのブロックが有効活用出来ない状況を回避するため、と認識しています。 (できるだけ1ファイルをHDFSのブロックサイズに一致するようなサイズにマージしたい。) もしくは解析時に大量のMapタスクを生成したくない、という目的もあると思います。 ただ、こちらのパラメータはケースによっては有効にならないようです。 ◯有効になるケース 計算結果ファイルを非圧縮にし
We've realized a bit too late that archiving our files in GZip format for Hadoop processing isn't such a great idea. GZip isn't splittable, and for reference, here are the problems which I won't repeat: Very basic question about Hadoop and compressed input files Hadoop gzip compressed files Hadoop gzip input file using only one mapper Why can't hadoop split up a large text file and then compress t
中身を見るだけじゃなくて、いろいろ調べる 中身を見る ファイルが小さいとき # zcat test.gz ファイルが大きいとき # gzip -dc access_log.1.gz | less参考 http://open-groove.net/linux/gzcat-and-gzip-dc/ ファイルサイズと、解凍後のファイルサイズを調べる lオプションを使う # gzip -l test.gz compressed uncompressed ratio uncompressed_name 260 426 47.7% index このとき、解凍後のファイルが4GBを超えていると表示バグが発生して、 圧縮率がマイナスになるので注意。 そのような場合は、時間がかかるが下のようにすると解凍後のファイルサイズが表示される。 他に良い方法あるかなぁ。 # gzip -dc test.gz | wc
連長圧縮(れんちょうあっしゅく)は、データ圧縮アルゴリズムの一つで、可逆圧縮に分類される。ランレングス圧縮、RLE (Run Length Encoding) とも呼ばれる。 連長圧縮では、ある連続したデータを、そのデータ一つ分と連続した長さで表現することで圧縮している。 例えば、「A A A A A B B B B B B B B B A A A」は「A 5 B 9 A 3」と表せる。これは、Aが5回続き、そのあとにBが9回、そしてAが3回続いていることを表している(連続回数を、元のデータを表す符号の前に記録することもある。その場合、符号化した後は「5 A 9 B 3 A」と表される)。 さらに、データがこの2種類(AとB)だけで、最初にAが来ることにしておけば、「5 9 3」だけで表せる。このルールに従ったときにBが最初に見つかった場合は、最初にAが0回連続していることにすれば良い。例
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く