[B! Compression] wlbhiroのブックマーク

wlbhiro id:wlbhiro

Compressionに関するwlbhiroのブックマーク (26)

How can I verify if compression is working correctly in Kafka 0.8.2.2?
wlbhiro 2018/11/12
Kafkaのデータの圧縮方式を確認する方法。

Kafka

Compression

confirm

重要
リンク
Facebookの時系列データベースGorillaのデータ圧縮方式を試してみた · hnakamur's blog
2017-02-12はじめにBeringei: A high-performance time series storage engine | Engineering Blog | Facebook Code という記事を読んで、Facebookが2015年に “Gorilla: A Fast, Scala ble, In-Memory Time Series Database” という論文でGorillaという時系列データベースについて発表したものをBeringeiとしてオープンソースで公開したのを知りました。この論文は読んだことがなかったので読んでみたのですが、時系列データベースのデータの特徴をうまく活かした独自の圧縮方法が興味深かったので、自分でも試してみたのでメモです。 Gorillaでは高い圧縮率によってデータをオンメモリで扱うことができるようになり、書き込みと問い合わせの速度が
wlbhiro 2018/09/13
Compression

Facebook Gorilla
リンク
Linuxで圧縮形式の確認方法 - conf t
fileコマンドで対象のファイルがどんな形式で圧縮されているか確認できます。以下例ではtest1.tar.gzはgzipで、test1.bz2はbzip2で圧縮されていることがわかりました。 # ls -lh 合計 8.0K -rw-r--r-- 1 root root 135 9月 17 14:21 2016 test1.tar.gz -rw-r--r-- 1 root root 47 9月 17 14:17 2016 test1.txt.bz2 # file test1.txt.bz2 test1.txt.bz2: bzip2 compressed data, block size = 900k # file test1.tar.gz test1.tar.gz: gzip compressed data, from Unix, last modified: Sat Sep 17 14
wlbhiro 2018/07/05
圧縮方式の確認方法

file

gzip

Linux

kind

Compression
リンク
Elasticsearchのデータをdumpしてコピーしたい - DRYな備忘録
やりたいことあるインスタンスで動いてるElasticsearchサーバのインデックスデータのdumpを、たとえば自分のローカルにコピーしたいこんなのがある elasticdump これ便利だった最低限の使い方（書いてあるんですけど↑） % npm install -g elasticdump % elasticdump --input=http:/my.elasticsearch.server.com:9200/my_index --output=http://localhost:9200/my_index あるいは、 % elasticdump --input=http://my.elasticsearch.server.com:9200/my_index --output=$ | gzip > my_index.json.gz 解凍 % gzip -dc my_index.jso
wlbhiro 2018/05/07
elasticsearch

dump

elasticdump

npm

node.js

gzip

Compression
リンク
https://www.dotnetperls.com/7-zip-examples
wlbhiro 2017/09/10
7z

7zip

Compression
リンク
Apache Spark User List - Spark Streaming - How to write RDD's in same directory ?
wlbhiro 2016/12/30
HDFS

Compression
リンク
HDFS 上の Gzip のような圧縮ファイルを HDFS 上で解凍する方法 - Qiita
wlbhiro 2016/12/30
HDFS

Compression
リンク
org.apache.hadoop.io.compress (Apache Hadoop Main 2.7.2 API)
wlbhiro 2016/12/30
Spark

Hadoop

Compression

gzip

bzip2
リンク
File Format Benchmark - Avro, JSON, ORC & Parquet
File Format Benchmark - Avro, JSON, ORC & ParquetAI-enhanced description This document summarizes a benchmark study of file formats for Hadoop, including Avro, JSON, ORC, and Parquet. It found that ORC with zlib compression generally performed best for full table scans. However, Avro with Snappy compression worked better for datasets with many shared strings. The document recommends experimenting
wlbhiro 2016/12/30
Parquet

JSON

ORC

Avro

format

Hadoop

Spark

Compression

Hive
リンク
Compression - Apache Kafka - Apache Software Foundation
wlbhiro 2016/11/09
Kafka

Compression
リンク
Impalaチューニングポイントベストプラクティス
http://www.cloudera.co.jp/jpevents/cwt2014/ http://connpass.com/event/9031/
wlbhiro 2016/08/03
cloudera

Hadoop

Impala

Compression
リンク
LZ4 - Wikipedia
LZ4は、圧縮と展開の速さに焦点を当てた可逆圧縮アルゴリズムである。バイト指向の圧縮方法であるLZ77ファミリーに属する。Yann Collet が2011年より開発している。 Yann Collet は LZ4 の開発を始めた4年後の2015年より Zstandard も開発している。 gzipのようなアルゴリズムより低い圧縮率であるLZOよりわずかに圧縮率が低い。しかし、圧縮速度はLZOと同等であり、gzipより数倍速い。展開速度はLZOより著しく速くなりうる[2]。 Zstandard の開発者によると LZ4 と Zstandard の --fast=4 が同程度の圧縮率だが、解凍速度は LZ4 の方が速い。[3] LZ4はデータをシーケンスの連続として表現する。それぞれのシーケンスは、2つの4ビットフィールドに分けられた1バイトのトークンで始まる。最初のフィールドは、出力にコピー
wlbhiro 2016/07/22
Compression

LZ4
リンク
TEXTFILE/SEQUENCEFILE/RCFILEのサイズ比較
基本的には以下のエントリーを自分なりに再試・咀嚼したものです。 HDFS and Hive storage - comparing file formats and compression methods - Adaltas Hiveテーブルを作成する際、SequenceFileはTextFileに比べてMapReduce時の処理効率は概ね良くなる傾向にありますが、様々なヘッダー情報が付与されるためファイルサイズ的には若干冗長になります。僕もHiveを触り始めてまだ１ヶ月ちょっとなので色々調べている中、RCFileという、HDFS上でHiveテーブルのように構造化されたデータを扱うのに適したデータ構造がある、という事を知ったので、それぞれ以下３種のデータフォーマットについてデータサイズの比較を行いました。 TEXTFILE SEQUENCEFILE RCFILE ◯前提条件今回試験に使
wlbhiro 2016/07/20
Hive

SEQUENCEFILE

RCFile

Hadoop

Compression

Compare
リンク
Hiveのファイル圧縮とSTOREの種類とマージの関係
Hiveの設定項目に「hive.merge.size.per.task」という項目があります。マージ処理が有効になっている（hive.merge.mapredfiles=true）上で、上述の項目で指定した所定のファイルサイズにHiveの計算結果ファイル（MapReduceの結果ファイル）のサイズが満たない場合、所定のサイズを超えるようにマージ処理が行われます。用途としては、結果ファイルとしてあまりに細かいファイルが大量に作られHDFSのブロックが有効活用出来ない状況を回避するため、と認識しています。（できるだけ１ファイルをHDFSのブロックサイズに一致するようなサイズにマージしたい。）もしくは解析時に大量のMapタスクを生成したくない、という目的もあると思います。ただ、こちらのパラメータはケースによっては有効にならないようです。 ◯有効になるケース計算結果ファイルを非圧縮にし
wlbhiro 2016/07/19
hive

SEQUENCEFILE

Hive

table

hadoop

圧縮

compression
リンク
Best splittable compression for Hadoop input = bz2?
We've realized a bit too late that archiving our files in GZip format for Hadoop processing isn't such a great idea. GZip isn't splittable, and for reference, here are the probl ems which I won't repeat: Very basic question about Hadoop and compressed input files Hadoop gzip compressed files Hadoop gzip input file using only one mapper Why can't hadoop split up a large text file and then compress t
wlbhiro 2016/04/11
]

Hadoop

Compression
リンク
gzファイルを解凍せずに調べる - DPA
中身を見るだけじゃなくて、いろいろ調べる中身を見るファイルが小さいとき # zcat test.gz ファイルが大きいとき # gzip -dc access_log.1.gz | less参考 http://open-groove.net/linux/gzcat-and-gzip-dc/ ファイルサイズと、解凍後のファイルサイズを調べる lオプションを使う # gzip -l test.gz compressed uncompressed ratio uncompressed_name 260 426 47.7% index このとき、解凍後のファイルが4GBを超えていると表示バグが発生して、圧縮率がマイナスになるので注意。そのような場合は、時間がかかるが下のようにすると解凍後のファイルサイズが表示される。他に良い方法あるかなぁ。 # gzip -dc test.gz | wc
wlbhiro 2015/10/20
gz

gzip

Compression
リンク
Network File Transfer with SCP Compression On-The-Fly
wlbhiro 2015/09/23
SSH

Compression
リンク
Machine Learning for Elasticsearch
The Elasticsearch Platform natively integrates powerful machine learning and AI into solutions — helping you build applications users crave and get work done faster. Get immediate value from machine learning with domain-specific use cases built right into Elasticsearch. With observability, search, and security solutions, DevOps engineers, SREs, and security analysts can get started right away. No
wlbhiro 2015/09/08
Splunk

elasticsearch

AnomalyDetect

prelert
リンク
Compression: gzip vs bzip2 vs 7-zip | Stefan Reuter
wlbhiro 2015/03/31
gzip vs bzip2 vs 7-zipの比較。この比較では、元データは、MySQL DUMP、圧縮率が一番高いのは、7-zipであった。

Compression
リンク
encodeURIComponentでエンコードした文字列を圧縮する
wlbhiro 2014/12/01
Compression
リンク
1 2 次のページ

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx