タグ

gzipに関するishideoのブックマーク (4)

  • xargs -P を使って並列で圧縮・ファイル転送する - ablog

    xargs -P を使って並列で圧縮・ファイル転送する # 10000 行のファイルを作成する perl -le 'printf(qq/%05d\n/, $_) for 1..10000' > total # 1000 行ごとにファイルを分割する split --numeric-suffixes=1 -l 1000 total splited_ # 8 並列で圧縮する find . -type f -name 'splited_*' -print0|xargs -0 -I{} -P8 gzip # 8 並列でファイル転送する find . -type f -name 'splited_*.gz -print0|xargs -0 -I{} -P8 aws s3 cp {} s3://awssampledb/test/

    xargs -P を使って並列で圧縮・ファイル転送する - ablog
  • S3のコストを大幅に削減した話 - Gunosy Tech Blog

    広告技術部のUTです。 最近はカービィディスカバリーをゆっくりやってます 概要 過去の失敗 どうやったか 仕組み 結果 まとめ 概要 昨今ではデータドリブンな意思決定を重視する企業がどんどん増えており、データを活用することにより事業成長へのインパクトを出そうとしています。 データを事業へと活用するためには、蓄積されるデータを分析するために保管しておく必要があります。 弊社も創業時からデータを蓄積し事業に活用することに力を入れてきた企業の一つであり、日々大量のログが収集されています。 またAWSアカウントを複数運用していますが、一番データ量の多い広告アカウントのS3にはペタバイトレベルのデータが保管されています。 普段何気なく使っているデータレイクとしてのS3ですが、少量であれば無視できるくらい小さいので、コストを気にせず使っておられる方も多いのではないでしょうか? そのようなS3でも巨大な

    S3のコストを大幅に削減した話 - Gunosy Tech Blog
  • Athenaを使ったバッチ処理のTIPS

    https://jawsug-bigdata.connpass.com/event/200841/ BigData-JAWS 勉強会#16 LT 資料 UZOUでのAthenaの設計の話はブログにも書いていますので興味があればぜひ https://tech.speee.jp/entry/2020/11/10/111154

    Athenaを使ったバッチ処理のTIPS
  • なぜ tar gzip はよくないか?

    4. なぜ tar+gzip はよくないか?afio は cpio に似たコマンドです。Debian などの Linux の主要 なディストリビューションには afio のパッケージがあると思い ますが、ない場合は ソース (日のミラーでは こっち) を持ってきて make しましょう。いや、 すでにパッケージがあっても、2.4.4 より古いのだと、後述のハードリンクの bug が あるので、最新を使いましょう。afio の特長は「gzip と組み合わせて、圧縮してバックアップを 取れる」という点です。メディアのほうで圧縮をサポートしていない限り、dump は これができませんよね。「まてまて、tar だって gzip で圧縮バックアップできるじゃないか」 という声は当然予期されます。筆者は tar+gzip でのバックアップはお勧めしません。 以下実例をあげて理由を書きます。 % cd

  • 1