タグ

2019年2月5日のブックマーク (4件)

  • 1000万件のINSERTを映画1本分ぐらい時間節約できた話 | ブログ一覧 | DATUM STUDIO株式会社

    こんにちは、データ事業部でインターンをしている菅野です。 先日、1000万件のデータをPostgreSQL DBにインサートしようとして150分かかりました。データ分析でよく使うPostgreSQLもデータ挿入にけっこう時間がかかるなあ。大変だなあと思っていました。 ところが、方法を変えたら7分しかかからず、20倍くらい差が出るのを知らないと時間を無駄にしちゃう。。。ということで記事を書いてシェアしたいと思います。 結論から言うと、一行ずつインサートするとめっちゃ遅くCOPYコマンドを使うとめっちゃ早くなりました。 計測方法計測用データ件数は10万件、100万件、1000万件の3種です。計測用のファイルから、一度に挿入する行数(100件、1000件、1万件、10万件の4種ごとに実行)を一時ファイルに保存、読み出し、インサートします(文末備考参照)。 上記処理をループさせ、Pythonのps

    1000万件のINSERTを映画1本分ぐらい時間節約できた話 | ブログ一覧 | DATUM STUDIO株式会社
    michael-unltd
    michael-unltd 2019/02/05
    “COPYコマンドを使うとめっちゃ早”
  • Docker

  • https://ubiteku.oinker.me/2015/08/10/rip-tdd/

    https://ubiteku.oinker.me/2015/08/10/rip-tdd/
    michael-unltd
    michael-unltd 2019/02/05
    一連のシリーズ
  • drbd.conf

    ストレージには寿命があり、保存された情報は永遠に正常性を保証されるわけではありません。その為に別のストレージにデータをバックアップしたり、ストレージそのものを多重化してデータを保護することが重要です。今回紹介するは、ストレージデバイスを多重化し、データを複数のストレージに保存する仕組みで、DRBD(Distributed Replicated Block Device)と呼ばれているものです。同様の仕組みにソフトウェア/ハードウェアRAIDがあります。 DRBD(Distributed Replicated Block Device)とは、TCP/IPネットワークを通じて複数のサーバのストレージ(パーティション)をリアルタイムにミラーリング(複製)するソフトウェアです。RAID1のようなミラーディスクを構築することができます。ソフトウェア/ハードウェアRAIDは同じサーバ内のストレージを使

    michael-unltd
    michael-unltd 2019/02/05
    “DRBDとPacemakerを組み合わせると簡単かつ安全なハイアベイラビリティクラスタ環境(HAクラスタ環境)を構築することができます。”