タグ

awsとembulkに関するhohoho_ho2005のブックマーク (3)

  • S3 から BigQuery へ簡単にデータをロードする仕組み

    S3 から BigQuery へ簡単にデータをロードする仕組み AWS x GCP で最適なシステムを作ろう! こんにちは。データエンジニアリンググループの川崎です。まだここにない出会いを求めて、日々コードを書いています。 この記事では、 S3 から BigQuery へデータをロードするときに使っている汎用的な仕組みについて紹介したいと思います。 なぜそんな仕組みが必要なの? 弊社では、日時のバックアップや外部の協働者とのデータの受け渡しのために AWS の S3 をよく使っています。 一方でデータの分析には Redshift や BigQuery を使っています。 そのため受け取ったデータを分析するには適宜ロードする必要があるのですが、そのロードの方法がバラバラだったため、いくつか管理上の問題がありました。 データを取り込む手法がバラバラでメンテナンスしづらい S3 のファイルを Bi

    S3 から BigQuery へ簡単にデータをロードする仕組み
  • BigData-JAWS 勉強会#2 参加レポート(Embulk/DigdagとRedshift)#bdjaws | DevelopersIO

    はじめに データインテグレーション部 大矢です。 2016年9月26日開催のBigData-JAWS 勉強会#2に参加してきました。 この記事はその前半、弊社川崎の発表した「EmbulkとDigdagで作るRedshiftデータマート」のレポートです。 EmbulkとDigdagで作るRedshiftデータマート 資料はこちらです。 発表者はクラスメソッド株式会社 川崎照夫。 参加者の比率の確認(挙手で) OLTP系の人  2名 情報系、DWH系の人  多数 ビッグデータの勉強会なので、やはり情報系の人がほとんど。 データマネジメント概説書 JDMC(日データマネジメント・コンソーシアム)という団体があり、(川崎も)以前参加していた。 JDMC知っている方?(挙手で確認) ほぼゼロ 残念ながら、知名度が低い。 JDMCでは「データマネジメント概説書」という書籍を出版している。 「DMBO

    BigData-JAWS 勉強会#2 参加レポート(Embulk/DigdagとRedshift)#bdjaws | DevelopersIO
  • みんなのウェディングのデータ分析基盤の現状 — みんなのウェディングエンジニアリングブログ

    こんにちは、みんなのウェディングの小室 (id:hogelog) です。 今回はみんなのウェディングにおけるデータ分析基盤の現状についてご報告させていただきます。 三行まとめ 忙しい人のために先に結論を書くと bricolage と embulk で Redshift に集めて re:dash で分析 です。 データ収集 データ収集は bricolage のジョブネット機構を用いて bricolage の各種ジョブや embulk を連携させ、Redshift にデータを取り込んでいます。 参考までに https://github.com/hogelog/dwh-example に簡単な構成例を準備しました。 MySQL → Redshift みんなのウェディング http://www.mwed.jp/ のデータベースとしては MySQL を利用しています。 MySQL から Redshi

    みんなのウェディングのデータ分析基盤の現状 — みんなのウェディングエンジニアリングブログ
  • 1