タグ

embulkに関するtknzkのブックマーク (17)

  • DigdagとEmbulkを利用してBigQueryにRDS(Aurora、MySQL)のマスタデータを同期する - ZOZO TECH BLOG

    こんにちは、バックエンドエンジニアの塩崎です。 先日、会社の広報のためのインターン生紹介記事にメンターとして掲載していただきました。 大学四年生のインターン生と一緒に写真撮影を行ったのですが、見た目だけではどちらが年上かわからなかったので、「メンターの塩崎(右)」という表記をされてしまいました(笑) インターンでも実際のサービスに触れ、課題を解決!〜VASILY DEVELOPERS BLOGが公開されました〜 さて、VASILYではData WarehouseとしてGoogle BigQuery(BigQuery)を利用しています。 BigQuery内にはプロダクトのマスタデータとユーザーの行動ログが格納されています。 そして、それらに対する横断的なクエリを発行することでプロダクトの成長のためのKPIをモニタリングしています。 そのためAmazon Relational Database

    DigdagとEmbulkを利用してBigQueryにRDS(Aurora、MySQL)のマスタデータを同期する - ZOZO TECH BLOG
  • 83億レコードを移行し、日々2,500万レコードのアクセスログをBigQueryに記録している話(インフラ編) - Money Forward Developers Blog

    こんにちは。 インフラエンジニアの村上です。 マネーフォワードのインフラチームは、サービスに関わるインフラから、自社の作業環境、開発環境、さらにはサービスのインフラの中でも物理的なものからOS・ミドルウェア・アプリケーションのメンテナンス・ビルド・リリース・運用まで幅広く関与しています。 今回はGoogle Cloud PlatformのBigQueryを活用してアクセスログの分析環境を構築した時の話を紹介します。 この記事に書かれる事 データ分析基盤としてBigQueryを使用した話と データ量を例示しながら使用を開始した時のトラブルシュートとパフォーマンスについて紹介する。 データ移行のコツもうまく含めながら書いていく。 BigQueryを採用した訳 マネーフォワードの家計簿は350万人以上のお客様に利用いただき、 アクセスログは日々2.500万件程度増えております。 サービス開始から

    83億レコードを移行し、日々2,500万レコードのアクセスログをBigQueryに記録している話(インフラ編) - Money Forward Developers Blog
  • fluentd x embulk x bigqueryで作るバッチ集計処理基盤

    @joker1007 メインのバッチ集計処理基盤として bigqueryを利用するために今取り組んでいること、 そしてそれを支えるfluentdとembulkの bigqueryプラグインの現状を解説します。 self.inspect @joker1007 Freelance (Ruby/Rails/JS/Redshift/Bigquery) パーフェクトRubyとかパーフェクトRailsとか 最近はアプリより基盤寄りの仕事が多い (株)Reproで仕事中 Repro Inc.の最新情報 - Wantedly Hireling Now 資料作成サボってて時間がやばくなってしまい、 業務時間使って資料作ってたので、 宣伝を入れるからってことで許してもらいました BQの利用背景 MySQLの限界 将来的にもデータ量は増え続ける 割とヘビーな集計処理がある できるだけ同時に算出したい 構成イメー

  • Digdag + embulk + BigQuery + Re:dash でデータ分析基盤構築の夢を見る - 雑なメモ

    Digdag が Apache License 2.0 の元でオープンソース化されましたよ! さぁ試すんだ…! 今すぐにでも! https://t.co/Uzc4a5GLCe ドキュメント:https://t.co/PF8wy5KHln— Sadayuki Furuhashi (@frsyuki) 2016年6月15日 Digdagが先日リリースされたのをきっかけにデータ分析基盤構築の夢を見た。 今回は、Google Cloud Platform(以下、GCP)のコストを可視化かつ分析可能にしてみて、まずはDigdagの使用感を試してみることにする。 事前知識 Digdagとは Workload Automation Systemである。以下の記事が詳しい。 EmbulkとDigdagとデータ分析基盤と 分散ワークフローエンジン『DigDag』の実装 at Tokyo RubyKaigi

    Digdag + embulk + BigQuery + Re:dash でデータ分析基盤構築の夢を見る - 雑なメモ
  • EmbulkとDigdagとデータ分析基盤と

    2. WHO AM I ? • Toru Takahashi (@nora96o) • Treasure Data, Inc. • Support Engineering Manager • メールにチャットに、ブログ書いたり、コードを書いたり、 • http://qiita.com/toru-takahashi • 気づくと、社会人4年目に突入・・・ 2 3. 質問です! • Treasure Data を 知っている人は ? • Fluentd を 知っている人は ? • Embulkを知っている人は? • Digdagを聞いたことがある人は? • インフラ / 分析基盤 を普段から運用や開発をしている人は? • iOS / Android / Unity / フロントエンドの人は? 3

    EmbulkとDigdagとデータ分析基盤と
  • embulk と AWS Lambda でサーバーレスデータ連携 - Qiita

    Embulk Advent Calendar 2015 の21日目の投稿になります。 データ連携したいけどそこまで金は出せない 業務システムを開発しているとサービスAとサービスXのデータを連携したいという要望が、それこそ山のように出てきます。お客様はそれぞれ自分たちの業務システムをお持ちですし、それを我々のサービスXに接続して活用したいというのは自然な欲求です。 で、「なるほどなるほど承りました。ではデータ連携用のプログラム一式でXXXX万円、サーバー代にXXX万円、それを弊社データセンター内に配備しまして年間XX万円の保守費をいただきます」みたいな事をいうと「おいおい、お前のところは月額X千円がウリやったんじゃないんか!」と残念そうにキャンセルされるわけです。個別プログラムの開発と運用というのはそれだけお金がかかる。 お客様とそういう話を直接したことはないので想像なんですが、だいたい合っ

    embulk と AWS Lambda でサーバーレスデータ連携 - Qiita
  • 謎の独自ERRORログをEmbulk + Elasticsearch + Kibana + PostgreSQLで監視する:運用設計からシステム構築まで - GMOインターネットグループ グループ研究開発本部

    2015.05.28 謎の独自ERRORログをEmbulk + Elasticsearch + Kibana + PostgreSQLで監視する:運用設計からシステム構築まで 次世代システム研究室のDevOpsネタ担当(Embulkのコード読んでRuby復習中)のM. Y.です。 前回の記事(ERRORログが多すぎるWebアプリに出会ったら)では、ログ形式が統一されていない、大量のERRORレベルのログを吐き出すWebアプリに運悪く出会ってしまった場合に、そこから何とかログの傾向を把握するためのアプローチについてご紹介しました。 あれから、このアプローチを実践するためのログ監視システムを社内で実際に構築してみました。その結果、Embulk + Elasticsearch + Kibana + PostgreSQLという組合せで、割と手軽に、実用的なものを作れそうなことが分かりましたので、今

    謎の独自ERRORログをEmbulk + Elasticsearch + Kibana + PostgreSQLで監視する:運用設計からシステム構築まで - GMOインターネットグループ グループ研究開発本部
    tknzk
    tknzk 2015/12/15
  • ERRORログが多すぎるWebアプリに出会ったら - GMOインターネットグループ グループ研究開発本部

    次世代システム研究室のDevOpsネタ担当(最近は運用寄り)のM. Y.です。 最近仕事で、あるWebアプリのログファイルを解析する機会がありました。そのログファイルはERRORレベルのエラーログが非常に多く、それらのERRORログから実際に注意しなければならないログを発見する、というのがそのときの目的でした。 アプリを作り始めたときはログ形式に注意を払っていたのに、そのアプリが歴史を重ねるうちにルールが曖昧になったり、開発者が変わってルールが失伝しまうというのは良くあることだと思います。逆に、大したことないアプリだと思って適当なログ形式にして作ったら、思った以上に長年使われて後悔するというパターンもありますよね。私も、そういう経験が何度かあります。 そこで今回は、ありがちな事例を描画して、そういうWebアプリに出会ってしまったときの対処方法について考えてみます。また、後半ではログ解析の分

    ERRORログが多すぎるWebアプリに出会ったら - GMOインターネットグループ グループ研究開発本部
    tknzk
    tknzk 2015/12/15
  • OSSとしてのEmbulkにTreasure Dataはどのように関わっているのか - Qiita

    Embulk Advent Calendar 2015の1日目の投稿になります。 今年の9月にSoftware EngineerとしてTreasure Data(以下TD)に入社していた赤間(@oreradio)です。 最近はData Connector(後述)などの開発でJava/Rubyを書いています。 さて、OSSのバルクロードツールであるEmbulkが公開されて約1年が経ちました。 * 並列・分散処理、リトライ、リジューム等をサポートする * プラガブルな構造 * guessによる設定ファイル生成支援 * OSSとして公開されている などが特徴的な訳ですが、プラグインも90個近くが公開されOSSとして順調なスタートではないかと思います。 一方で体やプラグインを含めた巨大なエコシステムをバルクロードという信頼性が求められる分野で全てOSSとして公開・メンテされる仕組みは果たして上手

    OSSとしてのEmbulkにTreasure Dataはどのように関わっているのか - Qiita
    tknzk
    tknzk 2015/12/15
  • MySQLからBigQueryへのデータロード

    はじめまして、エンジニアの古堀です。 Aimingではログの分析ツールとしてGoogleのBigQueryを利用しています。 ゲームプレイのログを集計、分析して機能開発、改善の指針として活用しています。 実際に運用に乗せてみるとログだけでは情報が足りず、ユーザー情報やマスターデータなども必要であると気付きました。そこでMySQLのデータをBigQueryに反映させる試みに取り組んだので紹介したいと思います。 BigQueryの特長と言えば以下の2点ですが、実際に使用してみるとGoogleアカウントでの認証や権限設定なども便利だと感じますね。 * クエリーの処理速度が速い(数十億件のテーブルでも数十秒で結果が返ってくる) * 費用が安い h2. Embulkの採用 MySQLのデータをBigQueryに反映するツールとして “Embulk”:https://github.com/embulk

    MySQLからBigQueryへのデータロード
  • Embulkでデータロードする(1) – MariaDB, RDS Aurora – OpenGroove

    バッチ志向のデータローダー Embulkを試してみた。セットアップ手順など他の多くの記事で書かれているが、自分用にメモ残しておく。実行環境はMac(Yosemite)。 1. インストール & 動作確認 何も考えずに言われるがままにやると、ホーム配下にリソースがインストールされる。 $ curl --create-dirs -o ~/.embulk/bin/embulk -L "http://dl.embulk.org/embulk-latest.jar" $ chmod +x ~/.embulk/bin/embulk $ echo 'export PATH="$HOME/.embulk/bin:$PATH"' >> ~/.bashrc $ . ~/.bashrc 拠点となるリソースディレクトリ?作成。何も考えずに実行しているがディレクトリ名は別に”sample”でなくてもよい。 $ em

    tknzk
    tknzk 2015/09/15
  • Embulkを使ってJSONデータをGoogle BigQueryに投入する

    Embulkアウトプット・プラグインであるembulk-output-bigqueryを使って、JSONデータをGoogle BigQueryに投入します。 JSONのサンプルデータを用意。 # emacs /tmp/json_sample.json { "first_name":"John", "last_name":"Lennon", "age":20 } { "first_name":"Paul", "last_name":"Maccartney", "age":22 } Google BigQueryのスキーマファイルを用意。 # emacs /tmp/schema.json [ {"name":"first_name","mode":"REQUIRED","type":"STRING"}, {"name":"last_name","mode":"REQUIRED","type"

    Embulkを使ってJSONデータをGoogle BigQueryに投入する
  • 並列データ転送ツール『Embulk』リリース! - Blog by Sadayuki Furuhashi

    こんにちは。古橋です。 先日の*1 データ転送ミドルウェア勉強会で、新しいオープンソースツール Embulk をリリースしました。 Embulk, an open-source plugin-based parallel bulk data loader from Sadayuki Furuhashi Embulk は、リアルタイムなログ収集では常識となった fluentd のバッチ版のようなツールで、ファイルやデータベースからデータを吸い出し、別のストレージやデータベースにロードするためのコンパクトなツールです。 fluentd と同様にプラグイン型のアーキテクチャを採用 しているため、RubyJavaで簡単なコードを書くことで、様々なファイルフォーマットやストレージに対応することができます。一方で fluentd とは異なり、高速性やトランザクション制御、スキーマを使ったデータのバリ

    並列データ転送ツール『Embulk』リリース! - Blog by Sadayuki Furuhashi
    tknzk
    tknzk 2015/02/16
  • Treasure Dataの新データ転送ツールEmbulkを触ってみた #dtm_meetup | DevelopersIO

    ども、大瀧です。 日開催されたデータ転送ミドルウェア勉強会で、開発者の@frsyukiさんによって語られたEmbulkを早速触ってみました。 Embulkとは EmbulkはOSSのデータ転送ソフトウェアです。もう少し細かく分類するとBulk Loaderと呼ばれる、バッチ処理のためのデータ読み込み、変換処理を行う機能を持ちます。特徴は柔軟なプラグイン構造で、データを読み込むInputPlugin、データを出力するOutputPlugin、さらに読み込み処理自体もExecutorPluginと、機能のほとんどをプラグインとして後から追加、カスタマイズできるよう高度に抽象化されたアーキテクチャになっています。データのハンドリングもプラグインでの実装を想定しているようなので、ここまで来るとミドルウェアというより、データ転送のインターフェースを定義するフレームワークの実装、という方が近い感じか

    Treasure Dataの新データ転送ツールEmbulkを触ってみた #dtm_meetup | DevelopersIO
    tknzk
    tknzk 2015/01/28
  • オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援

    オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援 何ギガバイトもあるCSVをデータベースに読み込ませるようなバルクデータをバッチ処理するためのツール「Embulk」がオープンソースで公開されました。 コミッターとして開発しているのは、ログ収集ツールとして知られるfluentdなどの開発者として知られる古橋貞之氏、西澤無我氏、中村浩士氏らで、3人が所属するTreasure Dataも開発を支援しています。 古橋氏はEmbulkについて「簡単に言うとfluentdのバッチ版です」と説明。1月27日に行われた「データ転送ミドルウェア勉強会」で、Embulkの紹介を行いました。 Embulkはプラグインベースのバルクデータローダー 古橋氏はまず、例えばCSVファイルをPostgreSQLに読み込ませようとすると、CSVの日付のフォーマットが

    オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援
    tknzk
    tknzk 2015/01/28
  • Embulk, an open-source plugin-based parallel bulk data loader

    The document discusses Embulk, an open-source parallel bulk data loader that uses plugins. Embulk loads records from various sources ("A") to various targets ("B") using plugins for different source and target types. This makes the painful process of data integration more relaxed. Embulk executes in parallel, validates data, handles errors, behaves deterministically, and allows for idempotent retr

    Embulk, an open-source plugin-based parallel bulk data loader
    tknzk
    tknzk 2015/01/27
  • データ転送ミドルウェア勉強会 - Blog by Sadayuki Furuhashi

    Treasure Data, Inc. 古橋貞之です。 来たる1月27日、新しいOSSツール Embulk をリリースします。 EmbulkはFluentdのバッチ処理版のようなツールで、CSVデータやアクセスログなどの構造化データを高い信頼性で転送することができるコンパクトなツールです。 入力元、出力先、ファイルフォーマット、圧縮方式などをプラグインで拡張することができ、S3上のCSVファイル、PostgreSQL、Elasticsearch、Salesforce.com、Treasure Dataなど、異種のストレージやサービスの間でデータを転送・同期することが可能になります。 Fluentdとは異なって、1発実行、あるいは1時間や1日毎で実行するバルク処理に特化しており、 トランザクション制御 冪等性 高速性 スキーマを使ったvalidation などの拡張を備えています。 1回で使

    データ転送ミドルウェア勉強会 - Blog by Sadayuki Furuhashi
  • 1