タグ

embulkに関するsuzukaze7のブックマーク (5)

  • Digdag + embulk + BigQuery + Re:dash でデータ分析基盤構築の夢を見る - 雑なメモ

    Digdag が Apache License 2.0 の元でオープンソース化されましたよ! さぁ試すんだ…! 今すぐにでも! https://t.co/Uzc4a5GLCe ドキュメント:https://t.co/PF8wy5KHln— Sadayuki Furuhashi (@frsyuki) 2016年6月15日 Digdagが先日リリースされたのをきっかけにデータ分析基盤構築の夢を見た。 今回は、Google Cloud Platform(以下、GCP)のコストを可視化かつ分析可能にしてみて、まずはDigdagの使用感を試してみることにする。 事前知識 Digdagとは Workload Automation Systemである。以下の記事が詳しい。 EmbulkとDigdagとデータ分析基盤と 分散ワークフローエンジン『DigDag』の実装 at Tokyo RubyKaigi

    Digdag + embulk + BigQuery + Re:dash でデータ分析基盤構築の夢を見る - 雑なメモ
  • Embulkでやりたいことリスト(2015年7月版) - Blog by Sadayuki Furuhashi

    バルクロード機能 1つの設定ファイルで複数ジョブを実行する Running multiple jobs using one config file · Issue #167 · embulk/embulk · GitHub 例えば users.csv と histories.csv の2つのファイルを、それぞれPostgreSQLにある users と histories の2つのテーブル にロードしたいというようなユースケースに対応する機能。 設定ファイルの構文はissueに書いてあるように、default: に書き並べた設定に対して、jobs: に書いた設定をマージしたものを実際の設定ファイルとして実行していく方法で良さそう。しかし、fliters: は配列なので、default: に書かれた filters: に jobs: に書かれた filters: をどうマージするか、あまり良

    Embulkでやりたいことリスト(2015年7月版) - Blog by Sadayuki Furuhashi
  • Treasure Dataの新データ転送ツールEmbulkを触ってみた #dtm_meetup | DevelopersIO

    ども、大瀧です。 日開催されたデータ転送ミドルウェア勉強会で、開発者の@frsyukiさんによって語られたEmbulkを早速触ってみました。 Embulkとは EmbulkはOSSのデータ転送ソフトウェアです。もう少し細かく分類するとBulk Loaderと呼ばれる、バッチ処理のためのデータ読み込み、変換処理を行う機能を持ちます。特徴は柔軟なプラグイン構造で、データを読み込むInputPlugin、データを出力するOutputPlugin、さらに読み込み処理自体もExecutorPluginと、機能のほとんどをプラグインとして後から追加、カスタマイズできるよう高度に抽象化されたアーキテクチャになっています。データのハンドリングもプラグインでの実装を想定しているようなので、ここまで来るとミドルウェアというより、データ転送のインターフェースを定義するフレームワークの実装、という方が近い感じか

    Treasure Dataの新データ転送ツールEmbulkを触ってみた #dtm_meetup | DevelopersIO
  • 新しいオープンソースEmbulkを発表1 - トレジャーデータ(Treasure Data)ブログ

    はじめに トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 2015年1月,Fluentd のコミッター(弊社エンジニア)が中心となった「Embulk」というOSSが公開されました。このツールは大規模なデータセットのバルクインポートを行えるデータ収集ツールの1つに大別されるものです。 ↑ メインコミッターである当社エンジニア:古橋は Fluentd や MessagePack といったOSSを生み出してきました。そして,トレジャーデータのプラットフォームの根幹を作り上げたのも彼なのです。 Embulk とは何か? Embulkとはどのようなものなのでしょうか? バルクインポートを行うためのツールは,はるか以前からたくさん存在しますが,その中においてEmbulk の位置付けはどこにあるのでしょうか? 少しずつ紐といていきましょう。 「簡単に言うとFluentdのバッ

    新しいオープンソースEmbulkを発表1 - トレジャーデータ(Treasure Data)ブログ
  • データ転送ミドルウェア勉強会 - Blog by Sadayuki Furuhashi

    Treasure Data, Inc. 古橋貞之です。 来たる1月27日、新しいOSSツール Embulk をリリースします。 EmbulkはFluentdのバッチ処理版のようなツールで、CSVデータやアクセスログなどの構造化データを高い信頼性で転送することができるコンパクトなツールです。 入力元、出力先、ファイルフォーマット、圧縮方式などをプラグインで拡張することができ、S3上のCSVファイル、PostgreSQL、Elasticsearch、Salesforce.com、Treasure Dataなど、異種のストレージやサービスの間でデータを転送・同期することが可能になります。 Fluentdとは異なって、1発実行、あるいは1時間や1日毎で実行するバルク処理に特化しており、 トランザクション制御 冪等性 高速性 スキーマを使ったvalidation などの拡張を備えています。 1回で使

    データ転送ミドルウェア勉強会 - Blog by Sadayuki Furuhashi
  • 1