[B! Embulk] mfhamのブックマーク

embulk unpivot filterプラグイン作りました。 - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

mfham 2019/02/11

Embulk

リンク

embulk-output-mysql の merge モードの挙動をしりたくてソースコードを眺めてみたりしていた - 雑文発散(2015-07-23)

merge_direct モードで発行されるクエリは、抜粋するとこんな感じになる。実際にはプリペアドステートメントを作成した後でパラメータを設定してガシガシ回しているみたいだし、このクエリがそのまま発行されている訳ではない。 INSERT INTO ramen ( name, location, created_at, updated_at) VALUES ( 'しじみラーメン和歌山', '青森', '2015-07-19', '2015-07-19' ) ON DUPLICATE KEY UPDATE name = VALUES(name), location = VALUES(location), created_at = VALUES(created_at), updated_at = VALUES(updated_at) ; このクエリを次のように書き換えられれば、この悩みは解決し

mfham 2019/02/11

Embulk

リンク

Mac の MySQL で（というか MySQL 8 で）認証時に Unable to load authentication plugin 'caching_sha2_password'. と怒られたとき（JDBC利用時） - 約束の地

結論 SQL で WITH mysql_native_password を使ってパスワードを定義する。具体例 mysql> ALTER USER 'YOUR_USERNAME'@'YOUR_HOSTNAME' IDENTIFIED WITH mysql_native_password BY 'YOUR_PASSWORD'; 補足 Embulk の MySQL プラグインを使ったら遭遇しました*1 DBeaver を使った場合も同様でしたすなわち JDBC で起きるということでしょう上記コマンドで ERROR 3009 (HY000): Column count of mysql.user is wrong. Expected 50, found 49. Created with MySQL 80012, now running 80013. Please use mysql_upgr

mfham 2019/02/11

Embulk

リンク

EmbulkのfilterプラグインをRubyで開発する話 - 無印吉澤

Embulkにはfilterプラグインという仕組みがあり、これを自作することで、Embulkで入力およびパースした結果を色々と加工することができます。例えば、「すべてのログにホスト名を追加する」といった、ログの種類によらない共通処理を定義するのに向いた仕組みです。ただ、いろいろ試してみた結果、以前の記事で取り上げたような特殊なログを処理する場合でも、パース処理の中で、一度完成したらほとんど直す必要がない基本的な部分 → parserプラグイン試行錯誤しながら、何度か直す必要がある部分 → filterプラグインと使い分けた方が、コードの見通しが良くなりました。個人的には、parserプラグインと同じくらいfilterプラグインも自作することが多そうなので、作り方をメモしておきます。特定カラムに含まれる文字列を置換するfilterプラグイン一例として、以下のようなCSVファイルを

mfham 2019/02/11

Embulk

リンク

Embulk: Docs

Built-in Plugins Configuration Embulk configuration file format Local file input plugin CSV parser plugin JSON parser plugin Gzip decoder plugin BZip2 decoder plugin File output plugin CSV formatter plugin Gzip encoder plugin BZip2 encoder plugin Rename filter plugin Remove columns filter plugin Local executor plugin Guess executor Preview executor Logo Images Logo Square Horizontal Icon Customiza

mfham 2016/08/19

Embulk

リンク

OSSデータバルクローダー基盤 Embulk のまとめ - Curah!

0 shares embulk = em + bulk なので発音はエンバルクでok。 b, m, p, phで始まる単語の前に付くen-はem-になるのでem。 Embulkは、さまざまなストレージ、データベース、NoSQL、クラウドサービス間のデータ転送を支援するプラグインベースの並列バルクデータローダーです。データのクリーニング、エラーハンドリング、トランザクションコントロール、リトライの努力を共有するためのプラグインをリリースすることができます。一回だけ使用するアドホックスクリプトをOSSスタイルで開発し、プラグインとしてパッケージ化することができます。 22 Feb 2015

mfham 2015/03/03

Embulk

リンク

20150219 初めての「embulk」

Lake Formation provides automated data ingestion and security for data lakes on AWS. It allows users to easily ingest data into S3, cleanse and structure the data, and define fine-grained access controls. The service generates a metadata catalog to help users discover and understand their data. It also provides monitoring and auditing of all access to ensure appropriate permissions. Lake Formation

mfham 2015/03/03

Embulk

リンク

Embulk-plugin-inputの作り方 - Qiita

Bulk Loadに特化したOSS Embulk まだ出始めなのでプラグインが少ないため、自己学習のため簡単なものを作ってみました理解しているとは言えませんが、参考になればと思い、私が作った内容をシェアします作成したプラグイン指定ディレクトリ配下のファイルリストを取得するだけのinputプラグインです下記githubにあげてみましたソースコードモジュール・クラスモジュールはEmbulk クラスは任意の名前ですが、InputPluginを継承してくださいまた0.5(or 0.4?)からEmbulk配下にmodule Inputが必要となっていますまたファイル名がinput_xxxからxxxx(プラグイン名のみ)に変わり、ディレクトリ構成がembulk/lib配下からembulk/lib/inputに変わったのでファイル名とディレクトリにも留意ください

mfham 2015/02/19

Embulk

リンク

Fluentdのバッチ版Embulk(エンバルク)のまとめ - Qiita

Embulk(エンバルク) (2016/10/05からロゴが変わりました。変更理由) Embulkのまとめ2ndを作ってます。 Embulk v0.11 でなにが変わるのか: ユーザーの皆様へをご一読ください。更新時にコメントを書くようにしました。変更内容に興味のある方は編集履歴をご覧ください。 2018年1月30日リリースのembulk 0.9からgemは提供されなくなりました。gem版は0.8.39までとなっています種類バージョンロゴの下のバージョンは開発版の最新バージョンを表しています。一般の方は0.9系を利用しましょう 2015年1月27日、Fluentdのメインコミッターの一人古橋さんが中心となって開発した、fluentdのバッチ版のようなツールEmbulk(エンバルク)がリリースされました。この記事は、Embulkってなに？、どんなプラグインがあるの？、どうやって独

mfham 2015/02/19

embluk

リンク

並列データ転送ツール『Embulk』リリース！ - Blog by Sadayuki Furuhashi

こんにちは。古橋です。先日の*1 データ転送ミドルウェア勉強会で、新しいオープンソースツール Embulk をリリースしました。 Embulk, an open-source plugin-based parallel bulk data loader from Sadayuki Furuhashi Embulk は、リアルタイムなログ収集では常識となった fluentd のバッチ版のようなツールで、ファイルやデータベースからデータを吸い出し、別のストレージやデータベースにロードするためのコンパクトなツールです。 fluentd と同様にプラグイン型のアーキテクチャを採用しているため、RubyやJavaで簡単なコードを書くことで、様々なファイルフォーマットやストレージに対応することができます。一方で fluentd とは異なり、高速性やトランザクション制御、スキーマを使ったデータのバリ

mfham 2015/02/18

Embulk

リンク

Java で Embulk Output Plugin を書く - Qiita

はじめにすでに Ruby で書かれた Embulk plugins が登場しており、Embulk の利用シーンも段々と増えていると感じます。その一方で、Java で書かれた plugins はまだまだ少ないのではないかと思います。ちょうど、Embulk から Elasticsearch へデータを書き出す output plugin を書く機会があったので、その plugin の書き方をメモとして残します。まずは Plugin Template を利用 Ruby であれ Java であれ plugins を作成するには、まず Embulk に用意されている new コマンドを実行するのがよいかと思います。New コマンドは、Plugin 開発に必要な gradle スクリプトや Embulk 本体が plugins を登録するために必要なスクリプトなどを自動で生成します。Embulk

mfham 2015/02/18

Embulk

リンク

Embulk, an open-source plugin-based parallel bulk data loader

Embulk, an open-source plugin-based parallel bulk data loader The document discusses Embulk, an open-source parallel bulk data loader that uses plugins. Embulk loads records from various sources ("A") to various targets ("B") using plugins for different source and target types. This makes the painful process of data integration more relaxed. Embulk executes in parallel, validates data, handles err

mfham 2015/02/18

Embulk

リンク

GitHub - embulk/embulk: Embulk: Pluggable Bulk Data Loader.

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

mfham 2015/02/18

Embulk

リンク

Treasure Dataの新データ転送ツールEmbulkを触ってみた #dtm_meetup | DevelopersIO

ども、大瀧です。本日開催されたデータ転送ミドルウェア勉強会で、開発者の@frsyukiさんによって語られたEmbulkを早速触ってみました。 Embulkとは EmbulkはOSSのデータ転送ソフトウェアです。もう少し細かく分類するとBulk Loaderと呼ばれる、バッチ処理のためのデータ読み込み、変換処理を行う機能を持ちます。特徴は柔軟なプラグイン構造で、データを読み込むInputPlugin、データを出力するOutputPlugin、さらに読み込み処理自体もExecutorPluginと、機能のほとんどをプラグインとして後から追加、カスタマイズできるよう高度に抽象化されたアーキテクチャになっています。データのハンドリングもプラグインでの実装を想定しているようなので、ここまで来るとミドルウェアというより、データ転送のインターフェースを定義するフレームワークの実装、という方が近い感じか

mfham 2015/02/18

Embulk

リンク

新しいオープンソースEmbulkを発表1 - トレジャーデータ（Treasure Data）ブログ

はじめにトレジャーデータはクラウドでデータマネージメントサービスを提供しています。 2015年1月，Fluentd のコミッター（弊社エンジニア）が中心となった「Embulk」というOSSが公開されました。このツールは大規模なデータセットのバルクインポートを行えるデータ収集ツールの1つに大別されるものです。 ↑ メインコミッターである当社エンジニア：古橋は Fluentd や MessagePack といったOSSを生み出してきました。そして，トレジャーデータのプラットフォームの根幹を作り上げたのも彼なのです。 Embulk とは何か？ Embulkとはどのようなものなのでしょうか？　バルクインポートを行うためのツールは，はるか以前からたくさん存在しますが，その中においてEmbulk の位置付けはどこにあるのでしょうか？　少しずつ紐といていきましょう。「簡単に言うとFluentdのバッ