Embulkとは 〜Pluggable Bulk Data Loader〜 並列データ転送ツール Fluentd開発者 古橋氏が開発 Fluentdのバッチ版 プラグインアーキテクチャ Embulkの概念図 特徴その1 プラグインが多数用意されている、かつ日々増殖 独自プラグインの簡単実装追加可能 ( ruby, java ) リトライとレジューム Embulkでは失敗したタスクだけを後からやり直すリジューム機能 オープンソース(Gitに公開) guess機能 入力データを自動で推定し、設定ファイルを生成 対応していないプラグインもある 特徴その2〜Fluentdとの違い バッチ(バルク)処理に特化 fluentdはstream, embulkはstorage 巨大なデータに対応(並列分散処理) 高速性 トランザクション制御あり すべて成功しなかったら、実行前の状態に巻き戻る スキーマを使