オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援 何ギガバイトもあるCSVをデータベースに読み込ませるようなバルクデータをバッチ処理するためのツール「Embulk」がオープンソースで公開されました。 コミッターとして開発しているのは、ログ収集ツールとして知られるfluentdなどの開発者として知られる古橋貞之氏、西澤無我氏、中村浩士氏らで、3人が所属するTreasure Dataも開発を支援しています。 古橋氏はEmbulkについて「簡単に言うとfluentdのバッチ版です」と説明。1月27日に行われた「データ転送ミドルウェア勉強会」で、Embulkの紹介を行いました。 Embulkはプラグインベースのバルクデータローダー 古橋氏はまず、例えばCSVファイルをPostgreSQLに読み込ませようとすると、CSVの日付のフォーマットが
![オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援](https://cdn-ak-scissors.b.st-hatena.com/image/square/987659be4a0668f4f98db35dc2530ff7728f4af5/height=288;version=1;width=512/http%3A%2F%2Fwww.publickey1.jp%2Fblog%2F15%2Fembulk02.jpg)