[B! Embulk] nsyeeのブックマーク

embulk で pure java と jruby でプラグインを作ったときの速度比較 - Qiita

Embulk のプラグインを作るにあたって、pure java と jruby でどれぐらい速度差が出るのか気になったので、それぞれ同じ動作をする簡単なプラグインを作って速度比較してみた。 java版 https://github.com/sonots/embulk-filter-java_pass ruby版 https://github.com/sonots/embulk-filter-ruby_pass このプラグインは、入力データをそのまま通すだけの filter プラグインで、ruby 実装だととても単純で、ただ入力を page_builder に add するだけになっている。 def add(page) page.each do |record| @page_builder.add(record) end end Java 版だと型があるので、Visitor を使ってもう少し

nsyee 2015/06/23

リンク

Embulk: Docs

Built-in Plugins Configuration Embulk configuration file format Local file input plugin CSV parser plugin JSON parser plugin Gzip decoder plugin BZip2 decoder plugin File output plugin CSV formatter plugin Gzip encoder plugin BZip2 encoder plugin Rename filter plugin Remove columns filter plugin Local executor plugin Guess executor Preview executor Logo Images Logo Square Horizontal Icon Customiza

nsyee 2015/04/01

リンク

ERRORログが多すぎるWebアプリに出会ったら - GMOインターネットグループグループ研究開発本部

次世代システム研究室のDevOpsネタ担当（最近は運用寄り）のM. Y.です。最近仕事で、あるWebアプリのログファイルを解析する機会がありました。そのログファイルはERRORレベルのエラーログが非常に多く、それらのERRORログから実際に注意しなければならないログを発見する、というのがそのときの目的でした。アプリを作り始めたときはログ形式に注意を払っていたのに、そのアプリが歴史を重ねるうちにルールが曖昧になったり、開発者が変わってルールが失伝しまうというのは良くあることだと思います。逆に、大したことないアプリだと思って適当なログ形式にして作ったら、思った以上に長年使われて後悔するというパターンもありますよね。私も、そういう経験が何度かあります。そこで今回は、ありがちな事例を描画して、そういうWebアプリに出会ってしまったときの対処方法について考えてみます。また、後半ではログ解析の分

nsyee 2015/03/31

Embulk
Log

リンク

Embulkを使って大量の謎ログを読み込ませる手順 - Qiita

2015.3.16: @hiroysatoさんから教えていただいたnewコマンドをベースにした方法へ大幅に書き換え。背景セキュリティ関係のなんとかみたいな仕事をしていると、ある時急に数TBの謎のログを手渡されて「これ明日までになんか解析してみて」みたいなムチャぶりが飛んでくることがあります。このようなデータ分析では分析手法云々という前に、正規化してDBに取り込んだりする作業に相当の労力が必要になります。こういう事案に対していまどきなデータ転送ソフトウエアであるembulkを使うとだいぶ分析にとりかかれるまでの作業が楽になるのではないかと思ったので、一連の手順をまとめてみました。前提条件大きいサイズ（数GB〜数TB）のログデータを取り込みたいログデータは1行1レコード形式のテキストで複数ファイルに分割されているログの出力形式などは謎。既存のプラグインなど存在しない出力形式の推定

nsyee 2015/03/18

リンク

ファイルを分割して入力するEmbulkプラグインを作ってみた - 今日もプログラミング

Embulkの並列処理 Embulkは、処理を複数のタスクに分割して並列に実行する仕組みを備えている。しかし、標準のファイル入力プラグインでは、単純に1つのファイルを入力すると1タスクにしかならないようだ（こちら参照）。ソースを読んでみると、複数ファイルを読むと複数タスクになるようだ。試しにこんな感じに4ファイルを用意して、 /test └in ├in1.csv ├in2.csv ├in3.csv └in4.csv こんなymlファイルを用意して実行したら、 in: type: file path_prefix: '/test/in' parser: type: csv columns: - {name: id, type: string} - {name: name, type: string} out: type: file path_prefix: '/test/out' fi

nsyee 2015/03/14

リンク

Embulk 0.3 & 0.4 の新機能 - リジュームとJavaプラグイン - Blog by Sadayuki Furuhashi

つい先日*1、Embulk の新しいメジャーバージョンを2つリリースしました。これらのバージョンでは、データ転送ミドルウェア勉強会で得られたフィードバックを元に、リジューム機能、Javaプラグイン機能、そしてプラグインテンプレートジェネレータを追加しています。リジューム機能大きなデータをロードする場合、大部分のデータのロードには成功するが、一部だけ失敗してしまうことは良くあることです。ネットワーク障害、サーバの過負荷などの他に、エラー処理が不完全であるなど原因は様々考えられますが、そのためだけに全データをすべてロードし直すのは大変な手間です。そこでEmbulkでは、分割された複数のタスクのうちの一部だけが失敗した場合に、それらのタスクを後からリトライできる仕組みを導入しました。使い方は、embulk run に --resume--state PATH オプションを指定するだ

nsyee 2015/02/25

Embulk
Java

リンク

並列データ転送ツール『Embulk』リリース！ - Blog by Sadayuki Furuhashi

こんにちは。古橋です。先日の*1 データ転送ミドルウェア勉強会で、新しいオープンソースツール Embulk をリリースしました。 Embulk, an open-source plugin-based parallel bulk data loader from Sadayuki Furuhashi Embulk は、リアルタイムなログ収集では常識となった fluentd のバッチ版のようなツールで、ファイルやデータベースからデータを吸い出し、別のストレージやデータベースにロードするためのコンパクトなツールです。 fluentd と同様にプラグイン型のアーキテクチャを採用しているため、RubyやJavaで簡単なコードを書くことで、様々なファイルフォーマットやストレージに対応することができます。一方で fluentd とは異なり、高速性やトランザクション制御、スキーマを使ったデータのバリ

nsyee 2015/02/17

Embulk

リンク

Treasure Dataの新データ転送ツールEmbulkを触ってみた #dtm_meetup | DevelopersIO

ども、大瀧です。本日開催されたデータ転送ミドルウェア勉強会で、開発者の@frsyukiさんによって語られたEmbulkを早速触ってみました。 Embulkとは EmbulkはOSSのデータ転送ソフトウェアです。もう少し細かく分類するとBulk Loaderと呼ばれる、バッチ処理のためのデータ読み込み、変換処理を行う機能を持ちます。特徴は柔軟なプラグイン構造で、データを読み込むInputPlugin、データを出力するOutputPlugin、さらに読み込み処理自体もExecutorPluginと、機能のほとんどをプラグインとして後から追加、カスタマイズできるよう高度に抽象化されたアーキテクチャになっています。データのハンドリングもプラグインでの実装を想定しているようなので、ここまで来るとミドルウェアというより、データ転送のインターフェースを定義するフレームワークの実装、という方が近い感じか

nsyee 2015/01/28

Embulk

リンク

オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援

オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援何ギガバイトもあるCSVをデータベースに読み込ませるようなバルクデータをバッチ処理するためのツール「Embulk」がオープンソースで公開されました。コミッターとして開発しているのは、ログ収集ツールとして知られるfluentdなどの開発者として知られる古橋貞之氏、西澤無我氏、中村浩士氏らで、3人が所属するTreasure Dataも開発を支援しています。古橋氏はEmbulkについて「簡単に言うとfluentdのバッチ版です」と説明。1月27日に行われた「データ転送ミドルウェア勉強会」で、Embulkの紹介を行いました。 Embulkはプラグインベースのバルクデータローダー古橋氏はまず、例えばCSVファイルをPostgreSQLに読み込ませようとすると、CSVの日付のフォーマットが

nsyee 2015/01/28

リンク

はてなブックマーク

タグ

関連タグで絞り込む (10)

Embulkに関するnsyeeのブックマーク (9)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス