タグ

Embulkに関するnsyeeのブックマーク (9)

  • embulk で pure java と jruby でプラグインを作ったときの速度比較 - Qiita

    Embulk のプラグインを作るにあたって、pure javajruby でどれぐらい速度差が出るのか気になったので、それぞれ同じ動作をする簡単なプラグインを作って速度比較してみた。 java版 https://github.com/sonots/embulk-filter-java_pass ruby版 https://github.com/sonots/embulk-filter-ruby_pass このプラグインは、入力データをそのまま通すだけの filter プラグインで、ruby 実装だととても単純で、ただ入力を page_builder に add するだけになっている。 def add(page) page.each do |record| @page_builder.add(record) end end Java 版だと型があるので、Visitor を使ってもう少し

    embulk で pure java と jruby でプラグインを作ったときの速度比較 - Qiita
  • Embulk: Docs

    Built-in Plugins Configuration Embulk configuration file format Local file input plugin CSV parser plugin JSON parser plugin Gzip decoder plugin BZip2 decoder plugin File output plugin CSV formatter plugin Gzip encoder plugin BZip2 encoder plugin Rename filter plugin Remove columns filter plugin Local executor plugin Guess executor Preview executor Logo Images Logo Square Horizontal Icon Customiza

  • ERRORログが多すぎるWebアプリに出会ったら - GMOインターネットグループ グループ研究開発本部

    次世代システム研究室のDevOpsネタ担当(最近は運用寄り)のM. Y.です。 最近仕事で、あるWebアプリのログファイルを解析する機会がありました。そのログファイルはERRORレベルのエラーログが非常に多く、それらのERRORログから実際に注意しなければならないログを発見する、というのがそのときの目的でした。 アプリを作り始めたときはログ形式に注意を払っていたのに、そのアプリが歴史を重ねるうちにルールが曖昧になったり、開発者が変わってルールが失伝しまうというのは良くあることだと思います。逆に、大したことないアプリだと思って適当なログ形式にして作ったら、思った以上に長年使われて後悔するというパターンもありますよね。私も、そういう経験が何度かあります。 そこで今回は、ありがちな事例を描画して、そういうWebアプリに出会ってしまったときの対処方法について考えてみます。また、後半ではログ解析の分

    ERRORログが多すぎるWebアプリに出会ったら - GMOインターネットグループ グループ研究開発本部
  • Embulkを使って大量の謎ログを読み込ませる手順 - Qiita

    2015.3.16: @hiroysatoさんから教えていただいたnewコマンドをベースにした方法へ大幅に書き換え。 背景 セキュリティ関係のなんとかみたいな仕事をしていると、ある時急に数TBの謎のログを手渡されて「これ明日までになんか解析してみて」みたいなムチャぶりが飛んでくることがあります。このようなデータ分析では分析手法云々という前に、正規化してDBに取り込んだりする作業に相当の労力が必要になります。こういう事案に対していまどきなデータ転送ソフトウエアであるembulkを使うとだいぶ分析にとりかかれるまでの作業が楽になるのではないかと思ったので、一連の手順をまとめてみました。 前提条件 大きいサイズ(数GB〜数TB)のログデータを取り込みたい ログデータは1行1レコード形式のテキストで複数ファイルに分割されている ログの出力形式などは謎。既存のプラグインなど存在しない 出力形式の推定

    Embulkを使って大量の謎ログを読み込ませる手順 - Qiita
  • ファイルを分割して入力するEmbulkプラグインを作ってみた - 今日もプログラミング

    Embulkの並列処理 Embulkは、処理を複数のタスクに分割して並列に実行する仕組みを備えている。 しかし、標準のファイル入力プラグインでは、単純に1つのファイルを入力すると1タスクにしかならないようだ(こちら参照)。 ソースを読んでみると、複数ファイルを読むと複数タスクになるようだ。 試しにこんな感じに4ファイルを用意して、 /test └in ├in1.csv ├in2.csv ├in3.csv └in4.csv こんなymlファイルを用意して実行したら、 in: type: file path_prefix: '/test/in' parser: type: csv columns: - {name: id, type: string} - {name: name, type: string} out: type: file path_prefix: '/test/out' fi

    ファイルを分割して入力するEmbulkプラグインを作ってみた - 今日もプログラミング
  • Embulk 0.3 & 0.4 の新機能 - リジュームとJavaプラグイン - Blog by Sadayuki Furuhashi

    つい先日*1、Embulk の新しいメジャーバージョンを2つリリースしました。 これらのバージョンでは、データ転送ミドルウェア勉強会で得られたフィードバックを元に、リジューム機能、Javaプラグイン機能、そして プラグインテンプレートジェネレータ を追加しています。 リジューム機能 大きなデータをロードする場合、大部分のデータのロードには成功するが、一部だけ失敗してしまうことは良くあることです。ネットワーク障害、サーバの過負荷などの他に、エラー処理が不完全であるなど原因は様々考えられますが、そのためだけに全データをすべてロードし直すのは大変な手間です。 そこでEmbulkでは、分割された複数のタスクのうちの一部だけが失敗した場合に、それらのタスクを後からリトライできる仕組みを導入しました。 使い方は、embulk run に --resume--state PATH オプションを指定するだ

    Embulk 0.3 & 0.4 の新機能 - リジュームとJavaプラグイン - Blog by Sadayuki Furuhashi
  • 並列データ転送ツール『Embulk』リリース! - Blog by Sadayuki Furuhashi

    こんにちは。古橋です。 先日の*1 データ転送ミドルウェア勉強会で、新しいオープンソースツール Embulk をリリースしました。 Embulk, an open-source plugin-based parallel bulk data loader from Sadayuki Furuhashi Embulk は、リアルタイムなログ収集では常識となった fluentd のバッチ版のようなツールで、ファイルやデータベースからデータを吸い出し、別のストレージやデータベースにロードするためのコンパクトなツールです。 fluentd と同様にプラグイン型のアーキテクチャを採用 しているため、RubyJavaで簡単なコードを書くことで、様々なファイルフォーマットやストレージに対応することができます。一方で fluentd とは異なり、高速性やトランザクション制御、スキーマを使ったデータのバリ

    並列データ転送ツール『Embulk』リリース! - Blog by Sadayuki Furuhashi
    nsyee
    nsyee 2015/02/17
  • Treasure Dataの新データ転送ツールEmbulkを触ってみた #dtm_meetup | DevelopersIO

    ども、大瀧です。 日開催されたデータ転送ミドルウェア勉強会で、開発者の@frsyukiさんによって語られたEmbulkを早速触ってみました。 Embulkとは EmbulkはOSSのデータ転送ソフトウェアです。もう少し細かく分類するとBulk Loaderと呼ばれる、バッチ処理のためのデータ読み込み、変換処理を行う機能を持ちます。特徴は柔軟なプラグイン構造で、データを読み込むInputPlugin、データを出力するOutputPlugin、さらに読み込み処理自体もExecutorPluginと、機能のほとんどをプラグインとして後から追加、カスタマイズできるよう高度に抽象化されたアーキテクチャになっています。データのハンドリングもプラグインでの実装を想定しているようなので、ここまで来るとミドルウェアというより、データ転送のインターフェースを定義するフレームワークの実装、という方が近い感じか

    Treasure Dataの新データ転送ツールEmbulkを触ってみた #dtm_meetup | DevelopersIO
    nsyee
    nsyee 2015/01/28
  • オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援

    オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援 何ギガバイトもあるCSVをデータベースに読み込ませるようなバルクデータをバッチ処理するためのツール「Embulk」がオープンソースで公開されました。 コミッターとして開発しているのは、ログ収集ツールとして知られるfluentdなどの開発者として知られる古橋貞之氏、西澤無我氏、中村浩士氏らで、3人が所属するTreasure Dataも開発を支援しています。 古橋氏はEmbulkについて「簡単に言うとfluentdのバッチ版です」と説明。1月27日に行われた「データ転送ミドルウェア勉強会」で、Embulkの紹介を行いました。 Embulkはプラグインベースのバルクデータローダー 古橋氏はまず、例えばCSVファイルをPostgreSQLに読み込ませようとすると、CSVの日付のフォーマットが

    オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援
  • 1