サーバで収集したログファイルをローカルで解析したくて、Embulkを使ってみたんですよ。 テストファイルを食わせてみたら中々良い感じに動いてくれて、出力を変更するだけでCSVとかElasticsearchに出力できて、これは(・∀・)イイ!!と、そう思ってたんですね。 で、650MBくらいの本番のファイルを食わせたら、終わらないんですよ。ちょっと休憩して戻ってきても、まだ終わってない。 入力ファイルを正規表現でパースしていたので遅いのかと思ったのですが、調べて見ると違うようで。どうも日時文字列をTimestampに変換するのが遅いみたいなんですね。issueも切られているので、有名な問題なんですかね? なんか改善される気配が無い (JRubyの改善待ち?) ので、SimpleDateFormatで変換するFilterを作ってみました。 embulk-filter-timestamp_hs