Embulkにはfilterプラグインという仕組みがあり、これを自作することで、Embulkで入力およびパースした結果を色々と加工することができます。例えば、「すべてのログにホスト名を追加する」といった、ログの種類によらない共通処理を定義するのに向いた仕組みです。 ただ、いろいろ試してみた結果、以前の記事で取り上げたような特殊なログを処理する場合でも、 パース処理の中で、一度完成したらほとんど直す必要がない基本的な部分 → parserプラグイン 試行錯誤しながら、何度か直す必要がある部分 → filterプラグイン と使い分けた方が、コードの見通しが良くなりました。個人的には、parserプラグインと同じくらいfilterプラグインも自作することが多そうなので、作り方をメモしておきます。 特定カラムに含まれる文字列を置換するfilterプラグイン 一例として、以下のようなCSVファイルを