こんにちは。@Civitaspo です。先日12/15 の Embulk Meetup Tokyo#2 では、『Embulkに足りない5つのコト』という喧嘩腰なタイトルで発表させていただきました。おかげで色んな方とembulkについて議論できた良いMeetupになりました。呼んでくださった @frsyuki と、裏から支えて下さった @sonots にはこの場をお借りして感謝の意を伝えたいと思います。ありがとうございました。 さて、今日は embulk java-filter plugin のテストの書き方 について記事を書こうと思います。 おことわり 話を簡単にするためにjava-filter pluginのテストの書き方にfocusしていますが、他のtypeのjava pluginでも応用できる内容だと思っています。 EmbulkEmbedを使ったテストも書けますが今回は紹介しません。
ログ収集基盤ソフトウェア 「Fluentd」、「Embulk」を通信キャリア向けソリューションとして、三菱電機インフォメーションシステムズ株式会社に提供 米国トレジャーデータ社(以下「トレジャーデータ」)は、通信キャリア向けのログ収集基盤ソフトウエア「Fluentd」および「Embulk」の導入・運用サポートを三菱電機インフォメーションシステムズ株式会社(注1、以下「MDIS」)に提供してまいりますので、お知らせいたします。 「Fluentd」および「Embulk」は、トレジャーデータが開発したオープンソースのログ収集基盤ソフトウェアです。「Fluentd」は、ログデータをストリーミングでアップロードする機能を有し、「Embulk」は他のデータベースにあるデータなどをバッチで取り込むソフトウェアです。いずれも、企業が保有する大量のデータを効率よく収集・管理することができることから、大規模W
こんにちは。 インフラエンジニアの村上です。 マネーフォワードのインフラチームは、サービスに関わるインフラから、自社の作業環境、開発環境、さらにはサービスのインフラの中でも物理的なものからOS・ミドルウェア・アプリケーションのメンテナンス・ビルド・リリース・運用まで幅広く関与しています。 今回はGoogle Cloud PlatformのBigQueryを活用してアクセスログの分析環境を構築した時の話を紹介します。 この記事に書かれる事 データ分析基盤としてBigQueryを使用した話と データ量を例示しながら使用を開始した時のトラブルシュートとパフォーマンスについて紹介する。 データ移行のコツもうまく含めながら書いていく。 BigQueryを採用した訳 マネーフォワードの家計簿は350万人以上のお客様に利用いただき、 アクセスログは日々2.500万件程度増えております。 サービス開始から
Digdag が Apache License 2.0 の元でオープンソース化されましたよ! さぁ試すんだ…! 今すぐにでも! https://t.co/Uzc4a5GLCe ドキュメント:https://t.co/PF8wy5KHln— Sadayuki Furuhashi (@frsyuki) 2016年6月15日 Digdagが先日リリースされたのをきっかけにデータ分析基盤構築の夢を見た。 今回は、Google Cloud Platform(以下、GCP)のコストを可視化かつ分析可能にしてみて、まずはDigdagの使用感を試してみることにする。 事前知識 Digdagとは Workload Automation Systemである。以下の記事が詳しい。 EmbulkとDigdagとデータ分析基盤と 分散ワークフローエンジン『DigDag』の実装 at Tokyo RubyKaigi
モノタロウの1900万商品を検索する Elasticsearch構築運用事例(2022-10-26 第50回Elasticsearch 勉強会発表資料)
こんにちは、最近Embulk(エンバルク)を調べている川崎です。 タイトルの「DigDag」(ディグダグ) *1と聞いて○ァミコンや○ムコを思い浮かべた方はきっとアラサー以上ですね! 今回はEmbulkを使い始めると直面するであろう課題について書いていきたいと思います。 これまでに書いたEmbulkエントリー [Embulk] Embulkについての個人的なまとめ [Embulk] guess機能を試してみた【追記】あり [Embulk] guess機能を試してみた Redshift編 [Embulk] タイムスタンプのカラムを追加する [Embulk] タイムスタンプのカラムを追加する add_timeプラグイン編 [Embulk] guess機能を試してみた (テーブルが存在する場合) Embulkを使いはじめると... Embulkはデータファイルの中身をDBにロードするような用途で
こんにちは、みんなのウェディングの小室 (id:hogelog) です。 今回はみんなのウェディングにおけるデータ分析基盤の現状についてご報告させていただきます。 三行まとめ 忙しい人のために先に結論を書くと bricolage と embulk で Redshift に集めて re:dash で分析 です。 データ収集 データ収集は bricolage のジョブネット機構を用いて bricolage の各種ジョブや embulk を連携させ、Redshift にデータを取り込んでいます。 参考までに https://github.com/hogelog/dwh-example に簡単な構成例を準備しました。 MySQL → Redshift みんなのウェディング http://www.mwed.jp/ のデータベースとしては MySQL を利用しています。 MySQL から Redshi
バルクロード機能 1つの設定ファイルで複数ジョブを実行する Running multiple jobs using one config file · Issue #167 · embulk/embulk · GitHub 例えば users.csv と histories.csv の2つのファイルを、それぞれPostgreSQLにある users と histories の2つのテーブル にロードしたいというようなユースケースに対応する機能。 設定ファイルの構文はissueに書いてあるように、default: に書き並べた設定に対して、jobs: に書いた設定をマージしたものを実際の設定ファイルとして実行していく方法で良さそう。しかし、fliters: は配列なので、default: に書かれた filters: に jobs: に書かれた filters: をどうマージするか、あまり良
概要 フォーマッタープラグイン(java-formatter)は、読み込まれたデータをファイル出力用に整形するプラグイン。 (例えばCSVファイルとしてデータを行・カラムごとに分解する) プロジェクトの作成 Javaパーサープラグインは以下のコマンドでプロジェクトを作成する。 $ embulk new java-formatter poi-excel 最後の引数の「poi-excel」は、プラグイン名を表す。 これで、「embulk-formatter-poi_excel」というディレクトリーが作られ、その下にソース類一式が生成される。 プロジェクトを作成したら、まず以下のコマンドを実行する。 $ cd embulk-formatter-poi_excel $ ./gradlew package 生成されたプラグインの中核は、src/main/javaの下のFormatterPluginク
Embulk v0.8.3 Usage: embulk [-vm-options] <command> [--options] Commands: mkbundle <directory> # create a new plugin bundle environment. bundle [directory] # update a plugin bundle environment. run <config.yml> # run a bulk load transaction. cleanup <config.yml> # cleanup resume state. preview <config.yml> # dry-run the bulk load without output and show preview. guess <partial-config.yml> -o <outp
Treasure DataよりEmbulkというOSSが発表されました (詳細:http://www.slideshare.net/frsyuki/embuk-making-data-integration-works-relaxed) このOSSはFluentdを開発された古橋さんが携わっており、「バッチ版のFluentd」と呼べるSWです Fluentdはストリームでデータ連携を実施しますが、こちらはバッチ処理にて同様にデータ連携を行います ※もちろんFluentdと同様にプラグインで拡張 非常に面白く将来的に流行りそう&仕事で早く使いたいというのもありソースコードリーディングを始めました 当Blogでは備忘がてら内容を記載していきたいと思います 今日のリーディング範囲 手始めに以下のコマンドで表示されるhelpまでとします
Java のコードは流石に vim で書くよりは IDE を使ったほうがいいよな、と思ったので試してみたメモ。対象は Java な Embulk のプラグインの開発で、JRuby なプラグインの開発の場合はまだ試していない、というか vim でいいかなと思っていて試していない。 補完利いてブレークポイントが貼れるようになったので最高。 IntelliJ IDEA のインストール 省略します。https://www.jetbrains.com/idea/ へどうぞ。 JAVA_HOME を調べておく必要があるので、Mac の場合 のようにして調べておくと良い。 プロジェクトの読み込み IntelliJ を起動して、Open を選び、プラグインのディレクトリを開くと Gradle プロジェクトとして認識されるはずなので、あとは以下のように設定すると良い.基本的にはこれだけ。 Use auto-
ちなみに当人、Javaは普段書きませんので、簡単なことでも教えていただけると非常にありがたいです。 右側の目次でやりたいことを探してください。 カラム カラムを絞る方法 元ネタ PageBuilderにデータを追加するときに、カラムを名前で指定して書けるようになりました v0.6.13から only-columns.java List<String> columnNames = task.getColumns(); ImmutableList.Builder<Column> builder = ImmutableList.builder(); int i = 0; for (String columnName : columnNames) { for (Column inputColumn: inputSchema.getColumns()) { if (inputColumn.getNa
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く