並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 57件

新着順 人気順

digdagの検索結果1 - 40 件 / 57件

  • S3のコストを大幅に削減した話 - Gunosy Tech Blog

    広告技術部のUTです。 最近はカービィディスカバリーをゆっくりやってます 概要 過去の失敗 どうやったか 仕組み 結果 まとめ 概要 昨今ではデータドリブンな意思決定を重視する企業がどんどん増えており、データを活用することにより事業成長へのインパクトを出そうとしています。 データを事業へと活用するためには、蓄積されるデータを分析するために保管しておく必要があります。 弊社も創業時からデータを蓄積し事業に活用することに力を入れてきた企業の一つであり、日々大量のログが収集されています。 またAWSアカウントを複数運用していますが、一番データ量の多い広告アカウントのS3にはペタバイトレベルのデータが保管されています。 普段何気なく使っているデータレイクとしてのS3ですが、少量であれば無視できるくらい小さいので、コストを気にせず使っておられる方も多いのではないでしょうか? そのようなS3でも巨大な

      S3のコストを大幅に削減した話 - Gunosy Tech Blog
    • エムスリーのデータ基盤を支える設計パターン - エムスリーテックブログ

      こんにちは、エムスリー エンジニアリンググループ の鳥山 (@to_lz1)です。 ソフトウェアエンジニアとして 製薬企業向けプラットフォームチーム / 電子カルテチーム を兼任しています。 ソフトウェアエンジニアという肩書きではありますが、私は製薬企業向けプラットフォームチームで長らくデータ基盤の整備・改善といったいわゆる "データエンジニア" が行う業務にも取り組んできました。 本日はその設計時に考えていること / 考えてきたことをデータ基盤の設計パターンという形でご紹介しようかと思います。多くの企業で必要性が認識されるようになって久しい "データ基盤" ですが、まだまだ確立された知見の少ない領域かと思います。少しでもデータエンジニアリングを行う方の業務の参考になれば幸いです。 データ基盤の全体像 収集部分の構成 RDBデータ ログデータ 活用部分の構成 データマートの実例 「データ基

        エムスリーのデータ基盤を支える設計パターン - エムスリーテックブログ
      • 【保存版】データサイエンティスト転職を決めるポートフォリオのガイドライン【書籍化決定】 - Qiita

        書籍化されました 本記事をベースに監修者の村上さんが1冊の本にまとめてくれました(感謝) データサイエンティストのキャリア面やポートフォリオの細かい部分をさらに追加・ブラッシュアップした内容になっています。 まえがき はじめに 皆さん、「データサイエンティスト」という職種をご存知でしょうか? この数年間で、AIやディープラーニングといったバズワードと共にデータサイエンティストというワードも、よく耳にするようになりました。最新の技術を扱えて、年収も高い非常に魅力的な職業なため、データサイエンティストへの転職を検討されている方もいらっしゃるのではないでしょうか? 実際、データサイエンティスト職への就職・転職希望者は年々増加しています。しかし、未経験の人材を育成できる会社はまだまだ少なく、未経験からの転職は転職希望者の増加に伴い高まっています。 データサイエンティストは求められるスキルの幅が広く

          【保存版】データサイエンティスト転職を決めるポートフォリオのガイドライン【書籍化決定】 - Qiita
        • 2019年のワークフローエンジンまとめ - Qiita

          概要 データパイプラインの管理にワークフローエンジンを導入したいのですが、今の要件に対してどれが合っているのか判断しきれない部分があるので整理してみました 最近の導入事例や発表をみるかぎりAirflow, Argo, Digdagあたりが人気なのかなと思います ワークフローエンジンとは ワークフローエンジンとは定期的なバッチ処理をうまく処理できるように、バッチ実行を管理してくれるソフトウェアのことです 古典的な実現方法としては適当なlinuxサーバーの上でcron実行させることが考えられますが、以下のような問題があります ジョブごとの依存関係を表現できない。cronの時間指定で実現させようとすると、タスクAを1時に開始してそれが完了するとみなして依存するタスクBを2時に開始するというような書き方をすることになるが、実際にタスクAが2時までに終わらなかった場合に処理が上手く実行できない タス

            2019年のワークフローエンジンまとめ - Qiita
          • Digdag + Embulkをクラウド転生させてデータ基盤運用を圧倒的に楽にした話 - エムスリーテックブログ

            こんにちは、エムスリー エンジニアリンググループ / 製薬企業向けプラットフォームチームの鳥山 (@to_lz1)です。 これは エムスリー Advent Calendar 2020 の19日目の記事です。 エムスリーでは現在、各システムのオンプレ環境からクラウドへの移行を急ピッチで進めているところです(勉強会の配信アーカイブをYouTubeでもご覧いただけます。公式テックチャンネルのご登録、ぜひお願いします!) これに関連して私のチームでも最近「データ基盤(Digdag + Embulk)のクラウド移行」を行ったため、そのときに考えたことや移行して良かったことを共有したいと思います。 エムスリーのデータ基盤について それまでの構成 クラウド環境でのアーキテクチャ DigdagとEmbulkの分離 Digdag on AWSからBigQueryを操作する 併せて行った改善(Sentryでの

              Digdag + Embulkをクラウド転生させてデータ基盤運用を圧倒的に楽にした話 - エムスリーテックブログ
            • 家族ノートを支えるBigQuery+StepFunctionsで作るデータレイク - コネヒト開発者ブログ

              こんにちは。インフラエンジニアの永井(shnagai)です。 最近、家族ノートという「ママリ」内の検索データとQ&Aデータ(現在開発中)を可視化したデータ分析サービスの立ち上げに携わっています。 info-kazokunote.mamari.jp 今回は、家族ノートで使っているデータ基盤の一部であるBigQuery+StepFunctionsで作ったデータレイクの仕組みについてご紹介します。 内容は、ざっくりとこんな話を書こうと思います。 データ基盤作りに至った経緯 AWS→BigQueryにデータ移送するアーキテクチャのpros&cons StepFunctions+Embulk(Fargate)を利用したデータレイクの仕組み データ基盤作りに至った経緯 コネヒトには大きく分けると2つのデータセットがあります。 DB(Aurora)にあるアプリケーションのデータ(業務データやマスターデー

                家族ノートを支えるBigQuery+StepFunctionsで作るデータレイク - コネヒト開発者ブログ
              • Embulk & Digdag Meetup 2020

                This is a story about running digdag on Kuberentes to create a scalable workflow execution environment

                  Embulk & Digdag Meetup 2020
                • digdag中心の生活

                  SRE を実践するためのプラットフォームの作り方と技術マネジメント / Building a Platform for SRE

                    digdag中心の生活
                  • EC2で運用している分析基盤(Digdag + Embulk)をECS/Fargateに移行しました | ランサーズ(Lancers)エンジニアブログ

                    SREチームの安達(@adachin0817)です。最近ではランサーズ本家のインフラをコンテナに移行しまくっております。今回ランサーズとMENTAで運用しているEC2/分析基盤サーバー(Digdag + Embulk)をECS/Fargateに移行完了しました。では早速概要と苦労した点、今後の展望などを振り返っていきたいと思います。 分析基盤の紹介 > ランサーズの分析基盤(capybara)と運用について紹介 > MENTAをAWSに移行しました ちなみに私が入社して3年経つのですが、運用して変わったことは3年前よりデータの量が膨大になっていることと、現在、社内の分析チームにとって欠かせないシステムとなっております。その中でDigdagによるスケジューラーとEmbulkによるマルチソースバルクデータローダーである分析基盤専用のEC2サーバーがあり、毎日夜中にデータをBigQuryにシンク

                      EC2で運用している分析基盤(Digdag + Embulk)をECS/Fargateに移行しました | ランサーズ(Lancers)エンジニアブログ
                    • EKS(Kubernetes)上にDigdag・Embulk・Redashで分析環境を構築する - Koichi Ishida blog

                      目次 ワーカーノードの作成 DigdagとEmbulkのDockerビルド KubernetesにDigdag/Embulkをデプロイ Redashの導入 まとめ Kubernetes上に分析環境を構築する機会があったのでどのように構築したかを紹介します。同じような構成でKubernetes上で構築するのは3回目になったので構築方法も洗練されてきました。構成は以下のようになっています。 MySQL(RDS): サービスのデータベース。ここのテーブルからBigQueryにEmbulkでデータをエクスポートします。 PostgreSQL(RDS): Digdagのデータベース。今回新たにつくりました。 Digdag: データベースのエクスポートなどを実行するタスクスケジューラ。失敗したときにリトライもできます。 Embulk: プラグインを使ってデータベースをMySQLからBigQueryにエ

                        EKS(Kubernetes)上にDigdag・Embulk・Redashで分析環境を構築する - Koichi Ishida blog
                      • 楽々スケール Digdag on GKE Autopilot の紹介とその運用Tips - ZOZO TECH BLOG

                        こんにちは、MA基盤チームの田島です。私達のチームでは複数のワークフローエンジンを利用し、メールやLINEなどへの配信を含むバッチ処理を行っていました。今回それらのワークフローエンジンをすべてDigdagに統一しました。そして実行環境としてGKEのAutopilot環境を選択したことにより、柔軟にスケールするバッチ処理基盤を実現しましたのでそれについて紹介します。 また、その中で得られた運用Tipsについても合わせて紹介します。 目次 目次 Digdag on GKE Autopilotの構成 Digdagの4つの役割 Worker Scheduler Web API Kubernetes Command Executor Workerでのタスク実行の問題 Command Executor Kubernetes Command Executorの利用 GKE Autopilot環境でのKu

                          楽々スケール Digdag on GKE Autopilot の紹介とその運用Tips - ZOZO TECH BLOG
                        • Digdagバッチの基本設計とビルドの実例紹介 - MicroAd Developers Blog

                          サーバサイドエンジニアの大澤です。主にETL処理のバッチ開発を行っています。 以前の記事で紹介していますが、マイクロアドではバッチ処理のワークフローを主にDigdagを使用して管理しています。 今回は、Digdagを1年以上使ってきてたどり着いた構成について紹介したいと思います。 Digdagバッチ CI/CDの構成 GitHub Enterprise上のバッチを管理しているリポジトリの変化に応じてJenkinsがビルド、テスト、コードチェック、デプロイまで行うようになっています。 バッチはDigdagとDockerを使用して動作するように作っているので、DockerレジストリとDigdagサーバに成果物を登録します。 成果物は対象のブランチに応じて行き先が変化し、masterブランチの変更の場合本番用の環境へ、その他の場合開発用の環境にデプロイされます。 CIの内容はリポジトリ内のJen

                            Digdagバッチの基本設計とビルドの実例紹介 - MicroAd Developers Blog
                          • Digdag と Embulk と Athena で作る Gunosy の ELT基盤

                            株式会社 Gunosy Gunosy Tech Lab Data Reliability & MLOps Group 中山貴博 2019年7月31日 Digdag と Embulk と Athena で作る Gunosy の ELT基盤 (C) Gunosy Inc. All Rights Reserved. PAGE | 2 ■ 中山貴博 (@Civitaspo) ■ Gunosy Tech Lab Data Reliability & MLOps Group Manager ■ 経歴 – DeNA -> Gunosy (2017/10 ~) – Hadoop の運用や ETL全般 ■ Embulk/Digdag などの古橋ウェアが大好 き – Digdag Plugin公開数7個(総合1位) – Embulk Plugin公開数13個(総合3位) 自己紹介 (C) Gunosy Inc

                              Digdag と Embulk と Athena で作る Gunosy の ELT基盤
                            • Jenkinsをエンジニアでない人も使えるDigdagのWeb UIとして使う - エムスリーテックブログ

                              こんにちは、エンジニアリンググループの福林 (@fukubaya) です。 現在、弊社では長年運用され続けているレポート基盤のリニューアルを昨年から続けています。 その一環で、エンジニアでない人も使えるレポート生成UIを実現するため、 DigdagとJenkinsを利用した仕組みを検討しました。 本記事ではその一例をご紹介します。 横浜赤レンガ倉庫は横浜港にある歴史的建築物。本文には特に関係ありません。 レポート生成UIとしてのJenkins 弊社では、客観的なデータに基づき意志決定することがエンジニアに限らず基本となっているため、 あらゆるサービスでデータの蓄積、分析、活用が日常的に行われています。 レポート生成処理は基本的にはスクリプト実行なので、実行もコマンド実行になりますが、 エンジニアでない人にコマンド実行でレポートを生成してもらうのは難しいです。 そこで、弊社ではJenkins

                                Jenkinsをエンジニアでない人も使えるDigdagのWeb UIとして使う - エムスリーテックブログ
                              • 新しいアンケートシステムをつくった(Digdag・Embulk・BigQueryデータ同期編) - エムスリーテックブログ

                                「作れないものがない」アンケート作成システムを作成した、エムスリーエンジニアリンググループの岩本です。 今回は「新しいアンケートシステムをつくった(Goとシステム概要編)」のバッチ部分について説明します。 概要 アンケートシステムのIbisの内部表現として設問があります。例えば下記のように設問が定義されているとき 設問ID設問タイトルカラム名 1年齢age 2好きな食べ物favorite_food 分析時にTableauから参照するBigQueryでは、回答テーブルとして以下のように見えると処理しやすくなります。 回答番号agefavorite_food 137カレー 232スパゲッティ つまり、前回、滝安(@juntaki)が説明したとおりIbisで「設問の作成」を行うと、分析する際のカラムが1つ増えることになります。 縦持ちとなっている「設問」の情報を横持ちに変換し、BigQueryの

                                  新しいアンケートシステムをつくった(Digdag・Embulk・BigQueryデータ同期編) - エムスリーテックブログ
                                • Embulk & Digdag Online Meetup 2020 イベントレポート | trocco®(トロッコ)

                                  データを基にした論理的な意思決定をしていくことが、(ビジネスにおいて)非常に大事であることが、近年の共通認識になりました。これからは、クラウドやSaaSにデータを集めてきて解析する、という作業がデータサイエンスやデータエンジニアリングをする上で必要になっていくでしょう。さらにSaaS間のデータ統合も必要となり、これは10年前にはあり得なかった世界観です。 古橋氏:「SaaSのクラウドベースにあるデータをインテグレートしていくためにはEmbulkのプラグインAPIの活用することになります。しかしそのプラグインを書くためには、JavaのAPIが使えなければならないのですが、そうしたプラグインを書ける人は多くありません。 その一方で、『スクリプトなら書けます』『スクリプトとSDKがあってドキュメントがあれば書けます』というSaaSの設定をしてる人たちのほうが、圧倒的に人口は多くなります。そうなる

                                    Embulk & Digdag Online Meetup 2020 イベントレポート | trocco®(トロッコ)
                                  • とりあえずexportしない!Digdag変数・パラメータの使い方全種 | DevelopersIO

                                    こんにちは。DA事業本部の春田です。 Digdagで変数やパラメータを定義する時は _export するのが一般的かと思いますが、他にも色々やり方があるのでご紹介していきます。環境はGitHubに上げました。 もくじ Digdagの変数・パラメータ パラメータの取得・保存方法 digファイル上 Pythonファイル上 各種パラメータの検証 export local store --params-file Param Server 最後に 参照 Digdagの変数・パラメータ Digdag公式ドキュメントのConcepts — Export and store parametersによると、標準的なパラメータは3種類あります。 local (digファイルで + をつけて定義する)タスクに直接セットするパラメータ export 親タスクから出力されるパラメータ store 前のタスクで保存さ

                                      とりあえずexportしない!Digdag変数・パラメータの使い方全種 | DevelopersIO
                                    • Data Transformation in Digdag

                                      ワークフローエンジンのDigdagを使ったELT、特にT(Transform)に関する問題について、Digdagのジョブ定義をうまく活用しながら解決する方法について、TimeTree社の取り組みをご紹介します。 また、弊社のようにデータ基盤チームがまだないスタートアップでのTransfomの難しさとの向き合い方も、一例としてお話しします。

                                        Data Transformation in Digdag
                                      • EKS(Kubernetes)上にDigdag・Embulk・Redashで分析環境を構築する | wapa5pow blog

                                        Kubernetes上に分析環境を構築する機会があったのでどのように構築したかを紹介します。同じような構成でKubernetes上で構築するのは3回目になったので構築方法も洗練されてきました。構成は以下のようになっています。 MySQL(RDS): サービスのデータベース。ここのテーブルからBigQueryにEmbulkでデータをエクスポートします。 PostgreSQL(RDS): Digdagのデータベース。今回新たにつくりました。 Digdag: データベースのエクスポートなどを実行するタスクスケジューラ。失敗したときにリトライもできます。 Embulk: プラグインを使ってデータベースをMySQLからBigQueryにエクスポートします。Digdagと同じDockerコンテナでDigdagのタスクから実行されます。 BigQuery: すべてのエクスポートされたデータをここに集約さ

                                          EKS(Kubernetes)上にDigdag・Embulk・Redashで分析環境を構築する | wapa5pow blog
                                        • digdag + embulk でSaaSのレポートを検査する仕組みを作った話 - Oisix ra daichi Creator's Blog(オイシックス・ラ・大地クリエイターズブログ)

                                          こんにちは!SREセクションの林(@morihaya55)です。 本記事はOisix ra daichi Inc. Advent Calendar 2018の17日目の記事です。 昨日は@yymzkの社内でキーボードつくる会を企画した話でした。 同僚がキーボード沼に沈んでいくのを横から暖かく見守るのは気持ちが良いですね、どんどん沈んで欲しいです。 ちなみに私は無難に既製品のErgoDox EZを使っています。分割キーボードは肩が広がる感じが良いですね。 さて今回は digdag + embulk でSaaSのレポートを検査する仕組みを作った話 と題してつらつらと書きます。 やったこと 目的 正常時の件数確認を楽に行いたい 異常時の検知をしたい 対策を検討した どうやったのか digdag、embulkとは Python、pandasとは embulkのプラグインの豊富さが凄い コードのご紹

                                            digdag + embulk でSaaSのレポートを検査する仕組みを作った話 - Oisix ra daichi Creator's Blog(オイシックス・ラ・大地クリエイターズブログ)
                                          • digdag-3tips

                                            ファッションチェックランキングRubyKaigiの裏側 / Fashion check ranking app for RubyKaigi2019

                                              digdag-3tips
                                            • GUIから理解するDigdagチュートリアル | DevelopersIO

                                              こんにちは。DA事業本部の春田です。 今回は、OSSのワークフローエンジン Digdag を触っていきます。Digdagのやってみた系の記事は過去にもあったので、少し趣向を変えましてGetting started — Digdag 0.9.39 documentationをベースにしながらも、GUIを切り口にしてその特徴を把握していきたいと思います。 Digdag | 特集カテゴリー | Developers.IO セットアップ 環境: macOS High Sierra 10.13.6 Digdagをインストールする前に、Digdagで指定されているバージョン 8u72 以上のJDK8(Java SE Development Kit 8)がインストールされているかどうか確認します。なければ、公式ページからインストーラをダウンロードするなり、MacならHomebrewを使うなりしてインスト

                                                GUIから理解するDigdagチュートリアル | DevelopersIO
                                              • Digdag / TreasureData Workflowのエラー処理 – marketechlabo

                                                Digdag / TreasureData Workflowのエラー処理。エラー時の処理を指定する_errorだけでなく_checkやfail:>などの処理もあり、エラー発生/成功時の処理をカスタマイズできる。自由度が高く、ワークフローの階層構造とともにうまく使えばワークフローのコードが簡潔になる。公式ドキュメントの説明が不十分なので補足する。 Digdagがエラーと判定して_errorを発動する条件 コマンドの戻り値が0であれば正常、0でなければエラーとみなす。つまりシェルスクリプト(sh:>)の場合は exit 1 であればエラーとなる。 _errorを複数の階層で記述するとどうなるか _errorは同一階層には複数記述できないが、異なる階層には記述できる。以下のようにワークフローを設定する。 test.dig +task1: +task2: sh>: exit 1 _error: e

                                                  Digdag / TreasureData Workflowのエラー処理 – marketechlabo
                                                • digdagの「echo>:」と「sh>: echo 」の違い - Qiita

                                                  概要 echo>:とsh>: echoの挙動の違いについてです。 digdagのバージョンはv0.9.37です。 詳細 シークレットの変換 dockerコンテナでの実行 はsh>: echoのみで可能です。 io.digdag.core.workflow.EchoOperatorFactoryとio.digdag.core.workflow.ShOperatorFactoryの実装を見てもらえればすぐにわかると思います。 ShOperatorFactoryでそれぞれの処理を行なっている該当箇所は以下です。 ●シークレット変換 String command = UserSecretTemplate.of(params.get("_command", String.class)) .format(context.getSecrets());

                                                    digdagの「echo>:」と「sh>: echo 」の違い - Qiita
                                                  • Workflowの複雑なスケジュール設定を紹介します - Treasure Data - Support Engineering Team blog

                                                    ※ 2022/03/14(Mon) 更新 こんにちは、Treasure Data サポートの伊藤です。 今回は、複雑なスケジュール設定をWorkflowで実現する方法について説明します。 サンプルも記載しますが、参考にされる場合は動作確認の上お使いください。 Workflowのスケジュール設定概要 複雑なスケジュール設定をするには cronについて サンプル 毎月最初の月曜日に実行 平日のみ(土日祝日は処理しない) 隔週の月曜日実行 月末のみ実行 第2月曜日と毎週水曜日のような複数スケジュール 最後に Workflowのスケジュール設定概要 Workflowは基本的には定期的に実行することを目的で利用されていることが多く、1度だけの処理のために実装することは少ないでしょう。 処理内容によって、日次、週次、月次など様々な間隔で実行する要件があるかと思いますが、基本的には ドキュメントにある下

                                                      Workflowの複雑なスケジュール設定を紹介します - Treasure Data - Support Engineering Team blog
                                                    • イベント資料|Embulk & Digdag Online Meetup 2020 - TECH PLAY[テックプレイ]

                                                      グループを作れば、無料で誰でもイベントページが作成できます。情報発信や交流のためのイベントをTECH PLAY で公開してみませんか?

                                                        イベント資料|Embulk & Digdag Online Meetup 2020 - TECH PLAY[テックプレイ]
                                                      • digdagメモ - Qiita

                                                        このページは? digdagを使うにあたって必要になって調べたことのメモです。 なので網羅的な資料ではなく、偏った資料となる予定。 現在進行形で書いていきます。(2019/4/2更新) 最初にすること 初めて使う人はdigdag selfupdateすると良い。 slack通知をする時バージョンが古くて使えないdigdag変数とかあったので、とりあえず最新化するのがおすすめ。 複数の配列を同じindexで要素取得したい +repeat: for_each>: fruit: [apple, orange] verb: [eat, throw] _do: echo>: ${verb} ${fruit} # <実行結果の出力> # 2019-03-29 19:02:03 +0900 [INFO] (0017@[0:default]+main-digdag+repeat^sub+for-0=fru

                                                          digdagメモ - Qiita
                                                        • Seven Useful DigDag Tips and Tricks | Thejesh GN

                                                          DigDag is a pretty simple tool to install and run. There are quite a few tips and tricks that you can use to make your interaction productive. Here are my favourite ones. Setup DigDag Config DigDag command takes quite a few parameters. Instead of remembering to enter them every time, one can create a properties file. Its a standard Java properties file. You can have as many as you want with differ

                                                            Seven Useful DigDag Tips and Tricks | Thejesh GN
                                                          • Digdagの_export時のエラーは_errorのタスクが実行されない - Qiita

                                                            Digdagワークフローのエラーを検知するためにトップレベルの _error を定義しslackに通知しています。 しかし _export 時にエラーになると _error のタスクが実行されないということがあったのでそれを紹介します。 こちらの記事のサンプルで利用しているDigdagのバージョンはすべて 0.9.39 です。 _errorについて _error を定義することで、Digdagのタスクが失敗した時に _error に定義されているタスクが実行されます。 以下が例で、task1の中で sh>: ech "hoge" とわざとエラーを起こしています。 $ digdag run qiita1.dig (...略...) 2019-08-18 18:38:09 +0900 [INFO] (main): Starting a new session project id=1 work

                                                              Digdagの_export時のエラーは_errorのタスクが実行されない - Qiita
                                                            • https://docs.digdag.io/api/

                                                              • Digdag v0.9.40 で理解する Digdag UI - Qiita

                                                                これは Arm Treasure Data Advent Calendar 2019 25日目の記事です。 ※ こちらの記事に書かれている情報は v0.9.40 をベースにしており、将来的に変更される可能性があります。 はじめに みなさんこんにちは。 先日 (2019-12-11) に、digdag v0.9.40がリリースされました。 リリースノートはこちら: Release 0.9.40 — Digdag 0.9.40 documentation 久しぶりのリリースになった関係でたくさんの変更が含まれる形になりましたが、実はUIも大きく変わっております。 今回ではそんなデザインの変更に触れつつ、今までDigdag UIを利用したことがないなというユーザーの皆さんにも「こんな感じなのか」とイメージをつけていただけるように、ページの一覧や機能を少し詳しく書いてみたいと思います。慣れればそう

                                                                  Digdag v0.9.40 で理解する Digdag UI - Qiita
                                                                • 【新機能】Digdag v0.9.42でシンボリックリンクを含むプロジェクトでpush時に再帰的なコピーをするようになりました! | DevelopersIO

                                                                  こんにちは。DA事業本部の春田です。 先週Digdagのバージョン0.9.42がリリースされ、シンボリックリンクの再帰的コピーの機能が追加されました!個人的にかなり待望していた機能です。 CLI: push command supports symbolic links outside of project. [#1199] Add option to copy symbolic links pointing outside of project directo… · treasure-data/digdag@5a72fa0 · GitHub この記事では、本機能の解説と検証をしていきます。 従来までの課題 例えば、以下のような階層構造のDigdagプロジェクトがあるとします。projectA/A.digとprojectB/B.digで、共通のpython/print.pyを使用している場

                                                                    【新機能】Digdag v0.9.42でシンボリックリンクを含むプロジェクトでpush時に再帰的なコピーをするようになりました! | DevelopersIO
                                                                  • Pythonのdigdagモジュールを利用してDigdagバッチの処理継続可能なエラーをハンドリングする - MicroAd Developers Blog

                                                                    はじめに サーバサイドエンジニアの前西です。主にETL処理1のバッチ開発を行っています。 マイクロアドでは、データ処理バッチを主にDigdagとPythonで開発2しています。 今回は、マイクロアドで開発しているDigdagバッチでのエラー処理について、簡単に紹介したいと思います。 処理中断すべきエラーと処理継続可能なエラー エラーには下記の2種類があります。 処理中断すべきエラー 処理継続可能なエラー 特に何もエラーハンドリングをしない場合、エラー発生時には処理が中断されます。今回の記事では2の処理継続可能なエラーのハンドリングについて考えます。 処理継続可能なエラーが発生する場面 例えば、バッチ処理において処理の対象が複数あり、それらを一つずつ処理するようなロジックを書くことがしばしばあります。具体例として、下記のhoge.pyとworkflow.digで構成されるジョブについて考えて

                                                                      Pythonのdigdagモジュールを利用してDigdagバッチの処理継続可能なエラーをハンドリングする - MicroAd Developers Blog
                                                                    • Digdag + Embulk + Fargateによるデータマスキング - Qiita

                                                                      今回は Digdag と Embulk を用いて分析基盤を作ったことについて書きます。 意外とハマりポイントが多く、ネット上に知見もそこまで多くなかったため Tips や解決策を書きます。 実行時の環境は以下になります。 背景 社内では Redash を用いて様々な部署の方がデータの分析をしています。 Redash からアクセス可能なデータの中には秘匿情報も含まれるため、権限管理で分析基盤へのアクセスを厳しく制限する形をとっていました。そこで、社内でより分析をしやすい状態を目指し、秘匿情報をマスキングすることで社員なら誰でもアクセスして問題ない状態を作ることにしました。 このような仕組みを作ると何かしらの情報漏洩が発生するリスクを限りなく小さくできるので、サイトのみならず、会社の信頼性に繋がります。やったね。 今回はワークフローエンジンの Digdag とバルクデータローダーの Embul

                                                                        Digdag + Embulk + Fargateによるデータマスキング - Qiita
                                                                      • Embulk でASCII 0 encountered エラーの回避方法 と Digdagと組み合わせてファイル名を取得する方法 - Qiita

                                                                        はじめに 最近、お客さんからもらったデータを Bigquery など Embulk を使い始めました。 今回はその際に特に困った2つの問題の解決方法のお話を書こうかなと思います。 Embuk ってなに? 公式によると Embulk とは Embulk is a open-source bulk data loader that helps data transfer between various databases, storages, file formats, and cloud services. だそうです。 簡単に言うと、INPUT元からデータを取り込み、OUTPUT先へデータを転送するデータローダーです。 Fluentd をご存知の人はイメージしやすいと思いますが、 Fluentd と同じく 取り込み元や転送先に合わせた plugin が各種用意されていて、そのプラグインを使

                                                                          Embulk でASCII 0 encountered エラーの回避方法 と Digdagと組み合わせてファイル名を取得する方法 - Qiita
                                                                        • digdagでエラーを無視して後続タスクを進める - Qiita

                                                                          ただ、この場合途中でエラーが起こった場合に最後まで実行されないことになる。 task間の依存関係が無い場合にどこかで失敗した場合も最後まで実行したい、 そんなケースの場合はrequireオペレータを使うと良い。 requireオペレータを使う requireオペレータだとignore_failureというオプションがあり、 呼び出したワークフローが失敗しても親ワークフロー内ではエラーにならない。

                                                                            digdagでエラーを無視して後続タスクを進める - Qiita
                                                                          • DigdagのExtensionを実装する - ぶらっ記ぃ

                                                                            モチベーション 個人のリポジトリでdigdag-plugin-datadogを開発していますが、これを使うユースケースは主に _error のタスクでワークフローのエラーをDatadogに通知することであり、これは複数のワークフローが存在する場合、各ワークフローに書いて回る必要があります。 エラー処理を書いて回るのはとても面倒なので、Digdagサーバで共通のエラー通知を実現したいです。 これを実現するためにExtension機能が使えないかと思ったのがきっかけです。 Extensionとは Digdagを設計した @frsyuki さんのツイートを引用させていただきます🙇 Digdag Extensionは、GuiceのModuleを仕込める物で、Guiceの起動前にロードされ、システム全体のGuiceに対して自由に影響できる:https://t.co/UKCAwjyifz— Sada

                                                                              DigdagのExtensionを実装する - ぶらっ記ぃ
                                                                            • 【データ分析基盤構築】digdag+embulkをFargate運用 - VEGA TECH LAB

                                                                              初めまして、ベガコーポレーション データ戦略部 分析基盤エンジニア 新卒3年目の武本です。分析基盤の構築をメインに担当しています。digdag+embulkでデータを同期するツールを開発しFargateでHA構成にしたのでご紹介したいと思います。 入社した当初の分析基盤の状況 分析基盤をご紹介する前に開発前の状況についてお話しします。 かれこれ2年前の話になりますが私が入社した頃にBigQueryを導入しようという話になっていました。 分析に必要なデータを一元管理し、クエリを高速に実行させ、ストレスなく分析業務ができる環境を作るというのが一つの目標でした。 とりあえず必要になったのがBigQueryでデータを一元管理する為のシステム。つまり分析基盤の構築です。 分析基盤構築の開発に当たって調べているとdigdag + embulkでデータを同期させるという事例が多く、弊社もdigdag +

                                                                                【データ分析基盤構築】digdag+embulkをFargate運用 - VEGA TECH LAB
                                                                              • Digdagで大きいパラメータを登録すると後続の処理が重くなる - Qiita

                                                                                この記事はZOZOテクノロジーズ #5 Advent Calendar 2019 7日目の記事になります。 また、今年は全部で5つのAdvent Calendarが公開されています。 ZOZOテクノロジーズ #1 Advent Calendar 2019 ZOZOテクノロジーズ #2 Advent Calendar 2019 ZOZOテクノロジーズ #3 Advent Calendar 2019 ZOZOテクノロジーズ #4 Advent Calendar 2019 概要 Digdagのstoreパラメータに大きな値を入れたときに後続のジョブがすべて遅くなってしまうと言うことがあったので紹介します。 考えてみれば大きな値を毎回DBから取り出してDigdag側でパース等しているので重くなるのは当たり前なのですが。 そこで今回は実際にどんな感じで遅くなるのかを紹介します。また、その回方法を紹介

                                                                                  Digdagで大きいパラメータを登録すると後続の処理が重くなる - Qiita
                                                                                • Embulk & Digdag Online Meetup 2020 - YouTube

                                                                                  トークに関する質問はSlidoで受け付けています! https://app.sli.do/event/rmpbrfsv [目次] 00:00 準備中のためスキップしてください。 46:18 オープニング 48:26 Embulkプラグインをスクリプトで書けるようにしてみた by 古橋貞之 Arm TreasureData(現Treasure Data) 1:09:31 Plan and incompatibility toward Embulk v1.0 by 三廻部大 Arm TreasureData (現Treasure Data) 1:50:22 Embulk を利用したデータ統合SaaSの構築と運用 by 鈴木健太 株式会社primeNumber 2:36:43 Digdag updates 山縣 陽 Arm TreasureData(現Treasure Data) 3:09:

                                                                                    Embulk & Digdag Online Meetup 2020 - YouTube