並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 160件

新着順 人気順

Workflowの検索結果121 - 160 件 / 160件

  • Dataformでコンパイル変数を使ってみた | DevelopersIO

    WorkflowsからDataformの起動方法を検証してみました。Dataformタグ指定、コンパイル変数のWorkflowsからの上書きができるか、もあわせて検証してみました。 データアナリティクス事業本部の根本です。Dataformを使っていて、呼び出しもと(Workflowsとか)から動的に値を変えてDataformを呼び出すことができたらいいなと思い調べてみたらコンパイル変数を用いたらできたので記事にしてみました。 この記事の対象者 Dataformでコンパイル変数を使ってみたいひと 前提条件 Dataformのワークスペースやリポジトリが存在する、使えること 検証の全体像 コンパイル変数をdataform.jsonで指定して動作するか確認 APIでDataformを実行するときにコンパイル変数の値を上書きして動作するか確認 上記2つの検証をしていきます。 やってみる それでは早

      Dataformでコンパイル変数を使ってみた | DevelopersIO
    • 最新のMlflowによるLLMの実験管理

      最近LLMを使った実験をする機会があったので,その実験管理に最新バージョン(2.9.2)のmlflowを使ってみた.そのバージョンではLLMに対するいくつかの便利機能があったので,今回はそれについて書いてみる. Mlflow MLflowは、機械学習のライフサイクルを管理するためのOSSで,モデルのバージョニング、データセットの管理、実験の追跡、デプロイメントなど、機械学習プロジェクトの全体的なプロセスをサポートしている. ドキュメントも充実しており,Mlflowの使い方というより,機械学習の実験管理のベストプラクティスを学ぶ際にもとても有用なものだと思う. MlflowのLLM用機能 Mlflowの最新バージョン(2.9.2)では,LLMの実験管理用の機能がいくつか追加されている. 内容は大きく分けて以下の3つで,それぞれについて紹介していく. デプロイメント ロギング(トラッキング)

        最新のMlflowによるLLMの実験管理
      • Vertex AI PipelinesとKubeflow Pipelinesはじめの一歩 | DevelopersIO

        Vertex AI Pipelinesを全く使ったことがない人向けに、Kubeflow Pipelinesのはじめ方からまとめてみました。 データアナリティクス事業本部 機械学習チームの鈴木です。 この記事は、ブログリレー『Google CloudのAI/MLとかなんとか』の1本目の記事になります。 そろそろVertex AIもマスターしないとなと思い、Vertex AI Pipelinesをキャッチアップしています。同僚のじょんすみすさんが以前に以下の『Vertex AIではじめるKubeflow Pipelines』を公開してくれていました。 私はBigQueryなどのデータ分析系のサービスの経験が厚く、Vertex AI PipelinesおよびKubeflow Pipelinesを触るのが初めてだったため、Kubeflow Pipelinesとはなんぞやから始める必要がありました。

          Vertex AI PipelinesとKubeflow Pipelinesはじめの一歩 | DevelopersIO
        • データ処理パイプラインの Argo Workflows 移行を検討した話 - freee Developers Hub

          AirflowからArgo Workflowsへ freee の AI ラボというチームでエンジニアをしている id:nagomiso と⾔います。好きな飲み物はストロング系チューハイです。オススメはキリン・ザ・ストロングのコーラサワーと SAPPORO 99.99 のクリアレモンです。 さて, あまりイメージがないかも知れませんが実は freee の AI ラボでは機械学習やデータを活用したサービスの検討・開発だけではなく, 開発や運用を効率的に行うためのインフラ整備にも取り組んでいます。(取り組みの一部は 開発スピードを止めない機械学習インフラ基盤――freeeに学ぶAI開発で本質的価値を提供する方法 でも紹介しています) こうしたインフラ整備の一環としてデータ処理パイプラインの Argo Workflows 移行を進めているので今回はその話をしようと思います。 動機 もともと AI

            データ処理パイプラインの Argo Workflows 移行を検討した話 - freee Developers Hub
          • Vertex AI PipelinesのTips | フューチャー技術ブログ

            はじめにこんにちは、フューチャーでアルバイトをしている平野です。今回は、Vertex AI Pipelinesを利用してみて分かったTipsについて、いくつかピックアップしてまとめました。なお、コードは全てPython・Kubeflowを用いた場合を記載しています。 前提知識Vertex AI Pipelinesとは、GCP上でMLパイプライン機能を提供するサービスです。サーバーレス方式でMLワークフローをオーケストレートします。 基本的な使い方などについては様々なドキュメントがあるので今回は省略しますが、主には以下の公式ドキュメントを参考にしました。 Vertex AI のドキュメント 公式のドキュメントです。Vertex AIの概要、チュートリアル、コードサンプルなどがまとめられています。 Kubeflowのドキュメント Vertex AI Pipelinesを使う際に参照することにな

              Vertex AI PipelinesのTips | フューチャー技術ブログ
            • [dbt] custom schemaを使って普段とは別のスキーマ下にデータモデルを作成する | DevelopersIO

              大阪オフィスの玉井です。 今回は下記の機能を使ってみたので、ご紹介します。 dbtはどこにデータモデルを作るのか? dbtはELTの「T」を担当するツールということで、分析に最適化されたテーブルやビューを簡単に構築することができる…というのは、dbtを調べたり触ったりしたことがある方はわかると思います。 では、その「分析に最適化されたテーブルやビュー」というのは、どのDB・どのスキーマに作られるのでしょうか。 ざっくりいうと最初の設定で指定した場所に作られる DBについては、Projectを作成するときに、対象のDWHの接続情報を設定しますが、そのときに指定した場所になります。ついでに、スキーマも合わせて設定できますが、こちらは接続情報として設定するのではなく、ユーザー毎に持つ「開発用の資格情報」として設定します。 「なんでこの設定こんな分かれ方してんの?」って思っちゃいますが、「どのスキ

                [dbt] custom schemaを使って普段とは別のスキーマ下にデータモデルを作成する | DevelopersIO
              • Prompt FlowによるLLMOps

                Prompt Flowとは プロンプト フローは、大規模言語モデル (LLM) によって動作する AI アプリケーションの開発サイクル全体を合理化するために設計 された開発ツールです。 プロンプト フローは、AI アプリケーション のプロトタイプ作成、実験、反復、デプロイのプロセスを簡素化す る包括的なソリューションを提供します。 https://learn.microsoft.com/ja-jp/azure/ai-studio/how-to/prompt-flow Prompt Flowでできること - LLM、プロンプト、Pythonコード、その他のツールを実行可能なワークフローにリンクするフローを作成で きます。 - フロー、特にLLMとのインタラクションを簡単にデバッグし、繰り返し実行できます。 - フローを評価し、より大きなデータセットで品質とパフォーマンスのメトリクスを計算しま

                  Prompt FlowによるLLMOps
                • dbtからSnowflake Dynamic Tablesを作成してリアルタイムデータパイプラインを構築してみる

                  これは何? こんにちは。 dely株式会社でデータエンジニアをしておりますharry(@gappy50)です。 この記事は、昨年書いた以下の記事の続きの記事になります。 SnowflakeではDynamic TablesのPuPrが開始されており、宣言的なデータパイプラインの全貌徐々に見え隠れしております。 また、これに追従する形でdbt1.6でもMaterialized View(SnowflakeではDynamic Table)をサポートしはじめました。 このDynamic Tablesのメリットとして一番わかりやすいのは、ニアリアルタイムなストリーミングパイプラインをクエリを書くだけで実現が可能になる面だと思います。 これまではモデルを作成したあとのワークロードの実行は dbt build を実行するタイミングとなってしまうため、リアルタイムなデータパイプラインの構築が難しい側面があ

                    dbtからSnowflake Dynamic Tablesを作成してリアルタイムデータパイプラインを構築してみる
                  • Amazon SageMakerでマネージドなMLflowが使用できるようになりました | DevelopersIO

                    こんちには。 データアナリティクス事業本部 機械学習チームの中村(nokomoro3)です。 今朝目が覚めたら、Amazon SageMakerでマネージドなMLflowが使用可能になっていました。 アナウンス Amazon SageMaker now offers a fully managed MLflow Capability - AWS 公式ブログ Announcing the general availability of fully managed MLflow on Amazon SageMaker | AWS News Blog ドキュメント Manage machine learning experiments using Amazon SageMaker with MLflow - Amazon SageMaker 料金 Machine Learning Service

                      Amazon SageMakerでマネージドなMLflowが使用できるようになりました | DevelopersIO
                    • Analystのスループットを継続的に最大化させるデータ基盤の運用思想

                      この記事は「Eureka Advent Calendar 2020」の16日目の記事です。 こんにちは、Head of BIの鉄本です。 15日目は Jun Ernesto Okumuraによるエウレカのデータ組織運営の1年間でした。今日はこの話に関連して、もう少し具体的にEureka BIチームのAnalystの分析フローを支える分析環境について書きます。主に運用の思想や仕組みづくりの紹介になります。 想定読者Data Lake・Data Ware House・Data Martなどのデータ基盤周辺知識があるAnalystを活かすデータ基盤の開発運用に興味がある前置きBIチームの紹介やAnalystの業務フローに関する前置きが少し長くなりますがお付き合いくださいませ。 お急ぎの方は、本題まで飛ばしてください。 チームのミッションとデータ基盤BIチームは、「価値のある意思決定」と「意思決定

                        Analystのスループットを継続的に最大化させるデータ基盤の運用思想
                      • 画像で紹介|Okta Workflowsとは? | TC3株式会社|GIG INNOVATED.

                        はじめに Oktaでは、Okta Identity Platformという安全安心にアイデンティティ管理を行うことができるプラットフォーム機能群が提供されています。具体的には、以下に列記するように、Okta Identity Platformを構成する要素として以下の6つの機能を提供しています(参考:Okta社ウェブサイト)。 Directories Integrations Insights Identity Engine Workflows デバイス 今回は、6つの機能の中でも比較的新しい、2020年3月に開催されたOktane 20で発表され提供されているOktaのWorkflows機能についてご紹介いたします。 このWorkflowsはその名の通り、任意のワークフローをノーコードで組むことができるOktaのEnterprise向け機能で、IFTTTやZapier、Microsoft

                          画像で紹介|Okta Workflowsとは? | TC3株式会社|GIG INNOVATED.
                        • PyAirbyteで始める簡単Data Ingest Pipeline

                          はじめに PyAirbyteがリリースされました。(2024/03/16時点ではBeta版なのでご注意を) PyAirbyteはExtractのコネクタ部分をPythonのライブラリとして提供してPandasに格納するという機能を提供しているらしい。 つまり、BigQueryのクライアントと合わせればExtractとLoadの部分を過疎結合にしつつ、スケジューラーでPythonを呼び出すだけのシンプルなData Ingest Pipelineを作ることが可能なのでは!?ということで検証します。 個人的に考えるData Ingestツールの抱える課題点 FivetranのようなSaaSを使い始める際は規約確認や、契約がとても面倒 Airbyteは契約関連の面倒な部分は無いが、運用工数が大きすぎる worker, sever, temporal, api, dbなどなど(ちゃんと拡張性を考えて

                            PyAirbyteで始める簡単Data Ingest Pipeline
                          • [レポート] Spotify社のコンテンツ分析チームがBigQueryのデータ消化不良をdbtで回避した方法 #dbtCoalesce | DevelopersIO

                            [レポート] Spotify社のコンテンツ分析チームがBigQueryのデータ消化不良をdbtで回避した方法 #dbtCoalesce 大阪オフィスの玉井です。 2022年10月17日〜21日に行われたCoalesce 2022というハイブリッド(オンライン+オフライン)カンファレンスが開催されました。主催はdbt labs社です。 本記事は、その中で発表されたHow the Content Analytics team at Spotify avoids data indigestion in BigQuery with dbtというセッションについて、レポートをお届け致します。 セッション概要 登壇者 Nick Baker Senior Analytics Engineer , Spotify Brian Pei Analytics Engineer, Spotify 超概要 超有名サ

                              [レポート] Spotify社のコンテンツ分析チームがBigQueryのデータ消化不良をdbtで回避した方法 #dbtCoalesce | DevelopersIO
                            • データサイエンスのフルサイクル開発を実現する機械学習パイプライン

                              PyCon JP 2024での登壇資料です。

                                データサイエンスのフルサイクル開発を実現する機械学習パイプライン
                              • 最速で画像を圧縮するAlfred Workflowを作った - Qiita

                                はじめに PNGやGIFの圧縮は、ブログ記事やGitHubのPull Requestの実行画像貼り付けとかで割とあります。 自分はTinyPNGやiLoveIMG を利用していましたが、プラウザを開きファイルをアップロード・圧縮しダウンロードという手順が毎回面倒でした。 なので、alfred-imagemin というPNG / JPEG / GIFを手軽に圧縮するAlfred Workflowを作ってみました。 (GIFでも使えるというのが嬉しいポイントです) この記事ではalfred-imageminの概要と、仕組みを紹介します。 ※ Alfred WorkflowはAlfredでAlfred Powerpackを導入済みの方のみ使える機能です。便利なWorkflowで作業効率爆上がりなので、未導入の方はぜひこの機会に! インストール 以下コマンドでnpmからインストールできます(後述す

                                  最速で画像を圧縮するAlfred Workflowを作った - Qiita
                                • Node.js で Alfred Workflows を作る | ひよこまめ

                                  概要Alfred は、Mac の多機能ランチャーアプリケーションです。 この記事では、Alfred の機能のひとつ、Alfred Workflows(以下、ワークフロー)を Node.js で作成する方法を説明します。 「alfy」というライブラリを利用すると、Node.js でワークフローをカンタンに作成できます。 環境Alfred 4(Powerpack)Node.js 10ワークフローのしくみワークフロー(要 Powerpack)は、Alfred に割り当てたトリガーや検索ボックスのインプットをもとに、情報を加工し出力します。 たとえば筆者が作成した alfred-kibela-workflow では、次のことを行っています。 ユーザーより、「ワークフローのトリガーワード」+「キーワード」が入力される入力されたキーワードで、Kibela というサービスのノートを検索するため、API

                                    Node.js で Alfred Workflows を作る | ひよこまめ
                                  • Google Cloud の Workflows を運用してみて - Assured Tech Blog

                                    こんにちは、Assured のオリバーです。 最近、Google Platform の Workflows を業務に導入し、非同期で動作していたプロセスやバッチをパイプライン化して自動化することで、管理コストと運用コストを削減することができました。この記事では、私たちが取り入れた構成例や、参考になりそうなポイントをいくつか紹介します。これらの情報が、これから Workflows を試してみたい方や、既に使用を開始している方にとってお役に立てれば嬉しいです。 すでに Workflows をご利用の方は、「Workflowsとは」のセクションを飛ばして、「Assured のユースケース」からご覧ください。 Assured の事例は以下の二つについて話をします。 データ解析のパイプライン化 長時間のキューイングプロセスの自動化 Workflowsとは Workflows は Google Clo

                                      Google Cloud の Workflows を運用してみて - Assured Tech Blog
                                    • ArgoCD の Config Management Plugin (CMP)を理解し、Plugin でマニフェストの変数置換を行う - kencharosの日記

                                      概要 前職の同僚がずっと、PullRequest ごとにプレビュー環境でアプリケーションをデプロイしたいと言っていた。 確かにそれができれば便利ではあるけど、たとえ k8s の力を借りても実現するまでの手順は多く、遠い夢かと思っていた。 でも ArgoCD で頑張ればその夢は近くなるかもしれない。 これは、ArgoCDの Config Management Plugin (CMP) と呼ばれる機能を使って、動的なマニフェスト生成を行い、さらにPullRequestごとの固有の情報をマニフェストに柔軟に埋め込むための仕組みを考えてみたという話。 想定読者 k8s にある程度詳しい ArgoCD にもある程度詳しい ArgoCD の ApplicationSet や Generator の機能を知っている、あるいは調べればわかる方 参考資料 GitブランチやPullRequestごとにプレビュ

                                        ArgoCD の Config Management Plugin (CMP)を理解し、Plugin でマニフェストの変数置換を行う - kencharosの日記
                                      • alfredでGoogle翻訳を秒で行う方法 - 楽したい

                                        最近、作業効率化・自動化にハマっているので、神が作りし神アプリalfredでGoogle翻訳させるやり方書きます。 「alfredって何?」っていう人はこの記事読まないと思うので、この記事では言葉の細かい説明はしません。 前提条件 alfred version4系インスコ済み(多分3でも動く。2は知らない。) power pack購入してactivate済みであること power packはalfredの機能を制限なく使用するために買うやつです。 25ドルと45ドルのやつがありますが、alfred至上主義者の俺は45ドルの方を買いました。 alfredは神アプリなので100ドルでも買う自信があります(威圧)。 やり方 まず、alfred-google-translateっていう下記リポジトリからworkflowファイルをダウンロードします。 https://github.com/xfslo

                                          alfredでGoogle翻訳を秒で行う方法 - 楽したい
                                        • gokart で言語処理100本ノックをやってみる - Qiita

                                          gokart とは gokart はエムスリーが開発している機械学習パイプラインツール。 Spotify により開発されている luigi のラッパーになっていてより簡単に書くことができる。 NLP の機械学習モデルを開発していると前処理、事前学習、ファインチューニング、可視化などなど工程が多く、管理が大変になる。パイプラインツールを使って楽になりたいということで、言語処理100本ノック2020 Rev2の機械学習パートで試してみる (56, 57, 59は gokart 的に新しい操作がないため飛ばす)。 公式情報として gokart は redshells などと組み合わせて使われることが多いようだが、この記事では gokart 自体の動作の理解のため、他のツールは使わずに実装する。 前準備 gokart がどんなものかまずは公式ドキュメントで動作を確かめてみると良い。 Intro T

                                            gokart で言語処理100本ノックをやってみる - Qiita
                                          • Prometheus Metricsを使ってArgo WorkflowsのWorkflowの成否をDatadogで監視する - yasuhisa's blog

                                            背景 具体的な設定 コントローラーに設定を生やす workflowを監視するためのカスタムメトリクスを定義する 各workflowに同様のカスタムメトリクスを定義する デバッグ方法 所感 背景 前職に引き続き、現職でもArgo Workflowsを使ってデータエンジニアリング系のバッチ処理を行なっている 以前にCloud Workflowsを調査したことがあったが、まだちょっと厳しい感があった 前職ではCloud Monitoringで監視していたが、現職ではDatadogで監視しているので、全社の体制に合わせてDatadogで監視していきたい Argo WorkflowsはPrometheus Metricsに対応しており、Datadogはagent経由でPrometheus Metricsの収集を容易に行なえることが分かった 同僚のSREであるtapihさんから教えていただいてました、

                                              Prometheus Metricsを使ってArgo WorkflowsのWorkflowの成否をDatadogで監視する - yasuhisa's blog
                                            • dbt v1.8で追加された単体テストを触ってみた

                                              Tokyo dbt Meetup #9 の発表資料です。

                                                dbt v1.8で追加された単体テストを触ってみた
                                              • GitHub - pneumaticapp/pneumaticworkflow: Free and source-available Apache 2.0 licensed lightweight workflow automation tool.

                                                You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                  GitHub - pneumaticapp/pneumaticworkflow: Free and source-available Apache 2.0 licensed lightweight workflow automation tool.
                                                • 2年運用した dbt プロジェクトを リファクタリングする

                                                  2023/03/28、dbt Meetup dbt ユーザー会で発表した、森田の資料になります。

                                                    2年運用した dbt プロジェクトを リファクタリングする
                                                  • dbtをDagster Cloudでオーケストレーションする

                                                    2024-03-05 @Data Engineering Study #23 Data orchestration 特集

                                                      dbtをDagster Cloudでオーケストレーションする
                                                    • Workflows | Google Cloud

                                                      Combine Google Cloud services and APIs to  build reliable applications, process automation, and data and machine learning pipelines. New customers get $300 in free credits to spend on Workflows. All customers get 5,000 steps and 2,000 external API calls per month, not charged against your credits.

                                                        Workflows | Google Cloud
                                                      • Airflowで構築したワークフローを検証する - Qiita

                                                        データ基盤の監視 データ基盤は下流の分析・可視化・モデリングの「基盤」となるので、監視は言うまでもなく品質を担保するため重要な存在です。データ基盤監視の考え方についてこの2つの記事が紹介しています。 同じくSQLによるデータ基盤を監視しており、最も大きな違いは自作ツールかAirflowで検証することだけです。本文はAirflowで構築したワークフローの検証についてもう少し紹介したいと思います。 まず、Data Pipelines Pocket Referenceではデータ基盤検証の原則が紹介されました。 Validate Early, Validate Often 要はできるだけ早く、できるだけ頻繁に検証するとのことです。ELTあるいはETL処理においては、Extract, Load, Transformそれぞれのステップが終了した直後に監視するのは最も理想的だと思います。 Transfo

                                                          Airflowで構築したワークフローを検証する - Qiita
                                                        • gokartを使ってみる - Re:ゼロから始めるML生活

                                                          この前はluigiを使ってみてました。 www.nogawanogawa.com この前参加したの勉強会で登壇者のみなさんがgokart激推しだったので、今回はエムスリーさんで開発されているgokartを使ってみたいと思います。 (エムスリーさん主催の勉強会で、登壇者の半分がエムスリーさんだったから激推しなのは当然っちゃ当然なんですが...) なにはともあれ、やってみたいと思います。 gokart cookiecutter-gokart thunderbolt redshells 使ってみる 題材:SCDV フロー luigiでの実装 gokartを使った実装 redshellsを使った実装 github 感想 gokart github.com gokartの説明は、エムスリーさんのブログが非常にわかりやすかったです。 www.m3tech.blog あと、個人的にはこちらの記事も非常に

                                                            gokartを使ってみる - Re:ゼロから始めるML生活
                                                          • BigQuery DataFrames と Vertex AI Pipelines による機械学習パイプライン構築

                                                            はじめに こんにちは、クラウドエース データソリューション部の松本です。 普段は、データ基盤や MLOps を構築したり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのが データソリューション部 です。 弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があれば エントリー をお待ちしております! 今回は、BigQuery DataFrames と Vertex AI Pipelines による機械学習パイプライン構築方法について、ご紹介いたします。 この記事はこんな人にオススメ 機械学習パイプラインにおける実行基盤を検討さ

                                                              BigQuery DataFrames と Vertex AI Pipelines による機械学習パイプライン構築
                                                            • Cloud Composer(Airflow)で分析者向けBigQuery SQL実行基盤をつくりました - スタディサプリ Product Team Blog

                                                              はじめに こんにちは。Data Engineer の @shase です。 弊社ではいくつかのユースケースでCloud Composer(Airflow)を使っているのですが、今回はデータチームで開発している、分析者向けBigQuery SQL実行基盤(社内の通称はSaved Query Workflow)について紹介します。 このシステムは今年の春から動いているものです。 システム概要 今回紹介するシステムの概要です。 分析者はSQLとYAMLをGitHubにコミットしてPRを作成します。 エンジニアがレビューをします。 Cloud ComposerでSQLがスケジュール実行され、結果がGoogle Sheets などに出力されます。 背景 組織全体のKPI集計やレポーティングとは別に、分析者個人や特定のチームが使うテーブルやレポートを定期的に作成する場合を想定したユースケースとして、分

                                                                Cloud Composer(Airflow)で分析者向けBigQuery SQL実行基盤をつくりました - スタディサプリ Product Team Blog
                                                              • [新機能]dbt CloudのAuto-exposures機能でdbtのModelと紐づくTableauダッシュボードを自動的にexposureとして登録しリネージが可視化できるようになりました | DevelopersIO

                                                                さがらです。 dbt Cloudの新機能として、Auto-exposures機能でdbtのModelと紐づくTableauダッシュボードを自動的にexposureとして登録しリネージが可視化できるようになりました。(2024年10月7日時点ではプレビュー機能で、Versionless及びdbt Cloud Enterpriseエディションで利用可能です。) ドキュメントは下記となります。本記事では、この機能を実際に試してみたのでその内容をまとめてみます。 事前準備 dbtで定義したModelから作られたSnowflakeのテーブルに対して、Tableau Cloud上でライブ接続でダッシュボードを作っておきます。 このダッシュボードがdbtのExposureとして自動登録されるかを確認していきます。 注意事項 2024年10月8日に試した際は、抽出対象のTableauのCollection

                                                                  [新機能]dbt CloudのAuto-exposures機能でdbtのModelと紐づくTableauダッシュボードを自動的にexposureとして登録しリネージが可視化できるようになりました | DevelopersIO
                                                                • dataformからdbtに移行するために調べたこと - Retty Tech Blog

                                                                  コトの発端 実現したい分析基盤 Rettyの分析基盤 dbtにまとめて、こうしたい dataformでやっていたこと 使ったdbtの機能は、incrimental modelのThe insert_overwrite strategy 実際にやったコト merge intoで指定する任意のパーティション設定 incremental modelのinsert_overwriteの設定 incremental時のwhere句 感想 サンプル コード 挙動 N日に実行 N+1日に実行 この記事Retty Advent Calendar 2023 - Adventarの24日目の記事です。 2023年4月に入社した土田です。 コトの発端 こんなメールが来た。 半年後にdeprecated。まじか。 実現したい分析基盤 前述の通りRettyではdataformを使って、DWH内の物理テーブルを更新し

                                                                    dataformからdbtに移行するために調べたこと - Retty Tech Blog
                                                                  • 【Airflow Summit 2022 東京】オフライン参加レポ - Qiita

                                                                    はじめに Airflow Summit は、Apache Airflow のユーザーと開発者のグローバルコミュニティのための年次イベントです。2022年は2回目の開催で、東京では実際に集まって講演を聴講する local event が行われました。 ここ数年、コロナ禍でイベントが一斉にオンライン化され、他の開発者とリアルで会う機会が少なかったので、いい気分転換でしたし、オフラインイベントに参加する重要さ を感じさせられました。開催は Tokyo Apache Airflow Meetup が行い、今後も Airflow に関するイベントを開催していくそうなので、少しでも Airflow に興味があればご参加ください!(僕が会いたい!) 当日の流れ エリア/施設 開催地は品川区にある大崎ブライトコアホールでした。朝から気温と日差しが厳しく、マラソンでもしてきたような汗を掻いた状態で入り口にた

                                                                      【Airflow Summit 2022 東京】オフライン参加レポ - Qiita
                                                                    • Airflow Deferrable Operators

                                                                      クリスマスも年の瀬も近づいていますが、新年来てほしくないですよね?明日も来てほしくないですよね?時の進みをDeferしたいですよね? Airflowのドキュメント見ていたら、"Defer"という魅力的なキーワードを見つけたので調べてみました。 tl;dr 2.2でDeferrable Operatorというのが出たよ 2.0で登場したSmart Sensorを置き換えるよ Pythonの非同期IOの仕組みを使い、Workerではない場所(Triggerer)で処理を待つよ 使えるOperatorはまだ少ないよ AWS/GCPのmanaged Airflowでは使えないよ。Astrnomerか自前の環境か必要だよ 登場の背景 Deferrable Operatorですが、基本的にはSensorを改善するものです。 (ただし、外部リソースにアクセスするOperator全般に使えるらしい) その

                                                                        Airflow Deferrable Operators
                                                                      • Dataformのチーム開発環境を考える

                                                                        この記事はdatatech-jp Advent Calendar 2022の12日目の記事となります。 はじめに DataformがGCPIntegratedPreviewとして公開されました。 チーム開発を考えた時、dbtのSaaS版では$50/Monthかかりますが、Dataformは無料*のため非常にリーズナブルです。 *ただし、当然BigQueryのクエリコストなどはかかってきます しかし、このGCP版ですがPreview版のためチームで運用するにはまだ少し課題があると感じています。この記事ではその課題感と、それに対して暫定的にどういう対応をとっているのかを共有したいと思います。 Dataformとは ELT[1]を実現してくれるツールです。元々はSaaS版が公開されていましたが、2020年にGoogleに買収されGCPへのインテグレーションが進められており[2]、現在SaaS版は

                                                                          Dataformのチーム開発環境を考える
                                                                        • ワークフロー管理プラットフォームのCI環境をクラウドネイティブへ - Pepabo Tech Portal

                                                                          こんにちは。あなただけの彦星になりたい、鹿児島が生んだ三大Hikoの一人、和彦こと、P山 です。 今日はデータ基盤チームで利用しているワークフロー管理プラットフォームのApache Airflow(以降Airflow) で利用しているDAGのCI環境をクラウドネイティブな技術を利用して、リニューアルした実装を紹介します。 DAGというのは Directed Acyclic Graph の略で有向非巡回グラフと訳されます。Airflowではそれぞれのタスクをまとめたものを1つのDAGとして定義します。 多くの方になじみのない言葉でしょうから、この記事内においては「プログラムコード」と脳内変換していただければ読みやすいです。 リニューアル前 データ基盤チームではAirflowの実行基盤としてGCPのCloud Composer を利用しています。 自動テストを行うために、GitHub Acti

                                                                            ワークフロー管理プラットフォームのCI環境をクラウドネイティブへ - Pepabo Tech Portal
                                                                          • Amazon MWAAのローカル環境を簡単構築!aws-mwaa-local-runnerのススメ | DevelopersIO

                                                                            Amazon MWAA(Amazon Managed Workflows for Apache Airflow)を利用する場合のローカル開発環境として便利なaws-mwaa-local-runnerを紹介します。 こんにちは。サービスグループの武田です。 AWSは多くのマネージドサービスを提供していますが、ではそれを利用する場合の開発環境をどうしようかという課題があります。動作確認は常にAWSで行えばよいという考え方もあります。一方で、たとえばDynamoDBであればDynamoDB Localを使うなどローカルで実行可能な環境を作れる場合もあります。 AWSではAmazon Managed Workflows for Apache Airflow(MWAA)という、Airflowのマネージドサービスを提供しています。今回はMWAAのローカル環境についてです。名前からも分かるとおり中身はA

                                                                              Amazon MWAAのローカル環境を簡単構築!aws-mwaa-local-runnerのススメ | DevelopersIO
                                                                            • Kedroを使って感じたこと - Insight Edge Tech Blog

                                                                              こんにちは。12月からInsight Edgeに参画したData Scientistのカイオと申します。 入社してから早速、ChatGPT案件やデータサイエンス案件をいくつか担当しています。 今回は、とある案件で使用したMLパイプライン管理ツール「Kedro」について紹介したいと思います。 目次 Kedroとは なぜKedroを選んだか メリット デメリット 他のツールとの違い まとめ Kedroとは まず、Kedroとは何かの説明から始めましょう。 パイプラインを表示する機能もあります(引用元:https://docs.kedro.org/en/0.17.7/03_tutorial/05_visualise_pipeline.html) Kedroとは、データサイエンスのパイプラインを管理するツールです。データ収集、変換やモデル学習、ハイパーパラメータ調整の管理から精度評価までまとめて簡

                                                                                Kedroを使って感じたこと - Insight Edge Tech Blog
                                                                              • PyCaretとMLflowで機械学習の実験を簡単に実行・記録する - DATAFLUCT Tech Blog

                                                                                こんにちは!nakamura(@naka957)です。今回はPyCaretとMLflowを用いたAutoMLと実験記録を連携した活用方法をご紹介します。 今回は様々な機械学習アルゴリズムの比較・モデル実装に加えて、行った実験記録の管理を簡単に行う方法をご紹介します。実施事項がたくさんありますが、PyCaretとMLflowの活用で少ないコード行数で簡単に実施できます。 PyCaretは機械学習モデルの実装を簡単に行えるOSSですが、PyCaretからMLflowを呼び出すこともでき、実験記録の管理も同時に行えます。 【PyCaret】 ■ AutoMLライブラリPyCaretを使ってみた〜モデル実装から予測まで〜 ■【続き】 AutoMLライブラリPyCaretを使ってみた 〜結果の描画〜 【MLflow】 ■ MLflowの使い方 - 機械学習初心者にもできる実験記録の管理 - ■ ML

                                                                                  PyCaretとMLflowで機械学習の実験を簡単に実行・記録する - DATAFLUCT Tech Blog
                                                                                • What is Windmill? | Windmill

                                                                                  Windmill is a fast, open-source workflow engine and developer platform. It's an alternative to the likes of Retool, Superblocks, n8n, Airflow, Prefect, Kestra and Temporal, designed to build comprehensive internal tools (endpoints, workflows, UIs). It supports coding in TypeScript, Python, Go, PHP, Bash, C#, SQL and Rust, or any Docker image, alongside intuitive low-code builders, featuring: An ex

                                                                                  新着記事