並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 120 件 / 199件

新着順 人気順

workflowの検索結果81 - 120 件 / 199件

  • dbt (data build tool) を使ってデータをテストする - CUBE SUGAR CONTAINER

    ソフトウェアエンジニアリングの世界では、自動化されたテストを使ってコードの振る舞いを検証するのが当たり前になっている。 同じように、データエンジニアリングの世界でも、自動化されたテストを使ってデータの振る舞いを検証するのが望ましい。 データをテストするのに使える OSS のフレームワークも、いくつか存在する。 今回は、その中でも dbt (data build tool) を使ってデータをテストする方法について見ていく。 dbt 自体はデータのテストを主目的としたツールではないものの、テストに関する機能も備えている。 また、dbt には WebUI を備えたマネージドサービスとしての dbt Cloud と、CLI で操作するスタンドアロン版の dbt Core がある。 今回扱うのは後者の dbt Core になる。 使った環境は次のとおり。 $ sw_vers ProductName:

      dbt (data build tool) を使ってデータをテストする - CUBE SUGAR CONTAINER
    • Raycast 所感 - @kyanny's blog

      TL;DR 現時点では Alfred の方が多機能でカスタマイズしやすい。ただ、Raycast はビルトインで便利な機能がいくつかあり、甲乙つけ難い。 私物マシンで一週間ほど少し使った && 軽くドキュメントを見ながらちょっと込み入ったコマンドを試してみた感想。 Raycast Manual Action Panel Window Management Core (Extension) Calculator (Extension) Script Commands Quicklinks Fallback Commands Create Extension / Raycast API FAQ 結論 Raycast Manual Notion で作られている。センスが合わない。 Action Panel Alfred でいうところの Cmd+1,2,3 みたいな「追加アクション」のこと。Cmd+

        Raycast 所感 - @kyanny's blog
      • Argo Workflowsの設定や文法

        というような感じになっていて、目的や供与可能なコスト分を考えながらここらへんをうまいこと組み合わせてデータ基盤というのは構築される。 最近では多くの企業でデータエンジニアというポジションが募集されており、データエンジニアは何をしているかというとここらへんの構築・整備を行う。 正直なところデータエンジニアの仕事というのはエンジニアリング的に難しいことは何もなくて、基本的に社内政治に振り回されながら泥臭い作業を行うだけの妖怪になるという悲しい役割に終始するのだけれど、ひとまず業務としてはワークフローエンジンの整備を行う。 ワークフローエンジンに何を使うかについては結構トレンドがあり、少し前(だいたい5年前とか?)はDigdagを使うのが主流だったのだけれど最近はユーザーも離れてしまいあまり開発も活発ではなくなってしまっており(DigdagはJavaで作られているのだが最近のLog4jの問題が発

          Argo Workflowsの設定や文法
        • ASF Incubatorを卒業したApache Hopで遊んでみる

          はじめに 2022年あけましておめでとうございます。 昨年末 (2021年12月) に ASF Incubator プロジェクトを卒業しトップレベルプロジェクトとなった ETLツール Apache Hop で遊んでみたので記事としてまとめました。 この年末年始に初めて触ったプロダクトなので、内容に誤りがある可能性があります。お気軽にご指摘ください 🙇‍♂️ Apache Hop とは何か? ちゃんとした説明は 公式のドキュメント にすべて詳細に書かれています。 ここでは自分の解釈も入れつつ Apache Hop を紹介してみます。 概要と特徴 Apache Hop は ETL (Extract/Transform/Load) の開発ツール・実行エンジンです。データオーケストレーションツールとも呼ばれます。もともとPentahoの一部として開発されていた Kettle というプロジェクトか

            ASF Incubatorを卒業したApache Hopで遊んでみる
          • ミツモアを支えるデータ分析基盤あるいはStitchとdbtを用いたELTについて - ミツモア Tech blog

            ※ こちらはミツモアAdvent Calendar 2021の12/20分の記事です。 こんにちは、ミツモアCTOの柄澤(@fmy)です。今回は、ちょうど1年半前ぐらいに整備したミツモアデータ分析基盤についてご紹介いたします。(記事にするのが遅くなってすみません) 全体像 ミツモアのデータパイプラインの全体像は以下のようになっています。 ミツモアのデータパイプライン このパターンはETL(Extract / Transform / Load)ではなくELTと言われ、ExtractとLoadを行ったのちに、データウェアハウスの中でTransformを実施する戦略となっています。BigQueryに代表される今日のデータウェアハウスは膨大なデータを保持し、大量の並列処理を可能とする能力があるので、一旦データウェアハウスにあらゆるデータを入れたのちに、自由にデータの変換処理をする方が筋が良いように

              ミツモアを支えるデータ分析基盤あるいはStitchとdbtを用いたELTについて - ミツモア Tech blog
            • デザイナーとエンジニアを巻き込んだワークフローの改善|鈴木慎吾 / TSUMIKI INC.

              「エンジニアリングに興味があるデザイナー、デザインに興味があるエンジニア Advent Calendar」20日目の記事です。 今年の5月から、社内でクライアントワークのチームから自社事業のチームに異動し、映画・ドラマ・アニメのレビューサービスのFilmarksで有料会員機能のPMを担当しています。 以前はUIデザインやアプリ開発、あるいはその中間的な仕事としてプロトタイプ開発やディレクションなどを経験してきました。 PM業の傍ら、社内のデザイナーとエンジニアの受け渡し部分の改善に取り組みました。その検討過程について紹介します。 要件定義・UIデザイン・開発間のワークフロー改善もともとFilmarks内ではディレクターがGoogleスライドなどで要件資料とGithub Issueをつくり、 デザイナーがSketchでUIをつくりZeplinで書き出したURLをエンジニアに受け渡し、エンジニ

                デザイナーとエンジニアを巻き込んだワークフローの改善|鈴木慎吾 / TSUMIKI INC.
              • MLOps系プロダクトの布教活動報告 - Qiita

                この記事はMLOps Advent Calendar 2021の18日目の記事です。 2016年にもTensorFlowとMLサービスの2016年の布教活動報告を書きましたが、ここ3年くらいはMLOps系の活動をメインにしてきたので、その報告です。COVID後はイベント登壇も減り、ブログ記事の執筆が多くなりました。その裏話的な内容です。 Feature Store のブログ記事 今年5月のGoogle I/OでVertex AIのMLOps系プロダクトがいくつかリリースされたので、その後にフォローアップのブログ記事を出し始めました。まずは6月にPMのAnandと書いた Kickstart your organization’s ML application development flywheel with the Vertex Feature Store(日本語版)です。 このプロダクト

                  MLOps系プロダクトの布教活動報告 - Qiita
                • CeleryによるPythonベース非同期タスク処理

                  はじめに 例えば機械学習モデルを運用する際に、WebAPI形式で予測を提供するのは一般的な方法と言えます。ここで推論処理に時間がかかる場合には、リクエストに対するレスポンスだけ先に返しておき、処理の本体はバックグラウンドで非同期的に実行するという選択肢が存在します。 本記事では、Pythonベースの分散タスクキューツールであるCeleryを用いて、WebAPIへのリクエストに対応したタスクを非同期実行し、結果を確認するまでを紹介します。サンプルコードは以下に配置しました。 Celeryとは 公式ドキュメントの冒頭には以下のように書かれています。 Celery is a simple, flexible, and reliable distributed system to process vast amounts of messages, while providing operation

                    CeleryによるPythonベース非同期タスク処理
                  • バッチ処理 プラクティス

                    バッチ処理は既に先人の方々が多くのナレッジを公開してくれていますが、それでもなお難しさが変わらないテーマだと思っています。 この記事は、筆者がこれまでの開発経験で気づいたバッチ処理の実装ナレッジを整理し、体系化を目指して文章にしました。 ここでの内容が、より良い課題解決に貢献できれば幸いです。 自身の断片的な思考整理(メモ書き)の延長で内容を整理したため、一部書き振りが統一されておらず、読みにくいかもしれません。ご了承ください。🙏 バッチ処理の難しさバッチ処理は難しい。 人によっては簡単なテーマかもしれませんが、自分は難しいテーマだと思っています。 「難しさの根源は何か?」を考えると、1. 考慮点が多様にあること 2. 解決する課題によって答えが大きく変わること に整理できました。 この2点は、どのソフトウェア開発にも当てはまる項目ではありますが、ことバッチ処理においては顕著に現れます。

                      バッチ処理 プラクティス
                    • データエンジニアリングの背景を踏まえてdbt(Data Build Tool)を少し深く理解してみる - Qiita

                      概要 dbt(Data Build tool)を、前提知識となるデータエンジニアリングにおける現状を踏まえて、どういったツールであるかを説明します。dbtがデータエンジニアリングのあるべき姿としてデザインされており、共有されることが少ないデータエンジニアリングのナレッジを含むため、dbtを利用しない場合でも本記事の内容は有益な情報となっております。 dbtの概要については、下記の記事で整理しています。 データエンジニアリングの技術背景 ストレージコンピューティングの分離が可能なデータ処理エンジン(Spark、Presto等)がデータ分析基盤のデータストアとして用いられるようになってきています。従来であればデータレイクではデータの管理が困難であったが、レイクハウスフォーマット(Delta Lake、Hudi、Iceberg等)の開発によりデータレイクにACID特性を持たせられるようになり、デ

                        データエンジニアリングの背景を踏まえてdbt(Data Build Tool)を少し深く理解してみる - Qiita
                      • dbtを活用したデータ基盤の 論理・物理設計の現在地と振り返り / data warehouse logic design by using dbt

                        dbtを活用したデータ基盤の 論理・物理設計の現在地と振り返り / data warehouse logic design by using dbt

                          dbtを活用したデータ基盤の 論理・物理設計の現在地と振り返り / data warehouse logic design by using dbt
                        • バッチ処理系の刷新とArgo Workflow移行

                          これはPTAアドベントカレンダーの7日目の記事です。 5年間運用されてきたバッチ処理系を刷新し、Argo Workflowを用いたバッチ処理系に移行したのでその紹介記事です。 背景 GKE上でバッチ処理のワークロードを実行しており、ワークフローエンジンとしてDigdagを採用していました。ユースケースとしては定期実行のバッチ処理、ETL、機械学習等。 Digdagを用いたワークフロー定義はシンプルかつ運用に必要な機能を提供してくれています。実際のワークフロー内部の処理としては、ワークフローの各タスクにおいては基本的にはロジックは持たずKubernetes Jobの実行のみを行います。そのためにDigdagとKubernetes Job間で協調動作するための仕組みが独自で用意されていました。このようなバッチ処理系が約5年程運用されてきました。 この仕組で今まで元気に動いてはいたのですが次のよ

                            バッチ処理系の刷新とArgo Workflow移行
                          • Github Actions チートシート

                            概要 何度も調べて何度もテストしたりしたので、多用するものをまとめていきたい。 項目 push時に実行 // feature/aaaで動く。 feature/aaa/bbbでは動かない on: push: branches: - feature/* // feature/aaa, feature/aaa/bbbで動く on: push: branches: - feature/** // なにかしらのtagがpushされたときに実行、branchのpushは無視 on: push: tags: [ '**' ] branches-ignore: [ '**' ] // 指定したpathの変更だけでは実行しない on: push: branches: - main paths-ignore: - '*.md' - 'docs/**' on: workflow_dispatch: inputs

                              Github Actions チートシート
                            • 承認ではなくて、よさそう、と思って暮らしている - hitode909の日記

                              普通に書いたdiffは、関心がさまざまなところに散らばっていたたり、書きかけだったりで、意味のまとまりがないもので、それを整形して、説明を書いたものがPull Requestであり、コードレビューは、そのまとまりごとに、他人から見て理解可能であるという承認する行為、という理解をしていた。 なので、レビューを通すことは、動くことに賭けて、以後、動かなかったら責任を取る、みたいなイメージはあまり持っていなかった。 レビュワーの責任をどこまでと規定するか考えて、責任が大きい順に並べていくと レビューを通した以上、以後は私の責任です、という態度 職人魂を感じる 見たところよさそうに思いました、という態度 通りすがり風情を感じる まったくの無責任なので、工数最小化のために何が来てもapproveする、という態度 やっつけ仕事 かるぱさんのチームでは1になっているのかな(追記)こうなっている、というこ

                                承認ではなくて、よさそう、と思って暮らしている - hitode909の日記
                              • モデリング施策を高速・安全に回せる、MLOpsの仕組みづくり

                                こんにちは。サイエンス統括本部で機械学習エンジニアをしている芹沢です。ヤフー全社で使われているレコメンドプラットフォームを担当するプロジェクトに所属し、ログ収集・学習ジョブの開発/運用やMLOpsに関連する業務を行っています。 本記事ではそのMLOps業務の中からモデリング業務の効率化の取り組み事例を紹介します。新しいモデルを本番採用するまでにはA/Bテストの準備などをする必要がありますが、それにかかる工数が多いことが課題となっていました。そこで、検証段階からA/Bテスト実施までの実装の負担を軽減し、より早く安全にモデル改善の試行錯誤を行える仕組みを提供しました。 ※ レコメンドシステムの開発はプライバシーポリシーの範囲内で取得したデータを用いて、個人を特定できない形で行っています。 全社共通レコメンドプラットフォームの紹介 レコメンドとは、サービスを利用するユーザーにおすすめのアイテムを

                                  モデリング施策を高速・安全に回せる、MLOpsの仕組みづくり
                                • データ ウェアハウスを BigQuery に移行するなら、Dataform による BigQuery UDF の単体テストを実施しましょう | Google Cloud 公式ブログ

                                  データ ウェアハウスを BigQuery に移行するなら、Dataform による BigQuery UDF の単体テストを実施しましょう ※この投稿は米国時間 2021 年 10 月 8 日に、Google Cloud blog に投稿されたものの抄訳です。 BigQuery への移行時には、BigQuery ネイティブ関数の充実したライブラリを利用して分析ワークロードを強化できます。既存の関数は、独自のユーザー定義関数(UDF)で拡張することも可能です。人間誰しもミスをするものなので、単体テストを作成して UDF が正しく動作するかを検証することをおすすめします。Dataform のコマンドライン ツールはこのニーズを満たし、すべての UDF の単体テストをプログラムで実行できるようにします。 2020 年に Google Cloud が買収した Dataform は、BigQuery

                                    データ ウェアハウスを BigQuery に移行するなら、Dataform による BigQuery UDF の単体テストを実施しましょう | Google Cloud 公式ブログ
                                  • データ処理パイプラインの Argo Workflows 移行を検討した話 - freee Developers Hub

                                    AirflowからArgo Workflowsへ freee の AI ラボというチームでエンジニアをしている id:nagomiso と⾔います。好きな飲み物はストロング系チューハイです。オススメはキリン・ザ・ストロングのコーラサワーと SAPPORO 99.99 のクリアレモンです。 さて, あまりイメージがないかも知れませんが実は freee の AI ラボでは機械学習やデータを活用したサービスの検討・開発だけではなく, 開発や運用を効率的に行うためのインフラ整備にも取り組んでいます。(取り組みの一部は 開発スピードを止めない機械学習インフラ基盤――freeeに学ぶAI開発で本質的価値を提供する方法 でも紹介しています) こうしたインフラ整備の一環としてデータ処理パイプラインの Argo Workflows 移行を進めているので今回はその話をしようと思います。 動機 もともと AI

                                      データ処理パイプラインの Argo Workflows 移行を検討した話 - freee Developers Hub
                                    • Redshift Federated Query for RDS/Aurora MySQL をつかったType-2 Slowly Changing Dimensionの実装 - KAYAC engineers' blog

                                      こんにちは。技術部の自称データエンジニアの池田です。 Redshift Federated Query for RDS/Aurora MySQL(Federated Query for MySQL)がめでたくGAになりました。 Federated Query for MySQLを使うと、RedshiftからAurora MySQLにクエリを発行し、その結果をRedshift上で利用することができます。 今回は、この機能を使ったType-2 Slowly Changing Dimension(SCD2) の実装の話をします。 aws.amazon.com TL;DR Change Data Capture(CDC)を実装・運用するほどじゃないけど、State Sourcingなテーブルの変更履歴を追跡したいときには、SCD2を使うと嬉しいです。 Federated Query for MyS

                                        Redshift Federated Query for RDS/Aurora MySQL をつかったType-2 Slowly Changing Dimensionの実装 - KAYAC engineers' blog
                                      • Tonamelのデータ基盤 ~データモデリング編~

                                        #nakanoshima_dev 9/22 18:30~ https://nakanoshima-dev.connpass.com/event/221243/ nakanoshima.dev #21 LED!! (Let's enjoy データ分析!!)の発表資料です。

                                          Tonamelのデータ基盤 ~データモデリング編~
                                        • dbtで作成したデータモデルをそのまま可視化に使えるBIツール「Lightdash」を使ってみた | DevelopersIO

                                          大阪オフィスの玉井です。 今回は、dbtにネイティブ対応しているBIツールを紹介します。 Lightdashとは 名前の通り、ライトなBIツールなのですが、接続先がDWHではなく、dbtプロジェクトなのが特徴です。 dbtを使う理由の1つに、BIツールで分析しやすいデータを用意する、というものがあると思います。普通は、dbtを通してDWH上にできたテーブルやビューを、別途BIツールで接続して利用します。しかし、Lightdashは、DWHを介すのではなく、直接dbtのコードを利用して可視化を行います(裏側としては、dbtのコードを利用して、dbtの後ろにあるDWHにクエリを実行するようになっています)。 やってみた 今回はローカルで試します。OSSなので無料です(有料版については後述)。 環境 macOS 11.5.2 dbt CLI 0.20.1 docker 20.10.8 dbtを接

                                            dbtで作成したデータモデルをそのまま可視化に使えるBIツール「Lightdash」を使ってみた | DevelopersIO
                                          • ベイジのウェブ制作ワークフロー2021年版(約100のタスクと解説) | knowledge / baigie

                                            営業、受注、制作、納品、運用と、ウェブ制作の活動は長期に渡り、そのタスクの種類と量は膨大です。だからこそ、基本的なプロセスや使用するドキュメントなどを明確に定義しておかないと、サービスの品質が担当者により大きく変わることになります。 ベイジは社員がまだ5名の頃、各人に委ねた進め方によって以下のようなトラブルが頻発していました。 ミスが発生しても「次から気をつける」と精神論で終わらせてしまう 担当するディレクターやクリエイターによってタスクの抜け漏れが起きる 担当者それぞれが属人的な進め方をしてて品質が安定しない 役割が不明瞭なグレーゾーンのタスクが放置されてしまう 創造的な仕事の時間が、ルーチンや計画にないタスクに奪われてしまう 新しい社員が入る度に同じことを教えないといけない これら問題を解決するため、2014年頃からワークフローを整備するようになりました。ちなみに私が入社したのはこれ以

                                              ベイジのウェブ制作ワークフロー2021年版(約100のタスクと解説) | knowledge / baigie
                                            • TransformersのPipelinesで日本語固有表現抽出 - Retrieva TECH BLOG

                                              こんにちは。TSUNADE事業部研究チームリサーチャーの坂田です。 本記事では、Hugging Face 社が開発しているTransformersのPipelinesという仕組みを使って日本語の固有表現抽出を行う方法をご紹介します。 Transformersとは? 日本語学習済み言語モデル Pipelines Trainer 固有表現抽出とは? 実際に日本語NERTを試してみる 必要な各種依存ライブラリのインストール 使用するデータ 日本語固有表現抽出データセットでのFine-tuning Pipelinesを使った固有表現抽出 実行例 おわりに 参考 Transformersとは? TransformersはHuggingFace社が公開しているPython用ライブラリで、BERTを始めとするTransformer系の言語モデルを使用する際のデファクトスタンダードになっています。また、最

                                                TransformersのPipelinesで日本語固有表現抽出 - Retrieva TECH BLOG
                                              • 機械学習パイプラインの要件と Vertex Pipelines / Kubeflow Pipelines V2 による実装

                                                サンプルパイプライン : https://github.com/reproio/lab_sample_pipelines/tree/main/kfp 解説記事 : https://tech.repro.io/entry/2021/06/22/125113 ハンズオン資料 : https://gist.github.com/AseiSugiyama/d189a43f656a3313837e820bc54f873b

                                                  機械学習パイプラインの要件と Vertex Pipelines / Kubeflow Pipelines V2 による実装
                                                • [dbt] custom schemaを使って普段とは別のスキーマ下にデータモデルを作成する | DevelopersIO

                                                  大阪オフィスの玉井です。 今回は下記の機能を使ってみたので、ご紹介します。 dbtはどこにデータモデルを作るのか? dbtはELTの「T」を担当するツールということで、分析に最適化されたテーブルやビューを簡単に構築することができる…というのは、dbtを調べたり触ったりしたことがある方はわかると思います。 では、その「分析に最適化されたテーブルやビュー」というのは、どのDB・どのスキーマに作られるのでしょうか。 ざっくりいうと最初の設定で指定した場所に作られる DBについては、Projectを作成するときに、対象のDWHの接続情報を設定しますが、そのときに指定した場所になります。ついでに、スキーマも合わせて設定できますが、こちらは接続情報として設定するのではなく、ユーザー毎に持つ「開発用の資格情報」として設定します。 「なんでこの設定こんな分かれ方してんの?」って思っちゃいますが、「どのスキ

                                                    [dbt] custom schemaを使って普段とは別のスキーマ下にデータモデルを作成する | DevelopersIO
                                                  • Airflowの処理の一部をdbtに移行しようとして断念した話 - Classi開発者ブログ

                                                    こんにちは、データプラットフォームチームでデータエンジニアをやっている滑川(@tomoyanamekawa)です。 以前紹介したデータ分析基盤であるソクラテスの改善のためにCloud Composer(Airflow)で行っている処理のdbtへの置き換えを検討しましたが、導入を見送りました。 調べてみてdbtに対するわかりみも深まったので、その供養のために検討内容を公開します。 同じように検討している方の参考になれば幸いです。 dbtとは DWH(Data Ware House)でのquery管理やデータの品質、データリネージの問題を解決してくれるツールです。 すでに先人たちがいろいろな記事を公開してくれているので、詳細は説明しませんがこちらの文がdbtをよく表しています。 ELTの「T」を担当するツール データの前処理における作業をELT(Extract、Load、Transform)と

                                                      Airflowの処理の一部をdbtに移行しようとして断念した話 - Classi開発者ブログ
                                                    • イーロン・マスクのロケット製造5つのステップがサイコーだった

                                                      イーロン・マスクが YouTube チャネルでスペース X のテキサス工場スターベースの中を歩き回りながらロケット製造や電気自動車について説明しているのを観た。ツイートしたこの件。 これがめちゃくちゃに示唆に富んでいて面白かった。この日のイーロン・マスクは饒舌で楽しそうなので、かなり魅入ってしまった。きっと彼はカンファレンスや会議室の中でインタビューを受けるよりも、工場でみんながロケット作ったり作業している場で語った方が情熱を込めていろいろ説明してくれるんだと思う。 この中で製造工程の話があって、これはロケット製造などの特定分野だけでなく、IT やその他の分野にでも当てはまる普遍的な知見だと思ったので意訳してみた。ざっとビデオを観て印象に残った部分だけを意訳した。あくまで大枠で言ってることをまとめただけなので、もし詳細に興味があればぜひビデオを観てイーロン・マスクの話を直接聞いて確認してく

                                                        イーロン・マスクのロケット製造5つのステップがサイコーだった
                                                      • dbtを触ってみた感想 - yasuhisa's blog

                                                        データエンジニア系の勉強会で最近dbtがぱらぱらと話題に出てくるようになった & 4連休ということで、夏休みの自由研究がてらdbtを触ってみました。書いてる人のバックグラウンドは以下の通り。 DWHやデータマートの構築のためのETLツールを模索中(特にTの部分) プライベートではDataformを使っている 前職でも仕事の一部で使っていた 開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog 定期バッチ処理はArgo Workflows on GKEでやっている 触ってみないと肌感とか自分で運用できるかのイメージが湧かないのでね。 Dataformとの比較 細かいノウハウ 手元や本番環境での動作 Argo Workflowとの連携 環境によってDWHの提供するバージョンを差し替える DWHやデータマートの外の情報をデータリネージに加える 既存

                                                          dbtを触ってみた感想 - yasuhisa's blog
                                                        • Polyaxon + Kubeflow を利用した効率的な継続的モデルインテグレーション / Continuous ML Model Integration with Polyaxon and Kubefolow Pipelines

                                                          第9回 MLOps 勉強会 Tokyo (Online): https://mlops.connpass.com/event/215133/ でトークした際の資料です

                                                            Polyaxon + Kubeflow を利用した効率的な継続的モデルインテグレーション / Continuous ML Model Integration with Polyaxon and Kubefolow Pipelines
                                                          • Hydra, MLflow, Optunaの組み合わせで手軽に始めるハイパーパラメータ管理

                                                            Optuna meetup #1 で使用した資料です.

                                                              Hydra, MLflow, Optunaの組み合わせで手軽に始めるハイパーパラメータ管理
                                                            • Vertex Pipelines で動く Kubeflow Pipelines のサンプルを公開しました - Repro Tech Blog

                                                              Repro AI Labs で Software Engineer として働いている杉山阿聖です。Repro では機械学習の基盤として GCP を用いています。今回は Google I/O 2021 で発表された Vertex AI のサービスのひとつである、機械学習パイプラインの構築・運用を行える Vertex Pipelines で動かせるサンプルを作成したのでその紹介をします。サンプルは次のリンクからお試しください。 reproio/lab_sample_pipelines この記事ではまず、機械学習パイプラインの主な要件について述べます。次に、機械学習パイプラインの構築で用いられる Kubeflow Pipelines について概要を述べます。最後に、機械学習パイプラインの構築にあたり理解が必要な Kubeflow Pipelines の仕様について、今回作成したパイプラインを例に

                                                                Vertex Pipelines で動く Kubeflow Pipelines のサンプルを公開しました - Repro Tech Blog
                                                              • 画像で紹介|Okta Workflowsとは? | TC3株式会社|GIG INNOVATED.

                                                                はじめに Oktaでは、Okta Identity Platformという安全安心にアイデンティティ管理を行うことができるプラットフォーム機能群が提供されています。具体的には、以下に列記するように、Okta Identity Platformを構成する要素として以下の6つの機能を提供しています(参考:Okta社ウェブサイト)。 Directories Integrations Insights Identity Engine Workflows デバイス 今回は、6つの機能の中でも比較的新しい、2020年3月に開催されたOktane 20で発表され提供されているOktaのWorkflows機能についてご紹介いたします。 このWorkflowsはその名の通り、任意のワークフローをノーコードで組むことができるOktaのEnterprise向け機能で、IFTTTやZapier、Microsoft

                                                                  画像で紹介|Okta Workflowsとは? | TC3株式会社|GIG INNOVATED.
                                                                • Amazon MWAAのローカル環境を簡単構築!aws-mwaa-local-runnerのススメ | DevelopersIO

                                                                  Amazon MWAA(Amazon Managed Workflows for Apache Airflow)を利用する場合のローカル開発環境として便利なaws-mwaa-local-runnerを紹介します。 こんにちは。サービスグループの武田です。 AWSは多くのマネージドサービスを提供していますが、ではそれを利用する場合の開発環境をどうしようかという課題があります。動作確認は常にAWSで行えばよいという考え方もあります。一方で、たとえばDynamoDBであればDynamoDB Localを使うなどローカルで実行可能な環境を作れる場合もあります。 AWSではAmazon Managed Workflows for Apache Airflow(MWAA)という、Airflowのマネージドサービスを提供しています。今回はMWAAのローカル環境についてです。名前からも分かるとおり中身はA

                                                                    Amazon MWAAのローカル環境を簡単構築!aws-mwaa-local-runnerのススメ | DevelopersIO
                                                                  • Cloud Composer(Airflow)で分析者向けBigQuery SQL実行基盤をつくりました - スタディサプリ Product Team Blog

                                                                    はじめに こんにちは。Data Engineer の @shase です。 弊社ではいくつかのユースケースでCloud Composer(Airflow)を使っているのですが、今回はデータチームで開発している、分析者向けBigQuery SQL実行基盤(社内の通称はSaved Query Workflow)について紹介します。 このシステムは今年の春から動いているものです。 システム概要 今回紹介するシステムの概要です。 分析者はSQLとYAMLをGitHubにコミットしてPRを作成します。 エンジニアがレビューをします。 Cloud ComposerでSQLがスケジュール実行され、結果がGoogle Sheets などに出力されます。 背景 組織全体のKPI集計やレポーティングとは別に、分析者個人や特定のチームが使うテーブルやレポートを定期的に作成する場合を想定したユースケースとして、分

                                                                      Cloud Composer(Airflow)で分析者向けBigQuery SQL実行基盤をつくりました - スタディサプリ Product Team Blog
                                                                    • さようなら、謎の数値ズレ。dbtを活用してデータ品質管理をはじめよう

                                                                      tl;drすべてのデータを高品質に保とうとしない。事業フェーズやプロダクト仕様、マネタイズ方法に応じて、品質を守るべきデータを明確に定義し、「品質が守られた箱の中の世界」を明確にする。データ品質維持の前提は、Single Source of Truth。SSOTなDWHを構築することとセットな取り組みであることが大切。データ品質管理のHowとしては、dbtがおすすめ。not_nullやrelationshipなどdbtがもつtest機能を活用し、データ品質監視を実現しよう。当然、dbtだけでは品質は守られない。Data Meshのような議論から運用体制を考えていく必要もある。聞こえのよい新しいものに踊らされる前に、着実に必要なデータ品質を守っていこうね。 こんにちは、こんばんは。Ubie Discoveryのsotaronです。データエンジニアをやったり、小倉唯さんのファンクラブ会員などを

                                                                        さようなら、謎の数値ズレ。dbtを活用してデータ品質管理をはじめよう
                                                                      • Data Lineage したい - satoshihirose.log

                                                                        条件 現職で管理している現行のデータパイプラインである Treasure Workflow(managed digdag on TD)+ Presto に適用できること ウェブでメタデータのドキュメントが公開でき、社内に共有できること Data Lineage 的なデータの依存関係がわかること dbt dbt は構築したプロジェクトとその内部のクエリを元にドキュメントを自動で生成してくれる。データの依存関係のDAGを可視化してくれるようで、良さそう。dbt docs serve というドキュメントサイトをホストする機能も提供しているが、現時点では本番稼働を想定していないものらしい。その代わりに dbt Cloud を使う、生成したドキュメントを S3 でホストするなどの方法を推奨している。 The dbt docs serve command is only intended for lo

                                                                          Data Lineage したい - satoshihirose.log
                                                                        • 初めての技術選定を頼まれた時に大事だったのは俯瞰的・相対的な考え方だった - MonotaRO Tech Blog

                                                                          背景 お題 技術の差別化 差別化から分かること 情報資産からToBeを考える 俯瞰的・相対的な技術選定 これまでの話から学んだこと 最後に はじめまして、MonotaROでデータエンジニアをやっています、芝本です。 エンジニアのみなさん、技術を使って何か作ってみるのって楽しいですよね。 私は、公私ともに日々物作りに励んでいます。プライベートだと、最近はマイクロフロントエンドについて学んでいます。 技術を使うためには、技術を学ばなければいけません。 プライベートにおいては、好奇心に従って自由に学びますよね。 とりあえずgit cloneして動かしてみたり、書籍を購入して読んでみたりします。 というようにプライベートでは主に次のような選択肢があると思います。 書籍を読んで好きなものを選ぶ 実際に手を動かしてみて好きなものを選ぶ 人に教えてもらって好きなものを選ぶ 基本的にプライベートの場合は何

                                                                            初めての技術選定を頼まれた時に大事だったのは俯瞰的・相対的な考え方だった - MonotaRO Tech Blog
                                                                          • Airflow Breeze を利用してローカルで Airflow を起動する | フューチャー技術ブログ

                                                                            概要TIG の多賀です。 OSS として Airflow へ貢献するにあたり、ローカルでの実行やテストの環境整備が必要になります。また、 Airflow を利用するにあたってもローカルでの動作確認をしたいケースは多いかと思います。 Airflow では、 Airflow Breeze と呼ばれる環境が整備され、公式より提供されています。当記事では、 Airflow Breeze について概要を記載し、 Airflow への OSS 貢献の入り口となれば良いと考えています。 Airflow Breeze とはAirflow Breeze とは、ローカルで Airflow を簡単に実行できるように整備された環境を指します。実態はコンテナベースで構築され、Docker Compose が利用されています。 airflow/AirflowBreeze_logo.png at master · ap

                                                                              Airflow Breeze を利用してローカルで Airflow を起動する | フューチャー技術ブログ
                                                                            • OpenSLO

                                                                              What is OpenSLO?OpenSLO is a service level objective (SLO) language that declaratively defines reliability and performance targets using a simple YAML specification. It is released under Apache 2.0 and we welcome contributions from the reliability engineering ecosystem. SLOs are reliability targets for services that allow organizations to make better decisions in how to create, operate, and run cl

                                                                              • 家族ノートを支えるBigQuery+StepFunctionsで作るデータレイク - コネヒト開発者ブログ

                                                                                こんにちは。インフラエンジニアの永井(shnagai)です。 最近、家族ノートという「ママリ」内の検索データとQ&Aデータ(現在開発中)を可視化したデータ分析サービスの立ち上げに携わっています。 info-kazokunote.mamari.jp 今回は、家族ノートで使っているデータ基盤の一部であるBigQuery+StepFunctionsで作ったデータレイクの仕組みについてご紹介します。 内容は、ざっくりとこんな話を書こうと思います。 データ基盤作りに至った経緯 AWS→BigQueryにデータ移送するアーキテクチャのpros&cons StepFunctions+Embulk(Fargate)を利用したデータレイクの仕組み データ基盤作りに至った経緯 コネヒトには大きく分けると2つのデータセットがあります。 DB(Aurora)にあるアプリケーションのデータ(業務データやマスターデー

                                                                                  家族ノートを支えるBigQuery+StepFunctionsで作るデータレイク - コネヒト開発者ブログ
                                                                                • GitHub CLIを使ってターミナルでGitHub Actionsを操作する

                                                                                  ghコマンドにより、開発者はPull Request、Issue、Gistなどを管理するために、コマンドラインでGitHubが使えるようになりました。1.9.0では、GitHubのさらに多くの機能をターミナルで利用できます。それが、GitHub Actionsです。 Mislav氏が最近のブログで紹介したとおり、GitHub Actions内でghを使うことは既にできるようにになっています。さらに、今回新たに追加された2つのトップレベルのコマンド、gh runとgh workflowにより、ローカルターミナルからワークフローの実行やファイルに関する情報を簡単に取得できるようになりました。 ワークフローの実行状況を把握する 正しいコードを書こうと努めても、ビルドがエラーになることはあります。オープンなPull Requestに対するエラーを把握するにはgh pr checksが有効ですが、リ

                                                                                    GitHub CLIを使ってターミナルでGitHub Actionsを操作する