によるエウレカのデータ組織運営の1年間でした。今日はこの話に関連して、もう少し具体的にEureka BIチームのAnalystの分析フローを支える分析環境について書きます。主に運用の思想や仕組みづくりの紹介になります。 想定読者Data Lake・Data Ware House・Data Martなどのデータ基盤周辺知識があるAnalystを活かすデータ基盤の開発運用に興味がある前置きBIチームの紹介やAnalystの業務フローに関する前置きが少し長くなりますがお付き合いくださいませ。 お急ぎの方は、本題まで飛ばしてください。 チームのミッションとデータ基盤BIチームは、「価値のある意思決定」と「意思決定の効率化」を推進することをミッションにおいているチームです。 ミッション実現に向けて、最近は以下の2軸を強化したいと考えています。 Analystが「価値のある意思決定」を創出するためのプ
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? この記事では、Open-sourceのPipeline/Workflow開発用PythonパッケージのAirflow, Luigi, Gokart, Metaflow, Kedro, PipelineXを比較します。 この記事では、"Pipeline"、"Workflow"、"DAG"の単語はほぼ同じ意味で使用しています。 要約 👍: 良い 👍👍: より良い Airflow 2015年にAirbnb社からリリースされました。 Airflowは、Pythonコード(独立したPythonモジュール)でDAGを定義します。 (オプション
めっちゃ大変やで。 ワークフロー PyPIパッケージの作成 PyPIパッケージの更新 大きく言えば上記2手順のみ。これらの手順を詳細に見ていくと膨大。 1. PyPIパッケージの作成 Pythonパッケージの作成 GitHubリポジトリの作成 メタデータファイルの作成 コミット PyPIパッケージの作成 1-1. Pythonパッケージの作成 要件定義 API定義 実装 単体テスト 1-1-1. 要件定義 曖昧。最低限、以下を一言で説明した文書くらいは欲しい。 概要: そのソースコードは何をするものか 文脈: どこで使うものか inputは何か outputは何か 項目 値 概要 指定した文字列を<>で囲った文字列を返す 文脈 Python,Console IN 文字列 OUT 文字列(INを<>で囲う) ファイル・コード例 実装例。(Python文脈) encloser.py def e
みなさん、ととのってますか〜? 最近サウナにどっぷりハマってしまった id:ar_tama です。このエントリは名古屋・栄のサウナラボで サ活 リモートワークをしながら書いています。 さて、最近ロコガイドでは社内の業務改善として、今まで手動で行っていた業務を自動化するプロジェクトが行われており、そのワークフロー管理にPython・Luigiを用いています。 日本語では2016~2017年のエントリが多く見られ、最近のアップデートに関する(日本語の)記述が少なく感じたため、何回かに分けて知見を書き溜めていこうと思います。 ※ このエントリは主にこちらの ドキュメント の焼き直し+αです。 更に理解が深まるはずなので、ぜひ併せて読んでみてください:) パラメータ爆発をなんとかしたい 以下の例(ドキュメントから抜粋)では、TaskCを起点としたワークフローで受け取ったパラメータを、TaskB→T
リクルートデータ組織のブログをはじめました。※最新情報はRecruit Data Blogをご覧ください。 Recruit Data Blogはこちら エンジニアの秋庭です。 本記事では、Pythonのバッチ処理フレームワークLuigiの紹介をしつつ、読みやすいデータ処理の実装について書いていきます。 さて、本記事を書くに至った理由ですが、分析コードのリファクタリングに苦労した経験からです。具体的には、 データ処理に必要なファイルや処理の依存関係がわからない 分析用の自作クラスや関数の使い方がわかりづらい などなどです。 上記のようなちょっと管理が難しいコードが生まれてしまうのは、「試験的な運用だから…」とか「2週間しか動かさないコードだから…」 とか大人の事情があったりする場合もありますが、とにかくコードがきれいなことに越したことはありません。 また、さまざまな開発ツールやフレームワーク
こんにちは、三上です。 気付けば2017年も1ヶ月が過ぎ去り。。(日付とか、気を抜いてるとまだ "2016" などと書いてる自分が。。。 はじめに Python勉強中です。 Pythonのスクリプト言語的な手軽さが楽しいです!v 今回、Pythonで書いたバッチのJobワークフローエンジンを検討するにあたり、Luigiをさわってみました。 Luigiって何? PythonでバッチJobのワークフロー管理してくれるヒト(全部 Pythonコード スケジューラー機能はない(ので、cronからluigiを実行する Jobに依存関係を持たせたい場合、if文ばしばしなコード書かなくて良いのでコードの可読性が上がる Luigi Advent Calendar 2016 | シリーズ | Developers.IO OSSのワークフローエンジンを使ってみた感想 | Qiita データフロー制御フレームワ
Workflow Hacks! #1 が開催されるなど、データ分析のワークフロー管理が見直されつつある今日この頃ですが、Treasure Data 社内ではこれまでのところ Luigi を主なツールとして利用しています。ここでは Luigi を使ったワークフローがどのようなものであるかを紹介します。 (追記: 2016-09-18)その後、社内ワークフローは Digdag(主にSQLのクエリ実行に利用)、及び Airflow(主にスクリプトの実行に利用)へと置き換わり、Luigi を利用することはほぼなくなりました。 ワークフロー管理ツールとは? データ分析における「ワークフロー管理ツール」とは、データ処理の過程で必要となる一連のタスク(データのロードや、クエリの実行など)を自動化し、管理するために設計されたソフトウェアです。例えば、毎日決まったタスクをスケジュール実行したり、問題が起きた
バージョン: 1.1 カテゴリ: 仕事効率化 現在の価格: 700円(サイズ: 38.7MB) 販売元: Ole Zorn リリース日: 2013/08/15 iPhone/iPadの両方に対応 レビューを書こうと思っていたものの、ボリュームが大きすぎるわ説明するのに知識が足りないわで断念。使い方を覚えるべく作成したWorkflowがたまってきたので、まずはそれだけ公開します。後はおいおい小分けにして紹介していけたらなと。 詳しくは以下の2つを見たらわかるはず。と丸投げ。EditorialはPythonistaを飲み込んだテキストエディタアプリです。作者も同じ。 What’s New in Editorial 1.1 Editorial 1.1: Another Step Forward for iOS Automation – MacStories Editorialという名前なだけあっ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く