タグ

pythonとluigiに関するkoma_gのブックマーク (2)

  • Luigiでデータ処理をきれいに書こう | リクルート

    リクルートデータ組織のブログをはじめました。※最新情報はRecruit Data Blogをご覧ください。 Recruit Data Blogはこちら エンジニアの秋庭です。 記事では、Pythonのバッチ処理フレームワークLuigiの紹介をしつつ、読みやすいデータ処理の実装について書いていきます。 さて、記事を書くに至った理由ですが、分析コードのリファクタリングに苦労した経験からです。具体的には、 データ処理に必要なファイルや処理の依存関係がわからない 分析用の自作クラスや関数の使い方がわかりづらい などなどです。 上記のようなちょっと管理が難しいコードが生まれてしまうのは、「試験的な運用だから…」とか「2週間しか動かさないコードだから…」 とか大人の事情があったりする場合もありますが、とにかくコードがきれいなことに越したことはありません。 また、さまざまな開発ツールやフレームワーク

    Luigiでデータ処理をきれいに書こう | リクルート
  • データフロー制御フレームワークLuigiを使ってビッグデータ解析をする - Qiita

    Luigiとは LuigiはPythonで書かれたデータフロー制御フレームワークです。 ストリーミング音楽配信大手のSpotifyが開発しています。ソニーと提携したことでも話題になりましたね。 Luigi公式レポジトリ 家のプレゼン資料がわかりやすいです。 一般的にビッグデータ解析では、統計・機械学習を行う前に、クレンジングやフィルタ処理をいくつも重ねる必要があります。その依存関係は複雑で、しかもデータの差し替えや失敗・中断時のやり直しなんてやりだすと、苦行の他のなにものでもありません。そんな時にLuigiは使えます。 名前のLuigiの由来は、データフローを配水管に例え、「世界で2番目に有名な緑色の服を身にまとった配管工」だとか…。赤じゃなくて緑なのは、Spotifyのコーポレートカラーと同じだからでしょうか(笑)。 Pythonではありますが、Pythonによる処理だけでなく、Had

    データフロー制御フレームワークLuigiを使ってビッグデータ解析をする - Qiita
  • 1