はじめに Kedroという機械学習向けパイプラインツールを使ってみたので備忘までに記事を書きます。 とりあえずパイプラインを組んでみて動いたところまで、です。もう少し使い込んで、別途投稿できればと思っています。 公式のチュートリアルの差分は、以下くらいかなと思います。(どっちもちょっとしたことですが) ホストを汚さないようにDockerコンテナ内でKedroプロジェクトを作成・開発していること node.pyは使わず、普段慣れ親しんだディレクトリ構成で普通にスクリプトを書いていること(それらをノードとしてパイプラインでつないでいる) パイプラインツールの必要性 依存関係が複雑になりがちな処理処理フローを管理したい データ取り込み→データ前処理→モデルのトレーニング→チューニング→デプロイメント、etc ジョブを並列実行したい コンポーネントごとにマシンスペックを柔軟に設定したい 前処理は高