はじめに PyAirbyteがリリースされました。(2024/03/16時点ではBeta版なのでご注意を) PyAirbyteはExtractのコネクタ部分をPythonのライブラリとして提供してPandasに格納するという機能を提供しているらしい。 つまり、BigQueryのクライアントと合わせればExtractとLoadの部分を過疎結合にしつつ、スケジューラーでPythonを呼び出すだけのシンプルなData Ingest Pipelineを作ることが可能なのでは!?ということで検証します。 個人的に考えるData Ingestツールの抱える課題点 FivetranのようなSaaSを使い始める際は規約確認や、契約がとても面倒 Airbyteは契約関連の面倒な部分は無いが、運用工数が大きすぎる worker, sever, temporal, api, dbなどなど(ちゃんと拡張性を考えて

