マイクロアドでサーバーサイドエンジニアをしている高橋です。 PySpark x Spark Connectの検証によって知見が溜まってきたので共有します。 検証に至った経緯は別の記事で紹介しています。 developers.microad.co.jp Spark Connect関連の情報は検索してもまだ少なく、試行錯誤しながら進めています。 この記事が少しでも参考になれば幸いです。 構成 知見 Spark Connect server起動時にオプションを全て渡さなければならない Decimal型の列同士の四則演算で精度が変わる Hiveのクエリ・UDFが使える 課題点 構成 今回想定する構成は概ね別記事で紹介されているものになります。 データ基盤移行計画とPySpark(Spark Connect)の検証 - MicroAd Developers Blog Kubernetes上でSpar
![Spark Connectの検証における知見と課題 - MicroAd Developers Blog](https://cdn-ak-scissors.b.st-hatena.com/image/square/b02c71e40030bad2efb0f623b0ac3edfe40381fd/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fm%2Fmicroad-developers%2F20240329%2F20240329180012.png)