こんにちは。まーやです。先日de:codeのセッションで、Koalasというものがあるよ!と教えていただきました。とても気になるライブラリだったのでとりあえず触ってみることにしました。・・・のブログです。 Koalas とは Databricks 社が開発中のPython分散処理用DataFrameのライブラリです。 https://koalas.readthedocs.io/en/latest/ もともとPySpark DataFrame というSpark用のDataFrameが存在していますが、このPySpark DataFrameはPandasとは少々書き方が異なります。 似ているところも多いけれどもともとの思想がSQL思考(Spark DataFrame)と表計算思考(Pandas)と異なるため、記法に統一感はありません。 そのため、例えば、 「分析チームがpandasを使った分析