タグ

scalaとpandasに関するWindymeltのブックマーク (1)

  • Pandasを使うのをやめてScalaでSparkを使い始めましょう - Qiita

    なぜデータサイエンティストやデータエンジニアがPandasの代替としてScalaとSparkを使うことを考えるべきなのか、どのように使い始めるのか ソース: https://unsplash.com/photos/8IGKYypIZ9k PandasからScala + Sparkへの移行は思うほど大変なことではなく、結果としてお使いのコードが高速になり、おそらくより良いコードを書くことになるでしょう。 データエンジニアとしての私の経験を通じて、Pandasでデータパイプラインを構築すると、増加するメモリーの使用量についていくために定期的にリソースを増強することが多くの場合必要となることを知りました。さらに、予期しないデータ型やnullによって多くの実行時エラーに遭遇しました。代わりにScalaとSparkを用いることで、ソリューションはより堅牢なものとなり、リファクタリングや拡張が容易にな

    Pandasを使うのをやめてScalaでSparkを使い始めましょう - Qiita
  • 1