Jupyter NotebookやJupyter Labといった、Notebookでデータ分析業務をする人が、ここ数年で増えてきました。 Notebook上でデータ分析をするとき、外部のCSVファイルやDBのデータテーブルなどからデータセットを取得する必要があります。 よくあるのが、Pandasを利用し取得したデータセットをデータフレームに格納するケースです。 データ規模が大きいほど、ある問題が起こります。 例えば、メモリの消費の問題です。 データフレームに格納するということは、PCなどのメモリをそれだけ消費します。 多くの場合、読み込んだ直後のデータフレームは、そのままデータ分析に使えることは少なく、何かしらの加工なり処理がなされ整えられます。 ある程度整えられたデータセットの状態で、データフレームとして格納した方が、メモリの消費量は少なくてすみます。 他には、外部DBのパフォーマンス低