タグ

2018年12月11日のブックマーク (1件)

  • Apache Arrowの凄さを体感する - hatappi.blog

    データ分析とかをしていると大規模データを扱うことがある。 複数のライブラリを使う際にデータ連携を行う際に一度CSVやJSONに出力して連携先ではそれをパースしてといった方法をとることがある。 数メガくらいのファイルであれば問題にはならないが、これがギガなどになってくるとこのデータ連携コストが無視できなくなってくる。 これを解決する方法の1つとしてApache Arrowというものがある。 今回はこれを紹介して実際にどれくらい早いのかを検証してみる。 Apache Arrowとは? 2016年の10月に0.1.0がリリース メモリ上でカラム型データを扱うためのフォーマットとアルゴリズム カラム型でデータを格納するので効率よく圧縮することが出来、メモリ上に書き込むことで読み書きの速さを実現している。 昔はメモリなどのリソースは潤沢に使うことは用意ではなかったが、昨今ではAWSなどで何十Gものメ

    Apache Arrowの凄さを体感する - hatappi.blog
    usadamasa
    usadamasa 2018/12/11
    データ分析とかで複数のデータストアをまたがってごにょるときに便利っぽい。