usadamasaのブックマーク / 2018年12月11日

Apache Arrowの凄さを体感する - hatappi.blog

データ分析とかをしていると大規模データを扱うことがある。複数のライブラリを使う際にデータ連携を行う際に一度CSVやJSONに出力して連携先ではそれをパースしてといった方法をとることがある。数メガくらいのファイルであれば問題にはならないが、これがギガなどになってくるとこのデータ連携コストが無視できなくなってくる。これを解決する方法の１つとしてApache Arrowというものがある。今回はこれを紹介して実際にどれくらい早いのかを検証してみる。 Apache Arrowとは? 2016年の10月に0.1.0がリリースメモリ上でカラム型データを扱うためのフォーマットとアルゴリズムカラム型でデータを格納するので効率よく圧縮することが出来、メモリ上に書き込むことで読み書きの速さを実現している。昔はメモリなどのリソースは潤沢に使うことは用意ではなかったが、昨今ではAWSなどで何十Gものメ

はてなブックマーク

タグ

2018年12月11日のブックマーク (1件)

Apache Arrowの凄さを体感する - hatappi.blog

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第2週）

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス