タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

Apache Arrowに関するRion778のブックマーク (2)

  • Apache Arrowの現状確認(2018年7月) - Technically, technophobic.

    追記(2018/07/18): すみません、Twitter上でいろいろ間違えている部分をご指摘いただきました(ありがとうございました)。 コピーしなくても計算はできる ただし結果をメモリ上に上書きすることはできない GandivaはArrowにマージされのを目指している 速い言語は、コア部分もC++ではなくそれぞれの言語で実装されている 詳しくはこのツイートへのリプライを参照してください。 そういえば半年前にこれ↓をLTして以来、ちょっと状況がアップデートされているのでいったんまとめておきます。 というのは、SciPy 2018でWes McKinney氏が話してたこのスピーチがけっこうまとまっててわかりやすかったので。 Apache Arrowとは? まずはおさらい。ここは↑のスライドと変わっていません。 メモリ上のデータ形式を定めたもの(ディスクに保存するデータ形式(例:Parquet

    Apache Arrowの現状確認(2018年7月) - Technically, technophobic.
  • Apache Arrowの凄さを体感する - hatappi.blog

    データ分析とかをしていると大規模データを扱うことがある。 複数のライブラリを使う際にデータ連携を行う際に一度CSVやJSONに出力して連携先ではそれをパースしてといった方法をとることがある。 数メガくらいのファイルであれば問題にはならないが、これがギガなどになってくるとこのデータ連携コストが無視できなくなってくる。 これを解決する方法の1つとしてApache Arrowというものがある。 今回はこれを紹介して実際にどれくらい早いのかを検証してみる。 Apache Arrowとは? 2016年の10月に0.1.0がリリース メモリ上でカラム型データを扱うためのフォーマットとアルゴリズム カラム型でデータを格納するので効率よく圧縮することが出来、メモリ上に書き込むことで読み書きの速さを実現している。 昔はメモリなどのリソースは潤沢に使うことは用意ではなかったが、昨今ではAWSなどで何十Gものメ

    Apache Arrowの凄さを体感する - hatappi.blog
  • 1