[B! Apache Arrow] Rion778のブックマーク

Rion778 id:Rion778

Apache Arrowに関するRion778のブックマーク (2)

Apache Arrowの現状確認（2018年7月） - Technically, technophobic.
追記（2018/07/18）：すみません、Twitter上でいろいろ間違えている部分をご指摘いただきました（ありがとうございました）。コピーしなくても計算はできるただし結果をメモリ上に上書きすることはできない GandivaはArrowにマージされのを目指している速い言語は、コア部分もC++ではなくそれぞれの言語で実装されている詳しくはこのツイートへのリプライを参照してください。そういえば半年前にこれ↓をLTして以来、ちょっと状況がアップデートされているのでいったんまとめておきます。というのは、SciPy 2018でWes McKinney氏が話してたこのスピーチがけっこうまとまっててわかりやすかったので。 Apache Arrowとは？まずはおさらい。ここは↑のスライドと変わっていません。メモリ上のデータ形式を定めたもの（ディスクに保存するデータ形式（例：Parquet
Rion778 2018/11/04
Apache Arrow

r
リンク
Apache Arrowの凄さを体感する - hatappi.blog
データ分析とかをしていると大規模データを扱うことがある。複数のライブラリを使う際にデータ連携を行う際に一度CSVやJSONに出力して連携先ではそれをパースしてといった方法をとることがある。数メガくらいのファイルであれば問題にはならないが、これがギガなどになってくるとこのデータ連携コストが無視できなくなってくる。これを解決する方法の１つとしてApache Arrowというものがある。今回はこれを紹介して実際にどれくらい早いのかを検証してみる。 Apache Arrowとは? 2016年の10月に0.1.0がリリースメモリ上でカラム型データを扱うためのフォーマットとアルゴリズムカラム型でデータを格納するので効率よく圧縮することが出来、メモリ上に書き込むことで読み書きの速さを実現している。昔はメモリなどのリソースは潤沢に使うことは用意ではなかったが、昨今ではAWSなどで何十Gものメ
Rion778 2018/11/04
Apache Arrow
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx