タグ

2017年9月25日のブックマーク (1件)

  • (翻訳)Apache Arrowと「pandasの10項目の課題」 - Qiita

    始めに:pandasの作者であるWes McKinneyさんがPythonのデータツール関連でとても興味深いblogを書かれているので、翻訳して日のPyDataコミュニティに公開してもいいでしょうか、とお聞きしたところ、快諾をいただきましたので少しずつ訳して公開していこうと思っています。 2017/9/21(木) Apache Arrow、pandas、pandas2、そして最近の私の作業の大まかな方向性と視界が開けてきている未来に関して、これから一連のポストを書いていきます。このポストはその第一弾です。少々量があり、全体に技術的な色合いが濃くなっていますが、興味を持たれたなら読み進めていってください。 このポストでは、pandasの内部構造に関する主要な問題のいくつかと、それらに対して私が着実に進めてきた現実的な解決策の計画と構築について、できる限り簡潔に説明しようと思います。外から見

    (翻訳)Apache Arrowと「pandasの10項目の課題」 - Qiita
    yamaz
    yamaz 2017/09/25
    ゼロコピーでMVCCでデータ量によって列、行志向が混在できて、scan時にはマルチコアが使え、でもGCやコンパクションのコストもほぼなしみたいな謎シリアライズ方式を各言語共通のメモリマップとして採用して欲しい。