タグ

qiitaとparquetに関するnabinnoのブックマーク (2)

  • Glueでcsvファイルをparquet形式に変換してみた - Qiita

    AWS DASの勉強で初めてGlueを触ったのでメモ Parquet形式とは AWSドキュメントより Apache Parquet や ORC は、データを高速に取得できるように最適化された、AWS 分析アプリケーションで使用されている、列指向ストレージ形式です。 列指向ストレージ形式には以下の特性があるため、Athena での使用に適しています。 列のデータ型に合わせて選択された圧縮アルゴリズムによる列ごとの圧縮で、Amazon S3 のストレージ領域を節約し、ディスク容量とクエリの処理中における I/O を削減します。 Parquet および ORC での述語プッシュダウンにより、Athena クエリが必要なブロックのみを取得できるようになり、クエリパフォーマンスが向上します。Athena クエリがデータから特定の列値を取得すると、データブロック述語からの統計 (最大値や最小値など)

    Glueでcsvファイルをparquet形式に変換してみた - Qiita
  • (翻訳)2017年の展望: pandas, Arrow, Feather, Parquet, Spark, Ibis - Qiita

    始めに:pandasの作者であるWes McKinneyさんがPythonのデータツール関連でとても興味深いblogを書かれているので、翻訳して日のPyDataコミュニティに公開してもいいでしょうか、とお聞きしたところ、快諾をいただきましたので少しずつ訳して公開していこうと思っています。 (原文:http://wesmckinney.com/blog/outlook-for-2017/ ) 2016/12/27 Python dataの開発に関して、2017はエキサイティングな年になりそうです。このポストでは、私から提供できそうなものについて書いていきます。それぞれのピースを全体としてどうまとめていくつもりなのか、詳しくは今後のポストで書いていきます。2016年は開発とPython for Data Analysisの第2版の作業で完全に手一杯でblogはあまり書けませんでした。2017

    (翻訳)2017年の展望: pandas, Arrow, Feather, Parquet, Spark, Ibis - Qiita
  • 1