
エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
awswrangler(Athena)でのデータ抽出をPolarsへ置き換えて高速化する
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
awswrangler(Athena)でのデータ抽出をPolarsへ置き換えて高速化する
はじめに こんにちは。D2Cデータサイエンティストの名越です。 Pythonでs3にある大規模なテーブルデータ... はじめに こんにちは。D2Cデータサイエンティストの名越です。 Pythonでs3にある大規模なテーブルデータを多少の条件をつけて抽出する際どのように取得していますでしょうか? Pandasを使ってデータ処理をする場合は大規模データだと重くなってしまうためできるだけ事前に処理をしたものを取り出したいですよね。 私の所属している部署では awswrangler を用いてAthenaでデータ取得することができる環境が整っているため、私はそこまで深く考えることもなくシステム内ではこのやり方でデータを抽出することが多いです。 本記事では既にある程度十分に速いawswranglerを用いた大規模データの条件付きのデータ抽出を、そのパフォーマンスの良さで注目を浴びている表計算ライブラリ Polars へ置き換えてさらに高速化できるのかを検証してみようと思います。 開発環境 検証については以下の環境で行