parquetの人気記事 43件 - はてなブックマーク

1 - 40 件 / 43件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

parquetの検索結果1 - 40 件 / 43件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

parquetに関するエントリは43件あります。 python、 web、 tech などが関連タグです。人気エントリには『[新機能] Amazon Athena UNLOADコマンドによるCSV、Parquet、Avro、ORC、JSON出力をサポートしました！ | DevelopersIO』などがあります。

[新機能] Amazon Athena UNLOADコマンドによるCSV、Parquet、Avro、ORC、JSON出力をサポートしました！ | DevelopersIO
- 48 users
- dev.classmethod.jp
- テクノロジー
- 2021/08/08
データアナリティクス事業本部コンサルティングチームの石川です。先日、Amazon Athenaが、UNLOADコマンドをサポートしました。SELECTクエリの結果をCSV、Parquet、Avro、ORC、JSONフォーマットでS3出力できるようになりました。本日は、UNLOADコマンドを実際に試してみます。 UNLOADコマンド UNLOADコマンドの構文は、以下のとおりです。 UNLOAD (SELECT col_name[, ...] FROM old_table) TO 's3://my_athena_data_location/my_folder/' WITH ( property_name = 'expression' [, ...] ) WITH句の中にフォーマット（format）、区切り文字（field_delimiter）、圧縮タイプ（compression）、パーティシ
- Amazon Athena
- あとで読む
- data
- dev
- aws
ゆずソフト、全年齢向けブランド「ゆずソフトSOUR」発表。ノベルゲーム『PARQUET』をSteamなどで配信へ - AUTOMATON
- 47 users
- automaton-media.com
- アニメとゲーム
- 2021/07/30
国内の美少女ゲームメーカーゆずソフトは7月30日、全年齢ブランド「ゆずソフトSOUR」および同ブランドのデビュー作『PARQUET（パルケ）』を発表した。対応プラットフォームはPC（Steam/DMM GAMES/DL Site）/iOS/Androidで、価格は2500円。DMM GAMESおよびDL Siteでは7月31日0時から配信開始予定。また、PC（Steam）/iOS/Android版は8月27日から配信される見通しだ。『PARQUET』は、ゆずソフトSOURが手がける全年齢向け美少女ノベルゲームである。本作の舞台は、BMI（Brain-machine Interface）と呼ばれる、脳と機械を繋ぐ技術が存在する世界。BMIによって記憶のデータ化が可能となり、世界は発展を遂げたが、非合法な実験もおこなわれていた。主人公の伊吹カナトは、複数の人間の記憶を混ぜ合わせ、新たな人間を
GitHub - multiprocessio/dsq: Commandline tool for running SQL queries against JSON, CSV, Excel, Parquet, and more.
- 36 users
- github.com/multiprocessio
- テクノロジー
- 2022/01/12
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- sql
- json
- csv
- excel
- golang
- tool
- github
- Go
- DB
そろそろRユーザーもApache ArrowでParquetを使ってみませんか？ - Technically, technophobic.
- 17 users
- notchained.hatenablog.com
- テクノロジー
- 2019/12/17
先日、Apache Arrow東京ミートアップ2019で「RとApache Arrow」というタイトルで発表してきました。あと、Japan.RでもApache ArrowについてLTしました。話したこととしては、 arrowパッケージを使うとParquetファイル（後述）の読み書きができる sparklyrパッケージが内部でApache Arrowを使うようになって、R↔Spark間のデータのやり取りが高速になった Arrow Flightがもっと一般的になれば、JDBCやODBCを使わなくてもデータベースからデータを取ってこれるようになるという感じで、個人的にいま強調したいのは1.です。とりあえずParquetファイルの読み書きというのがRユーザーにとって一番わかりやすいメリットなので、そこをきっかけにみんなApache Arrowにズブズブになって、もっと世の中のシステムがApac
- あとで読む

Amazon RDSやAuroraのスナップショットをParquet形式でS3へ保存可能に。スナップショットに対する分析処理も
- 13 users
- www.publickey1.jp
- テクノロジー
- 2020/01/28
Amazon RDSやAuroraのスナップショットをParquet形式でS3へ保存可能に。スナップショットに対する分析処理も Amazon Web Services（AWS）は、データベースサービスとして提供しているAmazon RDSやAmazon Auroraのスナップショットを、Amazon S3にApache Parquetフォーマットで保存する機能が追加されたことを発表しました。 Parquetフォーマットは、もともとHadoop上で高速な分析を可能にする「Parquet」で用いられていたデータフォーマットです。カラム型データベースではデータを列方向に格納することでデータの連続的な読み出し性能が高く、高速な分析が可能です（ただしトランザクション処理は遅いか、できないことが一般的です）。しかも列方向のデータは基本的にすべて同じ型であり、似たような値が並んでいる可能性も高いため、
- AWS
- あとで読む
AWS S3 コスト削減を目的に CSV から Apache Parquet に乗り換えるための下調べ | TECHSCORE BLOG | TECHSCORE BLOG
- 11 users
- www.techscore.com
- テクノロジー
- 2020/05/11
これは TECHSCORE Advent Calendar 2019 の7日目の記事です。 Amazon Simple Storage Service という名の通り、S3 は提供されているサービス内容は非常にシンプルなのですが利用時の用途が多岐にわたります。利用用途が多岐にわたるという事は、注意して管理しないとカオスに陥る可能性があり、「一時的に置いているつもりだった」「そのうちに対応するつもりだった」という野良データがいつの間にか業務に組み込まれてしまい簡単に手が出せなくなる事態に発展する場合もあります。私が普段利用している AWS アカウントの中で最も運用歴の長いものにも、何やらよろしくないデータが存在することが分かりました。 AWS を適切に利用出来ているかコストの面から調査をしている担当者から「S3 のストレージ利用量、勢いよく増加している理由は何？」と聞かれて即答できず、調
- database
- tech
- web
- あとで読む
Docker のログを columnify で Athena (Presto) に特化した Parquet にする
- 10 users
- abicky.net
- テクノロジー
- 2020/08/26
先日 columnify という、入力データを Parquet フォーマットに変換するツールがリリースされました。 cf. 軽量な Go 製カラムナフォーマット変換ツール columnify を作った話 - Repro Tech Blog また、fluent-plugin-s3 で compressor として columnify をサポートする話が出ています。1 cf. Add parquet compressor using columnify by okkez · Pull Request #338 · fluent/fluent-plugin-s3 個人的に前々から Docker のログを Parquet フォーマットで S3 に put して Athena で検索できると素敵だなと思っていたので喜ばしいことですね！そんなわけで、Docker のログを fluentd log dr
- docker
- あとで読む
GitHub - kylebarron/parquet-wasm: Rust-based WebAssembly bindings to read and write Apache Parquet data
- 10 users
- github.com/kylebarron
- テクノロジー
- 2024/04/23
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- wasm
- WebAssembly
- Rust
VPCフローログをApache Parquet形式でS3に送信する場合の料金を勘違いしていたので調べ直した | DevelopersIO
- 9 users
- dev.classmethod.jp
- テクノロジー
- 2023/02/13
こんにちは！コンサル部のinomaso(@inomasosan)です。以前、以下のブログでAmazon VPCフローログをApache Parquet形式で保存した方がコストが安くなるというブログを書きました。その後、みなみからの指摘で間違っていることに気がついたので、再度調べ直しました。最初にまとめ VPCフローログをS3に保管する料金はApache Parquet形式の方が高くなってしまう Athenaによるクエリの料金はApache Parquet形式の方が安く、クエリも高速になる VPCフローログをどのように運用するかで、ログファイル形式を決めたほうがよい VPCフローログのログファイル形式のおさらい 2023/2/13時点で、VPCフローログをS3に送信する場合、ログファイル形式はデフォルトでテキストとなっており、Apache Parquetに変更することが可能となっておりま
- aws
- あとで読む
Firehoseで Parquet形式に変換したALBのアクセスログをAthenaで解析してみた | DevelopersIO
- 8 users
- dev.classmethod.jp
- テクノロジー
- 2019/09/17
AWSチームのすずきです。 ALBのアクセスログを Athena で効率の良い解析を行うため、 Lambda と Parquet形式への変換を有効にしたFirehose を利用する機会がありましたので、紹介させていただきます。概要図設定今回のAWSリソース、CloudFormation で設置しました。主要な設定内容を紹介します。利用したテンプレートは記事末尾にリンクします。 Glue Firehoseの変換データの出力先となる Glue Table の設定を行います。 TableInput 入出力フォーマットは「Parquet」を利用する指定とします。 TableInput: Owner: owner InputFormat: org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat OutputFormat:
- あとで読む
Parquet: more than just "Turbo CSV"
- 8 users
- csvbase.com
- 世の中
- 2023/04/04
csvbase is a simple web database. Learn more on the about page. Parquet is an efficient, binary file format for table data. Compared to csv, it is: Quicker to read Quicker to write Smaller On a real world 10 million row financial data table I just tested with pandas I found that Parquet is about 7.5 times quicker to read than csv, ~10 times quicker to write and a about a fifth of the size on disk.
PythonでcsvファイルをParquet形式に変換 - Qiita
- 7 users
- qiita.com/TaigoKuriyama
- テクノロジー
- 2019/10/16
背景大きいデータセットのアドホック分析を AWS Athena で行うにあたり、csv データをApache Parquet 形式に変換することでスキャンデータを小さくすることによりコスト削減ができます。 Parquet 形式への変換はいくつか方法がありますが、今回は Python を使って行います。ファイルを圧縮し、さらに Apache Parquet などの列形式に変換した場合、サイズは 3 分の 1 に圧縮され、Amazon S3 でのデータは最終的に 1 TB になります。ただしこの場合、Parquet は列形式なので、Amazon Athena で読み取る必要があるのは、実行されているクエリに関連する列のみです。当該のクエリは 1 つの列のみを参照するものであるため、Athena ではその列のみが読み取られ、ファイルの 3 分の 2 は読み取らなくてよいことになります。Ath
- python
Parquet and Postgres in the Data Lake | Crunchy Data Blog
- 7 users
- www.crunchydata.com
- テクノロジー
- 2022/05/05
Static Data is Different A couple weeks ago, I came across a blog from Retool on their experience migrating a 4TB database. They put in place some good procedures and managed a successful migration, but the whole experience was complicated by the size of the database. The size of the database was the result of a couple of very large "logging" tables: an edit log and an audit log. The thing about l
- parquet
- postgresql
列指向のデータストレージ形式、Apache Parquetについてもう少しだけ詳しく調べてみた | そう備忘録
- 6 users
- www.souichi.club
- テクノロジー
- 2021/03/19
列指向のデータストレージ形式、Apache Parquetについてもう少しだけ詳しく調べてみた by souichirou · 公開済み 2020年8月3日 · 更新済み 2021年7月13日 Apache ParquetCSVとの違い以前のAWS Athenaの記事でCSVとParquetとのファイル形式の違いでSQL実行時のRun Timeとスキャンデータ量にどの程度違いが出るのかを検証した。 CSVで８MByte程のファイルサイズで特定の１列だけを取り出すようなSQLの場合、スキャンデータ量はParquetの方が明らかに少なかった。 AWS Athenaはスキャン量に応じて課金されるのでParquet形式のほうが有利という事になるので、もう少しParquetについて調べてみることにした。 Apache ParquetとはTwitter社とCloudera社（米国のソフトウェア会社）で
- api
- tech
- web
GitHub - aws/aws-sdk-pandas: pandas on AWS - Easy integration with Athena, Glue, Redshift, Timestream, Neptune, OpenSearch, QuickSight, Chime, CloudWatchLogs, DynamoDB, EMR, SecretManager, PostgreSQL, MySQL, SQLServer and S3 (Parquet, CSV, JSON and EXCEL)
- 6 users
- github.com/aws
- テクノロジー
- 2019/09/11
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
GitHub - lancedb/lance: Modern columnar data format for ML and LLMs implemented in Rust. Convert from parquet in 2 lines of code for 100x faster random access, vector index, and data versioning. Compatible with Pandas, DuckDB, Polars, Pyarrow, with more i
- 6 users
- github.com/lancedb
- テクノロジー
- 2023/02/12
Lance is a modern columnar data format that is optimized for ML workflows and datasets. Lance is perfect for: Building search engines and feature stores. Large-scale ML training requiring high performance IO and shuffles. Storing, querying, and inspecting deeply nested data for robotics or large blobs like images, point clouds, and more. The key features of Lance include: High-performance random a
- データ
- あとで読む
Parquetの中身を簡単に表示できるGUIツール「ParquetViewer」の紹介 | DevelopersIO
- 6 users
- dev.classmethod.jp
- テクノロジー
- 2020/08/18
こんにちは！DA(データアナリティクス)事業本部インテグレーション部の大高です。最近、社内勉強会で「Parquetファイルの中身を確認するのにどんなツールを使っているか？」という話題が出ました。Windows限定となってしまいますが、個人的に利用している「ParquetViewer」が便利なので、紹介をしたいと思います。 ParquetViewerとは？ .NETで作られている、GUIでParquetファイルの中身を表示できるツールです。GitHub上で公開されています。実際の画面はこんな感じです。ダウンロード ParquetViewerは以下のページからダウンロード可能です。「ParquetFileViewer.exe」のリンクをクリックしてダウンロードすれば完了です。また、単一の実行ファイルになるのでインストールなどは不要です。サンプルデータ今回利用したサンプルデータは、
GlueのSparkジョブでTSVからParquetへ変換してみた | DevelopersIO
- 5 users
- dev.classmethod.jp
- テクノロジー
- 2019/07/31
こんにちは。インテグレーション部の大高です。 Glueと仲良くなるべく色々と触っています。今回はGlueのSparkジョブでTSVからParquetへファイルを変換してみたいと思います。ジョブの作成 GlueのジョブはSparkジョブを作成します。また、今回はせっかくなので最近リリースされたPython3でジョブを作成しました。ジョブのスクリプト大きな処理の流れとしては、S3からTSVファイルを取得し、Parquet形式にしてS3へ保存という流れとして作成します。スクリプト全体スクリプトは以下のようにしました。S3バケットや取得元のファイルは事前に用意してあります。 import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.conte
AWS LambdaとPyArrow3.0.0を使ってサクッとParquetファイルに変換する | DevelopersIO
- 5 users
- dev.classmethod.jp
- テクノロジー
- 2021/03/24
id price total price_profit total_profit discount visible name created updated 1 20000 300000000 4.56 67.89 789012.34 True QuietComfort 35 2019-06-14 2019-06-14 23:59:59 PyArrow3.0.0用のLambda Layerを作成する Lambda動作環境の選定今回は、TSVファイルに軽量・高速に変換するためAWS Lambdaを用います。Lambdaは、パッケージフォーマットとして、従来どおりLambda関数を用いる方法に加えて、コンテナイメージがサポートされました。複数のLambdaアプリケーションや関数から再利用されることを考慮して、デプロイパッケージは、Layerを用います。 Lambdaの制約事項デプロイパッケ
- python
PythonでParquetファイルを効果的に扱う方法 - Python転職初心者向けエンジニアリングブログ
- 5 users
- pythonjp.ikitai.net
- テクノロジー
- 2024/02/07
Parquetは、大規模なデータセットを効率的に格納・処理するためのファイル形式の一つです。特に、Apache Arrowの一部として知られており、データの圧縮率が高く、分散処理フレームワークとの親和性もあります。この記事では、Pythonを使用してParquetファイルを連携し、データの読み書きや処理方法について具体的なコードとともに詳しく解説します。 Parquetファイルの基本 Parquetファイルは、列指向でデータを格納することで高い圧縮率と高速な読み書きが可能です。以下はParquetファイルの基本的な特徴です。列指向: 列ごとにデータを格納するため、特定の列を選択するクエリが高速に処理される。スキーマ: スキーマが明示的に定義され、異なるデータ型を含むことができる。圧縮: データは列ごとに圧縮され、ストレージ効率が向上する。 PythonでParquetファイルを操作す
JSON, CSV, Excel, Parquet 等の様々なデータ形式に SQL クエリを実行できる dsq コマンドが便利。 - 全力で怠けたい
- 5 users
- ebc-2in2crc.hatenablog.jp
- テクノロジー
- 2022/07/11
はじめに対応しているデータ形式類似のツールとの比較バージョンインストール方法基本的な使い方ファイルに対して SQL クエリを実行する標準入力に対して SQL クエリを実行するクエリ結果を整形する複数のファイルに対して SQL クエリを実行する複数のファイルを JOIN するデータ形式が異なるファイルを JOIN する任意のデータ形式から JSON ヘの変換オブジェクト内にネストしている配列に SQL クエリを実行するネストしているオブジェクトから値を取得するネストしている配列から値を取得する正規表現のサポートその他カラムの出力順スキーマの推測入力ファイルのキャッシュ REPL CSV と TSV ファイル内の数値の変換参考サイト JSON, CSV, Excel, Parquet 等の様々なデータ形式に SQL クエリを実行できる dsq コマンド
- excel
- tool
Parquet
- 5 users
- www.databricks.com
- テクノロジー
- 2022/05/21
Parquet と Delta Lakeオープンソースの Delta Lake プロジェクトは、Parquet 形式に基づいて構築され、さまざまな機能の追加により拡張されています。追加機能には、クラウドオブジェクトストレージの ACID トランザクション、タイムトラベル、スキーマの拡張、シンプルな DML コマンド（CREATE、UPDATE、INSERT、DELETE、MERGE）などがあります。Delta Lake は、順序付けられたトランザクションログを使用してこれらの重要な機能の多くを実装しています。これにより、クラウドのオブジェクトストレージ上におけるデータウェアハウス機能が可能になります。詳細は、こちらの動画 Delta Lake 詳細編：トランザクションログをご覧ください。
- apache
- data
- memo
Parquetはカラムナなのか？
- 4 users
- www.slideshare.net/yoheiazekatsu
- テクノロジー
- 2019/12/18
Presto は Parquet ファイルにカラムナなIOをしているか調べてみたメモ。Read less
- performance
PandasのデータをpyarrowでParquet変換してGCS(Google Cloud Storage)にアップロード - YOMON8.NET
- 4 users
- yomon.hatenablog.com
- テクノロジー
- 2019/12/20
タイトルの通りです。PandasのDataframeをpyarrowでParquetに変換して、そのままGCSにアップロードしています。スクリプトこんな形で実行可能です。ファイルを経由しないでBufferから、そのままアップロードしています。 import pandas as pd import pyarrow as pa import pyarrow.parquet as pq import numpy as np import datetime from google.cloud import storage as gcs # ダミーデータでDataframe作成 row_num = 100000 string_values = ['Python', 'Ruby', 'Java', 'JavaScript', 'PHP','Golang'] df = pd.DataFrame({
- python
Parquetファイルの中身を確認するparquet-toolsをDocker使ってインストール無しで実行する - YOMON8.NET
- 4 users
- yomon.hatenablog.com
- テクノロジー
- 2019/12/11
parquet-toolsをビルドするの面倒なので、Dockerで実行する方法。 parquet-tools Parquetの中身見るためのCLIです。 https://github.com/apache/parquet-mr/tree/master/parquet-tools Dockerでの実行方法こちらのイメージ使わせてもらいます。Dockerfile見ればわかりますが、シンプルなので自分で調整も簡単です。 https://hub.docker.com/r/nathanhowell/parquet-tools 実行方法はこちらです。meta サブコマンドを実行しています。 $ docker run --rm -v $(pwd):/tmp -w /tmp nathanhowell/parquet-tools meta my-test.parquet parquet-toolsの使い方
GCS の Parquet データを BigQuery から参照してみた　～ Parquet データのロードと外部テーブルによる参照～ | DevelopersIO
- 4 users
- dev.classmethod.jp
- テクノロジー
- 2020/04/24
GCS の Parquet データを BigQuery から参照してみた　～ Parquet データのロードと外部テーブルによる参照～こんにちは、みかみです。やりたいこと GCS に配置した Parquet データを BigQuery で参照したい BigQuery に Parquet データをロードしたい BigQuery に Parquet データをロードする場合、意図通りのデータ型を自動検出してテーブル作成してくれるかどうか確認したい BigQuery に Parquet データをロードする場合の制限事項を知りたいパーティショニングされた Parquet データを BigQuery から参照するにはどうすればいいのか知りたい Parquet データを準備以下のサイトで動作確認用の CSV データを作成しました。 TM - WebTools できたサンプルデータはこんな感じです
- BigQuery
Stream CDC into an Amazon S3 data lake in Parquet format with AWS DMS | Amazon Web Services
- 3 users
- aws.amazon.com
- テクノロジー
- 2020/09/09
AWS Big Data Blog Stream CDC into an Amazon S3 data lake in Parquet format with AWS DMS February 9, 2024: Amazon Kinesis Data Firehose has been renamed to Amazon Data Firehose. Read the AWS What’s New post to learn more. Most organizations generate data in real time and ever-increasing volumes. Data is captured from a variety of sources, such as transactional and reporting databases, application l
Parquetの中身を手軽に表示・確認するならコレを使おう！ - Qiita
- 3 users
- qiita.com/eitsupi
- テクノロジー
- 2022/12/13
$ Rscript -e 'arrow::open_dataset("data.parquet") |> head() |> as.data.frame()' mpg cyl disp hp drat wt qsec vs am gear carb 1 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4 2 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4 3 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1 4 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1 5 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2 6 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1 $ python -c 'import pola
RedshiftにParquetファイルをCOPYしたい場合、S3バケットのリージョンに注意が必要です | DevelopersIO
- 3 users
- dev.classmethod.jp
- テクノロジー
- 2021/01/12
RedshiftにParquetファイルをCOPYしたい場合、S3バケットのリージョンに注意が必要ですデータ・アナリティクス事業本部の森脇です。 RedshiftのCOPYコマンドを使うと、S3からファイルをRedshiftにロードすることが可能です。また、COPYコマンドオプションの「REGION」にてS3のリージョンを指定することで、S3とRedshiftのリージョンが異なる場合にもファイルをロードすることが可能です。ただし、Parquetファイルはリージョンが異なる場合ロードできません。実際に試してみましょう。 OKパターン(同一リージョンでのCOPY) まずは同一リージョンでのCOPYを試します。東京リージョン(ap-northeast-1)にRedshift, S3をそれぞれ作成します。そして、S3バケットにデータファイルをアップロードします。今回はcsv, par
Load data incrementally and optimized Parquet writer with AWS Glue | Amazon Web Services
- 3 users
- aws.amazon.com
- テクノロジー
- 2020/02/15
AWS Big Data Blog Load data incrementally and optimized Parquet writer with AWS Glue October 2022: This post was reviewed for accuracy. AWS Glue provides a serverless environment to prepare (extract and transform) and load large amounts of datasets from a variety of sources for analytics and data processing with Apache Spark ETL jobs. The first post of the series, Best practices to scale Apache Sp
S3 Select でParquetの中身を簡単に確認する - 雲のメモ帳
- 3 users
- www.cloudnotes.tech
- テクノロジー
- 2020/12/23
Parquetファイルは、テキストエディタなどでは中身を確認することがができず、中身を確認するのがすごく手間です。 S3にPaquetファイルを保管している場合は、S3 Select により簡単に中身が確認できるため、その手順を記載します。手順最後に手順 1. S3バケットより、該当のParquetファイルを選択し、[S3 Select - Parquet] をクリックします。 ] 2. SQL エディタに [SQL] を記載し、[SQLの実行] をクリックします。今回は、Parquetファイルから5件のデータを取り出します。 SQL の書き方は以下の公式ドキュメントを参考にしてください。 https://docs.aws.amazon.com/ja_jp/AmazonS3/latest/dev/s3-glacier-select-sql-reference.html https:
Amazon Athenaでパーティション数が多いJSONのテーブルをParquet形式のテーブルに変換できずにハマった - Qiita
- 3 users
- qiita.com/kai_kou
- テクノロジー
- 2019/12/27
Amazon Athenaを利用してS3バケットにあるJSONファイルをParquet形式に変換するときにHIVE_TOO_MANY_OPEN_PARTITIONS というエラーが発生したので原因調査して対策を考えてみました。 Parquet形式とはなんぞ？という方は下記が参考になると思います。カラムナフォーマットのきほん〜データウェアハウスを支える技術〜 - Retty Tech Blog https://engineer.retty.me/entry/columnar-storage-format Amazon Athena: カラムナフォーマット『Parquet』でクエリを試してみた #reinvent ｜ Developers.IO https://dev.classmethod.jp/cloud/aws/amazon-athena-using-parquet/ Apache
Presto で Parquet にクエリすると、参照するカラムのみ読んでいることを確認した - ablog
- 3 users
- yohei-a.hatenablog.jp
- テクノロジー
- 2020/02/05
HDFS の Datanode の Flame Graph sun.nio.ch.FileChannelImpl:::transferTo から sendfile システムコールが呼ばれている。一番左のスタックをドリルダウンしたもの。 Presto Server の Flame Graph 一番左のスタックをドリルダウンしたもの、com.facebook.presto.parquet.reader.BinaryColumnReader:::readValue で Columnar Read していると思われる。確認ポイント Presto で Parquet にクエリする際、参照するカラムのデータのみ読む。環境リリースラベル: emr-5.28.0 Hadoop ディストリビューション: Amazon 2.8.5 Hive 2.3.6, Pig 0.17.0, Hue 4.4.0,
- performance
Parquet+Petastormを使って画像分類モデルをSparkで学習させてみました！ - CCCMKホールディングス TECH Labの Tech Blog
- 3 users
- techblog.cccmk.co.jp
- テクノロジー
- 2023/02/06
こんにちは、CCCMKホールディングス技術開発の三浦です。最近寒い日が続いています。寒いと温かい飲み物が欲しくなりますが、近ごろは緑茶を飲むようになりました。お湯を入れたらすぐに飲むことが出来る粉末タイプのものもあって、気軽に楽しむことが出来ます。今回の記事は分散処理フレームワークSpark周りについて調べた内容です。普段深層学習モデルの分散学習をDatabricksを通じ、Sparkクラスタで行っています。その中で最近少し引っかかっていたのが画像やテキストなどのモデル学習用データを読み取る処理がボトルネックになっている点でした。この部分をどう改善すれば良いのかなかなか分かりませんでした。今のデータの入力処理は特にSparkの特徴を活かしきれているとは言えず、TensorFlowやPyTorchのDataLoaderを通じて都度画像ファイルやテキストファイルを読み込んでモデルに入力さ
Amazon AthenaでPartitionしたParquetファイルを読み込む
- 3 users
- zenn.dev/migi
- テクノロジー
- 2022/05/26
yyyyとmmはcreated_atから作ったパーティション用のカラムです。保存するときとAthenaでCREATE TABLEする時に使います(*1)。作成したデータをS3に保存します。この時、amazon wranglerを使って、parquetかつパーティションを指定して保存します(*2)。実行すると、Hive形式で保存されます（*3）。詳しくは公式ドキュメントを確認してください。 import awswrangler as wr wr.s3.to_parquet( df=df, #保存したいDataFrame path='s3://{bucket_name}/{prefix}', #ご自身の環境に合わせてパス指定してください dataset=True, partition_cols=['year', 'month'] #パーティションするカラムを指定。複数指定できます。 )
マネーフォワードのCSVをParquetに変換する - Lambdaカクテル
- 3 users
- blog.3qe.us
- テクノロジー
- 2023/06/18
いろいろと分析したいので、マネーフォワードでエクスポートできるCSVファイルをSparkを使ってParquetに変換したメモ。マネーフォワード特に今更説明する必要もないが、マネーフォワードはオンラインで動作する家計簿サービス。カードと連携したり、勝手に科目を付けてくれたりするのでとても便利だ。自分はプレミアム会員でエンジョイしている。自分はSBIネット銀行なので、それ専用のマネーフォワードを使っている。 ssnb.x.moneyforward.com プレミアム会員になると、マネーフォワードは特定の月の家計簿をCSV/Excel形式でエクスポートできる。これを使って、あとでGrafanaとかKibanaで眺めてみようというのが最終的な目標。今回はParquetに変換するだけ。 CSVは以下のようなフォーマットになっている: "計算対象","日付","内容","金額（円）","保有金融
Parquetファイル用のコマンドラインツール「parquet-tools」のインストール手順(on Mac OSX)と使い方 | DevelopersIO
- 3 users
- dev.classmethod.jp
- テクノロジー
- 2020/08/11
Parquetファイル用のコマンドラインツール「parquet-tools」のインストール手順(on Mac OSX)と使い方書籍『AWSで始めるデータレイク』を使った読書会を現在部内で開催しているのは以前書評エントリを公開した際にも言及しましたが、読書会自体1回1時間枠でここまで計6回実践してきて進んだのが第1章の終わりまで...という状況です。記録的には『めっちゃ進み遅いw』というところですが、これはむしろ『語りたい部分が多く、また予想以上に盛り上がっているために中々トピックを消化しきれていない』というのが実情です。モヤモヤしていた部分が解消されたり、新たな視点や知見が共有される事が多く、催しとしても非常に意義のあるものになっています。先日も『Parquetファイルの内容を確認する際、皆さんどういったツールとかを使っていますか？』という問い掛けに対し、有識者から『parquet-t
Apache BeamでJavaのObjectをParquet形式でS3とGCSとローカルに出力する - YOMON8.NET
- 3 users
- yomon.hatenablog.com
- テクノロジー
- 2020/07/13
GCPのCloud Dataflowでも使われている、Apache BeamでJavaの内部で持っているデータをParquetに出力するやり方です。サンプルコードの構成元にしたMaven ArcheType 利用するPOJO GenericRecordへの変換出力先の切り替えローカルに出力してみる GCSに出力してみる AWS S3に出力してみるサンプルコードの構成以下のリポジトリに今回書いているコードを置いておきました。 github.com こちらで補足書いておきます。元にしたMaven ArcheType こちらのMaven ArcheType元に作成しています。バージョンは現在の最新の2.22.0を利用しています。 mvnrepository.com 利用するPOJO 以下の構造のデータをParquetに変換してみます。 static class PC { Strin
Glueでcsvファイルをparquet形式に変換してみた - Qiita
- 3 users
- qiita.com/mochiS0
- テクノロジー
- 2023/02/04
AWS DASの勉強で初めてGlueを触ったのでメモ Parquet形式とは AWSドキュメントより Apache Parquet や ORC は、データを高速に取得できるように最適化された、AWS 分析アプリケーションで使用されている、列指向ストレージ形式です。列指向ストレージ形式には以下の特性があるため、Athena での使用に適しています。列のデータ型に合わせて選択された圧縮アルゴリズムによる列ごとの圧縮で、Amazon S3 のストレージ領域を節約し、ディスク容量とクエリの処理中における I/O を削減します。 Parquet および ORC での述語プッシュダウンにより、Athena クエリが必要なブロックのみを取得できるようになり、クエリパフォーマンスが向上します。Athena クエリがデータから特定の列値を取得すると、データブロック述語からの統計 (最大値や最小値など)
- tech
- web
RubyでもParquetファイルがつくりたい - Qiita
- 3 users
- qiita.com/sadahiroyoshi
- テクノロジー
- 2020/06/08
背景 Pythonの pandas や DataFrame.to_parquet が優秀すぎて「parquetファイルを扱うならPython」という風潮ですが、 https://pandas.pydata.org/pandas-docs/version/0.22.0/generated/pandas.DataFrame.to_parquet.html#pandas.DataFrame.to_parquet Rubyでも簡単につくれることが判明したので、共有しておきます。やり方 apacheの公式gemを使えばいける。（≠red-arrowなので注意） https://github.com/apache/arrow/tree/master/ruby/red-parquet 検証ファイル作成 gemインストール