並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 43件

新着順 人気順

parquetの検索結果1 - 40 件 / 43件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

parquetに関するエントリは43件あります。 pythonwebtech などが関連タグです。 人気エントリには 『[新機能] Amazon Athena UNLOADコマンドによるCSV、Parquet、Avro、ORC、JSON出力をサポートしました! | DevelopersIO』などがあります。
  • [新機能] Amazon Athena UNLOADコマンドによるCSV、Parquet、Avro、ORC、JSON出力をサポートしました! | DevelopersIO

    データアナリティクス事業本部コンサルティングチームの石川です。先日、Amazon Athenaが、UNLOADコマンドをサポートしました。SELECTクエリの結果をCSV、Parquet、Avro、ORC、JSONフォーマットでS3出力できるようになりました。本日は、UNLOADコマンドを実際に試してみます。 UNLOADコマンド UNLOADコマンドの構文は、以下のとおりです。 UNLOAD (SELECT col_name[, ...] FROM old_table) TO 's3://my_athena_data_location/my_folder/' WITH ( property_name = 'expression' [, ...] ) WITH句の中にフォーマット(format)、区切り文字(field_delimiter)、圧縮タイプ(compression)、パーティシ

      [新機能] Amazon Athena UNLOADコマンドによるCSV、Parquet、Avro、ORC、JSON出力をサポートしました! | DevelopersIO
    • ゆずソフト、全年齢向けブランド「ゆずソフトSOUR」発表。ノベルゲーム『PARQUET』をSteamなどで配信へ - AUTOMATON

      国内の美少女ゲームメーカーゆずソフトは7月30日、全年齢ブランド「ゆずソフトSOUR」および同ブランドのデビュー作『PARQUET(パルケ)』を発表した。対応プラットフォームはPC(Steam/DMM GAMES/DL Site)/iOS/Androidで、価格は2500円。DMM GAMESおよびDL Siteでは7月31日0時から配信開始予定。また、PC(Steam)/iOS/Android版は8月27日から配信される見通しだ。 『PARQUET』は、ゆずソフトSOURが手がける全年齢向け美少女ノベルゲームである。本作の舞台は、BMI(Brain-machine Interface)と呼ばれる、脳と機械を繋ぐ技術が存在する世界。BMIによって記憶のデータ化が可能となり、世界は発展を遂げたが、非合法な実験もおこなわれていた。主人公の伊吹カナトは、複数の人間の記憶を混ぜ合わせ、新たな人間を

        ゆずソフト、全年齢向けブランド「ゆずソフトSOUR」発表。ノベルゲーム『PARQUET』をSteamなどで配信へ - AUTOMATON
      • GitHub - multiprocessio/dsq: Commandline tool for running SQL queries against JSON, CSV, Excel, Parquet, and more.

        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

          GitHub - multiprocessio/dsq: Commandline tool for running SQL queries against JSON, CSV, Excel, Parquet, and more.
        • そろそろRユーザーもApache ArrowでParquetを使ってみませんか? - Technically, technophobic.

          先日、Apache Arrow東京ミートアップ2019で「RとApache Arrow」というタイトルで発表してきました。あと、Japan.RでもApache ArrowについてLTしました。 話したこととしては、 arrowパッケージを使うとParquetファイル(後述)の読み書きができる sparklyrパッケージが内部でApache Arrowを使うようになって、R↔Spark間のデータのやり取りが高速になった Arrow Flightがもっと一般的になれば、JDBCやODBCを使わなくてもデータベースからデータを取ってこれるようになる という感じで、個人的にいま強調したいのは1.です。とりあえずParquetファイルの読み書きというのがRユーザーにとって一番わかりやすいメリットなので、そこをきっかけにみんなApache Arrowにズブズブになって、もっと世の中のシステムがApac

            そろそろRユーザーもApache ArrowでParquetを使ってみませんか? - Technically, technophobic.
          • Amazon RDSやAuroraのスナップショットをParquet形式でS3へ保存可能に。スナップショットに対する分析処理も

            Amazon RDSやAuroraのスナップショットをParquet形式でS3へ保存可能に。スナップショットに対する分析処理も Amazon Web Services(AWS)は、データベースサービスとして提供しているAmazon RDSやAmazon Auroraのスナップショットを、Amazon S3にApache Parquetフォーマットで保存する機能が追加されたことを発表しました。 Parquetフォーマットは、もともとHadoop上で高速な分析を可能にする「Parquet」で用いられていたデータフォーマットです。 カラム型データベースではデータを列方向に格納することでデータの連続的な読み出し性能が高く、高速な分析が可能です(ただしトランザクション処理は遅いか、できないことが一般的です)。しかも列方向のデータは基本的にすべて同じ型であり、似たような値が並んでいる可能性も高いため、

              Amazon RDSやAuroraのスナップショットをParquet形式でS3へ保存可能に。スナップショットに対する分析処理も
            • AWS S3 コスト削減を目的に CSV から Apache Parquet に乗り換えるための下調べ | TECHSCORE BLOG | TECHSCORE BLOG

              これは TECHSCORE Advent Calendar 2019 の7日目の記事です。 Amazon Simple Storage Service という名の通り、S3 は提供されているサービス内容は非常にシンプルなのですが利用時の用途が多岐にわたります。 利用用途が多岐にわたるという事は、注意して管理しないとカオスに陥る可能性があり、「一時的に置いているつもりだった」「そのうちに対応するつもりだった」という野良データがいつの間にか業務に組み込まれてしまい簡単に手が出せなくなる事態に発展する場合もあります。 私が普段利用している AWS アカウントの中で最も運用歴の長いものにも、何やらよろしくないデータが存在することが分かりました。 AWS を適切に利用出来ているかコストの面から調査をしている担当者から「S3 のストレージ利用量、勢いよく増加している理由は何?」と聞かれて即答できず、調

              • Docker のログを columnify で Athena (Presto) に特化した Parquet にする

                先日 columnify という、入力データを Parquet フォーマットに変換するツールがリリースされました。 cf. 軽量な Go 製カラムナフォーマット変換ツール columnify を作った話 - Repro Tech Blog また、fluent-plugin-s3 で compressor として columnify をサポートする話が出ています。1 cf. Add parquet compressor using columnify by okkez · Pull Request #338 · fluent/fluent-plugin-s3 個人的に前々から Docker のログを Parquet フォーマットで S3 に put して Athena で検索できると素敵だなと思っていたので喜ばしいことですね!そんなわけで、Docker のログを fluentd log dr

                  Docker のログを columnify で Athena (Presto) に特化した Parquet にする
                • GitHub - kylebarron/parquet-wasm: Rust-based WebAssembly bindings to read and write Apache Parquet data

                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                    GitHub - kylebarron/parquet-wasm: Rust-based WebAssembly bindings to read and write Apache Parquet data
                  • VPCフローログをApache Parquet形式でS3に送信する場合の料金を勘違いしていたので調べ直した | DevelopersIO

                    こんにちは!コンサル部のinomaso(@inomasosan)です。 以前、以下のブログでAmazon VPCフローログをApache Parquet形式で保存した方がコストが安くなるというブログを書きました。その後、みなみからの指摘で間違っていることに気がついたので、再度調べ直しました。 最初にまとめ VPCフローログをS3に保管する料金はApache Parquet形式の方が高くなってしまう Athenaによるクエリの料金はApache Parquet形式の方が安く、クエリも高速になる VPCフローログをどのように運用するかで、ログファイル形式を決めたほうがよい VPCフローログのログファイル形式のおさらい 2023/2/13時点で、VPCフローログをS3に送信する場合、ログファイル形式はデフォルトでテキストとなっており、Apache Parquetに変更することが可能となっておりま

                      VPCフローログをApache Parquet形式でS3に送信する場合の料金を勘違いしていたので調べ直した | DevelopersIO
                    • Firehoseで Parquet形式に変換したALBのアクセスログをAthenaで解析してみた | DevelopersIO

                      AWSチームのすずきです。 ALBのアクセスログ を Athena で効率の良い解析を行うため、 Lambda と Parquet形式への変換を有効にしたFirehose を利用する機会がありましたので、紹介させていただきます。 概要図 設定 今回のAWSリソース、CloudFormation で設置しました。主要な設定内容を紹介します。 利用したテンプレートは記事末尾にリンクします。 Glue Firehoseの変換データの出力先となる Glue Table の設定を行います。 TableInput 入出力フォーマットは「Parquet」を利用する指定とします。 TableInput: Owner: owner InputFormat: org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat OutputFormat:

                        Firehoseで Parquet形式に変換したALBのアクセスログをAthenaで解析してみた | DevelopersIO
                      • Parquet: more than just "Turbo CSV"

                        csvbase is a simple web database. Learn more on the about page. Parquet is an efficient, binary file format for table data. Compared to csv, it is: Quicker to read Quicker to write Smaller On a real world 10 million row financial data table I just tested with pandas I found that Parquet is about 7.5 times quicker to read than csv, ~10 times quicker to write and a about a fifth of the size on disk.

                          Parquet: more than just "Turbo CSV"
                        • PythonでcsvファイルをParquet形式に変換 - Qiita

                          背景 大きいデータセットのアドホック分析を AWS Athena で行うにあたり、csv データをApache Parquet 形式に変換することでスキャンデータを小さくすることによりコスト削減ができます。 Parquet 形式への変換はいくつか方法がありますが、今回は Python を使って行います。 ファイルを圧縮し、さらに Apache Parquet などの列形式に変換した場合、サイズは 3 分の 1 に圧縮され、Amazon S3 でのデータは最終的に 1 TB になります。ただしこの場合、Parquet は列形式なので、Amazon Athena で読み取る必要があるのは、実行されているクエリに関連する列のみです。当該のクエリは 1 つの列のみを参照するものであるため、Athena ではその列のみが読み取られ、ファイルの 3 分の 2 は読み取らなくてよいことになります。Ath

                            PythonでcsvファイルをParquet形式に変換 - Qiita
                          • Parquet and Postgres in the Data Lake | Crunchy Data Blog

                            Static Data is Different A couple weeks ago, I came across a blog from Retool on their experience migrating a 4TB database. They put in place some good procedures and managed a successful migration, but the whole experience was complicated by the size of the database. The size of the database was the result of a couple of very large "logging" tables: an edit log and an audit log. The thing about l

                              Parquet and Postgres in the Data Lake | Crunchy Data Blog
                            • 列指向のデータストレージ形式、Apache Parquetについてもう少しだけ詳しく調べてみた | そう備忘録

                              列指向のデータストレージ形式、Apache Parquetについてもう少しだけ詳しく調べてみた by souichirou · 公開済み 2020年8月3日 · 更新済み 2021年7月13日 Apache ParquetCSVとの違い以前のAWS Athenaの記事でCSVとParquetとのファイル形式の違いでSQL実行時のRun Timeとスキャンデータ量にどの程度違いが出るのかを検証した。 CSVで8MByte程のファイルサイズで特定の1列だけを取り出すようなSQLの場合、スキャンデータ量はParquetの方が明らかに少なかった。 AWS Athenaはスキャン量に応じて課金されるのでParquet形式のほうが有利という事になるので、もう少しParquetについて調べてみることにした。 Apache ParquetとはTwitter社とCloudera社(米国のソフトウェア会社)で

                                列指向のデータストレージ形式、Apache Parquetについてもう少しだけ詳しく調べてみた | そう備忘録
                              • GitHub - aws/aws-sdk-pandas: pandas on AWS - Easy integration with Athena, Glue, Redshift, Timestream, Neptune, OpenSearch, QuickSight, Chime, CloudWatchLogs, DynamoDB, EMR, SecretManager, PostgreSQL, MySQL, SQLServer and S3 (Parquet, CSV, JSON and EXCEL)

                                You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                  GitHub - aws/aws-sdk-pandas: pandas on AWS - Easy integration with Athena, Glue, Redshift, Timestream, Neptune, OpenSearch, QuickSight, Chime, CloudWatchLogs, DynamoDB, EMR, SecretManager, PostgreSQL, MySQL, SQLServer and S3 (Parquet, CSV, JSON and EXCEL)
                                • GitHub - lancedb/lance: Modern columnar data format for ML and LLMs implemented in Rust. Convert from parquet in 2 lines of code for 100x faster random access, vector index, and data versioning. Compatible with Pandas, DuckDB, Polars, Pyarrow, with more i

                                  Lance is a modern columnar data format that is optimized for ML workflows and datasets. Lance is perfect for: Building search engines and feature stores. Large-scale ML training requiring high performance IO and shuffles. Storing, querying, and inspecting deeply nested data for robotics or large blobs like images, point clouds, and more. The key features of Lance include: High-performance random a

                                    GitHub - lancedb/lance: Modern columnar data format for ML and LLMs implemented in Rust. Convert from parquet in 2 lines of code for 100x faster random access, vector index, and data versioning. Compatible with Pandas, DuckDB, Polars, Pyarrow, with more i
                                  • Parquetの中身を簡単に表示できるGUIツール「ParquetViewer」の紹介 | DevelopersIO

                                    こんにちは!DA(データアナリティクス)事業本部 インテグレーション部の大高です。 最近、社内勉強会で「Parquetファイルの中身を確認するのにどんなツールを使っているか?」という話題が出ました。Windows限定となってしまいますが、個人的に利用している「ParquetViewer」が便利なので、紹介をしたいと思います。 ParquetViewerとは? .NETで作られている、GUIでParquetファイルの中身を表示できるツールです。GitHub上で公開されています。 実際の画面はこんな感じです。 ダウンロード ParquetViewerは以下のページからダウンロード可能です。 「ParquetFileViewer.exe」のリンクをクリックしてダウンロードすれば完了です。また、単一の実行ファイルになるのでインストールなどは不要です。 サンプルデータ 今回利用したサンプルデータは、

                                      Parquetの中身を簡単に表示できるGUIツール「ParquetViewer」の紹介 | DevelopersIO
                                    • GlueのSparkジョブでTSVからParquetへ変換してみた | DevelopersIO

                                      こんにちは。インテグレーション部 の大高です。 Glueと仲良くなるべく色々と触っています。今回はGlueのSparkジョブでTSVからParquetへファイルを変換してみたいと思います。 ジョブの作成 GlueのジョブはSparkジョブを作成します。また、今回はせっかくなので最近リリースされたPython3でジョブを作成しました。 ジョブのスクリプト 大きな処理の流れとしては、S3からTSVファイルを取得し、Parquet形式にしてS3へ保存という流れとして作成します。 スクリプト全体 スクリプトは以下のようにしました。S3バケットや取得元のファイルは事前に用意してあります。 import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.conte

                                        GlueのSparkジョブでTSVからParquetへ変換してみた | DevelopersIO
                                      • AWS LambdaとPyArrow3.0.0を使ってサクッとParquetファイルに変換する | DevelopersIO

                                        id price total price_profit total_profit discount visible name created updated 1 20000 300000000 4.56 67.89 789012.34 True QuietComfort 35 2019-06-14 2019-06-14 23:59:59 PyArrow3.0.0用のLambda Layerを作成する Lambda動作環境の選定 今回は、TSVファイルに軽量・高速に変換するためAWS Lambdaを用います。Lambdaは、パッケージフォーマットとして、従来どおりLambda関数を用いる方法に加えて、コンテナイメージがサポートされました。複数のLambdaアプリケーションや関数から再利用されることを考慮して、デプロイパッケージは、Layerを用います。 Lambdaの制約事項 デプロイパッケ

                                          AWS LambdaとPyArrow3.0.0を使ってサクッとParquetファイルに変換する | DevelopersIO
                                        • PythonでParquetファイルを効果的に扱う方法 - Python転職初心者向けエンジニアリングブログ

                                          Parquetは、大規模なデータセットを効率的に格納・処理するためのファイル形式の一つです。特に、Apache Arrowの一部として知られており、データの圧縮率が高く、分散処理フレームワークとの親和性もあります。この記事では、Pythonを使用してParquetファイルを連携し、データの読み書きや処理方法について具体的なコードとともに詳しく解説します。 Parquetファイルの基本 Parquetファイルは、列指向でデータを格納することで高い圧縮率と高速な読み書きが可能です。以下はParquetファイルの基本的な特徴です。 列指向: 列ごとにデータを格納するため、特定の列を選択するクエリが高速に処理される。 スキーマ: スキーマが明示的に定義され、異なるデータ型を含むことができる。 圧縮: データは列ごとに圧縮され、ストレージ効率が向上する。 PythonでParquetファイルを操作す

                                            PythonでParquetファイルを効果的に扱う方法 - Python転職初心者向けエンジニアリングブログ
                                          • JSON, CSV, Excel, Parquet 等の様々なデータ形式に SQL クエリを実行できる dsq コマンドが便利。 - 全力で怠けたい

                                            はじめに 対応しているデータ形式 類似のツールとの比較 バージョン インストール方法 基本的な使い方 ファイルに対して SQL クエリを実行する 標準入力に対して SQL クエリを実行する クエリ結果を整形する 複数のファイルに対して SQL クエリを実行する 複数のファイルを JOIN する データ形式が異なるファイルを JOIN する 任意のデータ形式から JSON ヘの変換 オブジェクト内にネストしている配列に SQL クエリを実行する ネストしているオブジェクトから値を取得する ネストしている配列から値を取得する 正規表現のサポート その他 カラムの出力順 スキーマの推測 入力ファイルのキャッシュ REPL CSV と TSV ファイル内の数値の変換 参考サイト JSON, CSV, Excel, Parquet 等の様々なデータ形式に SQL クエリを実行できる dsq コマンド

                                              JSON, CSV, Excel, Parquet 等の様々なデータ形式に SQL クエリを実行できる dsq コマンドが便利。 - 全力で怠けたい
                                            • Parquet

                                              Parquet と Delta Lakeオープンソースの Delta Lake プロジェクトは、Parquet 形式に基づいて構築され、さまざまな機能の追加により拡張されています。追加機能には、クラウドオブジェクトストレージの ACID トランザクション、タイムトラベル、スキーマの拡張、シンプルな DML コマンド(CREATE、UPDATE、INSERT、DELETE、MERGE)などがあります。Delta Lake は、順序付けられたトランザクションログを使用してこれらの重要な機能の多くを実装しています。これにより、クラウドのオブジェクトストレージ上におけるデータウェアハウス機能が可能になります。詳細は、こちらの動画 Delta Lake 詳細編:トランザクションログをご覧ください。

                                                Parquet
                                              • Parquetはカラムナなのか?

                                                Presto は Parquet ファイルにカラムナなIOをしているか調べてみたメモ。Read less

                                                  Parquetはカラムナなのか?
                                                • PandasのデータをpyarrowでParquet変換してGCS(Google Cloud Storage)にアップロード - YOMON8.NET

                                                  タイトルの通りです。PandasのDataframeをpyarrowでParquetに変換して、そのままGCSにアップロードしています。 スクリプト こんな形で実行可能です。ファイルを経由しないでBufferから、そのままアップロードしています。 import pandas as pd import pyarrow as pa import pyarrow.parquet as pq import numpy as np import datetime from google.cloud import storage as gcs # ダミーデータでDataframe作成 row_num = 100000 string_values = ['Python', 'Ruby', 'Java', 'JavaScript', 'PHP','Golang'] df = pd.DataFrame({

                                                    PandasのデータをpyarrowでParquet変換してGCS(Google Cloud Storage)にアップロード - YOMON8.NET
                                                  • Parquetファイルの中身を確認するparquet-toolsをDocker使ってインストール無しで実行する - YOMON8.NET

                                                    parquet-toolsをビルドするの面倒なので、Dockerで実行する方法。 parquet-tools Parquetの中身見るためのCLIです。 https://github.com/apache/parquet-mr/tree/master/parquet-tools Dockerでの実行方法 こちらのイメージ使わせてもらいます。Dockerfile見ればわかりますが、シンプルなので自分で調整も簡単です。 https://hub.docker.com/r/nathanhowell/parquet-tools 実行方法はこちらです。meta サブコマンドを実行しています。 $ docker run --rm -v $(pwd):/tmp -w /tmp nathanhowell/parquet-tools meta my-test.parquet parquet-toolsの使い方

                                                      Parquetファイルの中身を確認するparquet-toolsをDocker使ってインストール無しで実行する - YOMON8.NET
                                                    • GCS の Parquet データを BigQuery から参照してみた ~ Parquet データのロードと外部テーブルによる参照~ | DevelopersIO

                                                      GCS の Parquet データを BigQuery から参照してみた ~ Parquet データのロードと外部テーブルによる参照~ こんにちは、みかみです。 やりたいこと GCS に配置した Parquet データを BigQuery で参照したい BigQuery に Parquet データをロードしたい BigQuery に Parquet データをロードする場合、意図通りのデータ型を自動検出してテーブル作成してくれるかどうか確認したい BigQuery に Parquet データをロードする場合の制限事項を知りたい パーティショニングされた Parquet データを BigQuery から参照するにはどうすればいいのか知りたい Parquet データを準備 以下のサイトで動作確認用の CSV データを作成しました。 TM - WebTools できたサンプルデータはこんな感じです

                                                        GCS の Parquet データを BigQuery から参照してみた ~ Parquet データのロードと外部テーブルによる参照~ | DevelopersIO
                                                      • Stream CDC into an Amazon S3 data lake in Parquet format with AWS DMS | Amazon Web Services

                                                        AWS Big Data Blog Stream CDC into an Amazon S3 data lake in Parquet format with AWS DMS February 9, 2024: Amazon Kinesis Data Firehose has been renamed to Amazon Data Firehose. Read the AWS What’s New post to learn more. Most organizations generate data in real time and ever-increasing volumes. Data is captured from a variety of sources, such as transactional and reporting databases, application l

                                                          Stream CDC into an Amazon S3 data lake in Parquet format with AWS DMS | Amazon Web Services
                                                        • Parquetの中身を手軽に表示・確認するならコレを使おう! - Qiita

                                                          $ Rscript -e 'arrow::open_dataset("data.parquet") |> head() |> as.data.frame()' mpg cyl disp hp drat wt qsec vs am gear carb 1 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4 2 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4 3 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1 4 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1 5 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2 6 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1 $ python -c 'import pola

                                                            Parquetの中身を手軽に表示・確認するならコレを使おう! - Qiita
                                                          • RedshiftにParquetファイルをCOPYしたい場合、S3バケットのリージョンに注意が必要です | DevelopersIO

                                                            RedshiftにParquetファイルをCOPYしたい場合、S3バケットのリージョンに注意が必要です データ・アナリティクス事業本部の森脇です。 RedshiftのCOPYコマンドを使うと、S3からファイルをRedshiftにロードすることが可能です。 また、COPYコマンドオプションの「REGION」にてS3のリージョンを指定することで、S3とRedshiftのリージョンが異なる場合にもファイルをロードすることが可能です。 ただし、Parquetファイルはリージョンが異なる場合ロードできません。 実際に試してみましょう。 OKパターン(同一リージョンでのCOPY) まずは同一リージョンでのCOPYを試します。 東京リージョン(ap-northeast-1)にRedshift, S3をそれぞれ作成します。 そして、S3バケットにデータファイルをアップロードします。 今回はcsv, par

                                                              RedshiftにParquetファイルをCOPYしたい場合、S3バケットのリージョンに注意が必要です | DevelopersIO
                                                            • Load data incrementally and optimized Parquet writer with AWS Glue | Amazon Web Services

                                                              AWS Big Data Blog Load data incrementally and optimized Parquet writer with AWS Glue October 2022: This post was reviewed for accuracy. AWS Glue provides a serverless environment to prepare (extract and transform) and load large amounts of datasets from a variety of sources for analytics and data processing with Apache Spark ETL jobs. The first post of the series, Best practices to scale Apache Sp

                                                                Load data incrementally and optimized Parquet writer with AWS Glue | Amazon Web Services
                                                              • S3 Select でParquetの中身を簡単に確認する - 雲のメモ帳

                                                                Parquetファイルは、テキストエディタなどでは中身を確認することがができず、中身を確認するのがすごく手間です。 S3にPaquetファイルを保管している場合は、S3 Select により簡単に中身が確認できるため、その手順を記載します。 手順 最後に 手順 1. S3バケットより、該当のParquetファイルを選択し、[S3 Select - Parquet] をクリックします。 ] 2. SQL エディタに [SQL] を記載し、[SQLの実行] をクリックします。 今回は、Parquetファイルから5件のデータを取り出します。 SQL の書き方は以下の公式ドキュメントを参考にしてください。 https://docs.aws.amazon.com/ja_jp/AmazonS3/latest/dev/s3-glacier-select-sql-reference.html https:

                                                                  S3 Select でParquetの中身を簡単に確認する - 雲のメモ帳
                                                                • Amazon Athenaでパーティション数が多いJSONのテーブルをParquet形式のテーブルに変換できずにハマった - Qiita

                                                                  Amazon Athenaを利用してS3バケットにあるJSONファイルをParquet形式に変換するときにHIVE_TOO_MANY_OPEN_PARTITIONS というエラーが発生したので原因調査して対策を考えてみました。 Parquet形式とは なんぞ?という方は下記が参考になると思います。 カラムナフォーマットのきほん 〜データウェアハウスを支える技術〜 - Retty Tech Blog https://engineer.retty.me/entry/columnar-storage-format Amazon Athena: カラムナフォーマット『Parquet』でクエリを試してみた #reinvent | Developers.IO https://dev.classmethod.jp/cloud/aws/amazon-athena-using-parquet/ Apache

                                                                    Amazon Athenaでパーティション数が多いJSONのテーブルをParquet形式のテーブルに変換できずにハマった - Qiita
                                                                  • Presto で Parquet にクエリすると、参照するカラムのみ読んでいることを確認した - ablog

                                                                    HDFS の Datanode の Flame Graph sun.nio.ch.FileChannelImpl:::transferTo から sendfile システムコールが呼ばれている。 一番左のスタックをドリルダウンしたもの。 Presto Server の Flame Graph 一番左のスタックをドリルダウンしたもの、com.facebook.presto.parquet.reader.BinaryColumnReader:::readValue で Columnar Read していると思われる。 確認ポイント Presto で Parquet にクエリする際、参照するカラムのデータのみ読む。 環境 リリースラベル: emr-5.28.0 Hadoop ディストリビューション: Amazon 2.8.5 Hive 2.3.6, Pig 0.17.0, Hue 4.4.0,

                                                                      Presto で Parquet にクエリすると、参照するカラムのみ読んでいることを確認した - ablog
                                                                    • Parquet+Petastormを使って画像分類モデルをSparkで学習させてみました! - CCCMKホールディングス TECH Labの Tech Blog

                                                                      こんにちは、CCCMKホールディングス技術開発の三浦です。 最近寒い日が続いています。寒いと温かい飲み物が欲しくなりますが、近ごろは緑茶を飲むようになりました。お湯を入れたらすぐに飲むことが出来る粉末タイプのものもあって、気軽に楽しむことが出来ます。 今回の記事は分散処理フレームワークSpark周りについて調べた内容です。普段深層学習モデルの分散学習をDatabricksを通じ、Sparkクラスタで行っています。その中で最近少し引っかかっていたのが画像やテキストなどのモデル学習用データを読み取る処理がボトルネックになっている点でした。この部分をどう改善すれば良いのかなかなか分かりませんでした。 今のデータの入力処理は特にSparkの特徴を活かしきれているとは言えず、TensorFlowやPyTorchのDataLoaderを通じて都度画像ファイルやテキストファイルを読み込んでモデルに入力さ

                                                                        Parquet+Petastormを使って画像分類モデルをSparkで学習させてみました! - CCCMKホールディングス TECH Labの Tech Blog
                                                                      • Amazon AthenaでPartitionしたParquetファイルを読み込む

                                                                        yyyyとmmはcreated_atから作ったパーティション用のカラムです。保存するときとAthenaでCREATE TABLEする時に使います(*1)。 作成したデータをS3に保存します。 この時、amazon wranglerを使って、parquetかつパーティションを指定して保存します(*2)。 実行すると、Hive形式で保存されます(*3)。 詳しくは公式ドキュメントを確認してください。 import awswrangler as wr wr.s3.to_parquet( df=df, #保存したいDataFrame path='s3://{bucket_name}/{prefix}', #ご自身の環境に合わせてパス指定してください dataset=True, partition_cols=['year', 'month'] #パーティションするカラムを指定。複数指定できます。 )

                                                                          Amazon AthenaでPartitionしたParquetファイルを読み込む
                                                                        • マネーフォワードのCSVをParquetに変換する - Lambdaカクテル

                                                                          いろいろと分析したいので、マネーフォワードでエクスポートできるCSVファイルをSparkを使ってParquetに変換したメモ。 マネーフォワード 特に今更説明する必要もないが、マネーフォワードはオンラインで動作する家計簿サービス。カードと連携したり、勝手に科目を付けてくれたりするのでとても便利だ。自分はプレミアム会員でエンジョイしている。 自分はSBIネット銀行なので、それ専用のマネーフォワードを使っている。 ssnb.x.moneyforward.com プレミアム会員になると、マネーフォワードは特定の月の家計簿をCSV/Excel形式でエクスポートできる。これを使って、あとでGrafanaとかKibanaで眺めてみようというのが最終的な目標。今回はParquetに変換するだけ。 CSVは以下のようなフォーマットになっている: "計算対象","日付","内容","金額(円)","保有金融

                                                                            マネーフォワードのCSVをParquetに変換する - Lambdaカクテル
                                                                          • Parquetファイル用のコマンドラインツール「parquet-tools」のインストール手順(on Mac OSX)と使い方 | DevelopersIO

                                                                            Parquetファイル用のコマンドラインツール「parquet-tools」のインストール手順(on Mac OSX)と使い方 書籍『AWSで始めるデータレイク』を使った読書会を現在部内で開催しているのは以前書評エントリを公開した際にも言及しましたが、読書会自体1回1時間枠でここまで計6回実践してきて進んだのが第1章の終わりまで...という状況です。記録的には『めっちゃ進み遅いw』というところですが、これはむしろ『語りたい部分が多く、また予想以上に盛り上がっているために中々トピックを消化しきれていない』というのが実情です。モヤモヤしていた部分が解消されたり、新たな視点や知見が共有される事が多く、催しとしても非常に意義のあるものになっています。 先日も『Parquetファイルの内容を確認する際、皆さんどういったツールとかを使っていますか?』という問い掛けに対し、有識者から『parquet-t

                                                                              Parquetファイル用のコマンドラインツール「parquet-tools」のインストール手順(on Mac OSX)と使い方 | DevelopersIO
                                                                            • Apache BeamでJavaのObjectをParquet形式でS3とGCSとローカルに出力する - YOMON8.NET

                                                                              GCPのCloud Dataflowでも使われている、Apache BeamでJavaの内部で持っているデータをParquetに出力するやり方です。 サンプルコードの構成 元にしたMaven ArcheType 利用するPOJO GenericRecordへの変換 出力先の切り替え ローカルに出力してみる GCSに出力してみる AWS S3に出力してみる サンプルコードの構成 以下のリポジトリに今回書いているコードを置いておきました。 github.com こちらで補足書いておきます。 元にしたMaven ArcheType こちらのMaven ArcheType元に作成しています。バージョンは現在の最新の2.22.0を利用しています。 mvnrepository.com 利用するPOJO 以下の構造のデータをParquetに変換してみます。 static class PC { Strin

                                                                                Apache BeamでJavaのObjectをParquet形式でS3とGCSとローカルに出力する - YOMON8.NET
                                                                              • Glueでcsvファイルをparquet形式に変換してみた - Qiita

                                                                                AWS DASの勉強で初めてGlueを触ったのでメモ Parquet形式とは AWSドキュメントより Apache Parquet や ORC は、データを高速に取得できるように最適化された、AWS 分析アプリケーションで使用されている、列指向ストレージ形式です。 列指向ストレージ形式には以下の特性があるため、Athena での使用に適しています。 列のデータ型に合わせて選択された圧縮アルゴリズムによる列ごとの圧縮で、Amazon S3 のストレージ領域を節約し、ディスク容量とクエリの処理中における I/O を削減します。 Parquet および ORC での述語プッシュダウンにより、Athena クエリが必要なブロックのみを取得できるようになり、クエリパフォーマンスが向上します。Athena クエリがデータから特定の列値を取得すると、データブロック述語からの統計 (最大値や最小値など)

                                                                                  Glueでcsvファイルをparquet形式に変換してみた - Qiita
                                                                                • RubyでもParquetファイルがつくりたい - Qiita

                                                                                  背景 Pythonの pandas や DataFrame.to_parquet が優秀すぎて「parquetファイルを扱うならPython」という風潮ですが、 https://pandas.pydata.org/pandas-docs/version/0.22.0/generated/pandas.DataFrame.to_parquet.html#pandas.DataFrame.to_parquet Rubyでも簡単につくれることが判明したので、共有しておきます。 やり方 apacheの公式gemを使えばいける。 (≠red-arrowなので注意) https://github.com/apache/arrow/tree/master/ruby/red-parquet 検証 ファイル作成 gemインストール

                                                                                    RubyでもParquetファイルがつくりたい - Qiita

                                                                                  新着記事