タグ

Icebergに関するshunmatsuのブックマーク (4)

  • Amazon Athena Icebergテーブルで100パーティションの壁を超えてみた | DevelopersIO

    AWS事業コンサルティング部の石川です。Amazon Athena は、INSERTなど一度に100パーティションを超える書き込みができません。ある時、「あれ、100パーティション超えてるやん」って事があり、それをきっかけに、何ができて何ができないのか、悶々と検証した結果、100パーティションの壁を超える方法をご紹介したいと思います。 先に結論 100パーティション超えたい場合は、Icebergテーブルフォーマとを用いて、パーティションの指定をbucket(100, <指定したいカラム名>)とする。 bucket(100, <指定したいカラム名>)は、ハッシュに基づき100のパーティションに分類されるため、パーティション内ではスキャンが発生する この方法を使用すると処理時間が長くなる傾向があり、バーティション数によっては、100パーティションの制限とは異なる理由で、エラーになる可能性が

    Amazon Athena Icebergテーブルで100パーティションの壁を超えてみた | DevelopersIO
  • Amazon AthenaのIcebergのVACUUM・OPTIMIZE実行時のS3上のデータファイルについて確認してみた | DevelopersIO

    データ事業部 インテグレーション部 機械学習チームの鈴木です。 Amazon Athenaでは、Icebergテーブル向けにVACUUMとOPTIMIZEのメンテナンスコマンドが提供されていますが、これらを実行すると実際のところS3上のデータファイルがどのように変わるのか確認してみました。 Icebergテーブルをメンテナンスコマンドなしで運用していると、S3上でファイルがたくさんできることで性能低下やコスト増につながります。意図せぬパフォーマンス低下や課金が起こった際に、適切に対応ができるよう、簡単な例でメンテナンスコマンド実行時にどのようなことが起こるのか把握していると便利です。 メンテナンスコマンドについて Amazon Athenaでは、Icebergテーブル向けにVACUUMとOPTIMIZEのメンテナンスコマンドが提供されています VACUUMはスナップショットの期限切れと孤

    Amazon AthenaのIcebergのVACUUM・OPTIMIZE実行時のS3上のデータファイルについて確認してみた | DevelopersIO
  • Amazon AthenaとAWS Glueを使ってHiveテーブルからIcebergテーブルに移行する | DevelopersIO

    データアナリティクス事業部インテグレーション部機械学習チーム・新納(にいの)です。 Amazon Athenaで利用可能なテーブルフォーマットのひとつであるIcebergでは、ACIDトランザクションやタイムトラベル機能をサポートしたりスキーマ変更に追従できたりと、さまざまな便利な機能が提供されています。UPDATE/DELETE/MERGEといったデータ編集もSQLを経由して行えますので、AthenaとStep Functionsを組み合わせたETLフローも作りやすくなりました。 こうした便利な機能を利用するため、既存のHive形式のテーブルをIcebergに移行したいケースも出てくるかもしれません。 今回はそんなケースを想定していくつか移行方法をご紹介します。 気をつけるポイント Athenaでは、CREATE TABLE AS SELECT(CTAS)を使ってテーブルを作成する際に

    Amazon AthenaとAWS Glueを使ってHiveテーブルからIcebergテーブルに移行する | DevelopersIO
  • 【資料公開】Iceberg で Amazon Athena をデータウェアハウスぽく使おう #midosuji_tech | DevelopersIO

    データアナリティクス事業部インテグレーション部機械学習チーム・新納(にいの)です。 2024/6/12にクラスメソッド大阪オフィスで開催された勉強会、Midosuji Techにて「Iceberg で Amazon Athena をデータウェアハウスぽく使おう」というタイトルで登壇をしました。ご参加いただいた皆様、ありがとうございました!ワイワイガヤガヤタイムでもたくさんのご質問をいただき、楽しい時間を過ごすことができました! エントリでは登壇資料と内容のまとめをお届けします。 スライド 内容まとめ Icebergの概要と、その特徴の中から特にSchema Evolutionとパーティション管理の便利さをお話ししました。 テーブルフォーマットとは Icebergはテーブルフォーマットのひとつです。テーブルフォーマットについて順を追って説明します。 データレイクはデータファイルをストレー

    【資料公開】Iceberg で Amazon Athena をデータウェアハウスぽく使おう #midosuji_tech | DevelopersIO
  • 1