[B! performance-engineering][amazon-redshift] nabinnoのブックマーク

nabinno id:nabinno

performance-engineeringとamazon-redshiftに関するnabinnoのブックマーク (20)

Data sharing in Amazon Redshift - Amazon Redshift
nabinno 2024/06/28
amazon-redshift

database

performance-engineering
リンク
Distribution styles - Amazon Redshift
nabinno 2024/06/27
AUTO, EVEN, KEY, ALL

amazon-redshift

distribution-styles

performance-engineering
リンク
自動 WLM の実装 - Amazon Redshift
Amazon Redshift は、2025 年 11 月 1 日以降、新しい Python UDF の作成をサポートしなくなります。Python UDF を使用する場合は、その日付より前に UDFs を作成してください。既存の Python UDF は引き続き通常どおり機能します。詳細については、ブログ記事を参照してください。自動 WLM の実装自動ワークロード管理 (WLM) では、Amazon Redshift がクエリの同時実行数とメモリの割り当てを管理します。サービスクラスの識別子 100〜107 を使用して、最大 8 つのキューを作成できます。各キューには優先度があります。詳細については、「クエリ優先度」を参照してください。自動 WLM は、クエリに必要なリソース量を決定し、ワークロードに基づいて同時実行数を調整します。大量のリソースを必要とするクエリがシステムにある場合
nabinno 2024/05/15
amazon-redshift

amazon-redshift-wlm

performance-engineering
リンク
ワークロード管理 - Amazon Redshift
Amazon Redshift は、2025 年 11 月 1 日以降、新しい Python UDF の作成をサポートしなくなります。Python UDF を使用する場合は、その日付より前に UDFs を作成してください。既存の Python UDF は引き続き通常どおり機能します。詳細については、ブログ記事を参照してください。ワークロード管理このセクションでは、Amazon Redshift がクエリを準備して実行する方法を理解するのに役立つワークロード管理 (WLM) について説明します。 Amazon Redshift のワークロード管理 (WLM) により、ユーザーはワークロード内の柔軟な優先順位が可能になります。これにより、実行速度が高く処理時間の短いクエリが、処理時間の長いクエリの後に滞らないようにできます。Amazon Redshift は、サービスクラスに従ってランタイ
nabinno 2024/05/15
amazon-redshift

amazon-redshift-wlm

performance-engineering
リンク
パフォーマンスに影響！Redshiftのテーブル設計時に最低限意識すべきポイント3選
Introduction AWSが提供するDWHサービス、Amazon Redshift。全世界での採用企業は数万社を超えており、弊社も国内において多くのお客様に導入のご支援をさせて頂きました。 RedshiftはAWSエコシステムとの親和性が高く、AWSを既にご利用のお客様は導入の敷居が低いDWHサービスとなっております。しかし、適切なテーブル設計を行わなければパフォーマンスを全く発揮できません。不適切なテーブル設計をしてしまったが故、「バッチ処理が当初想定していた時間で終わらない」等、弊社にご相談頂いたお客様も数多くいらっしゃいます。では、Redshiftを扱うにあたってどのようなテーブル設計を行えば良いのか。本記事では、パフォーマンスの向上に繋がるテーブル設計のポイントを3つ、ご紹介致します。 1. ソートキー（SortKey）ソートキー（SortKey）は、テーブルのデ
nabinno 2024/04/28
insight-lab

amazon-redshift

diststyle

sort

performance-engineering
リンク
Amazon Redshift 分散キーの変更について試してみた | DevelopersIO
分散キー変更の際にVACUUMを実行する必要が不要になったというリリースを目にしました。正直、ALTERにて分散キーの変更が可能になったことに気づいていませんでしたので、この機会に分散キーの変更について試してみました。マニュアルに記載にない動作も確認できましたのでご紹介したいと思います。試したクラスタバージョンは、1.0.11116です。 Cluster Version History - Version 1.0.10013, 1.0.10221, 1.0.10393, 1.0.10480, or 1.0.10648 の抜粋です。 The ALTER TABLE ALTER DISTKEY command for tables with a sort key now performs an inline sort. Therefore, running VACUUM afterwards
nabinno 2024/04/28
classmethod

amazon-redshift

diststyle

sort

performance-engineering

svv_table_info
リンク
同時実行スケーリング - Amazon Redshift
同時実行スケーリング機能を使用すると、一貫した高速のクエリパフォーマンスで、数千の同時ユーザーと同時クエリをサポートできます。同時実行スケーリングが有効になっている場合、Amazon Redshift は自動的に新たなクラスターキャパシティーを追加し、読み取りと書き込み両方でクエリの増加に対応します。クエリをメインクラスターと同時実行スケーリングクラスターのどちらで実行しても、ユーザーには最新のデータが表示されます。 WLM キューを設定することで、どのクエリを同時実行スケーリングクラスターに送信するかを管理できます。同時実行スケーリングを有効にすると、対象となるクエリはキュー内に待機することなく、同時実行スケーリングクラスターに送信されるようになります。同時実行スケーリングクラスターは、実際に実行した時間分のみ課金されます。料金の発生する仕組みや最低料金など、料金の詳細については、「同
nabinno 2024/04/19
amazon-redshift

amazon-redshift-wlm

autoscaling

performance-engineering

til
リンク
ワークロード管理 - Amazon Redshift
Amazon Redshift は、2025 年 11 月 1 日以降、新しい Python UDF の作成をサポートしなくなります。Python UDF を使用する場合は、その日付より前に UDFs を作成してください。既存の Python UDF は引き続き通常どおり機能します。詳細については、ブログ記事を参照してください。ワークロード管理 Amazon Redshift WLM は、自動 WLM または手動 WLM で実行するように設定できます。 Amazon Redshift では、同時実行クエリとユーザーワークロードを管理および優先順位付けして、パフォーマンスとリソース使用率を最適化できます。ワークロード管理 (WLM) を使用すると、キュー、ユーザーグループ、その他のコンストラクトを定義して、さまざまなタイプのクエリやユーザーに割り当てられたリソースを制御できます。以下のセ
nabinno 2024/04/19
amazon-redshift

amazon-redshift-wlm

performance-engineering
リンク
Redshift の自動パフォーマンスチューニング機能まとめ - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに Amazon Redshift には機械学習ベースで自動的にパフォーマンスを最適化する機能が複数あります。数が増えて追いきれなくなってきたので以下にまとめます。 Automatic Vacuum Delete デフォルトで有効 2018/12/19 に追加 UPDATE や DELETE オペレーションにより論理削除された行数にもとづいてバックグラウンドで自動的に VACCUM DELETE を実行します。これにより断片化で消費されていたスペースが解放され、ワークロードのパフォーマンスが向上します。低負荷のときに実行するよう
nabinno 2023/06/01
qiita

amazon-redshift

performance-engineering

vacuum

analyze
リンク
分散スタイル - Amazon Redshift
テーブルを作成する場合は、以下の AUTO、EVEN、KEY、または ALL という分散スタイルのいずれかを指定します。分散スタイルを指定しない場合、Amazon Redshift は AUTO 分散を使用します。 AUTO 分散 AUTO 分散では、Amazon Redshift はテーブルデータのサイズに基づいて最適な分散スタイルを割り当てます。例えば、AUTO 分散スタイルが指定された場合、Amazon Redshift ではまず、ALL 分散スタイルを小さなテーブルに割り当てます。テーブルが大きくなると、Amazon Redshift は分散スタイルを KEY に変更し、プライマリキー (または複合プライマリキーの列) を分散キーとして選択する場合があります。テーブルが大きくなり、分散キーに適した列がない場合、Amazon Redshift は分散スタイルを EVEN に変更しま
nabinno 2022/09/27
amazon-redshift

diststyle

sort

performance-engineering
リンク
Redshift テーブル設計のベストプラクティス | ikuty.com
どのようにテーブル設計するとパフォーマンスを得られるか. 公式がベストプラクティスを用意している. Redshiftのベストプラクティスが先にあってER図が後なのか、 ER図に対してベストプラクティスを適用するのか、実際は行ったり来たりするようなイメージ. ER図とは別に何を考慮すべきなのか読み進めていく. ソートキーテーブル作成時に1つ以上の列をソートキーとして設定できる. 設定するとソートキーに準じたソート順でディスクに格納される. ソートキーに関するベストプラクティスは以下の通り. 最新のデータを得たい場合はタイムスタンプ列をソートキーにする. 1つの列に対してwhere句による範囲指定or等価指定をおこなう場合はその列をソートキーにする. ディメンションテーブルを頻繁に結合する場合は結合キーをソートキーにする. ファクトテーブルを中心にディメンションテーブルが4つある構造がある
nabinno 2022/09/27
amazon-redshift

performance-engineering
リンク
PowerPoint Presentation
© 2021, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 1 © 2021, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS 公式 Webinar https://amzn.to/JPWebinar 過去資料 https://amzn.to/JPArchive Solutions Architect 平間大輔 2021/1/27 Amazon Redshift 運用管理サービスカットシリーズ [AWS Black Belt Online Seminar] © 2021, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 2 A
nabinno 2022/06/08
amazon-redshift

daisuke-hirama

performance-engineering
リンク
ショートクエリアクセラレーション - Amazon Redshift
ショートクエリアクセラレーション (SQA) は、実行時間が短い一部のクエリを、実行時間が長いクエリよりも優先します。SQA では実行時間が短いクエリを専用領域で実行します。このため SQA クエリは、実行時間が長いクエリをキューで待機するよう強制されません。SQA は、実行時間が短く、ユーザー定義のキュー内にあるクエリのみを優先します。SQA によって実行時間が短いクエリの実行開始が早くなり、ユーザーへの結果表示も早くなります。 SQA を有効にすると、短いクエリの実行に割り当てられるワークロード管理 (WLM) キューを減らすことができます。さらに、キュー内のスロットに対する実行時間が長いクエリとショートクエリの競合が不要になるため、WLM キューが使用するクエリスロットの数を少なく設定できます。同時実行数が減るとクエリのスループットが向上し、大部分のワークロードに関するシステム全体の
nabinno 2018/03/20
amazon-redshift

amazon-redshift-wlm

performance-engineering
リンク
Amazon Redshift Spectrum クエリパフォーマンス - Amazon Redshift
explain select top 10 spectrum.sales.eventid, sum(spectrum.sales.pricepaid) from spectrum.sales, event where spectrum.sales.eventid = event.eventid and spectrum.sales.pricepaid > 30 group by spectrum.sales.eventid order by 2 desc; QUERY PLAN ----------------------------------------------------------------------------- XN Limit (cost=1001055770628.63..1001055770628.65 rows=10 width=31) -> XN Merge
nabinno 2017/08/24
amazon-redshift

platform-as-a-service

data-warehouse

data-structure
リンク
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
Hapyrus では、 Hadoop + Hive と Amazon Redshift のソリューション、また Amazon Redshift の導入コンサルティングを提供します。ぜひお問い合わせ下さい。info@hapyrus.com http://hapyrus.com/
nabinno 2017/05/21
slideshare

flydata

amazon-redshift

apache-hadoop

benchmark

performance-engineering
リンク
Big Data Benchmark
Click Here for the previous version of the benchmark Introduction Several analytic frameworks have been announced in the last year. Among them are inexpensive data-warehousing solutions based on traditional Massively Parallel Processor (MPP) architectures (Redshift), systems which impose MPP-like execution engines on top of Hadoop (Impala, HAWQ), and systems which optimize MapReduce to improve per
nabinno 2017/05/21
amazon-redshift

apache-impala

apache-hive

benchmark

performance-engineering
リンク
Talend Blog: The latest on Talend products and company news
Explore what’s new in the Stitch Winter ’23 release, including a connector to GA4 and beta connectors for TikTok and Snapchat ads. There’s also innovation around Snowflake, plus access management and pipeline monitoring enhancements.
nabinno 2017/05/21
chris-merrick

amazon-redshift

data-format

benchmark

performance-engineering

csv

json

avro
リンク
カタログクエリの例 - Amazon Redshift
次のクエリは、カタログテーブルのクエリを実行して Amazon Redshift データベースに関する有益な情報を取得できるいくつかの方法を示しています。テーブル ID、データベース名、スキーマ名、テーブル名の参照次のビュー定義は、STV_TBL_PERM システムテーブルを PG_CLASS、PG_NAMESPACE、および PG_DATABASE システムカタログテーブルと統合し、テーブル ID、データベース名、スキーマ名、テーブル名を返します。 create view tables_vw as select distinct(stv_tbl_perm.id) table_id ,trim(pg_database.datname) db_name ,trim(pg_namespace.nspname) schema_name ,trim(pg_class.relname) tabl
nabinno 2017/03/01
amazon-redshift

platform-as-a-service

data-warehouse

data-structure
リンク
AWS Solutions Architect ブログ
AWS Bigdata BlogよりIan Meyers著"Top 10 Performance Tuning Techniques for Amazon Redshift"を翻訳しました。原文）https://aws.amazon.com/jp/blogs/big-data/top-10-performance-tuning-techniques-for-amazon-redshift/ 翻訳）岩永亮介、下佐粉昭 ※2017/02/20更新：原文ポストURL変更に伴い、翻訳側のリンク先を更新著者Ian MeyersはAmazon Web Servicesのプリンシパルソリューションアーキテクト Zach ChristophersonはAmazon Redshiftデータベースエンジニアで、このポストに協力しました Amazon Redshiftはフルマネージドな、ペタバイト規模でも使
nabinno 2015/12/16
amazon-redshift

data-warehouse

performance-engineering
リンク
VACUUM - Amazon Redshift
指定されたテーブルまたは現在のデータベース内のすべてのテーブルで、行を再ソートしてスペースを再利用します。必要なテーブルのアクセス許可を持つユーザーのみが、テーブルにバキューム処理を効果的に行うことができます。必要なテーブルアクセス許可なしで VACUUM が実行された場合、オペレーションは完了しますが、効果はありません。VACUUM を効果的に実行するのに有効なテーブルアクセス許可のリストについては、「必要な権限」セクションを参照してください。 Amazon Redshift は、背景で自動的にデータをソートし、VACUUM DELETE を実行します。これにより、VACUUM コマンドを実行する必要が少なくなります。詳細については、「テーブルのバキューム処理」を参照してください。デフォルトではVACUUM コマンドで、テーブルの行の 95 パーセント以上がすでにソートされているテー
nabinno 2015/08/05
amazon-redshift

data-warehouse
リンク
1