[B! Redshift] pick_mugetuのブックマーク

Amazon Redshiftで良く使いそうな便利系SQLをまとめてみた | DevelopersIO

Redshiftで色々環境構築や調査を進めて行くと、割とちょいちょい良く使うSQL等も出て来ます。そこでこのエントリでは、普段使っている便利系SQL、都度アクセスしてはコピペして使ってるようなSQL、更にはそれらにちょっと一手間加えたSQL等を集約し一覧としてみる事にしました。必須なもの、また『これも使えるね』というようなものについては適宜追加更新を行っていこうと思ってますので、オススメのSQL文があれば是非教えて頂けると幸いです。目次 S3からのCOPY処理エラーに関するログを確認する COPY処理時に出力させるエラー件数量を制御する指定テーブルのテーブル定義を確認する(type1:psqlコマンドで簡易表示) 指定テーブルのテーブル定義を確認する(type2:distkey,sortkey等も表示) 指定テーブルのテーブル定義を確認する(type3:コメント文も併せて表示) テー

pick_mugetu 2021/06/16

リンク

Redshiftのnode毎のデータ量の偏りを調べる - Qiita

はじめに Redshiftのデータはnode毎に分散されており、distkeyが不適切だとnode間でデータ量が偏ることがある。データが偏るとディスクを圧迫するだけでなくパフォーマンスにも影響する。 nodeとslice データはnode毎に分散して保存されている。さらにnode内で複数のsliceに分かれて保存されている。 node情報取得以下のテーブルを使ってrowsの偏りを求める事ができる。ディスク使用量(byte)は取ることはできない。 stv_tbl_perm slice毎のテーブルのrows数を取得できる。 stv_slices nodeとsliceのマッピング情報を取得できる。調査クエリ node毎の使用量を取得 select node, sum(rows) from stv_slices m join stv_tbl_perm s on s.slice = m.s

pick_mugetu 2021/06/11

リンク

テーブルを分析する - Amazon Redshift

ANALYZE オペレーションは、クエリプランナーで最適な計画の選択に使用される統計メタデータを更新します。多くの場合、ANALYZE コマンドを明示的に実行する必要はありません。Amazon Redshift は、ワークロードの変更をモニタリングし、統計をバックグラウンドで自動的に更新します。さらに、COPY コマンドは空のテーブルにデータをロードした際に分析を自動で実行します。テーブルまたはデータベース全体を明示的に分析するには、ANALYZE コマンドを実行します。自動分析 Amazon Redshift はデータベースを継続的にモニタリングし、バックグラウンドで自動的に分析オペレーションを実行します。システムパフォーマンスへの影響を最小限にするために、自動分析はワークロードが軽い期間に実行されます。自動分析はデフォルトで有効になっています。自動分析を無効にするには、クラスタ

pick_mugetu 2021/06/10

リンク

Amazon Redshift 統計情報を自動更新する『Auto Analyze』の動きを確認してみました | DevelopersIO

はじめに Auto Analyzeは統計情報の更新（ANALYZE）がバックグラウンドで自動実行するサービスです。本日は実際の動作を確認してみました。 Auto Analyzeとは Amazon Redshiftは、テーブル内で、どのような値が、どのような頻度で出現するのかの情報である「統計情報」を事前に取得しておき、この情報を基に効率的にレコード操作を行う計画「実行計画」を立てて実行します。つまり最適なパフォーマンスを得るには、正確な「統計情報」が必要となります。これまでテーブルのデータは日々更新に応じて、ANALYZEコマンドを実行する必要がありましたが、これをバックグラウンドで自動実行する機能が、『Auto Analyze』です。この機能は、クエリの負荷に基づいてスケジュール実行されるため、アドホッククエリやバッチクエリの妨げにならないので安心してご利用いただけます。参考：テーブ

pick_mugetu 2021/06/10

リンク

Amazon Redshift: 『パフォーマンスチューニングテクニック Top 10』手順の実践(4).統計情報が無い表、もしくはVACCUMが必要な表 | DevelopersIO

当エントリは先日投稿したシリーズ『『Amazon Redshiftのパフォーマンスチューニングテクニック Top 10』手順実践』の第4弾です。課題#4の『統計情報が無い表、もしくはVACCUMが必要な表』について内容を見て行きたいと思います。 AWS Solutions Architect ブログ: Amazon Redshiftのパフォーマンスチューニングテクニック Top 10 『課題 #4: 統計情報が無い表、もしくはVACCUMが必要な表』を実践してみる amazon-redshift-utils/missing_table_stats.sql at master · awslabs/amazon-redshift-utils a stats_offの項目説明には『テーブルの統計情報の古さを示す数。0 は最新で、100 は最新でないことを示します。』とあります。また、表示条件を『

pick_mugetu 2021/06/10

リンク

SQLで機械学習モデルを作れる「Amazon Redshift ML」が一般提供に

Amazon Redshift MLは、Amazon Redshiftクラスタから直接機械学習モデルを作成、トレーニング、デプロイすることが可能で、単純なSQLクエリを使用してモデルのトレーニングに使用するデータと、予測する出力値を指定することで、機械学習モデルを作成できる。機械学習モデルの作成後は、指定されたデータをAmazon RedshiftからS3バケットへエクスポートし、Amazon SageMaker Autopilotを呼び出してデータを準備し、適切なビルド済みアルゴリズムを選択してトレーニングを行う。トレーニングやコンパイルなど、関連するすべての処理が、Amazon Redshift、S3、SageMakerの連携によって行われ、モデルのトレーニングが完了すると、Amazon Redshift MLはSageMaker Neoでモデルをデプロイ用に最適化し、SQL関数と

pick_mugetu 2021/06/02

リンク

Amazon Redshift クラスターの作成手順 | DevelopersIO

AWS上でデータ分析基盤を構築するのに欠かせないサービスのひとつ、Amazon Redshift。弊社ブログでもAmazon Redshiftに関する数々のノウハウが公開されていますが、今回は主にこれからAmazon Redshiftを使ってみようという方向けに、Amazon Redshift クラスターのベーシックな作成手順をご紹介します。 Amazon Redshift "クラスター" とは？冒頭でさらりとAmazon Redshift クラスターという言葉を使いましたが、Amazon Redshiftの環境を構築する前提知識としてこのクラスターについて簡単に触れておきたいと思います。 Amazon Redshiftの大きな特徴の1つとして、「分散並列データベース」であることが挙げられます。Amazon Redshiftでは複数のノード(コンピューティングリソース)に処理を分配しそれ

pick_mugetu 2020/07/07

リンク

はてなブックマーク

タグ

関連タグで絞り込む (7)

Redshiftに関するpick_mugetuのブックマーク (7)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス