タグ

Redshiftに関するpick_mugetuのブックマーク (7)

  • Amazon Redshiftで良く使いそうな便利系SQLをまとめてみた | DevelopersIO

    Redshiftで色々環境構築や調査を進めて行くと、割とちょいちょい良く使うSQL等も出て来ます。そこでこのエントリでは、普段使っている便利系SQL、都度アクセスしてはコピペして使ってるようなSQL、更にはそれらにちょっと一手間加えたSQL等を集約し一覧としてみる事にしました。 必須なもの、また『これも使えるね』というようなものについては適宜追加更新を行っていこうと思ってますので、オススメのSQL文があれば是非教えて頂けると幸いです。 目次 S3からのCOPY処理エラーに関するログを確認する COPY処理時に出力させるエラー件数量を制御する 指定テーブルのテーブル定義を確認する(type1:psqlコマンドで簡易表示) 指定テーブルのテーブル定義を確認する(type2:distkey,sortkey等も表示) 指定テーブルのテーブル定義を確認する(type3:コメント文も併せて表示) テー

    Amazon Redshiftで良く使いそうな便利系SQLをまとめてみた | DevelopersIO
  • Redshiftのnode毎のデータ量の偏りを調べる - Qiita

    はじめに Redshiftのデータはnode毎に分散されており、distkeyが不適切だとnode間でデータ量が偏ることがある。 データが偏るとディスクを圧迫するだけでなくパフォーマンスにも影響する。 nodeとslice データはnode毎に分散して保存されている。 さらにnode内で複数のsliceに分かれて保存されている。 node情報取得 以下のテーブルを使ってrowsの偏りを求める事ができる。 ディスク使用量(byte)は取ることはできない。 stv_tbl_perm slice毎のテーブルのrows数を取得できる。 stv_slices nodeとsliceのマッピング情報を取得できる。 調査クエリ node毎の使用量を取得 select node, sum(rows) from stv_slices m join stv_tbl_perm s on s.slice = m.s

    Redshiftのnode毎のデータ量の偏りを調べる - Qiita
  • テーブルを分析する - Amazon Redshift

    ANALYZE オペレーションは、クエリプランナーで最適な計画の選択に使用される統計メタデータを更新します。 多くの場合、ANALYZE コマンドを明示的に実行する必要はありません。Amazon Redshift は、ワークロードの変更をモニタリングし、統計をバックグラウンドで自動的に更新します。さらに、COPY コマンドは空のテーブルにデータをロードした際に分析を自動で実行します。 テーブルまたはデータベース全体を明示的に分析するには、ANALYZE コマンドを実行します。 自動分析 Amazon Redshift はデータベースを継続的にモニタリングし、バックグラウンドで自動的に分析オペレーションを実行します。システムパフォーマンスへの影響を最小限にするために、自動分析はワークロードが軽い期間に実行されます。 自動分析はデフォルトで有効になっています。自動分析を無効にするには、クラスタ

  • Amazon Redshift 統計情報を自動更新する『Auto Analyze』の動きを確認してみました | DevelopersIO

    はじめに Auto Analyzeは統計情報の更新(ANALYZE)がバックグラウンドで自動実行するサービスです。日は実際の動作を確認してみました。 Auto Analyzeとは Amazon Redshiftは、テーブル内で、どのような値が、どのような頻度で出現するのかの情報である「統計情報」を事前に取得しておき、この情報を基に効率的にレコード操作を行う計画「実行計画」を立てて実行します。つまり最適なパフォーマンスを得るには、正確な「統計情報」が必要となります。 これまでテーブルのデータは日々更新に応じて、ANALYZEコマンドを実行する必要がありましたが、これをバックグラウンドで自動実行する機能が、『Auto Analyze』です。この機能は、クエリの負荷に基づいてスケジュール実行されるため、アドホッククエリやバッチクエリの妨げにならないので安心してご利用いただけます。 参考:テーブ

    Amazon Redshift 統計情報を自動更新する『Auto Analyze』の動きを確認してみました | DevelopersIO
  • Amazon Redshift: 『パフォーマンスチューニングテクニック Top 10』手順の実践(4).統計情報が無い表、もしくはVACCUMが必要な表 | DevelopersIO

    当エントリは先日投稿したシリーズ『『Amazon Redshiftのパフォーマンスチューニングテクニック Top 10』手順実践』の第4弾です。課題#4の『統計情報が無い表、もしくはVACCUMが必要な表』について内容を見て行きたいと思います。 AWS Solutions Architect ブログ: Amazon Redshiftのパフォーマンスチューニングテクニック Top 10 『課題 #4: 統計情報が無い表、もしくはVACCUMが必要な表』を実践してみる amazon-redshift-utils/missing_table_stats.sql at master · awslabs/amazon-redshift-utils a stats_offの項目説明には『テーブルの統計情報の古さを示す数。0 は最新で、100 は最新でないことを示します。』とあります。また、表示条件を『

    Amazon Redshift: 『パフォーマンスチューニングテクニック Top 10』手順の実践(4).統計情報が無い表、もしくはVACCUMが必要な表 | DevelopersIO
  • SQLで機械学習モデルを作れる「Amazon Redshift ML」が一般提供に

    Amazon Redshift MLは、Amazon Redshiftクラスタから直接機械学習モデルを作成、トレーニング、デプロイすることが可能で、単純なSQLクエリを使用してモデルのトレーニングに使用するデータと、予測する出力値を指定することで、機械学習モデルを作成できる。 機械学習モデルの作成後は、指定されたデータをAmazon RedshiftからS3バケットへエクスポートし、Amazon SageMaker Autopilotを呼び出してデータを準備し、適切なビルド済みアルゴリズムを選択してトレーニングを行う。 トレーニングやコンパイルなど、関連するすべての処理が、Amazon Redshift、S3、SageMakerの連携によって行われ、モデルのトレーニングが完了すると、Amazon Redshift MLはSageMaker Neoでモデルをデプロイ用に最適化し、SQL関数と

    SQLで機械学習モデルを作れる「Amazon Redshift ML」が一般提供に
  • Amazon Redshift クラスターの作成手順 | DevelopersIO

    AWS上でデータ分析基盤を構築するのに欠かせないサービスのひとつ、Amazon Redshift。弊社ブログでもAmazon Redshiftに関する数々のノウハウが公開されていますが、今回は主にこれからAmazon Redshiftを使ってみようという方向けに、Amazon Redshift クラスターのベーシックな作成手順をご紹介します。 Amazon Redshift "クラスター" とは? 冒頭でさらりとAmazon Redshift クラスターという言葉を使いましたが、Amazon Redshiftの環境を構築する前提知識としてこのクラスターについて簡単に触れておきたいと思います。 Amazon Redshiftの大きな特徴の1つとして、「分散並列データベース」であることが挙げられます。Amazon Redshiftでは複数のノード(コンピューティングリソース)に処理を分配しそれ

    Amazon Redshift クラスターの作成手順 | DevelopersIO
  • 1