タグ

redshiftに関するkarumadoのブックマーク (9)

  • Amazon Redshift: 新しいデータ型『タイムゾーン付きタイムスタンプ(TIMESTAMPTZ)』をつかってみた。 | DevelopersIO

    まず、今まであった型のTIMESTAMPの方はタイムゾーンを反映していないため、JSTとUTCで来は異なる時間のはずが同一の値になっていることがわかります。この点においてTIMESTAMPTZを用いることで、タイムゾーンを反映させた値で取り込まれていることがわかります。 次に、TIMESTAMPTZなのですが以前この機能が実装されたときはタイムゾーン付きで取り込まれるものと思いこんでいました。 しかし、結果を見てみるとタイムゾーン付きで取り込まれたわけではないことがわかります。 その代わり、JSTの日付は時差を反映した値がUTCで入っていることがわかります。 ここでTIMESTAMPTZの挙動をもう一度確認してみたいと思います。 入力値にタイムゾーンが含まれる場合、Amazon Redshift はタイムゾーンを使用して値を協定世界時 (UTC) に変換し、UTC 値を格納します。 日時

    Amazon Redshift: 新しいデータ型『タイムゾーン付きタイムスタンプ(TIMESTAMPTZ)』をつかってみた。 | DevelopersIO
  • RedShiftのエンコード - kikeda1104's blog

    前回の記事では、テーブル定義まで進めて検証しましたが、今回はエンコードについて書いていきます。 前提 RedShift エンコード メリットは下記の通りです。 圧縮は、データの格納時にそのサイズを小さくする列レベルの操作です。圧縮によってストレージスペースが節約され、ストレージから読み込まれるデータのサイズが小さくなり、ディスク I/O の量が減少するので、クエリパフォーマンスが向上します。 エンコードの定義方法は、カラムのデータ型、データ種類、データ数、連続性、データをみて選択可能な圧縮エンコードからテーブル定義(create table, alter table)と合わせて手動で定義するか、COPYコマンドを利用して自動圧縮エンコードを選択することができます。自動圧縮エンコードが推奨されていますが、サンプルデータがスライスで100000以上あることが条件になっていますので、それ以外につ

    RedShiftのエンコード - kikeda1104's blog
  • RedshiftとBigQueryでよく使うSQLの違いTips - Gunosyデータ分析ブログ

    データ分析部インターン生の小川です。インターンでは主に動画収集のロジック実装に取り組んでいました。 Gunosyではログの管理にRedshiftとBigQueryを使用しています。 サービスはAWS上で動いているものも多いので基はRedshiftで、ログの量が多いものやアドホック分析に用いるものはBigQueryに格納しています。 この2つのサービスでSQLの書き方が微妙に異なるところがあり、もどかしい経験をしたので、今回は、よく使うSQLの文法でRedshiftとBigQueryで表現が異なる所をまとめてみようと思います。 BigQueryの導入についてはこちらの記事をご覧ください。 また、この記事ではBigQueryはStandard SQLで記述していきます。 data.gunosy.io 日付・時刻関数 現在時刻(UTC) 現在時刻(JST) 現在の日付(UTC) 現在の日付(J

    RedshiftとBigQueryでよく使うSQLの違いTips - Gunosyデータ分析ブログ
    karumado
    karumado 2018/11/26
    timestamp
  • Amazon SageMaker と Amazon Redshift を利用した、高速・柔軟・セキュアな機械学習基盤の構築 | Amazon Web Services

    Amazon Web Services ブログ Amazon SageMaker と Amazon Redshift を利用した、高速・柔軟・セキュアな機械学習基盤の構築 データウェアハウス環境として、 Amazon Redshift に販売データ・ログデータ・センシングデータ等を蓄積し、これらのデータを用いて機械学習の活用を検討されるケースは多いと思います。高速にクエリを実行できる Redshift と、Amazon SageMaker による Jupyter Notebook を用いた対話的なデータ分析機械学習を活用し、需要予測・レコメンド・異常検知などを行うことが可能です。 稿では、 Redshift から Amazon VPC 内でセキュアにデータを取得し、SageMaker を利用した分析・機械学習パイプラインを構築する方法をご紹介します。前半では、アーキテクチャの概要を説明

    Amazon SageMaker と Amazon Redshift を利用した、高速・柔軟・セキュアな機械学習基盤の構築 | Amazon Web Services
  • COPY を使用して Redshift に CSV ファイルを読み込む際の問題を修正

    COPY コマンドを使用して、Amazon Simple Storage Service (Amazon S3) から Amazon Redshift に CSV ファイルをロードしようとしています。しかし、ファイルにレコードが含まれているにもかかわらず、何もロードされず、エラーも返されません。これを解決するにはどうすればよいですか? 解決方法 CSV ファイルが行末記号にキャリッジリターン (「\r」、「^M」、または 16 進数の「0x0D」) を使用している場合、COPY を使用して Amazon Redshift にデータをロードすることはできません。Amazon Redshift はキャリッジリターンを行末記号として認識しないため、ファイルは 1 行として解析されます。COPY コマンドの IGNOREHEADER パラメータがゼロ以外の数値に設定されている場合、Amazon R

    COPY を使用して Redshift に CSV ファイルを読み込む際の問題を修正
    karumado
    karumado 2018/11/09
    COPY CSV CRLF
  • 覚え書き: Redshift の文字列型はバイト単位!?

  • 実践 Amazon Redshift

    AWS Solution Days Osaka 2018 での発表資料です。 https://aws.amazon.com/jp/about-aws/events/2018/solutiondays-osaka/ 日経では、電子版を中心に 300 人以上のユーザーにアドホックなクエリーを実行できる環境を提供するため、Amazon Redshift をデータの永続性と処理速度の観点から「プライマリー」のデータベースと位置付けています。このセッションでは、多数のユーザーが大規模データにクエリーする環境をどのように最適化しているか、実際のチューニングについてご紹介します。

    実践 Amazon Redshift
  • Amazon Redshiftで良く使いそうな便利系SQLをまとめてみた | DevelopersIO

    Redshiftで色々環境構築や調査を進めて行くと、割とちょいちょい良く使うSQL等も出て来ます。そこでこのエントリでは、普段使っている便利系SQL、都度アクセスしてはコピペして使ってるようなSQL、更にはそれらにちょっと一手間加えたSQL等を集約し一覧としてみる事にしました。 必須なもの、また『これも使えるね』というようなものについては適宜追加更新を行っていこうと思ってますので、オススメのSQL文があれば是非教えて頂けると幸いです。 目次 S3からのCOPY処理エラーに関するログを確認する COPY処理時に出力させるエラー件数量を制御する 指定テーブルのテーブル定義を確認する(type1:psqlコマンドで簡易表示) 指定テーブルのテーブル定義を確認する(type2:distkey,sortkey等も表示) 指定テーブルのテーブル定義を確認する(type3:コメント文も併せて表示) テー

    Amazon Redshiftで良く使いそうな便利系SQLをまとめてみた | DevelopersIO
    karumado
    karumado 2018/09/05
    ためになる。
  • RedShiftの制約についての注意点 - REVISIO Tech Blog

    こんにちは。データサイエンティスト兼、データ基盤エンジニアのshobyです。 今回は、RedShiftの制約について注意すべき点をご紹介します。 概要 RedShiftの制約は違反できる DataPipelineを使った実質的なPrimary Key制約の実現 RedShiftの制約は違反できる いきなり結論からですが、NOT NULL制約以外のRedShiftの制約は違反することができます。 プライマリキー制約やユニークキー制約を無視して同一のキーを持つレコードをINSERTすることができますし、外部キー制約を無視してデータを入れることができます。 プライマリーキー制約、ユニークキー制約、外部キー制約はクエリプランナーによる実行計画の最適化のみに使われ、データの整合性は維持してくれません。 *1 docs.aws.amazon.com RedShiftは追記型のデータウェアハウスとして使

    RedShiftの制約についての注意点 - REVISIO Tech Blog
  • 1