タグ

redshiftに関するiga-ninjaのブックマーク (9)

  • Redshift と Snowflake の比較:6つの主な相違点

    5年ほど前、ビッグデータとアナリティクスをめぐる誇大広告はたくさんありましたが、今日では、この業界は現実的に誇大広告に応え、ビジネスを前進させる根的な力へと変貌を遂げています。この数年間で、毎秒生成されるデータの量は飛躍的に増加しました。このため、分析ワークロードを効率的に処理するエンタープライズ向けクラウドデータウェアハウス技術が登場することになったのです。 データウェアハウスは、データを効率的に活用し、深い洞察を得るのに欠かせないものとなっています。となると、どのデータウェアハウスが自分のビジネスに最適なのかが大きな問題になってきます。Amazon Redshift、Google BigQuery、そしてSnowflakeの三大データウェアハウスを検討してみましょう。強力なリレーショナルDBMS(データベース管理システム)のデータベースモデルであるRedshiftとSnowflake

    Redshift と Snowflake の比較:6つの主な相違点
  • Amazon Redshift

  • 【AWS Redshift】導入前に知っておくべきこと - packpak’s diary

    AWS Redshiftを導入する前に知っておくべき、AWS Redshift の特性、長所、他所を開発・運用してきた中で要所っぽいところをいくつかTips的にまとめた。 字量が非常に多くて申し訳ないが、参考になれば。 RDBに比べて有用なケース/苦手なケース 下記のケースに合致する。 SQL文をベースとした、複雑で演算コストの高いETL(分析用途用のデータ加工処理の通称)の実行 BIツールのような、3~5列程度の列を利用した参照クエリの実行。 下記のケースは向かない。 短時間で非常に多くのクエリを実行するアプリケーション(1秒に5~10クエリなど)のバックエンド 短時間で非常に多くのCommitを実行するアプリケーション(Webフレームワークが勝手に)のバックエンド 一度に多くの列を取得するクエリを発行するアプリケーション(CSV出力など)のバックエンド 性能について クエリの性能 1つ

    【AWS Redshift】導入前に知っておくべきこと - packpak’s diary
  • [新機能]Amazon Redshift Spectrum がついにCTASとINSERT INTOをサポートしたので実際に試してみました! | DevelopersIO

    [新機能]Amazon Redshift Spectrum がついにCTASとINSERT INTOをサポートしたので実際に試してみました! データアナリティクス事業部の石川です。クラスタバージョン1.0.15582から 「クエリの結果から外部テーブルを作成する(CTAS)」と「追加するテーブルの作成」が、Redshift Spectrumでも利用できるようになりました。早速試してみます! CTASに関してはこれまでローカルテーブルへは出来ましたが外部テーブルへのCTASでの書き込みができるようになったのがポイントです。今まで同じことをしようとUnload+Create external tableと2ステップで行う必要がありました。 — Junpei Ozono (@jostandard) June 8, 2020 準備 検証用にサンプルデータのCSVファイルを用いて、外部スキーマと外

    [新機能]Amazon Redshift Spectrum がついにCTASとINSERT INTOをサポートしたので実際に試してみました! | DevelopersIO
  • Redshift Spectrumのパフォーマンスチューニングが必要なら統計情報を確認する - YOMON8.NET

    一番下の参考情報にも載せている通り、Redshift Spectrumのチューニングには、パーティショニングやファイルフォーマット等色々なポイントがありますが、ここでは特に見落としやすい、かつ効果の高い統計情報について書いていきます。 利用するデータ 環境準備 Redshiftにデータをロード GlueでRedshfit Spectrumで読むParquetファイルを準備 Redshiftに外部スキーマ定義 検証 キャッシュを切る 検証用クエリの準備 Redshift向けクエリ Redshift Spectrum向けクエリ パフォーマンス計測 調査 Explain基礎知識 原因追求 クエリ分析画面 実行プラン 対応(統計情報の設定) Redshiftのクエリで設定 設定の実態はGlueのカタログの中に 対応後の結果 実行プラン 実行結果 その他 ディメンションテーブルをローカルに持つだけで

    Redshift Spectrumのパフォーマンスチューニングが必要なら統計情報を確認する - YOMON8.NET
  • Amazon Redshift:ALTER TABLE文でVARCHAR型の桁数を増やせるようになりました | DevelopersIO

    小ネタです。 Amazon Redshiftのメンテナンスアップデートにて、You can now use the ALTER TABLE command to increase the size of VARCHAR columns.(ALTER TABLEコマンドを使用してVARCHAR列のサイズを増やすことが出来るようになります)というものがありましたので試してみました。 AWS Developer Forums: Amazon Redshift Maintenance (February 20th - March 21st 2019) なお、検証は管理コンソールにて現時点でのクラスタ最新バージョンにアップグレードを行った上で行っています。 コマンド1つでVARCHAR型の桁数定義を変更(増分)可能に 検証用に、簡易ではありますが以下テーブルを用意しました。 $ CREATE TAB

    Amazon Redshift:ALTER TABLE文でVARCHAR型の桁数を増やせるようになりました | DevelopersIO
  • Amazon Redshift

  • Amazon Redshift Spectrum 12 のベストプラクティス | Amazon Web Services

    Amazon Web Services ブログ Amazon Redshift Spectrum 12 のベストプラクティス 2019/7/22 に一部内容を更新しました. Amazon Redshift Spectrum を使うことで、Amazon S3 に置かれたデータに対して Amazon Redshift の SQL クエリを走らせることができます。つまり Redshift Spectrum によって、データウェアハウスのローカルディスク内に保存されたデータ以外に対しても、Redshift の分析を拡張できるようになるのです。S3 の “データレイク” に貯まった大量のデータに対して、面倒で時間のかかる抽出・変換・ロード(ETL)処理を行うことなく、クエリを投げることができます。Redshift Spectrum は洗練されたクエリ最適化を用いて、数千ものノードにまでスケールして高

    Amazon Redshift Spectrum 12 のベストプラクティス | Amazon Web Services
  • Amazon Redshiftへのデータロード処理をリモートホスト(Amazon EC2)経由で行う | DevelopersIO

    Amazon Redsihftへデータをロードする際に最もポピュラーな手段はAmazon S3にデータをアップロードし、RedshiftからのCOPYコマンドでアップロードしたS3上のファイルを指定、というものになりますが、Amazon S3にファイルをアップロードすると言う事はインターネット回線を通じて情報が送信される訳で、分析に利用する重要なデータがそう言った経路で移動してしまうというのはセキュリティ面から考えて不安要素となります。Amazon S3に於けるSSL対応はクライアント側・サーバ側共に対応されていますが、やはりこの点は気になる所ではありますね。 そこで今回、EC2にファイルをアップロードし、そこから直接Redshiftにデータをロードする(S3経由では無くEC2経由でのデータロード)手段についてご紹介し、その手順を見て行きたいと思います。 目次 解説 0.概要&事前準備 1

    Amazon Redshiftへのデータロード処理をリモートホスト(Amazon EC2)経由で行う | DevelopersIO
  • 1