AWS事業本部の森田です。 本日より、Amazon Aurora PostgreSQL, Amazon DynamoDB, Amazon RDS for MySQL で Amazon Redshift とのゼロ ETL がプレビューで利用できるようになりました! ゼロ ETL ゼロ ETLを利用することで、Amazon Redshift から各データベースのデータにアクセスして、ほぼリアルタイムの分析や機械学習が可能となります。 また、「ゼロ」と名前についているように ETL オペレーションを実行する複雑なデータパイプラインの構築なしで上記が実現可能となります。 ゼロ ETL については、昨年の reInvent で発表されたサービスととなっており、Aurora MySQL で一足先に一般提供を開始となっております。 プレビュー対象 以下のデータベース・リージョンで新たにプレビューでの利用
Amazon Aurora MySQL zero-ETL integration with Amazon Redshiftが一般提供を開始しました! データアナリティクス事業本部 機械学習チームの鈴木です。 Amazon RedshiftへのAurora MySQL zero-ETLが一般提供を開始しました。東京リージョンでも利用可能です! Aurora MySQL zero-ETLとは Aurora MySQLからAmazon Redshiftへほぼリアルタイムの連携し、Redshiftでの分析と機械学習ができる、Amazon Aurora MySQL向けの機能になります。 この設定をしておくことにより、データがAuroraに書き込まれてから数秒以内に、そのデータはAmazon Redshiftで利用できるようになるという、非常に強力な機能です。 昨年のre:Invent2022で発表さ
AWS Redshiftの「ソートキー」の概要、チューニングの勘所、デメリットを解説。 ソートキーとは何か AWS Redshift特有のテーブルへの設定項目。標準SQLにはない。 CREATE TABLE accesslog ( createat timestamp ENCODE raw, srcip varchar(16) ENCODE raw, useragent varchar(255) ENCODE text255, path varchar(1024) ENCODE zstd ) SORTKEY (createat) ; ソートキーを指定することで、行が、物理的に並び替えられる。 本当にそれだけ。インデックスのような高等な機能ではなく、データの更新行数が多かった時にVACUUMのソート処理によってえげつない時間リソース消費と他VACUUMの利用制限がかかるデメリットもある。 デ
仕事でRedshiftのチューニングをすることになりそうなのでメモ ※適宜更新 2018/04/04 更新 2018/04/11 更新 2018/10/04 更新。嘘いっぱい書いてたのを訂正。分散キーに関する項目を拡充 2018/11/07 更新。列圧縮に関する嘘八百を訂正。ソートキーに関して追記 2020/02/06 改めて見直すと肝心なことが書かれていなかったので更新。 この記事が想定する事例 検証環境では5秒~10秒程度で帰ってきているが、一定の負荷がある本番環境では何故かパフォーマンスが半分以下になる。 Redshiftは並列分散で、1つのタスクにリソースを全力投入することでパフォーマンスを出している。AWSのガイドラインが提示しているチューニングは、実はリソース消費を低減させることに重きを置いている。(ソートキー、列圧縮タイプなどは副次作用もある) Redshiftのチューニング
AWS Redshiftを導入する前に知っておくべき、AWS Redshift の特性、長所、他所を開発・運用してきた中で要所っぽいところをいくつかTips的にまとめた。 字量が非常に多くて申し訳ないが、参考になれば。 RDBに比べて有用なケース/苦手なケース 下記のケースに合致する。 SQL文をベースとした、複雑で演算コストの高いETL(分析用途用のデータ加工処理の通称)の実行 BIツールのような、3~5列程度の列を利用した参照クエリの実行。 下記のケースは向かない。 短時間で非常に多くのクエリを実行するアプリケーション(1秒に5~10クエリなど)のバックエンド 短時間で非常に多くのCommitを実行するアプリケーション(Webフレームワークが勝手に)のバックエンド 一度に多くの列を取得するクエリを発行するアプリケーション(CSV出力など)のバックエンド 性能について クエリの性能 1つ
SREチームの池田です。 Redshiftが大好きなバケツアイコンの人です。 先日、Aurora MySQL と RedshiftのZero-ETL integrationがGA(Generally Available、一般提供開始)しました。 aws.amazon.com この記事は、早速Zero-ETL integrationの実戦投入を試してみたという内容です。 なお、この記事は失敗事例になりますが、Zero-ETL integrationはとても素晴らしい機能ですので、皆様も是非お使いください。 はじめに Zero-ETL integrationは、Aurora MySQLのデータをニアリアルタイムでRedshiftに同期してくれる素晴らしい機能です。 マネージメントコンソールから数ステップでAurora MySQLの中の すべてのテーブルを Redshiftに同期してくれます。
Since launching in 2006, Amazon Web Services has been providing industry-leading cloud capabilities and expertise that have helped customers transform industries, communities, and lives for the better. As part of Amazon, we strive to be Earth’s most customer-centric company. We work backwards from our customers’ problems to provide them with the broadest and deepest set of capabilities so they can
Amazon Aurora MySQLとAmazon Redshiftをニアリアルタイムに同期する「Amazon Aurora MySQL zero-ETL integration with Amazon Redshift」パブリックプレビュー Amazon Web Services(AWS)は、Amazon Aurora MySQLのデータをAmazon Redshiftにニアリアルタイムで同期させる新サービス「 Amazon Aurora MySQL zero-ETL integration with Amazon Redshift」(以下、ゼロETL)をパブリックプレビューとして提供開始したことを発表しました。 東京リージョンでも利用可能となっています。 OLTPのデータをほぼリアルタイムに分析可能に Amazon Auroraは高速なトランザクション処理を特徴とするリレーショナルデ
みなさん、こんにちは。 サニービュー事業部の小寺です。 今日は、Redshiftの中でもRA3インスタンスタイプについて、紹介します。 ■Amazon Redshiftとは Amazon Redshiftは「データウェアハウスサービス」です。 データウェアハウスとは、データ分析を目的として様々なデータを蓄積しているデータの保管庫を指す言葉です。 Redshiftは他のどのデータウェアハウスを運用するよりも低コストです。1 時間あたりわずか 0.25 USD で開始し、ペタバイト単位のデータと数千人の同時ユーザーに対応できるようにスケールアップできます。 また、データウェアハウスの運用維持において、マネージドサービスであるRedshiftを使うと、多くのタスクが簡単に、そして自動化ができます! ●バックアップ ⇒S3 への自動/手動スナップショット ● リストア ⇒ スナップショットからの復
© 2017, Amazon Web Services, Inc. or its Affiliates. All rights reserved. アマゾン ウェブ サービス ジャパン株式会社 柴田竜典 2017/6/1 Amazon Redshift テーブル設計詳細ガイド 分散スタイルとソートキーの決定方法 自己紹介 柴田竜典[シバタツ] • データベース関連の 相談ごと何でも担当 • AWSへの移行を機に RDBMSをAuroraに 乗り換えたい • オンプレミスOracleを AWSにフォーク リフティングしたい • 好きなAWSのサービス: S3 @rewse すでにRedshiftをお使いの方の悩み • クエリー性能をさらに向上させたい • 同時実行を上手にさばきたい • 料金を抑えたい などなど クエリー性能向上に大切なことは何か 最良のソートキーの選択 最適な分散スタイルの
こんにちは、ランサーズのtomohiroです。最近はバス釣りにはまっています。大人になって始める趣味ののめり込み具合は半端ないですね。 ランサーズでは、数ヶ月前にリリースしたQuantにおいて、データ分析を行うために Redshift を使用しています。ただし、Redshiftに入れているデータのソースはサービスで使用している RDS Aurora になるため、Aurora から Redshiftへデータを同期する必要があります。単純な MySQL の export/import と違い、いくつか制約があるので一筋縄では行かない時もありますが、そんな物なんとでもなります。 今回は、色々と Redshift の運用で使っていたツールやはまった罠等を軽く紹介したいと思います。 そもそも私はMySQLでの運用・開発経験が中心で、Redshift(postgresqlも含め)をほぼ触った事なかった
データアナリティクス事業本部コンサルティングチームの石川です。先日、昨年のre:Invent2020で発表されたRA3インスタンスでクラスタ間でデータのコピーや移動することなくデータを共有するサービスData SharingがGA(Generally Available)になりました。本日はこの機能を試してみたいと思います。 Amazon Redshift data sharing とは クラスタ間でデータのコピーや移動することなくデータを共有するサービスで、AmazonRedshiftクラスタ間でライブデータを素早くデータアクセスが可能になります。Data Sharingはデータへのライブアクセスを提供するため、データが更新されてもユーザーは常に最新の一貫性のある情報を見ることができます。 コンシューマークラスタ(共有される側のクラスタ)の共有データにアクセスできるユーザーとグループは、
Amazon Redshift のデータにアクセスできます。必要に応じて Amazon Redshift Spectrum を使用して S3 に保存されているデータにアクセスすることもできます。 ネットワークトラフィックの暗号化 Looker アプリケーションとデータベース間のネットワーク トラフィックを暗号化することをおすすめします。セキュアなデータベースアクセスを可能にするドキュメント ページに記載されているオプションのいずれかを検討してください。 SSL 暗号化の使用に関心がある場合は、接続のセキュリティ オプションの構成に関する Amazon Redshift のドキュメントをご覧ください。 ユーザーとセキュリティ 最初に、Lookerユーザーを作成します。 some_password_here を一意の安全なパスワードに変更します。 CREATE USER looker WITH
はじめに PowerBIからインターネット経由でRedshiftに接続してみます。 なかなか良い手順がネットで拾えなかったのとRedshiftのパスワードをSHA256でsalt付きで生成する方法も見つからなかったので合わせてメモしておきます。 ちなみにRedshift Serverlessと書きましたがRedshift Spectrum(つまりS3へのクエリも)への接続も確認できました。 Redshiftの設定 インターネット経由でRedshiftに接続するにはパブリックアクセスを有効にする必要があります。 ネットワークとセキュリティの右側にある編集ボタンをクリックします。 「[パブリックにアクセス可能]をオンにする」にチェックします。 反映まで少し時間がかかります。私の場合は2,3分程度でした。 ユーザとグループの作成、権限付与 Redshift QueryEditorを使ってユーザ・
困っていた内容 プロビジョニングされた Redshift クラスターを利用する予定なのですが、ワークロードに合わせたノードタイプとノード数を見積もる方法はありますか? あまりオーバースペックにはしたく無いので、ある程度の基準が分かると助かります。 結論 マネジメントコンソール上で Provisioned Redshift クラスターを作成する際に、「クラスターのサイズを選択する」の項目で「選択のヘルプ」をご利用ください。 クラスターの作成 クラスターのサイズがわからない場合は、[Help me choose (選択ヘルプ)] を選んでください。これにより、データウェアハウスに保存する予定のデータのサイズとクエリの特性について質問するサイジング計算ツールが起動されます。 やってみた 1. マネジメントコンソール上で、サービス Amazon Redshift を選択した後に、画面左ペインで「プ
はじめに ストレージサイズが32TのHDDタイプのRedshiftを構築したい場合、以下の構成が考えられると思います。 ds2.xlarge(2TB) を16ノードにする。 ds2.8xlarge(16TB) を2ノードにする。 この2つのパターンはストレージサイズと料金とは同じになりますがどちらがいいのでしょうか?それぞれのメリットを整理してみます。 ds2.xlargeを16ノードの場合 メリットとしてはストレージサイズや処理能力の調整がしやすいことがあります。 ds2.8xlargeを2ノードの場合 次にds2.8xlargeを2ノードの場合にした場合は以下のようなメリットがあります。 分散タイプをALLにした場合にノード単位で配置されるのでディスクの使用効率がいい。 再分散が発生した場合でもネットワーク通信が軽減される。 合計したvCPUコア数が多くI/O性能も優れている。 リーダ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く