タグ

RedShiftに関するCLSmoothのブックマーク (5)

  • クックパッドのデータ活用基盤 - クックパッド開発者ブログ

    インフラ部 & 技術部の青木峰郎です。 クックパッドでは全社的にAmazon Redshiftを中心としたデータ活用基盤を構築しています。 今日はその全体像についてお話ししたいと思います。 データ活用基盤の全体像 まず、以下にクックパッドのデータ活用基盤の全体像を示します。 大きく分けると入力が2系統、内部処理が1系統、出力が3系統あります。 入力はMySQLからのインポートとログのロードがあり、どちらも独自に構築したシステムで行われています。 DB内部のデータ処理はSQLバッチのみです。 そして出力は管理画面やBIツールからのアクセスとバッチ処理によるエクスポートに大別できます。 以下1つずつ説明していきましょう。 入力その1: MySQLインポートシステム MySQLからRedshiftへのマスターテーブル取り込みにも独自のインポートシステムを使っています。 このインポート処理には、つ

    クックパッドのデータ活用基盤 - クックパッド開発者ブログ
  • [速報]「Amazon Redshift Spectrum」発表。Amazon S3にデータを保存したまま複雑なクエリを高速で実行可能に。AWS Summit 2017 San Francisco

    [速報]「Amazon Redshift Spectrum」発表。Amazon S3にデータを保存したまま複雑なクエリを高速で実行可能に。AWS Summit 2017 San Francisco Amazon Web Servicesは、サンフランシスコでイベント「AWS Summit 2017 San Francisco」を開催。データウェアハウスの新サービス「Amazon Redshift Spectrum」を発表しました。 Amazon S3にデータを保存したままデータウェアハウスで分析可能 Amazon.com CTOのWerner Vogels氏。 多くの顧客で、ペタバイトから多い場合にはエクサバイトクラスの生データがAmazon S3に保存されており、これをAmazon Redshiftへ取り込むのは時間やコストの制約で難しいと考えられていると。 そこで「Amazon Red

    [速報]「Amazon Redshift Spectrum」発表。Amazon S3にデータを保存したまま複雑なクエリを高速で実行可能に。AWS Summit 2017 San Francisco
  • Fluentd&Kinesis&Lambdaによる柔軟で高可用性なログ収集基盤の構築 - Qiita

    概要 Fluentdによるログ収集基盤を、Lambda&Kinesisを利用した形で構成を変更したので、その時のメモ。 先に一言で感想を述べるのであれば、巷の噂通り、Kinesis&Lambdaは素敵でした。 Fluentd Aggregatorが抱える問題点 ログデータをFluentdのForwarder & Aggregatorを経由し、S3とRedshiftに保存するような構成でしたが、Aggregatorは冗長化しづらくボトルネックとなっていました。 ログ収集に求める要件 ログ収集の構成を改善するにあたり、先に挙げた目の前の問題点を解決するのは勿論ですが、他にも様々な要件があり、大別すると以下4つ。 信頼性: データをロスなく収集することができる。 安定性: ログ量に関係なく安定的なパフォーマンスを維持できる。 冗長性: 安全かつ簡単にスケーリングが可能 汎用性: 複数ログを複数サ

    Fluentd&Kinesis&Lambdaによる柔軟で高可用性なログ収集基盤の構築 - Qiita
  • 『Amazon Redshift チュートリアル: テーブル設計チューニング』を実践してみた | DevelopersIO

    Amazon Redshiftに於いて『パフォーマンスチューニング』は重要なトピックの1つです。Redshiftクラスタを立ち上げて、データを投入して、実際使ってみたものの思ったような速度・レスポンスが返って来ない...という状況も時折遭遇する事と思います。 AWS公式ドキュメント(英語版)を漁ってみると、まさにその『パフォーマンスチューニング』に焦点を当てたチュートリアルが公開されているではありませんか!当エントリではそのドキュメントを参考にひと通り実践してみた内容をまとめてみました。各種手順を1エントリに集約したので超長いエントリとなってしまいましたが、その辺りは目を瞑りつつ実践内容を順を追ってご覧頂ければと思います。 Tutorial: Tuning Table Design - Amazon Redshift: 目次 1.テスト用データセットの作成 2.ベースラインを作るためのシス

    『Amazon Redshift チュートリアル: テーブル設計チューニング』を実践してみた | DevelopersIO
  • MPP on Hadoop, Redshift, BigQuery - Go ahead!

    Twitterで「早く今流行のMPPの大まかな使い方の違い書けよ!」というプレッシャーが半端ないのでてきとうに書きます.この記事は俺の経験と勉強会などでユーザから聞いた話をもとに書いているので,すべてが俺の経験ではありません(特にBigQuery).各社のSAの人とかに聞けば,もっと良いアプローチとか詳細を教えてくれるかもしれません. オンプレミスの商用MPPは使ったことないのでノーコメントです. MPP on HadoopでPrestoがメインなのは今一番使っているからで,Impalaなど他のMPP on Hadoop的なものも似たような感じかなと思っています. もちろん実装の違いなどがあるので,その辺は適宜自分で補間してください. 前提 アプリケーションを開発していて,そのための解析基盤を一から作る. 簡単なまとめ データを貯める所が作れるのであれば,そこに直接クエリを投げられるPre

  • 1