タグ

RedShiftに関するyukimori_726のブックマーク (7)

  • スキューのない世界を目指して - クックパッド開発者ブログ

    こんにちは。インフラストラクチャー部データ基盤グループの小玉です。 先日Amazon Redshift(以下、Redshift)で32TBのテーブルを全行スキャンするクエリを3同時に走らせたまま帰宅し、クラスターを落としてしまいました。 普段はRedshiftのクエリをチューニングしたり、データ基盤周りの仕組みを慣れないRubyで書いたりしています。 突然ですが、スキュー(skew)という単語をご存じでしょうか。 「skew 意味」で検索すると「斜め」とか「傾斜」といった訳が出てきますが、コンピューティング界隈では「偏り」という訳語が定着していると思います。 さらに、分散並列DB界隈で単にスキューもしくは偏りと言った場合、それはしばしばデータの偏りを指します。 データが偏っているとは データが偏っているとは、複数ノードで構成される分散並列DBにおいて、各ノードが保持するデータ量(行数)に

    スキューのない世界を目指して - クックパッド開発者ブログ
  • みんなのウェディングのデータ分析基盤の現状 — みんなのウェディングエンジニアリングブログ

    こんにちは、みんなのウェディングの小室 (id:hogelog) です。 今回はみんなのウェディングにおけるデータ分析基盤の現状についてご報告させていただきます。 三行まとめ 忙しい人のために先に結論を書くと bricolage と embulk で Redshift に集めて re:dash で分析 です。 データ収集 データ収集は bricolage のジョブネット機構を用いて bricolage の各種ジョブや embulk を連携させ、Redshift にデータを取り込んでいます。 参考までに https://github.com/hogelog/dwh-example に簡単な構成例を準備しました。 MySQL → Redshift みんなのウェディング http://www.mwed.jp/ のデータベースとしては MySQL を利用しています。 MySQL から Redshi

    みんなのウェディングのデータ分析基盤の現状 — みんなのウェディングエンジニアリングブログ
  • MPP on Hadoop, Redshift, BigQuery - Go ahead!

    Twitterで「早く今流行のMPPの大まかな使い方の違い書けよ!」というプレッシャーが半端ないのでてきとうに書きます.この記事は俺の経験と勉強会などでユーザから聞いた話をもとに書いているので,すべてが俺の経験ではありません(特にBigQuery).各社のSAの人とかに聞けば,もっと良いアプローチとか詳細を教えてくれるかもしれません. オンプレミスの商用MPPは使ったことないのでノーコメントです. MPP on HadoopでPrestoがメインなのは今一番使っているからで,Impalaなど他のMPP on Hadoop的なものも似たような感じかなと思っています. もちろん実装の違いなどがあるので,その辺は適宜自分で補間してください. 前提 アプリケーションを開発していて,そのための解析基盤を一から作る. 簡単なまとめ データを貯める所が作れるのであれば,そこに直接クエリを投げられるPre

  • Big Data Benchmark

    Click Here for the previous version of the benchmark Introduction Several analytic frameworks have been announced in the last year. Among them are inexpensive data-warehousing solutions based on traditional Massively Parallel Processor (MPP) architectures (Redshift), systems which impose MPP-like execution engines on top of Hadoop (Impala, HAWQ), and systems which optimize MapReduce to improve per

  • Amazon Redshiftへのデータロード処理をリモートホスト(Amazon EC2)経由で行う | DevelopersIO

    Amazon Redsihftへデータをロードする際に最もポピュラーな手段はAmazon S3にデータをアップロードし、RedshiftからのCOPYコマンドでアップロードしたS3上のファイルを指定、というものになりますが、Amazon S3にファイルをアップロードすると言う事はインターネット回線を通じて情報が送信される訳で、分析に利用する重要なデータがそう言った経路で移動してしまうというのはセキュリティ面から考えて不安要素となります。Amazon S3に於けるSSL対応はクライアント側・サーバ側共に対応されていますが、やはりこの点は気になる所ではありますね。 そこで今回、EC2にファイルをアップロードし、そこから直接Redshiftにデータをロードする(S3経由では無くEC2経由でのデータロード)手段についてご紹介し、その手順を見て行きたいと思います。 目次 解説 0.概要&事前準備 1

    Amazon Redshiftへのデータロード処理をリモートホスト(Amazon EC2)経由で行う | DevelopersIO
  • 【aws】 ec2からrdsに接続できない→原因はVPCだった!

    機能新しくAWSのアカウントを作って、EC2+RDS環境を作ったのだけれどDBにアクセス出来ない。 Is the server running on host "mydb.ccpy7hlqlyxh.ap-northeast-1.rds.amazonaws.com" (172.31.12.345) and accepting TCP/IP connections on port 5432? 何回やってもDBの接続でエラーとなる。 これまで通りEC2に設定したセキュリティグループをRDSの方にも設定したのにつながらn…ん? RDSのSecurity Groupsを選択すると設定画面の代わりになにやらお知らせが。 ジェフ・ベゾス「AWSのネットワークは全てVPCに変わったぜ?」 Your account does not support the EC2-Classic Platform in t

  • 第3回 Amazon Redshiftを動かしてみよう | gihyo.jp

    前回まで、Amazon Redshiftの機能や特徴について説明を行いました。今回からは実践編として、Amazon Redshiftクラスタを起動するところから、データのロード、SQLの実行やクラスタの操作まで説明していきます。今回は、Redshiftクラスタの起動と、自分のマシンからのRedshiftクラスタへの接続までを説明します。 今回のチュートリアルでは、最小構成(XLタイプのシングルノード/2TB)のRedshiftクラスタを起動しますが、この場合一時間あたり$0.85の費用(2013/5/3時点)が発生し、EC2の最小インスタンスの料金に比べてかなり高くなります。試される場合には、完了後にRedshiftクラスタをシャットダウンさせるなど管理にご注意ください[1]⁠。 なお、Amazon Redshiftを使用するには、AWSのアカウントを事前に準備しておく必要がありますが、ア

    第3回 Amazon Redshiftを動かしてみよう | gihyo.jp
  • 1