タグ

redshiftに関するslay-tのブックマーク (10)

  • スキューのない世界を目指して - クックパッド開発者ブログ

    こんにちは。インフラストラクチャー部データ基盤グループの小玉です。 先日Amazon Redshift(以下、Redshift)で32TBのテーブルを全行スキャンするクエリを3同時に走らせたまま帰宅し、クラスターを落としてしまいました。 普段はRedshiftのクエリをチューニングしたり、データ基盤周りの仕組みを慣れないRubyで書いたりしています。 突然ですが、スキュー(skew)という単語をご存じでしょうか。 「skew 意味」で検索すると「斜め」とか「傾斜」といった訳が出てきますが、コンピューティング界隈では「偏り」という訳語が定着していると思います。 さらに、分散並列DB界隈で単にスキューもしくは偏りと言った場合、それはしばしばデータの偏りを指します。 データが偏っているとは データが偏っているとは、複数ノードで構成される分散並列DBにおいて、各ノードが保持するデータ量(行数)に

    スキューのない世界を目指して - クックパッド開発者ブログ
  • 【速報】Amazon Redshift:S3のデータを直接検索出来る新機能『Redshift Spectrum』が発表されました! #awssummit | DevelopersIO

    時間2017/04/20(木) 午前1:30(現地サンフランシスコ時間では2017/04/19(水) 午前9:30)から始まっていた『AWS Summit 2017 in San Francisco』。当イベントのキーノートにて、Amazon Redshiftの新機能として『Redshift Spectrum』なるものが発表されました!Amazon S3にある大量のデータに対して、Amazon Redshiftから直接クエリを投げる事が出来る、というものになるようです。 AWS Summits 2017 | San Francisco ちなみにこの機能については、日から利用可能(Generally Available Today)となっているようです。 (※Amazon Redshiftの場合、例に拠って対応するクラスタバージョンのパッチが当たっている事が条件となります。詳細は後述)

    【速報】Amazon Redshift:S3のデータを直接検索出来る新機能『Redshift Spectrum』が発表されました! #awssummit | DevelopersIO
  • AWS再入門 Amazon Redshift編 | DevelopersIO

    はじめに 当エントリはDevelopers.IOで弊社AWSチームによる2015年アドベントカレンダー 『AWS サービス別 再入門アドベントカレンダー 2015』の4日目のエントリです。 昨日3日目のエントリは清水の『Amazon CloudFront 』でした。 このアドベントカレンダーの企画は、普段AWSサービスについて最新のネタ・深い/細かいテーマを主に書き連ねてきたメンバーの手によって、今一度初心に返って、基的な部分を見つめ直してみよう、解説してみようというコンセプトが含まれています。 日4日目のテーマは『Amazon Redshift』です。 Amazon Redshift(クラウドデータウェアハウスソリューション) | アマゾン ウェブ サービス(AWS語) 目次 サービスの基的な説明 高速且つフルマネージドなデータウェアハウス(DWH:Data Ware Hou

    AWS再入門 Amazon Redshift編 | DevelopersIO
  • 『Amazon Redshift&Tableau パフォーマンスチューニング』に関するホワイトペーパーを読んでみた | DevelopersIO

    ノードのサイズを大きくする事で可能となるカーソルの数も増やせる様になり、クエリの同時実行についてもより大きなレベルで実行出来るようになります。もしワークブックから直接Redshiftに接続しているのであれば、Redshiftは十分な計算リソースとメモリ容量、更には十分なストレージ容量の結果を備えるようになり、結果としてクエリパフォーマンスの向上ときびきびとしたユーザーエクスペリエンスに繋がります。 クラスタののサイズをどのような内容にするのかについては、求めるワークブックの更新スピードとDWHに対するクエリの接続数を考慮して決定する事になります。もし多くのワークブックを同時に更新し、多くのユーザーが同時にクエリ接続を行える形を望むのであれば、高キャパシティのものを選びましょう。 データの暗号化 - 暗号化は慎重に 機密データを含む環境・ケースの場合、ディスクに格納されているデータの暗号化が

    『Amazon Redshift&Tableau パフォーマンスチューニング』に関するホワイトペーパーを読んでみた | DevelopersIO
  • これからAmazon Redshiftを始める技術者が注意すべき11つのポイント | DevelopersIO

    更新版がこちらにありますので、こちらもぜひご覧ください。 これからAmazon Redshiftを始める技術者が注意すべき22つのポイント Amazon Redshiftを使った実案件を経験してこれは注意したほうがいいなというポイントをまとめました。自分が経験した範囲で書いているので多少偏っているかもしれませんが、参考になれば幸いです。データウェアハウスって何?という方は以前入門記事を書きましたのでこちらの記事をご覧ください。 気軽に始めてみよう!クラウド時代のデータウェアハウス超入門 注意事項一覧 PostgreSQLと違う点に注意! 1件ずつINSERTするととても遅いので注意! 主キー制約、一意制約、外部キー制約は違反してもエラーにならないので注意! COPYコマンドは全件INSERTなので注意! CSVでアップロードする場合の注意点! サポートしているデータ型に注意! エンコーディ

    これからAmazon Redshiftを始める技術者が注意すべき11つのポイント | DevelopersIO
  • golangのpqドライバでRedShiftにつないでちょっとハマった話

    YAPCが終わり、夏も終わり、みなさんいかがお過ごしでしょうか。れもんです。季節感を先取りしてデザインを冬っぽい感じにしました。 さて、最近仕事でRedshiftをつかっておりまして、ご存じのない方に簡単に説明するとAWSで使えるマネージドで列指向でシェアードナッシングな分散データベースっていう説明でいいんでしょうか。あんまり定義の分野に明るくないのでとりあえずぼくはそんな認識で使っております。MPP! MPP! みたいな感じです。 で、「Goで行こう」というダジャレなのかどうかよくわからないことをぶち上げたというのと、BIツール的なところは比較的言語の作りに依存してどうこうみたいなハマリかたをしなさそうで新しい言語を投入するには無難だなというところで、Redshiftを叩くのをgolangでやっております。 RedshiftはPostgreSQLのドライバで接続可能なので、golang

    golangのpqドライバでRedShiftにつないでちょっとハマった話
  • 『Amazon Redshift チュートリアル: テーブル設計チューニング』を実践してみた | DevelopersIO

    Amazon Redshiftに於いて『パフォーマンスチューニング』は重要なトピックの1つです。Redshiftクラスタを立ち上げて、データを投入して、実際使ってみたものの思ったような速度・レスポンスが返って来ない...という状況も時折遭遇する事と思います。 AWS公式ドキュメント(英語版)を漁ってみると、まさにその『パフォーマンスチューニング』に焦点を当てたチュートリアルが公開されているではありませんか!当エントリではそのドキュメントを参考にひと通り実践してみた内容をまとめてみました。各種手順を1エントリに集約したので超長いエントリとなってしまいましたが、その辺りは目を瞑りつつ実践内容を順を追ってご覧頂ければと思います。 Tutorial: Tuning Table Design - Amazon Redshift: 目次 1.テスト用データセットの作成 2.ベースラインを作るためのシス

    『Amazon Redshift チュートリアル: テーブル設計チューニング』を実践してみた | DevelopersIO
  • 「RedshiftはHadoopキラーになる」、FlyDataの藤川氏に聞く

    藤川幸一氏がシリコンバレーで起業した米フライデータ(FlyData)は、様々なデータソースから米アマゾン・ウェブ・サービス(AWS)のデータウエアハウス(DWH)サービス「Amazon Redshift」にデータを転送するというサービス「FlyData」を提供する。藤川氏はAWSのRedshiftが「Hadoopキラーになりつつある」との見方を示す。 フライデータのビジネスの現状はどうか? 当社はもともとハピルス(Hapyrus)という社名で、「Hadoop」のPaaS(プラットフォーム・アズ・ア・サービス)を提供することを目指して起業した。しかしHadoopのPaaSが増えてきたことを考え、現在の「FlyData」の事業にピボット(事業転換)し、社名もFlyDataへと変更した。 事業を転換したもう一つの理由が、AWSが2013年初めにRedshiftを開始したことだ。Redshiftを

    「RedshiftはHadoopキラーになる」、FlyDataの藤川氏に聞く
  • [号外]テラバイト級全件データを数秒で処理! 新しいSSD版Amazon Redshiftインスタンスは“衝撃の速さ” | gihyo.jp

    AWSAmazon Redshift Monthly Updates [号外]テラバイト級全件データを数秒で処理! 新しいSSDAmazon Redshiftインスタンスは“衝撃の速さ” 2014年1月24日にAmazon Redshift の新しいSSDインスタンスタイプがリリースされました。 AWS発表のブログ記事 【AWS発表】Amazon Redshiftにさらに高速で費用対効果の高いSSDベースの新しいノードが追加 リリース後すぐにそれぞれAmazon Redshiftが利用可能なリージョンで使えるようになったので、さっそくFlyDataチームでもこの新しいインスタンスタイプを試してみました。以前、Amazon Redshiftが最初に公開された時に私たちはHadoop+Hiveとのベンチマークを実行し公開したのですが、その時と同じ前提で今までのHDDバージョンとSSDバージ

    [号外]テラバイト級全件データを数秒で処理! 新しいSSD版Amazon Redshiftインスタンスは“衝撃の速さ” | gihyo.jp
  • Fluentd、Amazon RedshiftとTableauを用いたカジュアルなデータ可視化 | SmartNews開発者ブログ

    ゴクロ改め、スマートニュース株式会社の大平です。 巷間では「bigdata」の活用が叫ばれて久しいですが、弊社はまだまだ小さい規模のスタートアップのため少なくともデータサイズとしてhugeなdataの活用が行える環境ではありません。 であればデータの活用に対する要求が低いか、というとそうでも無く、サービスサイドでも自然言語処理や機械学習を中心としたデータ解析処理がサービスの生命線となっていますし、サービスの裏側でも戦略を立てる上で効果測定や諸々のデータの分析は非常に重要な位置を占めています。 記事では主にサービスの裏側で求められるデータ解析において、いかにカジュアルにデータを解析するか、の一例として、掲題のような組み合わせによるデータ可視化の事例を簡単にですがご紹介したいと思います。 データ解析基盤を作る側の視点からすると、システムとして求められる要件は以下のようなものだと理解していま

  • 1