[B! redshift] slay-tのブックマーク

slay-t id:slay-t

redshiftに関するslay-tのブックマーク (10)

スキューのない世界を目指して - クックパッド開発者ブログ
こんにちは。インフラストラクチャー部データ基盤グループの小玉です。先日Amazon Redshift（以下、Redshift）で32TBのテーブルを全行スキャンするクエリを3本同時に走らせたまま帰宅し、クラスターを落としてしまいました。普段はRedshiftのクエリをチューニングしたり、データ基盤周りの仕組みを慣れないRubyで書いたりしています。突然ですが、スキュー(skew)という単語をご存じでしょうか。「skew 意味」で検索すると「斜め」とか「傾斜」といった訳が出てきますが、コンピューティング界隈では「偏り」という訳語が定着していると思います。さらに、分散並列DB界隈で単にスキューもしくは偏りと言った場合、それはしばしばデータの偏りを指します。データが偏っているとはデータが偏っているとは、複数ノードで構成される分散並列DBにおいて、各ノードが保持するデータ量（行数）に
slay-t 2017/07/26
cookpad

distributed

redshift

storage

Saved For Later

クエリ
リンク
【速報】Amazon Redshift：S3のデータを直接検索出来る新機能『Redshift Spectrum』が発表されました！ #awssummit | DevelopersIO
日本時間2017/04/20(木) 午前1:30(現地サンフランシスコ時間では2017/04/19(水) 午前9:30)から始まっていた『AWS Summit 2017 in San Francisco』。当イベントのキーノートにて、Amazon Redshiftの新機能として『Redshift Spectrum』なるものが発表されました！Amazon S3にある大量のデータに対して、Amazon Redshiftから直接クエリを投げる事が出来る、というものになるようです。 AWS Summits 2017 | San Francisco ちなみにこの機能については、本日から利用可能(Generally Available Today)となっているようです。 (※Amazon Redshiftの場合、例に拠って対応するクラスタバージョンのパッチが当たっている事が条件となります。詳細は後述)
slay-t 2017/04/20
Amazon Redshift

amazon

aws

awssummit

Redshift
リンク
AWS再入門 Amazon Redshift編 | DevelopersIO
はじめに当エントリはDevelopers.IOで弊社AWSチームによる2015年アドベントカレンダー『AWS サービス別再入門アドベントカレンダー 2015』の4日目のエントリです。昨日3日目のエントリは清水の『Amazon CloudFront 』でした。このアドベントカレンダーの企画は、普段AWSサービスについて最新のネタ・深い/細かいテーマを主に書き連ねてきたメンバーの手によって、今一度初心に返って、基本的な部分を見つめ直してみよう、解説してみようというコンセプトが含まれています。本日4日目のテーマは『Amazon Redshift』です。 Amazon Redshift（クラウドデータウェアハウスソリューション） | アマゾンウェブサービス（AWS 日本語）目次サービスの基本的な説明高速且つフルマネージドなデータウェアハウス(DWH:Data Ware Hou
slay-t 2015/12/04
Amazon Redshift

amazon

aws

redshift
リンク
『Amazon Redshift&Tableau パフォーマンスチューニング』に関するホワイトペーパーを読んでみた | DevelopersIO
ノードのサイズを大きくする事で可能となるカーソルの数も増やせる様になり、クエリの同時実行についてもより大きなレベルで実行出来るようになります。もしワークブックから直接Redshiftに接続しているのであれば、Redshiftは十分な計算リソースとメモリ容量、更には十分なストレージ容量の結果を備えるようになり、結果としてクエリパフォーマンスの向上ときびきびとしたユーザーエクスペリエンスに繋がります。クラスタののサイズをどのような内容にするのかについては、求めるワークブックの更新スピードとDWHに対するクエリの接続数を考慮して決定する事になります。もし多くのワークブックを同時に更新し、多くのユーザーが同時にクエリ接続を行える形を望むのであれば、高キャパシティのものを選びましょう。データの暗号化 - 暗号化は慎重に機密データを含む環境・ケースの場合、ディスクに格納されているデータの暗号化が
slay-t 2014/11/04
amazon

aws

redshift

Amazon Redshift
リンク
これからAmazon Redshiftを始める技術者が注意すべき１１つのポイント｜ DevelopersIO
更新版がこちらにありますので、こちらもぜひご覧ください。これからAmazon Redshiftを始める技術者が注意すべき２２つのポイント Amazon Redshiftを使った実案件を経験してこれは注意したほうがいいなというポイントをまとめました。自分が経験した範囲で書いているので多少偏っているかもしれませんが、参考になれば幸いです。データウェアハウスって何？という方は以前入門記事を書きましたのでこちらの記事をご覧ください。気軽に始めてみよう！クラウド時代のデータウェアハウス超入門注意事項一覧 PostgreSQLと違う点に注意！１件ずつINSERTするととても遅いので注意！主キー制約、一意制約、外部キー制約は違反してもエラーにならないので注意！ COPYコマンドは全件INSERTなので注意！ CSVでアップロードする場合の注意点！サポートしているデータ型に注意！エンコーディ
slay-t 2014/10/08
amazon

aws

redshift
リンク
golangのpqドライバでRedShiftにつないでちょっとハマった話
YAPCが終わり、夏も終わり、みなさんいかがお過ごしでしょうか。れもんです。季節感を先取りしてデザインを冬っぽい感じにしました。さて、最近仕事でRedshiftをつかっておりまして、ご存じのない方に簡単に説明するとAWSで使えるマネージドで列指向でシェアードナッシングな分散データベースっていう説明でいいんでしょうか。あんまり定義の分野に明るくないのでとりあえずぼくはそんな認識で使っております。MPP! MPP! みたいな感じです。で、「Goで行こう」というダジャレなのかどうかよくわからないことをぶち上げたというのと、BIツール的なところは比較的言語の作りに依存してどうこうみたいなハマリかたをしなさそうで新しい言語を投入するには無難だなというところで、Redshiftを叩くのをgolangでやっております。 RedshiftはPostgreSQLのドライバで接続可能なので、golangに
slay-t 2014/09/03
access

GoLang

redshift
リンク
『Amazon Redshift チュートリアル: テーブル設計チューニング』を実践してみた | DevelopersIO
Amazon Redshiftに於いて『パフォーマンスチューニング』は重要なトピックの1つです。Redshiftクラスタを立ち上げて、データを投入して、実際使ってみたものの思ったような速度・レスポンスが返って来ない...という状況も時折遭遇する事と思います。 AWS公式ドキュメント(英語版)を漁ってみると、まさにその『パフォーマンスチューニング』に焦点を当てたチュートリアルが公開されているではありませんか！当エントリではそのドキュメントを参考にひと通り実践してみた内容をまとめてみました。各種手順を1エントリに集約したので超長いエントリとなってしまいましたが、その辺りは目を瞑りつつ実践内容を順を追ってご覧頂ければと思います。 Tutorial: Tuning Table Design - Amazon Redshift: 目次 1.テスト用データセットの作成 2.ベースラインを作るためのシス
slay-t 2014/08/11
amazon

AWS

Redshift
リンク
「RedshiftはHadoopキラーになる」、FlyDataの藤川氏に聞く
藤川幸一氏がシリコンバレーで起業した米フライデータ（FlyData）は、様々なデータソースから米アマゾン・ウェブ・サービス（AWS）のデータウエアハウス（DWH）サービス「Amazon Redshift」にデータを転送するというサービス「FlyData」を提供する。藤川氏はAWSのRedshiftが「Hadoopキラーになりつつある」との見方を示す。フライデータのビジネスの現状はどうか？当社はもともとハピルス（Hapyrus）という社名で、「Hadoop」のPaaS（プラットフォーム・アズ・ア・サービス）を提供することを目指して起業した。しかしHadoopのPaaSが増えてきたことを考え、現在の「FlyData」の事業にピボット（事業転換）し、社名もFlyDataへと変更した。事業を転換したもう一つの理由が、AWSが2013年初めにRedshiftを開始したことだ。Redshiftを
slay-t 2014/08/07
aws

redshift

FlyData

ビッグデータ

Hadoop
リンク
［号外］テラバイト級全件データを数秒で処理！新しいSSD版Amazon Redshiftインスタンスは“衝撃の速さ” | gihyo.jp
AWS・Amazon Redshift Monthly Updates ［号外］テラバイト級全件データを数秒で処理！新しいSSD版Amazon Redshiftインスタンスは“衝撃の速さ” 2014年1月24日にAmazon Redshift の新しいSSDインスタンスタイプがリリースされました。 AWS発表のブログ記事【AWS発表】Amazon Redshiftにさらに高速で費用対効果の高いSSDベースの新しいノードが追加リリース後すぐにそれぞれAmazon Redshiftが利用可能なリージョンで使えるようになったので、さっそくFlyDataチームでもこの新しいインスタンスタイプを試してみました。以前、Amazon Redshiftが最初に公開された時に私たちはHadoop＋Hiveとのベンチマークを実行し公開したのですが、その時と同じ前提で今までのHDDバージョンとSSDバージ
slay-t 2014/01/30
gihyo.jp

gihyo

amazon

aws

RedShift

ssd

web制作

*dev
リンク
Fluentd、Amazon RedshiftとTableauを用いたカジュアルなデータ可視化 | SmartNews開発者ブログ
ゴクロ改め、スマートニュース株式会社の大平です。巷間では「bigdata」の活用が叫ばれて久しいですが、弊社はまだまだ小さい規模のスタートアップのため少なくともデータサイズとしてhugeなdataの活用が行える環境ではありません。であればデータの活用に対する要求が低いか、というとそうでも無く、サービスサイドでも自然言語処理や機械学習を中心としたデータ解析処理がサービスの生命線となっていますし、サービスの裏側でも戦略を立てる上で効果測定や諸々のデータの分析は非常に重要な位置を占めています。本記事では主にサービスの裏側で求められるデータ解析において、いかにカジュアルにデータを解析するか、の一例として、掲題のような組み合わせによるデータ可視化の事例を簡単にですがご紹介したいと思います。データ解析基盤を作る側の視点からすると、システムとして求められる要件は以下のようなものだと理解していま
slay-t 2013/10/03
oss

fluentd

data

amazon

AWS

graph

Visualization

RedShift

tableau

bigdata
リンク
1