[B! amazon-redshift][amazon-web-services] nabinnoのブックマーク

nabinno id:nabinno

amazon-redshiftとamazon-web-servicesに関するnabinnoのブックマーク (96)

大規模ログ分析におけるAmazon Web Servicesの活用
第27回TokyoWebmining 講演資料 http://tokyowebmining27.eventbrite.com/ バンダイナムコスタジオのログ集計・分析基盤”Greco”では、Amazon RDSとEMR、そして最近では様々なデータウェアハウスを検証した上でRedshiftを活用しています。OLTPとOLAP、双方のニーズに応えるためにどんなシステム構成を取っているか、また分析に耐えうる正確なログ出力のためにどんな工夫が必要か、の２点を重点的にお伝えします。 Read less
nabinno 2020/11/30
slideshare

shintaro-takemura

amazon-web-services

amazon-redshift

business-intelligence

data-warehouse
リンク
無印良品の顧客動向をディープに探るRedshiftとトレジャーデータ (1/2) | ASCII.jp
「無印良品」を展開する良品計画は、実店舗と無印良品ネットストアの統合を目指した会員制サービス「MUJI passport」を昨年から展開している。両者の十億件におよぶデータ解析を実現するべく、良品計画では2つのクラウド型ビッグデータ解析ツールを使い分けている。 2つのクラウド型サービスでデータ解析を行なう衣料品や家具、雑貨、日用品、食品などのオリジナル商品を販売する「無印良品」。自然の素材を活かし、生活になじむシンプルさを持った商品は、多くのファンを抱えている。無印良品の店舗は国内外ですでに640店舗に上っており、特に中国においては2013年度末に100店舗体制となっている。このように「良品」へのあくなきこだわりと積極的なグローバル展開を続ける同社は、2013年に導入した新しい会員サービス「MUJI passport（ムジパスポート）」と無印良品ネットストアにおいて、数十億件におよぶビ
nabinno 2019/01/01
amazon-redshift

amazon-web-services

platform-as-a-service

data-warehouse

data-structure
リンク
Amazon Redshift FAQs - Cloud Data Warehouse - Amazon Web Services
<p>Tens of thousands of customers use Amazon Redshift every day to run SQL analytics in the cloud, processing exabytes of data for business insights. Whether your growing data is stored in operational data stores, data lakes, streaming data services or third-party datasets, Amazon Redshift helps you securely access, combine, and share data with minimal movement or copying. Amazon Redshift is deepl
nabinno 2019/01/01
amazon-redshift

amazon-web-services

platform-as-a-service

data-warehouse

data-structure
リンク
Amazon Redshift 新機能：『Elastic Resize』で短時間でのノード数変更(リサイズ)が可能になりました | DevelopersIO
Amazon Redshift 新機能：『Elastic Resize』で短時間でのノード数変更(リサイズ)が可能になりました日本時間の2018年11月16日、下記ツイートにありますようにAmazon Redshiftにて『Elastic Resize』なる機能・仕組みが新たに導入されました。 Today's #AWSLaunches! 3/5 ⭐ AWS Cost & Usage Reports add Athena integration, Apache Parquet Output & Report Overwrite ⭐ Amazon Redshift announces Elastic resize, so you can add & remove nodes in minuteshttps://t.co/r8ekyCt1bR pic.twitter.com/6469grjiY
nabinno 2019/01/01
amazon-redshift

amazon-web-services

platform-as-a-service

data-warehouse

data-structure
リンク
［号外］テラバイト級全件データを数秒で処理！新しいSSD版Amazon Redshiftインスタンスは“衝撃の速さ” | gihyo.jp
AWS・Amazon Redshift Monthly Updates ［号外］テラバイト級全件データを数秒で処理！新しいSSD版Amazon Redshiftインスタンスは“衝撃の速さ” 2014年1月24日にAmazon Redshift の新しいSSDインスタンスタイプがリリースされました。 AWS発表のブログ記事【AWS発表】Amazon Redshiftにさらに高速で費用対効果の高いSSDベースの新しいノードが追加リリース後すぐにそれぞれAmazon Redshiftが利用可能なリージョンで使えるようになったので、さっそくFlyDataチームでもこの新しいインスタンスタイプを試してみました。以前、Amazon Redshiftが最初に公開された時に私たちはHadoop＋Hiveとのベンチマークを実行し公開したのですが、その時と同じ前提で今までのHDDバージョンとSSDバージ
nabinno 2019/01/01
amazon-redshift

amazon-web-services

platform-as-a-service

data-warehouse

data-structure
リンク
気軽に始めてみよう！クラウド時代のデータウェアハウス超入門 | DevelopersIO
始めに私は8年ほど前に情報処理試験でデータウェアハウスというものがあるということを知りました。当時は4択問題で問題文に意思決定支援というキーワードが出てきたら何なのかよく分かんないけど選択してました。それからずっと興味がありながら実物に触ったことはなかったのですが、クラウド型のデータウェアハウスが登場し触る機会を得ることができました。以前に比べデータウェアハウスはかなり身近なものになってきたのではないでしょうか。弊社でもAmazon RedshiftというAWSのサービスを利用した案件が増えてきています。クラスメソッド、POSデータ数十億件をリアルタイム分析する基盤を「Amazon Redshift」「Tableau」で開発この記事ではデータウェアハウスの知識から分析ツールを使ってAmazon Redshiftに接続するところまで簡単にまとめています。実際にどんなものか、触ったこ
nabinno 2019/01/01
amazon-redshift

amazon-web-services

platform-as-a-service

data-warehouse

data-structure
リンク
Amazon Redshift Performanceビューから読み解くアクティビティと監視のポイント | DevelopersIO
Amazon Redshift が標準で提供している Redshift Console は複数ノード構成のアクティビティの確認に便利な Performance ビューを提供しています。今回はメトリックスの読み解き方と、CloudWatchへのアラーム設定のポイントについてご紹介します。 Performance ビューとは Performance ビューとは Redshift メトリックスに対して、ノードごとのアクティビティをグラフ表示することで、Redshift の稼働状況をひと目で確認できる便利な機能です。また、メトリックスに対して、CloudWatchのしきい値とアラーム設定をすることで、これらアクティビティの監視を自動化できます。メトリックスの目のつけどころまずは各メトリックスの目的と、着目するポイントについて、ざっくりと解説します。以下のメトリックスの例は、データをロード（
nabinno 2019/01/01
amazon-redshift

amazon-web-services

platform-as-a-service

data-warehouse

data-structure
リンク
Cloud Data Warehouse - Amazon Redshift - AWS
Amazon Redshift Power data driven decisions with the best price-performance cloud data warehouse Tens of thousands of customers use Amazon Redshift every day to modernize their data analytics workloads and deliver insights for their businesses. With a fully managed, AI powered, massively parallel processing (MPP) architecture, Amazon Redshift drives business decision making quickly and cost effec
nabinno 2019/01/01
amazon-redshift

amazon-web-services

platform-as-a-service

data-warehouse

data-structure
リンク
BigQuery vs Athena vs RedShift vs Hive - Qiita
オブジェクトストレージの料金お金は大事ですね．まずはストレージの料金から比べます．料金は各種操作にかかりますが，特にドミナントなのはストレージ代と転送量だと思うのでこれ以外はめんどくさいのでスルー．料金系は変動が激しそうなので，まずリンクを貼ります． S3 GCS とりあえず検証時点では，こちらの想定するデータ量で以下の通りでした． (東京リージョン) S3 Storage料金: $0.025 / GB 転送料金: $0.14 / GB GCS Storage料金: $0.023 / GB 転送料金: $0.14 / GB よっぽどデータが大きくない限り大した差にはならないので，決め手にはならないでしょう．後日談の方でも少し述べますが，ストレージの機能としては若干S3の方が優れている気がしたので，若干高いのもまぁ妥当だと思います．料金こちらもまずはリンクを. Athena R
nabinno 2018/10/25
amazon-redshift

amazon-web-services

platform-as-a-service

data-warehouse

data-structure
リンク
Amazon Redshift Spectrumが新たにサポートした『ネスト化されたデータに対するクエリ』を実際に試してみました | DevelopersIO
はじめに昨年2017年11月の re:Invent2017 にて紹介された Redshift Spectrum の Nested Data のクエリ実行がついにサポートされました。Nested Data サポートは、ファイル形式が Parquet、ORC、JSON、Ion のネストデータを struct、array、map の複合データ型を使用して外部テーブルを作成できます。Ionフォーマットのクエリと、要望の多いjsonのクエリについて、クエリを実際に試してみたいと思います。 JSONやIonフォーマットの対応については以前のブログを御覧ください。 Amazon Redshift Spectrum がスカラーJSONおよびIonデータ型をサポートしたので試してみました Nested Data サポート Nested Data サポートは、複合データ型（map、struct、map）とい
nabinno 2018/08/27
amazon-redshift

amazon-web-services

platform-as-a-service

data-warehouse

data-structure
リンク
課題が山積みだったモンストのデータ分析は、ディメンショナル・モデリングでどう変わったのか？【デブサミ2018 夏】
世界累計利用者数4500万人を突破した大人気スマートフォンゲーム「モンスターストライク（以下、モンスト）」。本ゲームを提供しているのが株式会社ミクシィ XFLAG スタジオだ。かつて同社はデータ分析において大きな課題を抱えていた。その状態を解決すべく、データウェアハウスの設計手法ディメンショナル・モデリングを導入したのだという。本セッションではXFLAG スタジオが取り組んだ分析基盤改善の軌跡を、データエンジニアの生島光氏が語った。講演資料：データウェアハウスの設計手法『ディメンショナル・モデリング』のすすめ株式会社ミクシィ XFLAG スタジオモンスト事業本部ゲーム運営部解析グループ解析チームデータエンジニア生島光氏データ分析の作業が、とにかく非効率的になっていたかつて、XFLAG スタジオではAmazon Redshift（AWSが提供するデータウェアハウスサービ
nabinno 2018/08/12
amazon-redshift

amazon-web-services

platform-as-a-service

data-warehouse

data-structure
リンク
Amazon Redshiftのデータ量監視とエンコードタイプ - LIVESENSE Data Analytics Blog
データエンジニアリングチームのよしたけです。弊社各サービスのデータ分析基盤であるLivesense Analyticsの開発、運用を行っています。 Livesense Analyticsのアーキテクチャ Livesense AnalyticsはAWS上でシステムが構築されています。S3上にあるデータやtd-agent、Kinesis Firehoseなどを経由して集めたデータをAmazon Redshiftに格納し、データウェアハウスとして運用しています。詳細は、弊社大政がデータ分析基盤Night #1 で発表した内容をご参照ください。当時とは一部変更になっている部分もありますが、大枠は上記の図の構成になっています。ディスク使用量このLivesense Analyticsには、マッハバイトや転職会議をはじめ、リブセンスで運用している多くのメディアの各種ログやデータが集められています
nabinno 2018/06/19
amazon-redshift

amazon-web-services

platform-as-a-service

data-warehouse

data-structure
リンク
モンスターストライクを支えるデータ分析基盤と準リアルタイム集計
AWS Summit 2018 Tokyo にて
nabinno 2018/06/07
amazon-redshift

amazon-web-services

platform-as-a-service

data-warehouse

data-structure
リンク
CREATE VIEW - Amazon Redshift
データベースにビューを作成します。このビューは物理的にマテリアライズされません。ビューを定義するクエリは、ビューがクエリで参照されるたびに実行されます。外部テーブルでビューを作成するには、WITH NO SCHEMA BINDING 句を含めます。標準ビューを作成するには、基礎となるテーブルまたは基礎となるビューへのアクセスが必要です。標準ビューにクエリを実行するには、ビュー自体に対する選択のアクセス許可が必要ですが、基礎となるテーブルに対する選択のアクセス許可は必要ありません。別のスキーマのテーブルまたはビューを参照するビューを作成する場合や、マテリアライズドビューを参照するビューを作成する場合は、使用許可が必要です。遅延バインドビューにクエリを実行するには、遅延バインドビュー自体に対する選択のアクセス許可が必要です。また、遅延バインドビューの所有者が、参照先のオブジェクト (テーブル
nabinno 2018/06/06
amazon-redshift

amazon-web-services

platform-as-a-service

data-warehouse

data-structure
リンク
AWS Glue の基本的な使い方
概要 AWS Glue を利用すると Apache Spark をサーバーレスに実行できます。基本的な使い方を把握する目的で、S3 と RDS からデータを Redshift に ETL (Extract, Transf orm, and Load) してみます。2017/12/22 に東京リージョンでも利用できるようになりました。また、本ページでは Python を利用しますが、新たに Scala サポートされています。 AWS Glue ETL 概略図 AWS Glue を ETL サービスとして利用する場合のシステム概略図は以下のようになります。 Data Source から Data Target に対して ETL します。本ページでは Data Source は S3 と RDS であり、Data Target は Redshift となります。 ETL は Job として実行され
nabinno 2018/05/25
amazon-redshift

amazon-web-services

platform-as-a-service

data-warehouse

data-structure
リンク
クエリプランの分析 - Amazon Redshift
クエリプランを分析する前に、クエリプランを読む方法の知識が必要です。クエリプランを読む方法がわからない場合、次に進む前に「クエリプラン」を参照することをお勧めします。 EXPLAIN コマンドを実行して、クエリプランを取得します。クエリプランにより提供されるデータを分析するには、以下の手順を実行します。ネステッドループ: この結合は通常、結合条件が省略されたために発生します。推奨される解決策については、「Nested Loop」を参照してください。ハッシュおよびハッシュ結合: ハッシュ結合は、結合列が分散キーでもソートキーでもないテーブルを結合するときに使用されます。推奨される解決策については、「ハッシュ結合」を参照してください。マージ結合: 変更は必要ありません。どのテーブルが内部結合に使用され、どのテーブルが外部結合に使用されるのかに注目してください。クエリエンジンは通常、内部
nabinno 2018/05/20
amazon-redshift

amazon-web-services

platform-as-a-service

data-warehouse

data-structure
リンク
HAVING 句 - Amazon Redshift
select eventname, sum(pricepaid) from sales join event on sales.eventid = event.eventid group by 1 having sum(pricepaid) > 800000 order by 2 desc, 1; eventname | sum -----------------+----------- Mamma Mia! | 1135454.00 Spring Awakening | 972855.00 The Country Girl | 910563.00 Macbeth | 862580.00 Jersey Boys | 811877.00 Legally Blonde | 804583.00 次のクエリは、同じような結果セットを計算します。ただしこの場合、SELECT リスト sum(qtys
nabinno 2018/05/18
amazon-redshift

amazon-web-services

platform-as-a-service

data-warehouse

data-structure
リンク
圧縮エンコード - Amazon Redshift
圧縮エンコードは、行がテーブルに追加されるときにデータ値の列に適用される圧縮のタイプを指定します。 ENCODE AUTO は、テーブルのデフォルトです。テーブルが ENCODE AUTO に設定されると、Amazon Redshift は、テーブル内のすべての列の圧縮エンコードを自動的に管理します。詳細については、「CREATE TABLE」および「ALTER TABLE」を参照してください。ただし、テーブル内のいずれかの列に圧縮エンコードを指定すると、テーブルは ENCODE AUTO に設定されなくなります。Amazon Redshift は、テーブルにあるすべての列の圧縮エンコードを自動的に管理しないようになりました。 CREATE TABLE を使用すると、テーブル内の列の圧縮エンコードを指定するとき、ENCODE AUTO は無効です。ENCODE AUTO が無効なとき、A
nabinno 2018/04/18
amazon-redshift

amazon-web-services

platform-as-a-service

data-warehouse

data-structure
リンク
スタートアップでも出来る分析基盤 - AppBrew Tech Blog
こんにちは、遊撃エンジニア兼代表の深澤です。最近はインフラからサーバーをメインにいじっています。昔はクライアントも書いていました。弊社は、「再現性を持ってユーザーに刺さるプロダクトをつくる」ことを目指しチームビルディングをしています。なので、創業からのてんやわんや（スタートアップは皆そうです）の中で、数字とちゃんと向き合う方法を模索してきました。結果として、今現在どういった分析基盤で仕事をしているかに関して書きたいと思います。 ※注あくまで、2017年初頭にサービスインしたLIPSの分析基盤を、分析について何も知らない人間が組んできたという話です。開始の技術選定からは1年以上経っているので、参考程度にお願いします。技術的には枯れた内容しかやっていません。分析は、技術だけでなく、掛けるコストやオペレーションに組み込むレベルの話が出来てはじめて意味をなすものなので、そちらの話がメイ
nabinno 2018/04/07
amazon-redshift

amazon-web-services

platform-as-a-service

data-warehouse

data-structure
リンク
Amazon Redshift Spectrum 利用費と課金状況を把握する | DevelopersIO
はじめに Amazon Redshift Spectrum は、データウェアハウスであるRedshiftからシームレスにS3データを直接クエリ出来る機能です。その課金体系は、S3データをどれだけスキャンしたかによって課金されます。この手のサービスは知らず知らずのうちに課金されるのではないかと不安を抱え、導入を躊躇されることが少なくありません。今回は、安心して Amazon Redshift Spectrum を利用して頂けるように利用費と課金状況について解説します。利用費の詳細 Amazon Redshift Spectrum の利用費スキャンされたバイト数に対して課金されますバイト数はメガバイト単位で切り上げられ、10 MB 未満のクエリは 10 MB と計算されますスキャンされたデータ 1 TB あたり 5 USD CREATE TABLE、ALTER TABLE、DROP T
nabinno 2018/04/05
amazon-redshift

amazon-web-services

platform-as-a-service

data-warehouse

data-structure
リンク
1 2 3 4 5 次のページ