第27回TokyoWebmining 講演資料 http://tokyowebmining27.eventbrite.com/ バンダイナムコスタジオのログ集計・分析基盤”Greco”では、Amazon RDSとEMR、そして最近では様々なデータウェアハウスを検証した上でRedshiftを活用しています。OLTPとOLAP、双方のニーズに応えるためにどんなシステム構成を取っているか、また分析に耐えうる正確なログ出力のためにどんな工夫が必要か、の2点を重点的にお伝えします。 Read less
「無印良品」を展開する良品計画は、実店舗と無印良品ネットストアの統合を目指した会員制サービス「MUJI passport」を昨年から展開している。両者の十億件におよぶデータ解析を実現するべく、良品計画では2つのクラウド型ビッグデータ解析ツールを使い分けている。 2つのクラウド型サービスでデータ解析を行なう 衣料品や家具、雑貨、日用品、食品などのオリジナル商品を販売する「無印良品」。自然の素材を活かし、生活になじむシンプルさを持った商品は、多くのファンを抱えている。無印良品の店舗は国内外ですでに640店舗に上っており、特に中国においては2013年度末に100店舗体制となっている。 このように「良品」へのあくなきこだわりと積極的なグローバル展開を続ける同社は、2013年に導入した新しい会員サービス「MUJI passport(ムジパスポート)」と無印良品ネットストアにおいて、数十億件におよぶビ
<p>Tens of thousands of customers use Amazon Redshift every day to run SQL analytics in the cloud, processing exabytes of data for business insights. Whether your growing data is stored in operational data stores, data lakes, streaming data services or third-party datasets, Amazon Redshift helps you securely access, combine, and share data with minimal movement or copying. Amazon Redshift is deepl
Amazon Redshift 新機能:『Elastic Resize』で短時間でのノード数変更(リサイズ)が可能になりました 日本時間の2018年11月16日、下記ツイートにありますようにAmazon Redshiftにて『Elastic Resize』なる機能・仕組みが新たに導入されました。 Today's #AWSLaunches! 3/5 ⭐ AWS Cost & Usage Reports add Athena integration, Apache Parquet Output & Report Overwrite ⭐ Amazon Redshift announces Elastic resize, so you can add & remove nodes in minuteshttps://t.co/r8ekyCt1bR pic.twitter.com/6469grjiY
AWS・Amazon Redshift Monthly Updates [号外]テラバイト級全件データを数秒で処理! 新しいSSD版Amazon Redshiftインスタンスは“衝撃の速さ” 2014年1月24日にAmazon Redshift の新しいSSDインスタンスタイプがリリースされました。 AWS発表のブログ記事 【AWS発表】Amazon Redshiftにさらに高速で費用対効果の高いSSDベースの新しいノードが追加 リリース後すぐにそれぞれAmazon Redshiftが利用可能なリージョンで使えるようになったので、さっそくFlyDataチームでもこの新しいインスタンスタイプを試してみました。以前、Amazon Redshiftが最初に公開された時に私たちはHadoop+Hiveとのベンチマークを実行し公開したのですが、その時と同じ前提で今までのHDDバージョンとSSDバージ
始めに 私は8年ほど前に情報処理試験でデータウェアハウスというものがあるということを知りました。当時は4択問題で問題文に 意思決定支援 というキーワードが出てきたら何なのかよく分かんないけど選択してました。それからずっと興味がありながら実物に触ったことはなかったのですが、クラウド型のデータウェアハウスが登場し触る機会を得ることができました。以前に比べデータウェアハウスはかなり身近なものになってきたのではないでしょうか。弊社でもAmazon RedshiftというAWSのサービスを利用した案件が増えてきています。 クラスメソッド、POSデータ数十億件をリアルタイム分析する基盤を「Amazon Redshift」「Tableau」で開発 この記事ではデータウェアハウスの知識から分析ツールを使ってAmazon Redshiftに接続するところまで簡単にまとめています。実際にどんなものか、触ったこ
Amazon Redshift が標準で提供している Redshift Console は 複数ノード構成のアクティビティの確認に便利な Performance ビューを提供しています。今回はメトリックスの読み解き方と、CloudWatchへのアラーム設定のポイントについてご紹介します。 Performance ビューとは Performance ビューとは Redshift メトリックスに対して、ノードごとのアクティビティをグラフ表示することで、Redshift の稼働状況をひと目で確認できる便利な機能です。また、メトリックスに対して、CloudWatchのしきい値とアラーム設定をすることで、これらアクティビティの監視を自動化できます。 メトリックスの目のつけどころ まずは各メトリックスの目的と、着目するポイントについて、ざっくりと解説します。 以下のメトリックスの例は、データをロード(
Amazon Redshift Power data driven decisions with the best price-performance cloud data warehouse Tens of thousands of customers use Amazon Redshift every day to modernize their data analytics workloads and deliver insights for their businesses. With a fully managed, AI powered, massively parallel processing (MPP) architecture, Amazon Redshift drives business decision making quickly and cost effec
オブジェクトストレージの料金 お金は大事ですね. まずはストレージの料金から比べます. 料金は各種操作にかかりますが,特にドミナントなのはストレージ代と転送量だと思うのでこれ以外はめんどくさいのでスルー. 料金系は変動が激しそうなので,まずリンクを貼ります. S3 GCS とりあえず検証時点では,こちらの想定するデータ量で以下の通りでした. (東京リージョン) S3 Storage料金: $0.025 / GB 転送料金: $0.14 / GB GCS Storage料金: $0.023 / GB 転送料金: $0.14 / GB よっぽどデータが大きくない限り大した差にはならないので,決め手にはならないでしょう. 後日談の方でも少し述べますが,ストレージの機能としては若干S3の方が優れている気がしたので,若干高いのもまぁ妥当だと思います. 料金 こちらもまずはリンクを. Athena R
はじめに 昨年2017年11月の re:Invent2017 にて紹介された Redshift Spectrum の Nested Data のクエリ実行がついにサポートされました。Nested Data サポートは、ファイル形式が Parquet、ORC、JSON、Ion のネストデータを struct、array、map の複合データ型を使用して外部テーブルを作成できます。Ionフォーマットのクエリと、要望の多いjsonのクエリについて、クエリを実際に試してみたいと思います。 JSONやIonフォーマットの対応については以前のブログを御覧ください。 Amazon Redshift Spectrum がスカラーJSONおよびIonデータ型をサポートしたので試してみました Nested Data サポート Nested Data サポートは、複合データ型(map、struct、map)とい
世界累計利用者数4500万人を突破した大人気スマートフォンゲーム「モンスターストライク(以下、モンスト)」。本ゲームを提供しているのが株式会社ミクシィ XFLAG スタジオだ。かつて同社はデータ分析において大きな課題を抱えていた。その状態を解決すべく、データウェアハウスの設計手法 ディメンショナル・モデリングを導入したのだという。本セッションではXFLAG スタジオが取り組んだ分析基盤改善の軌跡を、データエンジニアの生島光氏が語った。 講演資料:データウェアハウスの設計手法『ディメンショナル・モデリング』のすすめ 株式会社ミクシィ XFLAG スタジオ モンスト事業本部 ゲーム運営部 解析グループ 解析チーム データエンジニア 生島光氏 データ分析の作業が、とにかく非効率的になっていた かつて、XFLAG スタジオではAmazon Redshift(AWSが提供するデータウェアハウスサービ
データエンジニアリングチームのよしたけです。 弊社各サービスのデータ分析基盤であるLivesense Analyticsの開発、運用を行っています。 Livesense Analyticsのアーキテクチャ Livesense AnalyticsはAWS上でシステムが構築されています。S3上にあるデータやtd-agent、Kinesis Firehoseなどを経由して集めたデータをAmazon Redshiftに格納し、データウェアハウスとして運用しています。詳細は、弊社大政がデータ分析基盤Night #1 で発表した内容をご参照ください。 当時とは一部変更になっている部分もありますが、大枠は上記の図の構成になっています。 ディスク使用量 このLivesense Analyticsには、マッハバイトや転職会議をはじめ、リブセンスで運用している多くのメディアの各種ログやデータが集められています
データベースにビューを作成します。このビューは物理的にマテリアライズされません。ビューを定義するクエリは、ビューがクエリで参照されるたびに実行されます。外部テーブルでビューを作成するには、WITH NO SCHEMA BINDING 句を含めます。 標準ビューを作成するには、基礎となるテーブルまたは基礎となるビューへのアクセスが必要です。標準ビューにクエリを実行するには、ビュー自体に対する選択のアクセス許可が必要ですが、基礎となるテーブルに対する選択のアクセス許可は必要ありません。別のスキーマのテーブルまたはビューを参照するビューを作成する場合や、マテリアライズドビューを参照するビューを作成する場合は、使用許可が必要です。遅延バインドビューにクエリを実行するには、遅延バインドビュー自体に対する選択のアクセス許可が必要です。また、遅延バインドビューの所有者が、参照先のオブジェクト (テーブル
概要 AWS Glue を利用すると Apache Spark をサーバーレスに実行できます。基本的な使い方を把握する目的で、S3 と RDS からデータを Redshift に ETL (Extract, Transform, and Load) してみます。2017/12/22 に東京リージョンでも利用できるようになりました。また、本ページでは Python を利用しますが、新たに Scala サポートされています。 AWS Glue ETL 概略図 AWS Glue を ETL サービスとして利用する場合のシステム概略図は以下のようになります。 Data Source から Data Target に対して ETL します。本ページでは Data Source は S3 と RDS であり、Data Target は Redshift となります。 ETL は Job として実行され
クエリプランを分析する前に、クエリプランを読む方法の知識が必要です。クエリプランを読む方法がわからない場合、次に進む前に「クエリプラン」を参照することをお勧めします。 EXPLAIN コマンドを実行して、クエリプランを取得します。クエリプランにより提供されるデータを分析するには、以下の手順を実行します。 ネステッドループ: この結合は通常、結合条件が省略されたために発生します。推奨される解決策については、「Nested Loop」を参照してください。 ハッシュおよびハッシュ結合: ハッシュ結合は、結合列が分散キーでもソートキーでもないテーブルを結合するときに使用されます。推奨される解決策については、「ハッシュ結合」を参照してください。 マージ結合: 変更は必要ありません。 どのテーブルが内部結合に使用され、どのテーブルが外部結合に使用されるのかに注目してください。クエリエンジンは通常、内部
select eventname, sum(pricepaid) from sales join event on sales.eventid = event.eventid group by 1 having sum(pricepaid) > 800000 order by 2 desc, 1; eventname | sum -----------------+----------- Mamma Mia! | 1135454.00 Spring Awakening | 972855.00 The Country Girl | 910563.00 Macbeth | 862580.00 Jersey Boys | 811877.00 Legally Blonde | 804583.00 次のクエリは、同じような結果セットを計算します。ただしこの場合、SELECT リスト sum(qtys
圧縮エンコードは、行がテーブルに追加されるときにデータ値の列に適用される圧縮のタイプを指定します。 ENCODE AUTO は、テーブルのデフォルトです。テーブルが ENCODE AUTO に設定されると、Amazon Redshift は、テーブル内のすべての列の圧縮エンコードを自動的に管理します。詳細については、「CREATE TABLE」および「ALTER TABLE」を参照してください。 ただし、テーブル内のいずれかの列に圧縮エンコードを指定すると、テーブルは ENCODE AUTO に設定されなくなります。Amazon Redshift は、テーブルにあるすべての列の圧縮エンコードを自動的に管理しないようになりました。 CREATE TABLE を使用すると、テーブル内の列の圧縮エンコードを指定するとき、ENCODE AUTO は無効です。ENCODE AUTO が無効なとき、A
こんにちは、遊撃エンジニア兼代表の深澤です。 最近はインフラからサーバーをメインにいじっています。昔はクライアントも書いていました。 弊社は、「再現性を持ってユーザーに刺さるプロダクトをつくる」ことを目指しチームビルディングをしています。 なので、創業からのてんやわんや(スタートアップは皆そうです)の中で、数字とちゃんと向き合う方法を模索してきました。 結果として、今現在どういった分析基盤で仕事をしているかに関して書きたいと思います。 ※注 あくまで、2017年初頭にサービスインしたLIPSの分析基盤を、分析について何も知らない人間が組んできたという話です。開始の技術選定からは1年以上経っているので、参考程度にお願いします。 技術的には枯れた内容しかやっていません。分析は、技術だけでなく、掛けるコストやオペレーションに組み込むレベルの話が出来てはじめて意味をなすものなので、そちらの話がメイ
はじめに Amazon Redshift Spectrum は、データウェアハウスであるRedshiftからシームレスにS3データを直接クエリ出来る機能です。その課金体系は、S3データをどれだけスキャンしたかによって課金されます。この手のサービスは知らず知らずのうちに課金されるのではないかと不安を抱え、導入を躊躇されることが少なくありません。今回は、安心して Amazon Redshift Spectrum を利用して頂けるように利用費と課金状況について解説します。 利用費の詳細 Amazon Redshift Spectrum の利用費 スキャンされたバイト数に対して課金されます バイト数はメガバイト単位で切り上げられ、10 MB 未満のクエリは 10 MB と計算されます スキャンされたデータ 1 TB あたり 5 USD CREATE TABLE、ALTER TABLE、DROP T
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く