タグ

Redshiftに関するnobusueのブックマーク (11)

  • もうオンプレには戻らない、リクルートとドコモがデータ分析基盤をAWSへ移す理由 (1/2)

    “日の大企業は米国に比べてITの最先端トレンドにキャッチアップするスピードが遅い”と言われることが多いが、ことAWSクラウドの導入に限っていえば、グローバルでも引けを取らず、むしろ先進的な導入事例も少なくない。特にここ最近は、データアナリティクスのコアとしてRedshiftやAthenaといったAWSのマネージドサービスを積極的に活用するエンタープライズが増えている。 稿では、そうした国内企業の中でも最先端のデータアナリティクス基盤をAWS上に構築する「JAWS-UGビッグデータ支部」の2社、リクルートテクノロジーズとNTTドコモの事例について、7月5日に東京・大崎で開催された「AWS Solution Days 2017 ~ AWS DB Day ~」に登壇した両社の発表内容をもとに紹介したい。 EMRで“キャパシティプランニングの呪縛”から解放された:リクルートテクノロジーズ “リ

    もうオンプレには戻らない、リクルートとドコモがデータ分析基盤をAWSへ移す理由 (1/2)
  • Amazon SQSを利用してS3からRedshiftにデータ投入するRinというツールを書いた - 酒日記 はてな支店

    fluentdで集約したログをRedshiftに投入するのに、これまでは fluent-plugin-redshift を使っていたのですが、諸々の理由でこれを置き換えるツールをGoで書きました。 Rin - Redshift data Importer by SQS messaging. プロダクション環境に投入して、2週間ほど快調に動作しているので記事を書いておきます。 アーキテクチャと特徴 S3にデータが保存されたタイミングで、Amazon SNS または SQS にメッセージを飛ばすイベント通知機能がありますので、それを利用しています。 (何者か) S3 にデータを保存する (fluent-plugin-s3, その他どんな手段でも可) (S3) SQS に S3 の path 等が記述されたメッセージを通知する (Rin) SQS のメッセージを受信し、Redshift へ CO

    Amazon SQSを利用してS3からRedshiftにデータ投入するRinというツールを書いた - 酒日記 はてな支店
  • 『アドテクスキルアップゼミ カラムナーデータベース検証まとめ』

    皆様こんにちは。 アドテク部カラムーデータベースゼミチームです。 今回の記事ではゼミチームが行った検証結果について発表させていただきます。 また、この記事につきましては 11/12 に行われた db tech showcase Tokyo 2014 にて発表させて頂きました内容になります。 プレゼン資料はこちらにあがっています。 ※追記 Impala / Presto の File Format についてご指摘を頂きましたのでデータロード及びまとめの部分に追記しました。 アドテクスキルアップゼミ カラムナーデータベース検証まとめ目的 広告システムでは大量のデータをデータベースに入れて解析を行います。 小規模から中規模なデータはRDBMSで行えますが、数TBを超えると RDBMS以外の選択肢を探さないといけません。 ビッグデータ用のデータベースは比較資料が少なく、 また、あったとしても検証

    『アドテクスキルアップゼミ カラムナーデータベース検証まとめ』
    nobusue
    nobusue 2014/11/14
    BigQueryすげぇな
  • Amazon Redshiftで構築するビッグデータ分析環境の構成要素と全体像

    CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

    Amazon Redshiftで構築するビッグデータ分析環境の構成要素と全体像
  • Treasure Data Service と Redshift のハイブリッドアーキテクチャ - トレジャーデータ(Treasure Data)ブログ

    *トレジャーデータはデータ収集、保存、分析のためのエンドツーエンドでサポートされたクラウドサービスです。 Treasure Data Service はそれ自身がデータの収集から可視化までの一気通貫したサービスですが,他の様々なサービスと連携することによって各々の分析ニーズにマッチしたアーキテクチャを構成することができます。今回は Amazon Redshift とのハイブリッドアーキテクチャ等の具体的なケースを見て,視野を広めていきましょう。 バッチ処理 Treasure Data Service は標準ではHiveQLによってクラウドストレージに集計処理を実行することができるのですがこれはいわゆる「バッチ処理」という分類で,スケジューリングされたクエリが定時的にバックエンドで集計されるものです。 以前紹介したダッシュボード(上図):MetricInsights などでは独立したウィジェ

    Treasure Data Service と Redshift のハイブリッドアーキテクチャ - トレジャーデータ(Treasure Data)ブログ
  • ムック「データベース徹底攻略」 - MySQL/Redis/MongoDB/Redshift

    最近発売された技術評論社のムック「データベース徹底攻略」に寄稿しました。 このは、データベースのためのということで、データベース設計、SQLMySQL、Redis、MongoDB、Redshiftという代表的な要素技術についてのまとめとなっています。各プロダクト(MySQL、Redis、MongoDB、Redshift)については、現場で実際に格的に使われている方々による記事なので大いに参考になると思います。 私は冒頭のまとめ記事を寄稿しました。詳細はぜひお手に取って読んでくださればと思います。ここでも自分が各技術を現時点でどのようにとらえているか、ではいささか書きづらい内容について、最近流行りの言葉でもある「技術的負債」という観点も踏まえて書いておこうと思います。 ・MySQL (RDBMS) 私はMySQLの中の人でもありましたし、これまで至るところで話してきたので省略します

  • すかいらーく、数十億件のPOSデータ分析で「Amazon Redshift」を採用

    レストラン経営のすかいらーくは、全国の店舗から集めたPOSデータを分析するインフラとして、米アマゾン・ウェブ・サービス(AWS)のデータウエアハウス(DWH)クラウド「Amazon Redshift」を採用し、2014年2月に格運用を始めた。数十億件のデータをRedshiftに投入し、マーケティング施策の効果検証などに活用している。 すかいらーくの店舗系システムには、1日当たり数百万件分のPOSデータが取り込まれる。これを自動でAmazon Redshiftに取り込み、BIツール「Tableau Desktop」と「Tableau Server」で分析、可視化できるようにした。数年分の過去データも取り込み済みで、扱うデータは数十億件規模になるという。このデータを使い、メニューの併売率の分析やバスケット粗利の計算、クーポンの販促効果、顧客の滞在時間の分析などに活用している。 導入期間もコス

    すかいらーく、数十億件のPOSデータ分析で「Amazon Redshift」を採用
  • 全国約3,000店舗のPOSデータ数十億件をリアルタイム分析する基盤を開発

    全国約3,000店舗のPOSデータ数十億件をリアルタイム分析する基盤を開発 ~今まで2日間掛かっていた処理を数十秒で出力~ すかいらーくグループは、日国内に約3,000店舗を展開し、年間約4億人が利用するテーブルレストラン事業を行っています。この度、数十億件規模のPOSデータを格納し、地図・天気・クーポンなどの周辺情報と組み合わせて、リアルタイムに分析を行う基盤を開発し、クラスメソッド株式会社が設計・構築支援を行いました。これにより、すかいらーくグループは、レシート単位での分析をはじめ、商品の併売率/バスケット粗利、チラシなど各種販促施策の費用対効果、時間ごとの店舗の稼働率/顧客の滞在時間など、より詳細な情報をもとに仮説検証のサイクルを短時間に繰り返し回せるようになります。 すかいらーくグループ ロゴ データウェアハウス(DWH)としてアマゾン ウェブ サービス(AWS)のAmazon

    全国約3,000店舗のPOSデータ数十億件をリアルタイム分析する基盤を開発
  • [号外]テラバイト級全件データを数秒で処理! 新しいSSD版Amazon Redshiftインスタンスは“衝撃の速さ” | gihyo.jp

    AWSAmazon Redshift Monthly Updates [号外]テラバイト級全件データを数秒で処理! 新しいSSDAmazon Redshiftインスタンスは“衝撃の速さ” 2014年1月24日にAmazon Redshift の新しいSSDインスタンスタイプがリリースされました。 AWS発表のブログ記事 【AWS発表】Amazon Redshiftにさらに高速で費用対効果の高いSSDベースの新しいノードが追加 リリース後すぐにそれぞれAmazon Redshiftが利用可能なリージョンで使えるようになったので、さっそくFlyDataチームでもこの新しいインスタンスタイプを試してみました。以前、Amazon Redshiftが最初に公開された時に私たちはHadoop+Hiveとのベンチマークを実行し公開したのですが、その時と同じ前提で今までのHDDバージョンとSSDバージ

    [号外]テラバイト級全件データを数秒で処理! 新しいSSD版Amazon Redshiftインスタンスは“衝撃の速さ” | gihyo.jp
  • 第2回 Amazon Redshiftとは[後編] | gihyo.jp

    前回はAmazon Redshiftの基的な機能の説明を行いました。今回は一歩踏み込んで、具体的にAmazon Redshiftはどのように利用することができるのか、また他のデータウェアハウスやHadoopなどのビッグデータ処理ミドルウェアと比べて、どのような点が優れているのかを説明します。 Amazon Redshift の得意な点・不得意な点 前回の説明のように、Amazon Redshiftはクラウド上に構築されたデータウェアハウスサービスです。そのため、蓄積された大量データの集計処理に特化されています。 たとえば、過去半年分の全データに対する日付ごと・属性ごとのアクセスユーザの件数を一覧で出力する、などです。これに対して、通常の(行指向)データベースの利用方法である、ある特定のユーザの、特定のデータを取得する、などの処理は、たとえ1件を取得するだけでも数秒かかることがあります。つ

    第2回 Amazon Redshiftとは[後編] | gihyo.jp
  • 第1回 Amazon Redshiftとは[前編] | gihyo.jp

    Amazon Web Services(AWS)は次々と新しいサービスを世の中に出して、クラウド・コンピューティングの可能性を広げていっています。そのAWSから登場した最新のサービスであるAmazon Redshiftは、そのパフォーマンスや驚異的な低コストのため、発表当時から大変な反響を呼んできました。 この連載では、 Redshiftの概要からその利用方法まで、主にあまりデータウェアハウスを利用した経験がないWeb開発エンジニアなど向けに、このビッグデータ向けクラウド・データウェアハウス製品であるAmazon Redshiftの解説をして行きたいと思います。 まずは、そもそもAmazon Redshiftとは何なのか、その概要から説明します。 Amazon Redshiftはビッグデータ時代のクラウド・データウェアハウス 2012年11月、AWSにとって初めての世界的なユーザカンファレ

    第1回 Amazon Redshiftとは[前編] | gihyo.jp
  • 1