タグ

dwhに関するkimutanskのブックマーク (5)

  • Queryparser, an Open Source Tool for Parsing and Analyzing SQL

    You’re seeing information for Japan . To see local features and services for another location, select a different city. Show more In early 2015, Uber Engineering migrated its business entities from integer identifiers to UUID identifiers as part of an initiative towards using multiple active data centers. To achieve this, our Data Warehouse team was tasked with identifying every foreign-key relati

    Queryparser, an Open Source Tool for Parsing and Analyzing SQL
    kimutansk
    kimutansk 2018/03/06
    クエリからアクセス個所やアクセスパターンも割り出せて、結合や系統もわかるものの、スキーマの変化や言語固有への追従はやはりどこも苦労しますか。ただ、手段の一つとしてあるのはありがたい。
  • 進捗)SSD-to-GPU ダイレクトSQL実行機能 - KaiGaiの俺メモ

    ここ暫くブログでまとめていなかった、SSD-to-GPUダイレクトSQL実行機能の進捗について。 この機能をかいつまんで言うと、NVMe-SSDに格納されているPostgreSQLのデータブロックをGPU RAMに直接転送し、そこでSQLのWHERE句/JOIN/GROUP BYを実行することで見かけ上のI/O量を削減するという代物である。 NVIDIAのTesla/Quadro GPUが対応するGPUDirect RDMA機能を使い、SSD<=>GPU間のデータ転送を仲介するLinux kernel moduleを使えば、CPU/RAMにデータをロードする前にGPU上での処理を行うことができる。 しばらく前からScan系の処理には対応していたが、JOIN/GROUP BYへの対応を加え、さらにPostgreSQL v9.6のCPU並列にも追従したということで、簡単なベンチマークなら取れる

    進捗)SSD-to-GPU ダイレクトSQL実行機能 - KaiGaiの俺メモ
    kimutansk
    kimutansk 2017/04/24
    これ、上手く組み合わせられれば、普通のハード単ノードでOLAP用のミニDWH構築可能なんですよね。NVMe-SSDからGPUへのダイレクト転送って面白い。
  • データウェアハウス(DWH)の4つの要件について | DevelopersIO

    こんにちは、DI部の川崎です。 DI部内で、データウェアハウス(DWH)の勉強会を行いました。その中から、データウェアハウス(DWH)の4つの要件についてご紹介します。 テキストはいつものこちらのです。 「10年戦えるデータ分析入門」青木峰郎 著 http://www.sbcr.jp/products/4797376272.html DWHの4つの要件: サブジェクトごとに編成されていること(subject oriented) データが統合されていること(integrated) 時系列データを持つこと(time variant) データが永続すること(non-volatile) それぞれの項目について、詳しくみていきます。 1. サブジェクトごとに編成されていること(subject oriented) サブジェクト(subject)とは「顧客」とか「商品」のようにデータとしてまとまりのあ

    データウェアハウス(DWH)の4つの要件について | DevelopersIO
    kimutansk
    kimutansk 2016/07/21
    このままこの方向性で突っ切って、ビル・インモン先生やラルフ・キンボール先生の書籍まで突入してほしいところではありますねぇ。
  • データを一箇所に集めることでデータ活用の民主化が進んだ話 - once upon a time,

    先日、この記事を読んで分析のハードルを下げること大事だよね、というのを思い出したのでつらつらと書いてみようと思います。 qiita.com 内容としては正直タイトル詐欺で、SlackからRDSにクエリ発行できるようにして、各種権限を持っているエンジニアでなくても分析できるようになったよ、という話です。 ここでいう「データ活用の民主化」というのはかっこ良く言ってみたかっただけで、「データ分析を生業にしている人以外もデータを活用してビジネスを進められるようになる」というくらいのニュアンスだと思って下さい。 「データ分析」というとアナリストの人がやること、みたいな職務が分かれている環境もあるとは思いますが、そうではない会社(前職)の一例です。 データ活用が広まった流れ 数秒〜数十秒で対話的にクエリが返ってくると、トライアンドエラーが100倍くらいできる 今まで実行計画を気にして避けていたことにガ

    データを一箇所に集めることでデータ活用の民主化が進んだ話 - once upon a time,
    kimutansk
    kimutansk 2016/05/07
    この流れは進めている最中ですが、なるほど、「民主化」と。1つめと3つめのポイントはともかく、2つめの「SQL」というところを何とかしなければ。この先。
  • リアルタイムなデータ分析をする分散OLAP「Pinot」をLinkedInがオープンソースで公開

    LinkedInは、同社が開発したリアルタイムデータ分析を実現する分散OLAPデータストア「Pinot」をオープンソースで公開したことを明らかにしました。 Open Sourcing Pinot: Scaling the Wall of Real-Time Analytics | LinkedIn Engineering LinkedInはビジネスに特化したソーシャルメディアサービス。 同社はこのサービスで発生する大量のデータを分析するプラットフォームとして、すでに2年以上Pinotを運用してきており、日々数十億件のデータを投入し、数千億件ものデータを保存。毎日1億クエリを実行し、10ミリ秒程度のレイテンシでリアルタイム分析しているとのこと。 例えば、LinedInのサービスである「Who's Viewed Your Profile」(あなたのプロフィールを誰が見たか」や、A/Bテストフレ

    リアルタイムなデータ分析をする分散OLAP「Pinot」をLinkedInがオープンソースで公開
    kimutansk
    kimutansk 2015/06/24
    分散データストアと、そこに対するクエリエンジンのペアですか。OLAPということはストリーム的な要素は無くて、単に早いということでしょうか。
  • 1