[B! dwh] kimutanskのブックマーク

Queryparser, an Open Source Tool for Parsing and Analyzing SQL

You’re seeing information for Japan . To see local features and services for another location, select a different city. Show more In early 2015, Uber Engineering migrated its business entities from integer identifiers to UUID identifiers as part of an initiative towards using multiple active data centers. To achieve this, our Data Warehouse team was tasked with identifying every foreign-key relati

kimutansk 2018/03/06

クエリからアクセス個所やアクセスパターンも割り出せて、結合や系統もわかるものの、スキーマの変化や言語固有への追従はやはりどこも苦労しますか。ただ、手段の一つとしてあるのはありがたい。

SQL
DWH

リンク

進捗）SSD-to-GPU ダイレクトSQL実行機能 - KaiGaiの俺メモ

ここ暫くブログでまとめていなかった、SSD-to-GPUダイレクトSQL実行機能の進捗について。この機能をかいつまんで言うと、NVMe-SSDに格納されているPostgreSQLのデータブロックをGPU RAMに直接転送し、そこでSQLのWHERE句/JOIN/GROUP BYを実行することで見かけ上のI/O量を削減するという代物である。 NVIDIAのTesla/Quadro GPUが対応するGPUDirect RDMA機能を使い、SSD<=>GPU間のデータ転送を仲介するLinux kernel moduleを使えば、CPU/RAMにデータをロードする前にGPU上での処理を行うことができる。しばらく前からScan系の処理には対応していたが、JOIN/GROUP BYへの対応を加え、さらにPostgreSQL v9.6のCPU並列にも追従したということで、簡単なベンチマークなら取れる

kimutansk 2017/04/24

これ、上手く組み合わせられれば、普通のハード単ノードでOLAP用のミニDWH構築可能なんですよね。NVMe-SSDからGPUへのダイレクト転送って面白い。

GPU
dwh

リンク

データウェアハウス(DWH)の4つの要件について | DevelopersIO

こんにちは、DI部の川崎です。 DI部内で、データウェアハウス（DWH）の勉強会を行いました。その中から、データウェアハウス（DWH）の4つの要件についてご紹介します。テキストはいつものこちらの本です。「10年戦えるデータ分析入門」青木峰郎著 http://www.sbcr.jp/products/4797376272.html DWHの4つの要件：サブジェクトごとに編成されていること(subject oriented) データが統合されていること(integrated) 時系列データを持つこと(time variant) データが永続すること(non-volatile) それぞれの項目について、詳しくみていきます。 1. サブジェクトごとに編成されていること(subject oriented) サブジェクト(subject)とは「顧客」とか「商品」のようにデータとしてまとまりのあ

kimutansk 2016/07/21

このままこの方向性で突っ切って、ビル・インモン先生やラルフ・キンボール先生の書籍まで突入してほしいところではありますねぇ。

dwh

リンク

データを一箇所に集めることでデータ活用の民主化が進んだ話 - once upon a time,

先日、この記事を読んで分析のハードルを下げること大事だよね、というのを思い出したのでつらつらと書いてみようと思います。 qiita.com 内容としては正直タイトル詐欺で、SlackからRDSにクエリ発行できるようにして、各種権限を持っているエンジニアでなくても分析できるようになったよ、という話です。ここでいう「データ活用の民主化」というのはかっこ良く言ってみたかっただけで、「データ分析を生業にしている人以外もデータを活用してビジネスを進められるようになる」というくらいのニュアンスだと思って下さい。「データ分析」というとアナリストの人がやること、みたいな職務が分かれている環境もあるとは思いますが、そうではない会社（前職）の一例です。データ活用が広まった流れ数秒〜数十秒で対話的にクエリが返ってくると、トライアンドエラーが100倍くらいできる今まで実行計画を気にして避けていたことにガ

kimutansk 2016/05/07

この流れは進めている最中ですが、なるほど、「民主化」と。１つめと３つめのポイントはともかく、２つめの「SQL」というところを何とかしなければ。この先。

SQL
DWH

リンク

リアルタイムなデータ分析をする分散OLAP「Pinot」をLinkedInがオープンソースで公開

LinkedInは、同社が開発したリアルタイムデータ分析を実現する分散OLAPデータストア「Pinot」をオープンソースで公開したことを明らかにしました。 Open Sourcing Pinot: Scaling the Wall of Real-Time Analytics | LinkedIn Engineering LinkedInはビジネスに特化したソーシャルメディアサービス。同社はこのサービスで発生する大量のデータを分析するプラットフォームとして、すでに2年以上Pinotを運用してきており、日々数十億件のデータを投入し、数千億件ものデータを保存。毎日1億クエリを実行し、10ミリ秒程度のレイテンシでリアルタイム分析しているとのこと。例えば、LinedInのサービスである「Who's Viewed Your Profile」（あなたのプロフィールを誰が見たか」や、A/Bテストフレ

kimutansk 2015/06/24

分散データストアと、そこに対するクエリエンジンのペアですか。OLAPということはストリーム的な要素は無くて、単に早いということでしょうか。

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

dwhに関するkimutanskのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス