[B! db][data] lepton9のブックマーク

dbtを使ったELTデータパイプライン構築と運用事例 - DataEngineeringStudy #13

DataEngineeringStudy #13に10Xの瀧本が登壇した際の資料です。

lepton9 2022/04/10

リンク

米AWS、サーバレス時系列データベースサービス「Amazon Timestream」の提供を開始

Amazon Timestreamは、高速でスケーラブルなサーバレス時系列データベースサービスであり、1日あたり数兆もの時系列イベントを最大1000倍高速に、リレーショナルデータベースの10分の1のコストで簡単に収集、保存、処理できる。すべてのデータは、同じAWSリージョン内の複数のアベイラビリティゾーン（AZ）に常に複製され、新たなデータはメモリストアに書き込まれ、操作の成功を返す前に3つのAZ間でデータが複製される。データレプリケーションは、クォーラムベースなのでノードまたはAZ全体が失われても、耐久性や可用性は損なわれない。また、メモリストア内のデータは、追加の予防措置としてAmazon Simple Storage Service（S3）へ、継続的にバックアップされる。クエリは、保存場所を指定することなく、階層全体の最近のデータと履歴データに自動でアクセスして結合し、時系列固

lepton9 2020/10/04

リンク

「AWSではじめるデータレイク」出版記念データレイク解説セミナーの資料公開 | Amazon Web Services

Amazon Web Services ブログ「AWSではじめるデータレイク」出版記念データレイク解説セミナーの資料公開去年よりAWSのメンバー４名（志村、上原、関山、下佐粉）でデータレイクの基礎からアーキテクチャ、構築、運用管理までをカバーした書籍「AWSではじめるデータレイク」を執筆してきたのですが、7月出版の目処がたったことを記念して、5月末から毎週木曜にデータレイクに関するWebセミナーを開催してきました。幸いにも大変多くの方にご参加いただくことができました。ご参加いただいた方にはあらためてお礼申し上げます。一方で、以前の回に出られなかったので資料だけでも公開して欲しい、というご要望をたくさん頂いていました。そこで今回第1回から第3回の資料を公開させていただく事になりました。 ※ 2020/06/25更新：第4回の資料を追加公開しました以下よりご覧いただけます。(PDFフ

lepton9 2020/06/20

リンク

アプリケーションにおけるデータ不整合との戦い - blog.syfm

これは Aizu Advent Calendar 2019 の 15 日目の記事です。14 日目は uzimaru0000 さん、16 日目は kacky__917 さんです。はじめに世の中には日々たくさんの価値ある Web サービスが生まれていますが、その価値を正しく提供するにはアプリケーションが正しく動かなければなりません。たとえばアプリケーションは適切なユーザに適切なリソースを提供しなければならず、エラーを返す際は十分に定義された仕様に沿って返し、UI 側ではユーザに適切なメッセージを表示しなければなりません。実際のところ、これらを厳密に実現するのは非常に困難ですが、アプリケーションにはこれら以上に複雑な問題が常につきまといます。現在の Web アプリケーションはほとんどが分散システムの一形態です。例えばクライアントとサーバや、サーバとデータベースがネットワークを介して接続

lepton9 2019/12/16

リンク

イミュータブルデータモデルと webアプリケーションにおける現実解 - Qiita

これは第2のドワンゴ Advent Calendar 2017の5日目です 5日11時時点で2日担当の yonex がまだ記事書いてないですが、気にせず続けます。niconico(く)のリリースが来年と聞いて残念な気持ちです。おめー誰よ？ドワンゴ Advent Calendar皆勤賞っぽいですが、私はドワンゴ社員ではありません。定年をとうに過ぎたおじさんです。前置き web アプリケーションの開発において、データモデリングはとても重要です。 SIerではDBAとか言って専門の設計担当がいるみたいですが、中小webサービス企業でそこまでの分業ができるわけもなく、大体においてwebアプリケーション(サーバサイド)エンジニアが担当することになります。詳細はリンクに譲りますが、「履歴を全て残すようなデータ設計にし、 UPDATE を廃することで情報の追跡可能性を確保、堅牢な設計にする」モ

lepton9 2017/12/06

リンク

Logstash を使って MySQL データを Elasticsearch にインデックスする（基本編）

リレーショナルデータベースで管理しているデータを Elasticsearch で検索・分析したい場合、Logstash が便利です。 Logstash とは？Logstash はオープンソースのサーバーサイドデータ処理パイプラインです。様々な数のソースからデータを取り込み、変換し、指定された任意のストア先にデータを格納することができます。処理の内容はシンプルで、Input ステージでソース元の接続先情報を管理し、Filter ステージで変換をし、Output ステージで格納先接続先情報を定義します。Input 及び Output プラグインはデフォルトで様々なソースをサポートしています。そのため、Logstash を使えば、プログラミングレスで MySQL のデータを取り込み、変換し、Elasticsearch へインデックスすることができるのです。事前準備MySQL と Elasti

lepton9 2017/07/05

data
db

リンク

BdashというBIツールをリリースしました - hokaccha memo

BdashというアプリケーションをElectronで作りました。 bdash-app/bdash: A simple business intelligence application. 以下からダウンロードしてインストールできます（現状まだMac版だけ）。 https://github.com/bdash-app/bdash/releases ざっくりとこんな感じのことができる。 SQLを書いて保存＆実行できる結果を元にグラフを書ける gistで共有できる現状で対応しているデータソースはMySQL、PostgreSQL（Redshift含む）、BigQuery 仕事でRedshiftを使って分析SQLを書くことが増えて、手元ではJupyter Notebookを使ってたんだけど、SQL書いてグラフを書くだけの用途には若干オーバースペックでもうちょっと簡単にできるといいなと思ったのがき

lepton9 2017/02/08

リンク

【Slack×Re:dash】リアルタイムKPI通知をコード0行で実現する - Gunosyデータ分析ブログ

データ分析部で部長をしている@cou_zです。最近はLIBROのマイクロフォンコントローラーをよく聴いています。 Gunosyにおけるプロダクト改善は、データ可視化による現状把握から始まると考えています。ログを収集して、ダッシュボードでKPI(重要業績指標)を可視化することは、今では当たり前のことになっていると思います。深夜バッチでKPIを集計して、翌朝に確認することは重要ですが、KPIをリアルタイムに知ることによって、現状把握がさらに進むことがあります。しかし、リアルタイムにKPIを集計できたとしても、実際にそれらを確認するとは限りません。頻繁にダッシュボードを見るのはとても億劫で、次第に見なくなってしまいがちです。そこで、日常的に開いているチャットにKPIがリアルタイムに通知されると、確認の際の負担を軽減することができます。 Gunosyでは、チャットツールにSlackをダッシュボ

lepton9 2016/08/25

リンク

ディレクターがSQLを使えてよかった話 - クックパッド開発者ブログ

こんにちは。ディレクターの川原田です。クックパッドでお気に入りレシピを保存する「MYフォルダ」のサービス開発や、保存・記録に関する新規サービスの検討・開発を担当しています。ディレクターの仕事は様々ありますが、今回は私が身につけたことで仕事領域が広がった！と感じているSQLについてお話ししたいと思います。いきなりですが、SQLが使えてよかった点をまとめると以下です。よかったこと数値抽出から分析まで自己完結エンジニアとのコミュニケーションがスムーズに仕事が増えていそうで実は効率アップ周囲の知的好奇心を刺激それぞれ具体例を交えてお話します。数値抽出から分析まで自己完結事例１：ログ構造を理解でき後の仕事がスムーズに昨年、アプリのサービス開発を担当した際、エンジニアの設定したログが、実際に送信されるかどうかを事前チェックをしました*1。アプリのリリースはタイミングが決められ

lepton9 2016/07/07

リンク

巨大なバッチを分割して構成する〜SQLバッチフレームワークBricolage〜 - クックパッド開発者ブログ

トレンド調査ラボの青木峰郎（id:mineroaoki）です。好きなRubyのメソッドは10年前からString#slice(re, nth)ですが、最近はRubyよりCoffeeScriptとSQLのほうが書く量が多くて悩んでいます。今日はわたしが開発している「たべみる」の背後で働いている巨大バッチの構成について話したいと思います。たべみるのバッチは約3000行のSQLで構成されており、処理時間が1日で4時間程度かかる、そこそこの規模のプログラムです。このバッチ処理プログラムをBricolage（ブリコラージュ）というフレームワークで構造化する手法について説明します。「たべみる」とはまず最初に、「たべみる」がどういうものなのかごく簡単にお話ししておきましょう。「たべみる」は企業のみに提供しているB2Bの分析サービスで、クックパッドのレシピ検索の分析をすることができま

lepton9 2015/06/27

リンク

PostgreSQLのアンチパターン : 何でもかんでもjsonに入れる | Yakst

PostgreSQL 9.2より追加されたJSON型だが、特徴を理解して適切に使わないと色々な副作用に悩まされることになる。その問題点を挙げると共に、どのような場合に使うべきかの指針を示す。 PostgreSQLは、データ型としてjsonをサポートしています。しかし、やりたいことがある時に何でもかんでもjson型を使ってしまうというのはやめるべきです。これは、hstoreや新しく登場したjsonb型にも同じことが言えます。これらの型は必要な時には便利なツールになりますが、PostgreSQLでデータのモデリングを行う際に最初に検討すべきものではありません。なぜなら、データを呼び出したり操作したりするのが難しくなってしまうためです。何もかも同じところに入れてしまおうとすることによるアンチパターンをご存知の読者もいるでしょう。EAVアンチパターンは、長らくデータベーススキーマにおける必要悪

lepton9 2015/06/03

data
db

リンク

オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援

オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援何ギガバイトもあるCSVをデータベースに読み込ませるようなバルクデータをバッチ処理するためのツール「Embulk」がオープンソースで公開されました。コミッターとして開発しているのは、ログ収集ツールとして知られるfluentdなどの開発者として知られる古橋貞之氏、西澤無我氏、中村浩士氏らで、3人が所属するTreasure Dataも開発を支援しています。古橋氏はEmbulkについて「簡単に言うとfluentdのバッチ版です」と説明。1月27日に行われた「データ転送ミドルウェア勉強会」で、Embulkの紹介を行いました。 Embulkはプラグインベースのバルクデータローダー古橋氏はまず、例えばCSVファイルをPostgreSQLに読み込ませようとすると、CSVの日付のフォーマットが

lepton9 2015/01/28

リンク

Loading...

lepton9 2014/11/07

リンク

PostgreSQLのログをFluentdで収集する

データベースの運用管理にログの情報は不可欠ですが、オープンソースのDBMSであるPostgreSQLが出力するログは、直接取り扱うのに適した形式とは言えません。そこで本記事では、オープンソースのログ収集ツールであるFluentdを使って、PostgreSQLのログを運用管理に活用しやすい形に加工する方法を紹介します。 PostgreSQLの運用管理に使う稼働統計情報とログデータベースを安定稼働させるには、データベースを健全な状態に保つ運用管理が必要不可欠です。データベースの運用管理には一般的に死活監視、リソース監視、性能分析、チューニング、バックアップといった項目が挙げられますが、まずは監視によって正しく現状を把握することが、運用管理の第一歩と言えるでしょう。PostgreSQLで監視に使える機能には、稼働統計情報とログがあります。稼働統計情報はPostgreSQLの様々な稼働情報を蓄積

lepton9 2014/10/03

リンク

neue cc - LINQ to BigQuery - C#による型付きDSLとLINQPadによるDumpと可視化

と、いうものを作りました。BigQueryはGoogleのビッグデータサービスで、最近非常に脚光を浴びていて、何度もほってんとりやTwitterに上がってきたりしてますね。詳細はGoogle BigQuery の話とかGoogleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由あたりがいいかな、超でかいデータをGoogleパワーで数千台のサーバー並べてフルスキャンするから、超速くて最強ね、という話。で、実際凄い。超凄い。しかも嬉しいのが手間いらずなところで、最初Amazon RedShiftを検討して試していたのですが、列圧縮エンコードとか考えるのすっごく大変だし、容量やパワーもインスタンスタイプと睨めっこする必要がある。それがBigQueryだと容量は格安だから大量に格納できる、チューニング設定もなし、この手軽さ！おまけにウェブインターフェイスが中々優れ

lepton9 2014/09/25

リンク

BigQuery と Google の Big Data Stack 2.0 - naoyaのはてなダイアリー

先日、有志で集まって「BigQuery Analytics」という書籍の読書会をやった。その名の通り Google BigQuery について書かれた洋書。 BigQuery を最近仕事で使い始めたのだが、BigQuery が開発された背景とかアーキテクチャーとかあまり調べもせずに使い始めたので今更ながらその辺のインプットを増やして以降と思った次第。それで、読書会の第1回目は書籍の中でも Overview に相当するところを中心に読み合わせていった。それだけでもなかなかに面白かったので少しブログにでも書いてみようかなと思う。 BigQuery の話そのものも面白いが、個人的には Google のインフラが書籍『Google を支える技術』で解説されたものが "Big Data Stack 1.0" だとして、BigQuery は Big Data Stack 2.0 の上に構築されており

lepton9 2014/08/16

リンク

ログ集計／時系列DB／可視化ツールの調査結果 - Qiita

近年、自分の中で集計／可視化は Fluentd(datacounter)+Growthforecast で定番化していました。しかしプロダクトで新たに集計／可視化の要件が出てきたことと、最近可視化ツール周りで「Kibanaってなんじゃ？」「Graphiteってなんじゃ？」「Influx DBってなんじゃ？」など、このツール達は一体何なんだろう…？というのが前々から気になっていました。今回良い機会なので ◯◯は何をするものなのか？というのを一つ一つ調べてみました。いわゆる「触ってみた系」の記事なのでだいぶ浅い感じです。大分類大きく分けると、可視化ツールは以下の３つに分けられそうです。ログ収集/集計時系列DB（＋API）の担当。バックエンド側。可視化部分の担当。今回はバックエンドと可視化部分に焦点を当ててみます。バックエンド全文検索時エンジン+Restfu

lepton9 2014/05/22

リンク

Norikra v1.0.0 - たごもりすメモ

English article 以前からスキーマレスなストリーム処理をSQLで！というソフトウェアとして作っていたNorikra、このたびあちこち機能改善したりしたので、既にお仕事で絶賛稼働中ということもあるし、区切りとして v1.0.0 としてリリースした。ついでにロゴとかも作ったので、なんとなくいい感じになりつつある。 https://rubygems.org/gems/norikra/versions/1.0.0-java http://norikra.github.io/ 修正点はリポジトリのChangesに書いてあるが、curlだけで操作できるようHTTP JSON APIが加わってたり、GCまわりでハマらないようなデフォルトオプションが入ってたり、分析系クエリを書きたい人のために Group-by with Rollup や Grouping sets, Cube などの

lepton9 2014/05/21

リンク

最近のライトノベルは～と言う前に見て欲しい『ライトノベル新作データベース』 : わなびニュース

最近のライトノベルは～という言説を時々見かけますが、その話のソースって何なのと尋ねたくなる場合が多いです。本当に最近のライトノベルは俺TUEEEばかりなのか、異世界召喚ファンタジーばかりなのか、なろう小説に押されて新人賞が機能不全になっているのか。これらを調べるために2014年の新作ライトノベルのデータベースを作ってみました。ライトノベル新作データベース（Google Spreadsheets） 2014年5月7日時点で発売されている少年向けレーベルの新作ライトノベル184作品の情報をまとめました。ラノベの杜さんのデータを元に、管理人がジャンルなどの情報を追加してします。読み方 J行のジャンルはあらすじに書いてあるジャンルや、読書メーター・2ch・書評ブログ等で読者がその作品をどのジャンルと捉えているかを参考にして記載しています。ハイファンタジーは主人公が元々その世界の住人である