[B! SQL][database][sql] manabouのブックマーク

データベース自作勉強会・輪実装会のススメ - エムスリーテックブログ

先日、社内有志で開催していたDB自作本 Database Design and Implementation の輪読会ならぬ輪実装会がついに完結を迎えました。 RDBMSをゼロから、毎週一人ずつ、1章分を実装してPullRequestを出しつつ資料も準備して発表をこなすという一見ハードな勉強会で、完走できるか不安もありつつスタートしましたが、やってみるとめちゃくちゃ楽しく最後まで完走できました。本記事ではみなさんに「うちでもやってみたい」と思ってもらえることを願って、読んだ本の推しポイントや、どのように勉強会を進めたかを紹介したいと思います。感動で涙の出るコード Part1: おすすめポイント本が良いみんなでワイワイやるのが良い 3ヶ月で完走できるのがいい完走後のモチベーションアップが良い Part2: 輪実装会募集参加者進め方・実装期間 Part3: おれたちのDB実装

manabou 2024/10/01

リンク

「みんなさぁ、データベースって何で学んだ？」単なるSQLやテーブル設計のいろはとかではなく『データベース』そのものの勉強についての質問に有益な情報が集まる

𝕏 𝕃（おおきなえる）🌸🐻💿⚒️ @ellnore_pad_267 みんなさぁ・・・データベースって何で学んだ？あんま学ぶチャンスなくね？そんなことはないか？単なる SQL やテーブル設計のいろはとかではなく『データベース』そのものの勉強な。オプティマイザとかその辺の細かい部分の話。 2024-09-09 20:18:38 𝕏 𝕃（おおきなえる）🌸🐻💿⚒️ @ellnore_pad_267 > 単なる SQL やテーブル設計のいろはとかではなく『データベース』そのものの勉強な。オプティマイザとかその辺の細かい部分の話。この部分読めてない奴が一定数おる？？？？ 2024-09-10 10:12:46

manabou 2024/09/10

リンク

インデックスを理解したい - Qiita

はじめにみなさんはDBのインデックスを正しく使えていますか？私はなんとなく「DBのパフォーマンスを向上するためのもの」という認識はあったのですが、どのような場面で使うものなのか、逆にどのような場面では使うべきでないのかなど明確に理解できていませんでした。今回はそんなインデックスについての理解を深めたいと思います。インデックスとはインデックスとは、その名の通り「索引」です。表現の仕方と変えると、(x, a)という形式の配列であるとも言えます。 xというキー値とそれに結びつくaというデータ情報があり、これを利用することですべてのデータを網羅して見ることなく、まさに本の索引のように目的のデータにたどり着くことができます。インデックスはSQLのパフォーマンスを改善するための非常にポピュラーな手段であり、理由としては下記の3点が挙げられます。アプリケーションのコードに影響を

manabou 2024/03/20

リンク

リレーショナル・データベースの世界

序文私の仕事は、DB エンジニアです。といっても別に望んでデータベースの世界へきたわけではなく、当初、私はこの分野が面白くありませんでした。「Web系は花形、データベースは日陰」という言葉も囁かれていました。今でも囁かれているかもしれません。ですが、しばらくデータベースを触っているうちに、私はこの世界にとても興味深いテーマが多くあることを知りました。なぜもっと早く気づかなかったのか、後悔することしきりです。もちろん、自分の不明が最大の原因ですが、この世界に足を踏み入れた当時、先生も、導きの書となる入門書もなかったことも事実です。今でこそバイブルと仰ぐ『プログラマのためのSQL 第2版』も新入社員には敷居が高すぎました (2015年2月追記：その後、自分で第4版を訳出できたのだから、人生は何があるか分からないものです)。そこで、です。このサイトの目的は、データベースの世界に足を踏み

manabou 2024/02/29

リンク

データベースを勉強したいあなたに送る技術書17冊(+11冊1講義7link)

これはなにども、レバテック開発部のもりたです。最近めっちゃ元気！！今回は『データベースについて勉強したいあなたに送る技術書17冊(+11冊1講義7link)』として、もりたがここ半年くらいでわーっと集めたデータベース周りの書籍（とか）を紹介していきます。アプリケーションって結局はデータベースみたいなところがあると思うんですが、おれは長いことデータベースをどう学んだら良いのか分かりませんでした。同じような気持ちを抱えているIT エンジニアの人もいると思うので、学習ロードマップと合わせて紹介していきます。なお具体的な対象読者は業務でなんとなくSQL書いてるけど、ウィンドウ関数とか言われると分からんな……くらいの人です。扱う領域と扱わない領域扱う領域としてはだいたい以下再入門本 SQL 内部構造論理設計周辺知識データベース理論その他高度なものモデリング、NoSQL、分散データ

manabou 2024/02/13

リンク

実践Immutable Data Model - 紙箱

ランキング参加中プログラミングはじめにこの記事では、Immutable Data Modelと呼ばれる設計手法をもとに、リレーショナル・データベースにおける、テーブル設計の話を書いています。また、今回の実践で利用する、別の考え方の背景を理解するために、Out of the tar pitという小論文の内容にも言及します。「状態とは何か？」というややこしい話がたくさん出てきますし、データベースのテーブル設計についての話であることから、たくさんのSQLが出てきます。なので、データモデリングとか状態管理とか、特にSQLとかに興味がない人には面白くないと思います。そのあたりに興味ある方は、読んでみて欲しいです。 Immutable Data Modelを、実際のアプリケーションで使うデータベースに採用するにあたり、どういう考え方で、どのようにテーブルを構成したか、自分なりの経験を書いていま

manabou 2024/01/10

リンク

SQLの実行計画の読み方 |

今回は、SQLを書く上で特にパフォーマンスに影響のあるSQLの実行計画の読み方について解説します。実行計画はデータベース製品によってさまざまに差異がありますが、ここでは比較的どのデータベース製品でも共通する内容について解説します。実行計画とは記述したSQLが実際にデータベースの内部でどのように処理されて結果を返すか、その処理方法を記述した情報です。 A5:SQL Mk-2では、SQLエディタで実行計画を見たい SQL の上にキャレットがある状態でメニューから [SQL(S)] – [SQLの実行計画(J)] または、Ctrl+E で表示できます。表示の仕方はデータベース製品ごとに異なりますが、多くのデータベース製品ではツリー状の情報として表現されます。（このため A5:SQL Mk-2でもツリービューで実行計画を表示します。）ツリーのリーフ（端）から処理が行われ、ルート（根）に向かっ

manabou 2023/05/06

リンク

オレ的EXPLAIN技を語っちゃうゾ - Qiita

最下行（内部表）のLoopsは上の塊（駆動表）で得られた結果の行数分発生していて、Loop回数×所要時間が膨大になってしまった。**B社は仕事を受けた時点ではこんなにLoopするとは思ってなかったのでしょう。**これ、行数の見積が正確なら最初からLoop回数の予測が立って、最初からHash Joinしてるでしょ。プランナ仕事しろ案件です。階層が深いところから読む説に対して問題であった「B社がIndexScan」してるところは実行計画の階層（インデント）としてはかなり浅いところに出てきてますよね。「階層が深いところ」から見ていく方式だと、全体としては概ね問題ない「A社内の一部の仕事（3次請け、4次請けの仕事）」を掘っているだけで、このタイプの問題にはなかなかたどり着けないんですよね。「今まで深いところから見てたわ～」という方へ。アナタもワタシも雰囲気チューニングの同志ってことです🥰

manabou 2021/12/26

リンク

高性能分散SQLエンジン「Trino」最速ガイド - NTT docomo Business Engineers' Blog

こんにちは。なんの因果かNTTコミュニケーションズのエバンジェリストをやっている西塚です。この記事は、NTT Communications Advent Calendar 2021 22日目の記事です。 5分でわかる「Trino」「Trino」は、異なるデータソースに対しても高速でインタラクティブに分析ができる高性能分散SQLエンジンです。以下の特徴を持っており、ビッグデータ分析を支える重要なOSS(オープンソースソフトウェア)の1つです。 SQL-on-Anything: Hadoopだけでなく従来のRDBMS(リレーショナルデータベース)やNoSQLまで、標準SQL(ANSI SQL)に準拠したアクセスをワンストップに提供並列処理でビッグデータに対して容易にスケールアップしかも高速(hiveの数十倍) Netflix, LinkedIn, Salesforce, Shopif

manabou 2021/12/23

リンク

ゼロから作る時系列データベースエンジン

軽量な時系列データベースエンジンをスクラッチで開発する機会があったので、どのように実装したのかを必要知識の解説を交えながらまとめていきます。実装はGo言語によるものですが、本記事のほとんどは言語非依存な内容となっています。モチベーション筆者は時系列データを扱うツールをいくつか開発しています。その中の一つであるAliは負荷テスト用のcliツールで、メトリクスをクライアント側でリアルタイム描画できるのが特徴です。リクエスト毎にレイテンシーなどの計測結果が際限なく書き込まれてくる中、同時に一定のクエリパフォーマンスが求められます。これは言ってしまえば、簡易クエリ機能付きのpush型モニタリングシステムを単一ホストで実現するようなものです。以前までの実装ではヒープ上の可変長配列にデータポイントを追加していくだけだったので、当然ながら時間の経過とともにメモリ使用量が増加していく問題を抱えて

manabou 2021/07/01

リンク

データベースを遅くするための８つの方法

はじめに Twitterのタイムラインを見ていたらバッチ系のプログラムで逐次コミットをやめて一括コミットにしたら爆速になったというのを見ました。当たり前でしょ、と思ったけど確かに知らなければ分からないよね、と思って主に初心者向けにRDBを扱うときの注意点をまとめてみました。プログラミングテクニック的なところからテーブル設計くらいの範疇でDBチューニングとかは入ってないです。自分の経験的にOracleをベースに書いていますが、他のRDBでも特に変わらないレベルの粒度だと思います。大量の逐次コミットをするバッチアプリケーションでDBにデータをインサートすると言うのはかなり一般的な処理です。しかしデータ量が少ない時はともかく大量のインサートを逐次コミットで処理するとめちゃくちゃ遅くなります。数倍から十数倍遅くなることもあるので、10分程度のバッチが１時間越えに化けることもザラにあるので原

manabou 2020/11/16

リンク

1000万件オーバーのレコードのデータをカジュアルに扱うための心構え - joker1007’s diary

自分が所属している会社のメンバーの教育用資料として、それなりの規模のデータを扱う時に前提として意識しておかなければいけないことをざっくりまとめたので、弊社特有の話は除外して公開用に整理してみました。大規模データ処理、分散処理に慣れている人にとっては今更改めて言うことじゃないだろ、みたいな話ばかりだと思いますが、急激にデータスケールが増大してしまったりすると環境に開発者の意識が追い付かないこともあるかと思います。そういったケースで参考にできるかもしれません。弊社は基本的にAWSによって運用されているので、AWSを前提にした様なキーワードやサービス名が出てきます。後、句読点があったり無かったりしますが、ご容赦ください。追記: 社内用の資料の編集なのでかなりハイコンテキストな内容だから誤解するかもしれませんが、これらはそもそもRDBの話ではありません。(関係無くは無いけど) 1000万オ

manabou 2020/11/05

リンク

AWS、SQL互換の新問い合わせ言語「PartiQL」をオープンソースで公開。RDB、KVS、JSON、CSVなどをまとめて検索可能

Amazon Web Services（以下AWS）は、SQL互換の新しい問い合わせ言語およびそのリファレンス実装である「PartiQL」をオープンソースとして公開したことを発表しました。 PartiQLはSQL互換の構文に最小限の拡張を施すことで、リレーショナル形式のデータベースだけでなく、KVSやJSONなどを含むNoSQLデータベースやCSVファイルなど、さまざまなデータソースに対して横断的に検索できる問い合わせ言語およびそのリファレンス実装です。下記はPartiQLを発表したブログからの引用です。 Today we are happy to announce PartiQL, a SQL-compatible query language that makes it easy to efficiently query data, regardless of where or in

manabou 2019/08/05

リンク

「SQLアンチパターン」を避けるためのチェックリスト③（SQLクエリ設計編） - log4ketancho

引き続き「SQLアンチパターン」について、自分なりのチェックポイントを言語化していきたいと思います。「SQLアンチパターン」を避けるためのチェックリスト①（DB論理設計編） - log4ketancho 「SQLアンチパターン」を避けるためのチェックリスト②（DB物理設計編） - log4ketancho 「SQLアンチパターン」を避けるためのチェックリスト③（SQLクエリ設計編） - log4ketancho 【本記事】「SQLアンチパターン」を避けるためのチェックリスト④（アプリケーション設計編） - log4ketancho この記事では、SQL クエリを作成するときに抑えておきたい勘所について整理します。 SQLアンチパターン作者: Bill Karwin,和田卓人,和田省二,児島修出版社/メーカー: オライリージャパン発売日: 2013/01/26メディア: 大型本購入:

manabou 2018/03/22

リンク

MySQLのクエリの良し悪しはrows_examinedで判断する - かみぽわーる

仕事やらなんやらでMySQLのクエリの良し悪しを判断する必要があるとき、EXPLAINの内容だけだとどのぐらい良くなったり悪くなったのか分からないので SET long_query_time = 0; してrows_examined (そのクエリでrows_sent行の結果を返すために何行に触ったのか)も一緒に提示するようにしている(少なくともMySQL 5.7時点ではrows_examinedはslow_query_logでしか確認できないはずperformance_schemaが有効ならevents_statements_historyやその仲間たちで確認できるとのこと*1 MySQL :: MySQL 5.6 リファレンスマニュアル :: 22.9.6 パフォーマンススキーマステートメントイベントテーブル)。例: 上の例のBeforeは、もともとDBAが書いた温かみのあるSQLでO

manabou 2018/03/22

リンク

「SQLアンチパターン」を避けるためのチェックリスト②（DB物理設計編） - log4ketancho

引き続き「SQLアンチパターン」について、自分なりのチェックポイントを言語化していきたいと思います。下記の記事の続きです。 www.ketancho.net 本題に入る前に、ふたつ。嬉しかったこととお詫び（？）を。 t_wada さんからコメントを頂けた😂 素晴らしいエントリをありがとうございます。『SQLアンチパターン』は名著であると胸を張って言えます。ご興味をお持ちの方はこの機会にぜひ。 / “「SQLアンチパターン」を避けるためのチェックリスト①（DB論理設計編） - log…” https://t.co/Vjj0Yh2cqU— Takuto Wada (@t_wada) 2018年3月8日スーパーなエンジニアの方からコメントをいただけるなんてと、帰り道ニヤニヤしてましたｗ色々拙い部分があると思いますが、自分の理解のために拙くてもいいので言語化を続けていこうと思っています。引き

manabou 2018/03/09

リンク

非エンジニアが最速でSQLをマスターする方法 - Gunosy Tech Blog

こんにちは、データ分析部の石塚です。 Gunosyではエンジニア以外の職種でもSQLを叩いて自らデータを集計・分析するという習慣と全社員が各サービスのログ*1に触ることができる環境があります。例えば、ユーザー獲得を担っているプロモーションチームはエンジニアが0名のチームなのですが、実際にSQLを叩いています。それによって、自分たちの獲得したユーザーはどのような行動をしているのかを確認したり、分析することができています。これはGunosyのみの事例ではなく、AWSのRedshiftやAthena、GCPのBigQueryが台頭してきたおかげで、どの会社も低コストにログをSQLで集計・分析できる基盤が整ってきています。個人的にはアプリやウェブの業界で働くマーケターにはSQLは必須の知識と言える時代になってきたと感じています。そこで今回は特別プログラミングなどの経験が無い人でも、SQL

manabou 2018/02/06

リンク

gstore_fdw: GPUメモリをSQLで読み書き、そして…。 - KaiGaiの俺メモ

昨年、PGconf.ASIAで発表したPL/CUDAによる創薬ワークロードの高速化実験のテーマであるが、 kaigai.hatena blog.com 実測したベンチマークを見ると、奇妙な傾向が見てとれる。このワークロードにおける計算量は「Qの行数×Dの行数」であるので、Dの行数が同じ1000万行であるならば、Qの行数が1000のケース（22.6s）に比べ、Qの行数が10のケース（13.4s）の実行時間はもっと顕著に短時間でなければならない。計算量が1/100なのに、実行時間は半分弱にしかなっていない。実はこれは、化合物同志の類似度を計算するための時間だけでなく、PL/CUDA関数に与える引数をセットアップするための時間に12秒程度を要しており、アムダールの法則を引用するまでもなく、類似度の計算を高速化するだけでは処理速度はこれ以上伸びないのである。 PL/CUDA関数の引数として行列

manabou 2017/11/13

リンク

カスタムロジックをWHERE句で使う - KaiGaiの俺メモ

しばらくSSD-to-GPUダイレクトSQL実行の開発にどっぷり時間を突っ込んでいたので、久々にPL/CUDAネタ。この辺のネタや、 kaigai.hatena blog.com この辺のネタで kaigai.hatena blog.com 紹介したように、PG-Stromはユーザ定義関数をCUDA Cで記述するための機能（PL/CUDA）を持っており、これを使えば、データベースから読み出したデータをGPUに流し込み、GPU上でカスタムのロジックを実行した後、結果をまたSQLの世界へ戻すという事ができる。この仕組みはPostgreSQLの手続き言語ハンドラの機能を用いて実装されており、ユーザ定義のPL/CUDA関数が呼び出される毎に、手続き言語ハンドラが以下の処理を行う。ユーザ記述のCUDA Cコードブロックをテンプレートに埋め込んで、ビルド可能なソースコードを作成。 NVRTC(NVI

manabou 2017/11/13

リンク

SQLトランザクション分離実践ガイド | POSTD

(注：2017/10/16、いただいたフィードバックを元に翻訳を修正いたしました。) (注：2017/10/11、いただいたフィードバックを元に翻訳を修正いたしました。) データベースのドキュメントで分離レベルを目にして、軽く不安を感じつつ、あまり考えないようにしたことはないでしょうか。トランザクションの日常の使用例できちんと分離について言及しているものはほとんどありません。多くはデータベースの初期設定の分離レベルを利用しており、後は運頼みです。しかし、本来、理解しておくべき基本的なトピックであり、いくらか時間を投入してこのガイドの内容を学習すれば、もっと快適に作業できるようになるでしょう。私はこの記事の情報を学術論文、PostgreSQLドキュメンテーションから集めました。分離レベルの何たるかだけでなく、適用の正確さを保持しつつ最大速度で使うにはいつ使うべきか、という疑問に答えるべ

manabou 2017/10/11

リンク

はてなブックマーク

タグ

関連タグで絞り込む (0)

SQLとdatabaseとsqlに関するmanabouのブックマーク (63)

お知らせ

今週のはてなブックマーク数ランキング（2025年8月第5週）

今週のはてなブックマーク数ランキング（2025年8月第4週）

今週のはてなブックマーク数ランキング（2025年8月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス