[B! database] usadamasaのブックマーク

スキューのない世界を目指して - クックパッド開発者ブログ

こんにちは。インフラストラクチャー部データ基盤グループの小玉です。先日Amazon Redshift（以下、Redshift）で32TBのテーブルを全行スキャンするクエリを3本同時に走らせたまま帰宅し、クラスターを落としてしまいました。普段はRedshiftのクエリをチューニングしたり、データ基盤周りの仕組みを慣れないRubyで書いたりしています。突然ですが、スキュー(skew)という単語をご存じでしょうか。「skew 意味」で検索すると「斜め」とか「傾斜」といった訳が出てきますが、コンピューティング界隈では「偏り」という訳語が定着していると思います。さらに、分散並列DB界隈で単にスキューもしくは偏りと言った場合、それはしばしばデータの偏りを指します。データが偏っているとはデータが偏っているとは、複数ノードで構成される分散並列DBにおいて、各ノードが保持するデータ量（行数）に

usadamasa 2020/08/24

database

リンク

NewSQL その成り立ちとモチベーション

Database Lounge Tokyo #6の発表資料です。（参考URL）・NewSQLのblog https://qiita.com/tzkoba/it ems/5316c6eac66510233115 https://qiita.com/tzkoba/it ems/3e875e5a6ccd99af332f ・B-TreeとLSM-Tree https://docs.google.com/presentation/d/e/2PACX-1vSNk8RkQrVRm_BNZKYyz0sl1k7C6yjTfJIqfMDxnnka8f4pfpf6j2yuXvxvyVGnrzRERdAaxNbOU-CT/pub?start=false&loop=false&delayms=3000&slide=id.g4c1e3ed2c3_0_6 ・ConsistencyとIsolation https://f

usadamasa 2020/07/20

リンク

NoSQLデータモデリング技法

NoSQLデータモデリング技法.markdown #NoSQLデータモデリング技法原文：NoSQL Data Modeling Techniques « Highly Scala ble Blog I translated this article for study. contact matope[dot]ono[gmail] if any probl em. NoSQLデータベースはスケーラビリティ、パフォーマンス、一貫性といった様々な非機能要件から比較される。NoSQLのこの側面は実践と理論の両面からよく研究されている。ある種の非機能特性はNoSQLを利用する主な動機であり、NoSQLシステムによく適用されるCAP定理がそうであるように分散システムの基本的原則だからだ。一方で、NoSQLデータモデリングはあまり研究されておらず、リレーショナルデータベースに見られるようなシステマティック

usadamasa 2020/06/22

リンク

Amazon S3のデータを直接検索できる「MongoDB Atlas Data Lake」正式リリース。データベースへの転送不要、MongoDBのクエリ言語を直接実行

Amazon S3のデータを直接検索できる「Mongo DB Atlas Data Lake」正式リリース。データベースへの転送不要、Mongo DBのクエリ言語を直接実行 Mongo DBは、Amazon S3に保存されているデータをそのままデータベースへ転送することなく、直接Mongo DBのクエリ言語で検索可能にするクラウドサービス「Mongo DB Atlas Data Lake」の正式リリースを発表しました。発表は同社がオンラインで開催したイベント「Mongo DB.Live 2020」で行われました。通常、データベースで検索や分析の対象となるデータはデータベース内に保存されているデータであるため、ファイルサーバやオブジェクトストレージなどに保存されているJSONデータやCSVファイルなどは、何らかの方法でデータベースへインポートする必要があります。 Mongo DB Atlas Data

usadamasa 2020/06/11

リンク

データベースドキュメント生成コマンド tbls 更新情報 ( PostgreSQL publicスキーマ表示仕様変更/Amazon DynamoDB対応/goccy ware etc) - Copy/Cut/Paste/Hatena

ここ最近tblsのアップデートエントリを書いていなかったのですが、最近変更をいくつか行いました。このまま放置するとちょっと紹介しきれなくなりそうなので、ここら辺で放出しておこうと思います。紹介時点のtblsのバージョンはv1.29.0です。 PostgreSQLでの public. スキーマ表示仕様変更 tblsでは、もともとPostgreSQLの public. スキーマ（ schema_name.table_name.column_name の schema_name ）だけ特別に非表示にしていました。こうなっていた理由は、私がPostgreSQLでのスキーマを意識した運用経験がなかったことに寄る部分が大きいです。「デフォルトだから非表示で良いだろう」と。ところで、tblsにはlintの機能があります。「テーブルカラムにコメントが書かれているか？」とか「外部キーの参照元にIND

usadamasa 2020/03/17

リンク

2020年現在のNewSQLについて - Qiita

Disclaimer 当記事はNewSQL開発ベンダの技術ブログや各種論文、その他ニュースサイト等の内容を個人的にまとめたものです。そのため、理解不足等に起因する誤解・誤認を含む可能性があります。更なる理解が必要な方はリファレンスに挙げた各種文献を直接参照下さい。技術的な指摘は可能であれば取り込み修正しますが、迅速な対応はお約束できません。 NewSQLの解説は二部構成当記事は前編でNewSQLの概要編となる。全体の目次は下記である。 NewSQLとは何か NewSQLのアーキテクチャ NewSQLとこれまでのデータベースの比較 NewSQLのコンポーネント詳解 1章から3章までの内容を当記事で解説する。 4章はさらに詳細な技術的解説となり、後編の「NewSQLのコンポーネント詳解」で記述している。こちらも合わせて一読いただきたい。 1. NewSQLとは何か NewSQLとは、海

usadamasa 2020/03/09

リンク

会話分析におけるGraphDBの活用 - Zeals TECH BLOG

こんにちは。ZealsでCTOをしている佐藤です。 Zealsでは AdventCalendarを開催しており、そちらの15日目の記事となります！はじめに会話分析とは？何がしたいか Neo4j 技術選定について環境構築・実行振り返りさいごにはじめに会話分析とは？私達が開発しているZealsは「ネットにおもてなし革命を！」をコンセプトにした、ユーザーと会話して商品を案内するチャットコマースのサービスです。チャットコマースについて詳細が知りたい方は、同じくZeals AdventCalenarで公開された以下の記事をご覧ください！ qiita.com このZealsの会話体験を向上させていく中で、ユーザーとチャットボットとの会話データを分析していく必要があります。現在ではMySQLやBigQueryにデータを格納することで、 ETL分析や機械学習のためのマスターデー

usadamasa 2019/12/16

リンク

Row Level Securityはマルチテナントの銀の弾丸になりうるのか / Row Level Security is silver bullet for multitenancy?

builderscon 2019の発表資料です

usadamasa 2019/10/19

DBの行単位に権限を制御可能なRowLevelSecurity導入事例

リンク

サーバレス時代におけるヘテロジニアス時系列データベースアーキテクチャ - ゆううきブログ

この記事は、第2回ウェブシステムアーキテクチャ研究会の予稿です。ウェブシステムをモニタリングするために、高可用性、高書き込みスケーラビリティ、メトリックの長期保存が可能な時系列データベースが求められている。これらを実現するために、性能特性の異なる汎用Key-Value Store(以下KVS)を組み合わせ、透過的に問い合わせ可能な、ヘテロジニアス時系列データベースであるDiamondを開発した。この記事では、Diamondを分散システムの観点で捉え、アーキテクチャ、データ構造、実装を紹介し、考察によりFuture Workを議論する。 1. はじめに 2. アーキテクチャアーキテクチャ概要動作フローデータ構造 KVSの機能要件 3. 実装実装概要 KVS間のデータ移動データ位置の解決費用特性 4. 考察と今後の課題 Diamondの欠点将来機能 5. まとめスライド

usadamasa 2019/09/22

リンク

2時間かかっていた処理を15分まで短縮　タウンワークのレガシーバッチシステム高速化の軌跡

翔泳社が主催するソフトウェア開発者向けITカンファレンス「Developers Summit 2019」が2月14日～15日に開催されました。プレゼンテーション「タウンワーク90万原稿の掲載を支えるレガシーバッチパフォーマンスチューニング」に登壇したのは、株式会社リクルートテクノロジーズIT エンジニアリング本部プロダクトエンジニアリング部、リクルートジョブズグループの森廣隆行氏。タウンワークのレガシーバッチシステムのパフォーマンスを改善するために行った、数々の泥臭い施策について語りました。講演資料はこちらシステムとインフラ間の設計矛盾森廣隆行氏：そして最後に、ここのSolrの反映のところに関してです。ここでの問題は何かというと、システムとインフラ間の設計の矛盾になります。まず、この部分をフロー化すると、このようになっております。原稿テーブルと関連テーブルのほうからSolr

usadamasa 2019/03/17

database

リンク

(レポート) MongoDB勉強会：MongoDB v3.4新機能と遅いときの切り分け方法 | DevelopersIO

こんにちは、菊池です。 12/14（水）に開催された、Mongo DB勉強会に参加してきましたのでレポートします。告知ページ | Mongo DB中級編：Mongo DBが遅い時の切り分け方主催はクリエーションライン株式会社様で、以下の2テーマで行われました。 Mongo DB v3.4 の新機能について：クリエーションライン株式会社 CSO 鈴木逸平様 Mongo DBが遅いときの切り分け方法：渡部徹太郎様レポート開催にあたって、本勉強会の位置付け/主旨の説明がありました。 Mongo DBが普及してきた。すでにMongo DBを知っている人向けにトリッキーな所に着目してイベントを開催したい。入門レベル/概要的な内容は、Mongo DBだけではなく他のNOSQLを含めて比較する内容でやるべき。 Mongo DB v3.4 の新機能について 2016/6にMongo DB World開催

usadamasa 2019/02/02

リンク

Silo - Qiita

In-Memory DBのアーキテクチャは数多く提案されてきたが、特にパフォーマンスに直結するトランザクション周りでのボトルネック改善は需要の高い研究領域である。これから紹介するStephen TuらのSOSP'13は大きなメモリと多くのCPUコアを活用してより高い性能を発揮するために考案された新しいトランザクションアルゴリズム：Siloを提案している。 In-Memory DBの問題点昨日書いたように、In-Memory DBではページ単位でのバッファプールの管理やWALやUndoログが不要となり、トランザクション内でページを書き換えるたびにLog Sequence Numberを生成する必要はなくなった。コミット時にリカバリに足る分のRedoログが記録できればよいのだが、そのRedo処理を行うためにはログをどの順序で実行すべきかを決定する指標が必要となる。逆に言えば、どの順序でロ

usadamasa 2018/12/28

リンク

Apache Arrowの凄さを体感する - hatappi.blog

データ分析とかをしていると大規模データを扱うことがある。複数のライブラリを使う際にデータ連携を行う際に一度CSVやJSONに出力して連携先ではそれをパースしてといった方法をとることがある。数メガくらいのファイルであれば問題にはならないが、これがギガなどになってくるとこのデータ連携コストが無視できなくなってくる。これを解決する方法の１つとしてApache Arrowというものがある。今回はこれを紹介して実際にどれくらい早いのかを検証してみる。 Apache Arrowとは? 2016年の10月に0.1.0がリリースメモリ上でカラム型データを扱うためのフォーマットとアルゴリズムカラム型でデータを格納するので効率よく圧縮することが出来、メモリ上に書き込むことで読み書きの速さを実現している。昔はメモリなどのリソースは潤沢に使うことは用意ではなかったが、昨今ではAWSなどで何十Gものメ

usadamasa 2018/12/11

データ分析とかで複数のデータストアをまたがってごにょるときに便利っぽい。

database

リンク

ユーザ情報を保存する時のテーブル設計 - そーだいなるらくがき帳

はじめに ※この発言は個人の見解であり、所属する組織の公式見解ではありません用法用量を守り、個人の責任で業務に投入してください参考資料 2024/02/14追記実際のテーブル設計の詳細はこちらを参考にどうぞ。 agilejourney.uzabase.com 要件 User情報を保存するときにどのようなテーブル設計を行うか今北産業で頼むテーブルに状態を持たせず状態毎のテーブルを作る状態が変わればレコードを消して別のtableに作る tableの普遍的な情報は別に持たせる僕の考えた最強のDB設計 PostgreSQLをベースの雑なER図を作った。これを元に話を進める。 table構成 users 親tableであり、すべてのユーザはここに属する。基本はINSERTのみでUPDATE、DELETEを考慮しない。 user_detail userに付随する詳細の情報がここに登録

usadamasa 2018/05/15

“しかしここでは適宜トランザクション利用することは人類には難しいという大前提で話をする。”

リンク

一人トランザクション技術のカレンダー | Advent Calendar 2016 - Qiita

About reserved postingIf you register a secret article by the day before the same day, it will be automatically published around 7:00 on the same day. About posting periodOnly articles submitted after November 1 of the year can be registered. (Secret articles can be registered anytime articles are posted.)

usadamasa 2017/11/23

リンク

SQLトランザクション分離実践ガイド | POSTD

(注：2017/10/16、いただいたフィードバックを元に翻訳を修正いたしました。) (注：2017/10/11、いただいたフィードバックを元に翻訳を修正いたしました。) データベースのドキュメントで分離レベルを目にして、軽く不安を感じつつ、あまり考えないようにしたことはないでしょうか。トランザクションの日常の使用例できちんと分離について言及しているものはほとんどありません。多くはデータベースの初期設定の分離レベルを利用しており、後は運頼みです。しかし、本来、理解しておくべき基本的なトピックであり、いくらか時間を投入してこのガイドの内容を学習すれば、もっと快適に作業できるようになるでしょう。私はこの記事の情報を学術論文、PostgreSQLドキュメンテーションから集めました。分離レベルの何たるかだけでなく、適用の正確さを保持しつつ最大速度で使うにはいつ使うべきか、という疑問に答えるべ

usadamasa 2017/10/10

リンク

米グーグル、GCPでACID特性と拡張性を兼ね備えたデータベースサービス「Cloud Spanner」を発表

米グーグル、GCPでACID特性と拡張性を兼ね備えたデータベースサービス「Cloud Spanner」を発表：「ミッションクリティカル用途に利用可能」米グーグルは2017年2月14日（現地時間）、パブリッククラウドサービスGoogle Cloud Platformで、従来のリレーショナルデータベースと同様にトランザクションの一貫性を保証する一方、水平なスケーリングとデータ分散を実現したデータベースサービス、「Cloud Spanner」のパブリックベータを提供開始したと発表した米グーグルは2017年2月14日（現地時間）、パブリッククラウドサービスGoogle Cloud Platformで、従来のリレーショナルデータベースと同様にトランザクションの一貫性を保証する一方、水平なスケーリングとデータ分散を実現したデータベースサービス、「Cloud Spanner」のパブリックベータを提供

usadamasa 2017/02/16

GCP
database

リンク

Webシステムにおけるデータベース接続アーキテクチャ概論 - ゆううきブログ

先月投稿した2015年Webサーバアーキテクチャ序論では、Webサーバアーキテクチャを学ぶ道のりと代表的な実装モデルの概要を紹介しました。今回は、前回同様、主に新卒Webエンジニア向けに、Webアプリケーションサーバとデータベースサーバ間の接続管理モデルと運用事情について紹介します。データベース接続の永続化やコネクションプーリングとは何なのか、なぜ必要なのかといったことが主な話題です。背景データベース接続の永続化とはなにかデータベース接続のオーバヘッドデータベース接続の永続化手法コネクションプーリングとはなにかコネクションプーリング: ドライバ型コネクションプーリング: プロキシ型コネクションプーリング全体について PostgreSQLとMySQL 参考資料まとめ背景 2015年Webサーバアーキテクチャ序論では、Webサーバアーキテクチャの話とWebアプリケーショ

usadamasa 2016/01/05

リンク

実務で役立つデータベースの活用法

オープンセミナー2015＠香川の登壇資料です。 http://connpass.com/event/15646/

usadamasa 2015/07/12

見てう。

リンク

結果整合性データベースのいま | Yakst

一貫性モデルとして、結果整合性が利用されるデータベースに関して、現状の棚卸しをしているMariaDB プロジェクトの記事である。各データベースの概要や、評判/成熟度/一貫性/ユースケースに基づいた評価、利点および欠点についてまとめた。はじめに結果整合性(eventually consistent) [1] は、多くの大規模分散データベースで使われる一貫性モデルの1つである。このようなデータベースでは、複製されたデータ片に対する全ての変更は結果的に全ての関連するレプリカに反映される必要がある。さらに、コンフリクトの解消はこれらのデータベースでは扱われず、更新のコンフリクトが発生した場合、アプリケーションで対処の責任を負う必要がある。結果整合性は、弱い一貫性の1つの特異形態で、オブジェクトに新規の更新がない場合、ストレージシステムが全てのアクセスが結果的には、最後にアップデートした値

usadamasa 2014/12/29

“例えば、結果整合性の元では、アリスがプロファイルをアップデートした後、リフレッシュしたとしてもアップデートした内容を確認できるとは限らない。”

リンク

はてなブックマーク

タグ

関連タグで絞り込む (30)

databaseに関するusadamasaのブックマーク (26)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス