タグ

databaseに関するusadamasaのブックマーク (26)

  • スキューのない世界を目指して - クックパッド開発者ブログ

    こんにちは。インフラストラクチャー部データ基盤グループの小玉です。 先日Amazon Redshift(以下、Redshift)で32TBのテーブルを全行スキャンするクエリを3同時に走らせたまま帰宅し、クラスターを落としてしまいました。 普段はRedshiftのクエリをチューニングしたり、データ基盤周りの仕組みを慣れないRubyで書いたりしています。 突然ですが、スキュー(skew)という単語をご存じでしょうか。 「skew 意味」で検索すると「斜め」とか「傾斜」といった訳が出てきますが、コンピューティング界隈では「偏り」という訳語が定着していると思います。 さらに、分散並列DB界隈で単にスキューもしくは偏りと言った場合、それはしばしばデータの偏りを指します。 データが偏っているとは データが偏っているとは、複数ノードで構成される分散並列DBにおいて、各ノードが保持するデータ量(行数)に

    スキューのない世界を目指して - クックパッド開発者ブログ
  • NewSQL その成り立ちとモチベーション

    Database Lounge Tokyo #6の発表資料です。 (参考URL) ・NewSQLblog https://qiita.com/tzkoba/items/5316c6eac66510233115 https://qiita.com/tzkoba/items/3e875e5a6ccd99af332f ・B-TreeとLSM-Tree https://docs.google.com/presentation/d/e/2PACX-1vSNk8RkQrVRm_BNZKYyz0sl1k7C6yjTfJIqfMDxnnka8f4pfpf6j2yuXvxvyVGnrzRERdAaxNbOU-CT/pub?start=false&loop=false&delayms=3000&slide=id.g4c1e3ed2c3_0_6 ・ConsistencyとIsolation https://f

    NewSQL その成り立ちとモチベーション
  • NoSQLデータモデリング技法

    NoSQLデータモデリング技法.markdown #NoSQLデータモデリング技法 原文:NoSQL Data Modeling Techniques « Highly Scalable Blog I translated this article for study. contact matope[dot]ono[gmail] if any problem. NoSQLデータベースはスケーラビリティ、パフォーマンス、一貫性といった様々な非機能要件から比較される。NoSQLのこの側面は実践と理論の両面からよく研究されている。ある種の非機能特性はNoSQLを利用する主な動機であり、NoSQLシステムによく適用されるCAP定理がそうであるように分散システムの基的原則だからだ。一方で、NoSQLデータモデリングはあまり研究されておらず、リレーショナルデータベースに見られるようなシステマティック

    NoSQLデータモデリング技法
  • Amazon S3のデータを直接検索できる「MongoDB Atlas Data Lake」正式リリース。データベースへの転送不要、MongoDBのクエリ言語を直接実行

    Amazon S3のデータを直接検索できる「MongoDB Atlas Data Lake」正式リリース。データベースへの転送不要、MongoDBのクエリ言語を直接実行 MongoDBは、Amazon S3に保存されているデータをそのままデータベースへ転送することなく、直接MongoDBのクエリ言語で検索可能にするクラウドサービス「MongoDB Atlas Data Lake」の正式リリースを発表しました。 発表は同社がオンラインで開催したイベント「MongoDB.Live 2020」で行われました。 通常、データベースで検索や分析の対象となるデータはデータベース内に保存されているデータであるため、ファイルサーバやオブジェクトストレージなどに保存されているJSONデータやCSVファイルなどは、何らかの方法でデータベースへインポートする必要があります。 MongoDB Atlas Data

    Amazon S3のデータを直接検索できる「MongoDB Atlas Data Lake」正式リリース。データベースへの転送不要、MongoDBのクエリ言語を直接実行
  • データベースドキュメント生成コマンド tbls 更新情報 ( PostgreSQL publicスキーマ表示仕様変更/Amazon DynamoDB対応/goccy ware etc) - Copy/Cut/Paste/Hatena

    ここ最近tblsのアップデートエントリを書いていなかったのですが、最近変更をいくつか行いました。 このまま放置するとちょっと紹介しきれなくなりそうなので、ここら辺で放出しておこうと思います。 紹介時点のtblsのバージョンはv1.29.0です。 PostgreSQLでの public. スキーマ表示仕様変更 tblsでは、もともとPostgreSQLの public. スキーマ( schema_name.table_name.column_name の schema_name )だけ特別に非表示にしていました。 こうなっていた理由は、私がPostgreSQLでのスキーマを意識した運用経験がなかったことに寄る部分が大きいです。「デフォルトだから非表示で良いだろう」と。 ところで、tblsにはlintの機能があります。「テーブルカラムにコメントが書かれているか?」とか「外部キーの参照元にIND

    データベースドキュメント生成コマンド tbls 更新情報 ( PostgreSQL publicスキーマ表示仕様変更/Amazon DynamoDB対応/goccy ware etc) - Copy/Cut/Paste/Hatena
  • 2020年現在のNewSQLについて - Qiita

    Disclaimer 当記事はNewSQL開発ベンダの技術ブログや各種論文、その他ニュースサイト等の内容を個人的にまとめたものです。 そのため、理解不足等に起因する誤解・誤認を含む可能性があります。更なる理解が必要な方はリファレンスに挙げた各種文献を直接参照下さい。技術的な指摘は可能であれば取り込み修正しますが、迅速な対応はお約束できません。 NewSQLの解説は二部構成 当記事は前編でNewSQLの概要編となる。 全体の目次は下記である。 NewSQLとは何か NewSQLのアーキテクチャ NewSQLとこれまでのデータベースの比較 NewSQLのコンポーネント詳解 1章から3章までの内容を当記事で解説する。 4章はさらに詳細な技術的解説となり、後編の「NewSQLのコンポーネント詳解」で記述している。 こちらも合わせて一読いただきたい。 1. NewSQLとは何か NewSQLとは、海

    2020年現在のNewSQLについて - Qiita
  • 会話分析におけるGraphDBの活用 - Zeals TECH BLOG

    こんにちは。ZealsでCTOをしている佐藤です。 Zealsでは AdventCalendarを開催しており、そちらの15日目の記事となります! はじめに 会話分析とは? 何がしたいか Neo4j 技術選定について 環境構築・実行 振り返り さいごに はじめに 会話分析とは? 私達が開発しているZealsは「ネットにおもてなし革命を!」をコンセプトにした、ユーザーと会話して商品を案内するチャットコマースのサービス です。 チャットコマースについて詳細が知りたい方は、同じくZeals AdventCalenarで公開された以下の記事をご覧ください! qiita.com このZealsの会話体験を向上させていく中で、ユーザーとチャットボットとの 会話データ を分析していく必要があります。 現在ではMySQLやBigQueryにデータを格納することで、 ETL分析や機械学習のためのマスターデー

    会話分析におけるGraphDBの活用 - Zeals TECH BLOG
  • Row Level Securityはマルチテナントの銀の弾丸になりうるのか / Row Level Security is silver bullet for multitenancy?

    builderscon 2019の発表資料です

    Row Level Securityはマルチテナントの銀の弾丸になりうるのか / Row Level Security is silver bullet for multitenancy?
    usadamasa
    usadamasa 2019/10/19
    DBの行単位に権限を制御可能なRowLevelSecurity導入事例
  • サーバレス時代におけるヘテロジニアス時系列データベースアーキテクチャ - ゆううきブログ

    この記事は、第2回ウェブシステムアーキテクチャ研究会の予稿です。 ウェブシステムをモニタリングするために、高可用性、高書き込みスケーラビリティ、メトリックの長期保存が可能な時系列データベースが求められている。 これらを実現するために、性能特性の異なる汎用Key-Value Store(以下KVS)を組み合わせ、透過的に問い合わせ可能な、ヘテロジニアス時系列データベースであるDiamondを開発した。 この記事では、Diamondを分散システムの観点で捉え、アーキテクチャ、データ構造、実装を紹介し、考察によりFuture Workを議論する。 1. はじめに 2. アーキテクチャ アーキテクチャ概要 動作フロー データ構造 KVSの機能要件 3. 実装 実装概要 KVS間のデータ移動 データ位置の解決 費用特性 4. 考察と今後の課題 Diamondの欠点 将来機能 5. まとめ スライド

    サーバレス時代におけるヘテロジニアス時系列データベースアーキテクチャ - ゆううきブログ
  • 2時間かかっていた処理を15分まで短縮 タウンワークのレガシーバッチシステム高速化の軌跡

    翔泳社が主催するソフトウェア開発者向けITカンファレンス「Developers Summit 2019」が2月14日~15日に開催されました。プレゼンテーション「タウンワーク90万原稿の掲載を支えるレガシーバッチパフォーマンスチューニング 」に登壇したのは、株式会社リクルートテクノロジーITエンジニアリング部プロダクトエンジニアリング部、リクルートジョブズグループの森廣隆行氏。タウンワークのレガシーバッチシステムのパフォーマンスを改善するために行った、数々の泥臭い施策について語りました。講演資料はこちら システムとインフラ間の設計矛盾 森廣隆行氏:そして最後に、ここのSolrの反映のところに関してです。ここでの問題は何かというと、システムとインフラ間の設計の矛盾になります。 まず、この部分をフロー化すると、このようになっております。 原稿テーブルと関連テーブルのほうからSolr

    2時間かかっていた処理を15分まで短縮 タウンワークのレガシーバッチシステム高速化の軌跡
  • (レポート) MongoDB勉強会:MongoDB v3.4新機能と遅いときの切り分け方法 | DevelopersIO

    こんにちは、菊池です。 12/14(水)に開催された、MongoDB勉強会に参加してきましたのでレポートします。 告知ページ | MongoDB中級編:MongoDBが遅い時の切り分け方 主催はクリエーションライン株式会社様で、以下の2テーマで行われました。 MongoDB v3.4 の新機能について:クリエーションライン株式会社 CSO 鈴木 逸平 様 MongoDBが遅いときの切り分け方法:渡部 徹太郎 様 レポート 開催にあたって、勉強会の位置付け/主旨の説明がありました。 MongoDBが普及してきた。 すでにMongoDBを知っている人向けにトリッキーな所に着目してイベントを開催したい。 入門レベル/概要的な内容は、MongoDBだけではなく他のNOSQLを含めて比較する内容でやるべき。 MongoDB v3.4 の新機能について 2016/6にMongoDB World開催

    (レポート) MongoDB勉強会:MongoDB v3.4新機能と遅いときの切り分け方法 | DevelopersIO
  • Silo - Qiita

    In-Memory DBのアーキテクチャは数多く提案されてきたが、特にパフォーマンスに直結するトランザクション周りでのボトルネック改善は需要の高い研究領域である。 これから紹介するStephen TuらのSOSP'13は大きなメモリと多くのCPUコアを活用してより高い性能を発揮するために考案された新しいトランザクションアルゴリズム:Siloを提案している。 In-Memory DBの問題点 昨日書いたように、In-Memory DBではページ単位でのバッファプールの管理やWALやUndoログが不要となり、トランザクション内でページを書き換えるたびにLog Sequence Numberを生成する必要はなくなった。 コミット時にリカバリに足る分のRedoログが記録できればよいのだが、そのRedo処理を行うためにはログをどの順序で実行すべきかを決定する指標が必要となる。逆に言えば、どの順序でロ

    Silo - Qiita
  • Apache Arrowの凄さを体感する - hatappi.blog

    データ分析とかをしていると大規模データを扱うことがある。 複数のライブラリを使う際にデータ連携を行う際に一度CSVやJSONに出力して連携先ではそれをパースしてといった方法をとることがある。 数メガくらいのファイルであれば問題にはならないが、これがギガなどになってくるとこのデータ連携コストが無視できなくなってくる。 これを解決する方法の1つとしてApache Arrowというものがある。 今回はこれを紹介して実際にどれくらい早いのかを検証してみる。 Apache Arrowとは? 2016年の10月に0.1.0がリリース メモリ上でカラム型データを扱うためのフォーマットとアルゴリズム カラム型でデータを格納するので効率よく圧縮することが出来、メモリ上に書き込むことで読み書きの速さを実現している。 昔はメモリなどのリソースは潤沢に使うことは用意ではなかったが、昨今ではAWSなどで何十Gものメ

    Apache Arrowの凄さを体感する - hatappi.blog
    usadamasa
    usadamasa 2018/12/11
    データ分析とかで複数のデータストアをまたがってごにょるときに便利っぽい。
  • ユーザ情報を保存する時のテーブル設計 - そーだいなるらくがき帳

    はじめに ※この発言は個人の見解であり、所属する組織の公式見解ではありません 用法用量を守り、個人の責任で業務に投入してください 参考資料 2024/02/14追記 実際のテーブル設計の詳細はこちらを参考にどうぞ。 agilejourney.uzabase.com 要件 User情報を保存するときにどのようなテーブル設計を行うか 今北産業で頼む テーブルに状態を持たせず状態毎のテーブルを作る 状態が変わればレコードを消して別のtableに作る tableの普遍的な情報は別に持たせる 僕の考えた最強のDB設計 PostgreSQLをベースの雑なER図を作った。 これを元に話を進める。 table構成 users 親tableであり、すべてのユーザはここに属する。 基はINSERTのみでUPDATE、DELETEを考慮しない。 user_detail userに付随する詳細の情報がここに登録

    ユーザ情報を保存する時のテーブル設計 - そーだいなるらくがき帳
    usadamasa
    usadamasa 2018/05/15
    “しかしここでは適宜トランザクション利用することは人類には難しいという大前提で話をする。”
  • 一人トランザクション技術のカレンダー | Advent Calendar 2016 - Qiita

    About reserved postingIf you register a secret article by the day before the same day, it will be automatically published around 7:00 on the same day. About posting periodOnly articles submitted after November 1 of the year can be registered. (Secret articles can be registered anytime articles are posted.)

    一人トランザクション技術のカレンダー | Advent Calendar 2016 - Qiita
  • SQLトランザクション分離 実践ガイド | POSTD

    (注:2017/10/16、いただいたフィードバックを元に翻訳を修正いたしました。) (注:2017/10/11、いただいたフィードバックを元に翻訳を修正いたしました。) データベースのドキュメントで分離レベルを目にして、軽く不安を感じつつ、あまり考えないようにしたことはないでしょうか。トランザクションの日常の使用例できちんと分離について言及しているものはほとんどありません。多くはデータベースの初期設定の分離レベルを利用しており、後は運頼みです。しかし、来、理解しておくべき基的なトピックであり、いくらか時間を投入してこのガイドの内容を学習すれば、もっと快適に作業できるようになるでしょう。 私はこの記事の情報を学術論文、PostgreSQLドキュメンテーションから集めました。分離レベルの 何たる かだけでなく、適用の正確さを保持しつつ最大速度で使うにはいつ使うべきか、という疑問に答えるべ

    SQLトランザクション分離 実践ガイド | POSTD
  • 米グーグル、GCPでACID特性と拡張性を兼ね備えたデータベースサービス「Cloud Spanner」を発表

    グーグルGCPでACID特性と拡張性を兼ね備えたデータベースサービス「Cloud Spanner」を発表:「ミッションクリティカル用途に利用可能」 米グーグルは2017年2月14日(現地時間)、パブリッククラウドサービスGoogle Cloud Platformで、従来のリレーショナルデータベースと同様にトランザクションの一貫性を保証する一方、水平なスケーリングとデータ分散を実現したデータベースサービス、「Cloud Spanner」のパブリックベータを提供開始したと発表した 米グーグルは2017年2月14日(現地時間)、パブリッククラウドサービスGoogle Cloud Platformで、従来のリレーショナルデータベースと同様にトランザクションの一貫性を保証する一方、水平なスケーリングとデータ分散を実現したデータベースサービス、「Cloud Spanner」のパブリックベータを提供

    米グーグル、GCPでACID特性と拡張性を兼ね備えたデータベースサービス「Cloud Spanner」を発表
  • Webシステムにおけるデータベース接続アーキテクチャ概論 - ゆううきブログ

    先月投稿した2015年Webサーバアーキテクチャ序論では、Webサーバアーキテクチャを学ぶ道のりと代表的な実装モデルの概要を紹介しました。 今回は、前回同様、主に新卒Webエンジニア向けに、Webアプリケーションサーバとデータベースサーバ間の接続管理モデルと運用事情について紹介します。 データベース接続の永続化やコネクションプーリングとは何なのか、なぜ必要なのかといったことが主な話題です。 背景 データベース接続の永続化とはなにか データベース接続のオーバヘッド データベース接続の永続化手法 コネクションプーリングとはなにか コネクションプーリング: ドライバ型 コネクションプーリング: プロキシ型 コネクションプーリング全体について PostgreSQLMySQL 参考資料 まとめ 背景 2015年Webサーバアーキテクチャ序論では、Webサーバアーキテクチャの話とWebアプリケーショ

    Webシステムにおけるデータベース接続アーキテクチャ概論 - ゆううきブログ
  • 実務で役立つデータベースの活用法

    オープンセミナー2015@香川の登壇資料です。 http://connpass.com/event/15646/

    実務で役立つデータベースの活用法
    usadamasa
    usadamasa 2015/07/12
    見てう。
  • 結果整合性データベースのいま | Yakst

    一貫性モデルとして、結果整合性が利用されるデータベースに関して、現状の棚卸しをしているMariaDBプロジェクトの記事である。 各データベースの概要や、評判/成熟度/一貫性/ユースケースに基づいた評価、利点および欠点についてまとめた。 はじめに 結果整合性(eventually consistent) [1] は、多くの大規模分散データベースで使われる一貫性モデルの1つである。このようなデータベースでは、複製されたデータ片に対する全ての変更は 結果的に全ての関連するレプリカに反映される必要がある。 さらに、コンフリクトの解消はこれらのデータベースでは扱われず、更新のコンフリクトが発生した場合、アプリケーションで対処の責任を負う必要がある。 結果整合性は、弱い一貫性の1つの特異形態で、オブジェクトに新規の更新がない場合、ストレージシステムが全てのアクセスが結果的には、最後にアップデートした値

    結果整合性データベースのいま | Yakst
    usadamasa
    usadamasa 2014/12/29
    “例えば、結果整合性の元では、アリスがプロファイルをアップデートした後、リフレッシュしたとしてもアップデートした内容を確認できるとは限らない。”