  • データ分散アルゴリズムASURAの実装

    最近、 仕事がピリっとしないからか、 趣味で分散ストレージでも作ってみようかなぁと思って色々と思考を巡らしている。 分散ストレージには大きく分けて2つの実装がある(と思う)。 1つは、どのデータがどこにあるかなどのメタデータを持つメタデータサーバを 保持し、そのメタデータサーバを参照・更新しながらレプリケーションや、ピースの分散を行うというタイプのもの。 もしこれをやるのであれば、メタデータはTiKVを使おうかなと考えていた。 TiKVはRustで実装された分散KVSだが、 レプリケーションを行う単位をRaftグループとして、これを複数持つMulti-Raftという構成をとっている。 外にはプレースメントドライバというプロセスがデータや負荷の分散具合を監視し、 必要に応じてマイグレーションを行っているらしい。 Raftを使っていれば、マイグレーションは簡単だろうと想像する。 もう1つは、そ

    • No more DSLs: Implement and deploy a distributed system with a single program

      No more DSLs: Implement and deploy a distributed system with a single program If you want to write a distributed system, then instead of writing a thousand different programs and configuration files in many different DSLs, you can use an approach I call "single-program systems", and write just one program. In this article, I describe how we do this at $DAYJOB, and I show some example programs. The

      • Yoshimasa Niwa on Twitter: "圧縮したSQLiteのファイルをS3にいれて、Lambdaで検索してPostgresに返してアグリゲートすると安くて速いデータウェアハウスが作れる、という話。 https://t.co/5AVNdb1gzE"

        圧縮したSQLiteのファイルをS3にいれて、Lambdaで検索してPostgresに返してアグリゲートすると安くて速いデータウェアハウスが作れる、という話。 https://t.co/5AVNdb1gzE

        • Node.jsを理解する (libuv)

          はじめに 最近Node.jsデザインパターンという本を購入して読み理解した内容について社内LTで発表したのでその内容を軽く纏めようと思い、この記事を書きます。 内容としては一章の内容をまとめ、さらに深ぼったといった感じです。 前提 少し不確定な部分があり、誤っている可能性がある箇所はコメントを書いています。 ご存じの方いましたらご教授いただきたいです。 Nodeがなぜこのような思想なのかの話はしません、具体的にはLAMPやc10k問題の話はしません。 他の参照した記事ではイベントループと紐づいているイベントキューにおけるlibuvが提供している部分をマクロタスク、Node.jsが提供している部分をマイクロタスクと書いている記事もありますが、 この記事では hiroppyさんの記事 と同じようにlibuvが提供している部分をフェーズと書いています。 Node.js とは 公式より Node.

          • Hive Distributed Profiling System in Treasure Data - Japanese version #tdtechtalk

            『Hive Distributed Profiling System in Treasure Data』の日本語版スライド。 English version -> https://speakerdeck.com/okumin/hive-distributed-profiling-system-in-treasure-data-english-version-number-tdtechtalk TreasureData Tech Talk 2022にて発表 https://techplay.jp/event/879660

            • Jepsen: etcd 3.4.3

              The etcd key-value store is a distributed database based on the Raft consensus algorithm. In our 2014 analysis, we found that etcd 0.4.1 exhibited stale reads by default. We returned to etcd, now at version 3.4.3, to investigate its safety properties in detail. We found that key-value operations appear to be strict serializable, and that watches deliver every change to a key in order. However, etc

              • Grafanaが分散トレースシステムGrafana Tempoを発表

                Spring BootによるAPIバックエンド構築実践ガイド 第2版 何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

                • GitHub - bigscience-workshop/petals: 🌸 Run 100B+ language models at home, BitTorrent-style. Fine-tuning and inference up to 10x faster than offloading

                  🌸 Run 100B+ language models at home, BitTorrent-style. Fine-tuning and inference up to 10x faster than offloading

                  • 15-6. 2変数の期待値と分散 | 統計学の時間 | 統計WEB

                    12-3章では確率変数の期待値について、12-5章では確率変数の分散について学びました。この章では、2つの確率変数の和、差、共分散、相関係数について学びます。 ■2つの確率変数の期待値 2つの確率変数とYの和、差の期待値は、次に示すように、それぞれの期待値、の和、差に等しくなります。

                    • GitHub - richardartoul/tsdb-layer: Time Series and FoundationDB. Millions of writes/s and 10x compression in under 2,000 lines of Go.

                      • GitHub - ballista-compute/ballista: Distributed compute platform implemented in Rust, and powered by Apache Arrow.

                        • DynamoDB の S3への増分エクスポートを試してみた - Qiita

                          背景・目的 AWSが2023年9月26日にAmazon DynamoDB(DDB)からAmazon S3(S3)へのインクリメンタルエクスポート機能を発表いたしました。この新機能により、どのようにデータ管理が変わるか、実際に手を動かしながら基本的な挙動を確認してみます。 まとめ AWSの増分エクスポート機能により、挿入、更新、または削除されたデータを少量ずつエクスポートでき、数メガバイトからテラバイトのデータ範囲に対応しています。 ポイントインタイムリカバリが有効なDDBテーブルが対象です。 指定した期間の増分データをS3バケットにエクスポートします。 この機能はフルマネージドであり、DDBの容量を消費せず、定期的なデータ更新が容易になります。 サポートされているデータ形式はDynamoDB JSONとAmazon Ionです。 これにより、テーブル全体を毎回エクスポートする必要がなく、変

                          • ABCI上でpytorch distributed data parallelによるマルチノード学習 - Qiita

                            なんの記事? pytorchのDistributedDataParallelについての日本語記事があまりにもなかったため,素人がまとめました. 並列処理がわからない人による,わからない人のための,とりあえず使えればいいや的なDDPの解説です. 基本的にABCIでの実行を前提に書かれていますが,それ以外の環境の人たちにも参考になれば幸いです. はじめに おなじみの機械学習フレームワークであるpytorch.気軽にDataParallelで並列処理の学習もできます. ですがfacebookなどの一流の機械学習エンジニアたちはDistributedDataParallelなるものを使った実装がちらほらみられます. そこでpytorchの解説記事を読むわけですが,これがびっくりするほどわからない. というわけで,ABCI上でのDistributedDataParallel(以下DDP)の使い方を自

                            • InfluxDBへデータを登録する

                              かっこいい名前のInfluxDB、時系列(time series)データベースとして人気のようです。もちろん各種認証でアクセス制限をかけることができますが、HTTP APIを持っており特に作りこまなくてもデータを転送できるという手軽さがあります。そして速い(個人の感想です)。 今回はPython3とPowerShellでデータを投入するためのクライアントを作成してみます。InfluxDBのインストールは別記事で。検証環境はWindows 10 Pro + Python 3.6です。 もくじ: InfluxDBの基本的な使い方 PythonでのInfluxDBクライアントモジュール InfluxDBClientオブジェクト データベースの作成 データの投入 情報の表示 Seriesの表示 HTTP API Line Protocol サンプル PowerShellでHTTP APIを呼び出す

                              • NoSQLってなに? Alibaba Cloud、AWS、Azure、Google CloudのNoSQLサービスを比べてみました | クラウドテクノロジーブログ | ソフトバンク

                                • コラム - グーグルのクラウドを支えるテクノロジー | 第64回 サーチエンジンのロードバランシング・アルゴリズム(パート1)|CTC教育サービス 研修/トレーニング

                                  [IT研修]注目キーワード Python UiPath(RPA) 最新技術動向 Microsoft Azure Docker Kubernetes 第64回 サーチエンジンのロードバランシング・アルゴリズム(パート1) (中井悦司) 2019年8月 はじめに 今回からは、2019年に公開された論文「Cache-aware load balancing of data center applications」を元にして、サーチエンジンのロードバランシングに関するアルゴリズムを紹介します。検索対象の単語ごとに担当するサーバーを分けて、サーバー内部のキャッシュのヒット率を高めるというシンプルなアイデアですが、複数の単語を含む検索文に適用するには、すこしばかり数学的な考え方が必要になります。今回は、具体的なアルゴリズムを説明する準備として、システム全体のアーキテクチャーを整理しておきます。 サーチ

                                  • GitHub - jointwt/twtxt: 📕 twtxt is a Self-Hosted, Twitter™-like Decentralised microBlogging platform. No ads, no tracking, your content, your data!

                                    📕 twtxt is a Self-Hosted, Twitter™-like Decentralised micro-Blogging platform. No ads, no tracking, your content, your data! Technically twtxt is a multi-user twtxt client in the form of a web app and api. It supports multiple users and also hosts user feeds directly and provides a familiar "social" experience with minimal user profiles. It also supports "rich" text by utilising Markdown as well

                                    • Compass | Developer Experience Platform

                                      Connect thousands of apps and integrations for all your Atlassian products

                                      • Remote Work Statistics

                                        Remote Work Statistics Statistics about remote work from 2498 companies working remotely in 3200 cities across 131 countries. Most countries Meet the TOP 10 distributed companies with employees coming from most countries.

                                        • Dive deep into security management: The Data on EKS Platform | Amazon Web Services

                                          AWS Big Data Blog Dive deep into security management: The Data on EKS Platform The construction of big data applications based on open source software has become increasingly uncomplicated since the advent of projects like Data on EKS, an open source project from AWS to provide blueprints for building data and machine learning (ML) applications on Amazon Elastic Kubernetes Service (Amazon EKS). In

                                          • 新世代Elasticsearchクラスターコーディネーション

                                            Elasticsearchが広く普及した理由の1つは、数ノードの小規模なクラスターから数百ノードの大規模なクラスターへの拡張性が優れていることです。その中心にあるのが、クラスターコーディネーションサブシステムです。Elasticsearchバージョン7は、新たなクラスターコーディネーションサブシステムを備えており、これまでのバージョンと比べて多くの利点があります。この記事では、バージョン7においてこの新しいサブシステムに加えられた改善点について紹介し、その使い方、今回の変更がバージョン6からのアップグレードに与える影響、誤ってデータをリスクにさらしてしまうことを防ぐ新たな機能について説明します。そして最後に、新しいサブシステムの仕組みを説明する理論の概要を提示します。 クラスターコーディネーションとは Elasticsearchクラスターを使用すると、多数のノードの連携を必要とするさまざま

                                            • Turning SQLite into a distributed database

                                              mvSQLite is the open-source, SQLite-compatible distributed database. We decoupled SQLite's storage layer onto FoundationDB to offer massive yet "bottomless" scalability, point-in-time reads, and the strictest level of consistency. On the surfaceThere are already so many nice "multi-machine" SQLite flavors: rqlite, dqlite, and Litestream. However I believe what mvSQLite offers is unique: it is not

                                              • Cloud arch patterns

                                                Slides from a talk given at Nutanix on Mar 21, 2018Read less

                                                • DDSketch: A fast and fully-mergeable quantile sketch with relative-error guarantees

                                                  Summary statistics such as the mean and variance are easily maintained for large, distributed data streams, but order statistics (i.e., sample quantiles) can only be approximately summarized. There is extensive literature on maintaining quantile sketches where the emphasis has been on bounding the rank error of the sketch while using little memory. Unfortunately, rank error guarantees do not precl

                                                  • 現実の例を使用したデータをモデル化しパーティション分割する - Azure Cosmos DB for NoSQL

                                                    適用対象: NoSQL この記事では、データ モデリング、パーティション分割、プロビジョニング済みスループットなどの Azure Cosmos DB のいくつかの概念を基にして、現実世界のデータ設計に取り組む方法を示します。 通常、リレーショナル データベースで作業している場合は、データ モデルの設計方法についての習慣や直感が築かれているはずです。 Azure Cosmos DB に固有の制約のため (それは Azure Cosmos DB だけが持つ長所でもありますが)、それらのベスト プラクティスのほとんどはうまく流用できず、次善のソリューションになってしまうことがあります。 この記事の目的は、項目のモデリングからエンティティのコロケーションやコンテナーのパーティション分割まで、Azure Cosmos DB で現実のユース ケースをモデル化する完全なプロセスの手順を示すことです。 こ

                                                    • Understanding DynamoDB Condition Expressions | DeBrie Advisory

                                                      If you're working with DynamoDB, you're likely to rely on Condition Expressions when manipulating items in your table. Condition Expressions can ensure you don't overwrite existing users, allow bank account balances to drop below \$0, or give Admin access to every user in your application. Yet despite their usefulness, I see Condition Expressions misunderstood quite often. My hunch is that this is

