タグ

availabilityに関するlizyのブックマーク (23)

  • RDSのDBメンテナンスについて

    内容 らくがき記事、RDSでダウンタイムなしの24-365構成ってどうすればと思い書いている記事です。 とりあえずはRDSでメンテナンスやアップデート処理が走る時に、サービスダウンするのか否かを整理した資料となります。 RDS(MySQL)の整理 機能概要 最大 64 TiB のデータベースサイズをサポート 汎用インスタンスクラス、メモリ最適化インスタンスクラス、およびバースト可能パフォーマンスインスタンスクラスをサポート 自動バックアップとポイントインタイムリカバリをサポート。 単一のリージョン内または 5 つのリードレプリカのクロスリージョン内で、インスタンスごとに最大 15 個のリードレプリカをサポート 可用性と耐久性 3種類のオプションが選択可能 単一DBインスタンス スタンバイインスタンスのない単一の DB インスタンスを作成します。 マルチAZ DBインスタンス 別のアベイラビ

    RDSのDBメンテナンスについて
    lizy
    lizy 2023/06/01
    RDS Proxy経由で接続すると可用性が上がる、ような気がする
  • AWS、複数のアベイラビリティゾーンで稼働していたアプリケーションでも大規模障害の影響があったと説明を修正。東京リージョンの大規模障害で追加報告

    AWS、複数のアベイラビリティゾーンで稼働していたアプリケーションでも大規模障害の影響があったと説明を修正。東京リージョンの大規模障害で追加報告 2019年8月23日金曜日の午後に発生したAWS東京リージョンの大規模障害について、AWSは追加の報告を行い、複数のアベイラビリティゾーンで稼働していたアプリケーションでも障害の影響があったことを認めました。 下記は大規模障害の報告ページです。赤枠で囲った部分が、8月28日付けで追記されました。 当初の報告は、障害の原因が空調装置のバグであり、それが引き金となってサーバーのオーバーヒートが発生したことなどが説明されていました。 そして障害の影響範囲は単一のアベイラビリティゾーンに閉じており、 複数のアベイラビリティゾーンでアプリケーションを稼働させていたお客様は、事象発生中も可用性を確保できている状況でした。 と説明されていました。 複数のアベイ

    AWS、複数のアベイラビリティゾーンで稼働していたアプリケーションでも大規模障害の影響があったと説明を修正。東京リージョンの大規模障害で追加報告
  • 回復性の高いMicroservicesアーキテクチャを支える技術 - Mercari Engineering Blog

    メルカリバックエンドエンジニアの@yagi5です。 Mercari Advent Calendar 2018の23日目を担当します。 モノリシックなシステムは、障害が発生するとシステムが全停止してしまうことが一般的です。 しかし、Microservicesアーキテクチャでは様々なテクニックを用いて、サービス全体が停止するような障害に対処することができます。 この記事では、Microservicesにおけるシステムの回復性を高めるための技術について書いていきます。 回復性とは、障害が起こらないことを意味しません。 高い回復性を備えたシステムは、障害が発生するということを前提に、システム全体のダウンを避け、データのロスが回避されるように設計されています。 Microservicesの世界では、システムは自律的に動作する複数のサブシステムによって構成されます。 ひとつのサービスに障害が発生しても

    回復性の高いMicroservicesアーキテクチャを支える技術 - Mercari Engineering Blog
  • [db tech showcase Tokyo 2015] B17:PostgreSQLで動的にスケールアウト可能な負荷分散DBクラスタを作ろう! by SRA OSS, Inc. 日本支社 長田悠吾

    PostgreSQLの組み込みレプリケーション機能を使うと、信頼性の高い非同期レプリケーションシステムが構成できます。更に、pgpool-IIというクラスタ管理ツールを組み合わせることにより、ユーザにあまりクラスタ構成を意識させることなく、動的にDBノードを追加してスケールアウト可能な参照負荷分散DBクラスタを作ることも可能です。講演では、こうしたシステムの作り方をデモを交えて解説します。Read less

    [db tech showcase Tokyo 2015] B17:PostgreSQLで動的にスケールアウト可能な負荷分散DBクラスタを作ろう! by SRA OSS, Inc. 日本支社 長田悠吾
  • AWSでジョブWorkerを構成するベストプラクティス 〜 SQSの巻 | DevelopersIO

    よく訓練されたアップル信者、都元です。AWSでシステム構築をする場合は、Design for failureという考えに基いて、複数AZにまたがる形の冗長構成を組むのがベストプラクティスです。さらに、このように分散させた各インスタンスには、出来る限りマスターを作らない、つまりSPOFとなるインスタンスを避ける構成であるのが理想です。 という話題については以前AWSにおける可用性の考え方というエントリーでも書きました。 可用性 (availability) と拡張性 (scalability) 題はジョブWorkerですが、WebサーバやDBサーバの可用性と拡張性を先におさらいしておきましょう。 Webサーバ この考えで構築する最も基的な構成が、Webシステムにおける ELB + Webサーバ の構成です。この構成マルチAZと呼び、片方のAZが丸ごとダウンしたとしても、サービス自体はダウ

    AWSでジョブWorkerを構成するベストプラクティス 〜 SQSの巻 | DevelopersIO
  • Authy: 障害耐性のある二段階認証サービスの構築 - ワザノバ | wazanova

    二段階認証サービスを提供している Authyが、Cloud Stackのインタビューで、どのように障害耐性のあるシステムを構築しているかを語っています。同社のOpen VPN二段階認証プラグインはオープンソースとして提供されてます。 authy.comとdashboard.authy.comはともにSinatraベース。どちらもAPIファーストのスタイルで、ユーザと同様にパブリックAPIを利用するかたちで構築している。 当初は、AWS上にNginx + Unicorn + PostgreSQL + アプリという構成であったが、障害耐性をつけるために、APIを用意して3層構造に変更。まず、NginxとHAProxyを実行するHTTP/webサーバレイヤ。SSLをなくして、HTTP接続のロードバランスを実現する。二層目は、Unicornを使ってSinatraアプリを実行するアプリレイヤ。そして

  • Serf+HAProxyで作るAutomatic Load Balancer - Glide Note

    hashicorp/serf Serf Serf使ってますか!サーフ! 諸事情というか大人の事情で急遽自前でロードバランサを用意しないといけなくて、それをissueに書いてたら、 あんちぽさんがSerf+HAProxy使ったらいいのでは、 とIRCで助言をくれて、同日のmizzyさんのブログでもSerfに言及していたので、 ちょっとSerfの概要を知るためと、Serf+HAProxyが実際ロードバランサとしてどんな感じに使えるのか検証してみた。 I told @glidenote about a combination of Serf and HAProxy this morning, and he has already implemented the arch. and done investigation… — kentaro (@kentaro) October 29, 2013

  • MySQLで参照の負荷分散を行うslaveは3台から構成するのがよいのでは - 酒日記 はてな支店

    前回の記事 MySQLをmaster:slave=1:1構成にして参照をslaveに向けるのがなぜ良くないか の続きです。 master : slave = 1 : 1 で参照を slave に分散してもまったく美味しくないわけですが、では参照の負荷分散を行いたい場合の slave は何台で構成するとよいのか考察してみます。具体的には slave 2台の場合と 3台の場合でどちらがお得か。 台数を増やすということは、どこかに障害が発生する確率が高まる、ということです。1台の slave に障害が発生してダウンした場合のことを考えてみます。 slave * 2 → 残り 1台で処理継続 生き残った1台あたりの処理が 2倍になる slave * 3 → 残り 2台で処理継続 生き残った1台あたりの処理が 1.5倍になる たとえば 1台あたり最大 1000qps の処理能力があるとします。sla

    MySQLで参照の負荷分散を行うslaveは3台から構成するのがよいのでは - 酒日記 はてな支店
  • DeNAによる大規模なMySQLノンストップ運用の裏側にある、フェイルオーバー自動化ツール

    4月11日から米サンタクララで行われた「MySQL Conference & Expo 2011」。このイベントでDeNAの松信嘉範(まつのぶよしのり)氏が、同社の大規模なMySQLの運用を支えている技術とツールについてのセッション「Automated, Non-Stop MySQL Operations and Failover」を行いました。 プレゼンテーションの中で、社内で利用しているフェイルオーバーの自動化ツールをオープンソース化することにも触れています(英語のドキュメントも作成中とのこと)。 MySQLの大規模運用における自動フェイルオーバーは、特にクラウドでのMySQLの利用が増えるにつれてニーズが高まる分野と思われます。セッションのスライドが公開されていますので、そのポイントを紹介していきます。 自動化されたノンストップなMySQLの運用 ソーシャルゲームでは高可用性が強く求

    DeNAによる大規模なMySQLノンストップ運用の裏側にある、フェイルオーバー自動化ツール
  • [ThinkIT] 第1回:クラスタソフトウェアの導入にあたって (1/3)

    レイヤーが低い障害ほど低コストで実現できる対策ですが、その分システムのダウンタイムや損害が大きく復旧までにかかる時間やコストが業務に大きな影響を与える可能性が大きくなってきます。以下に企業規模と障害の関係をあげます。 SOHOレベルの企業の場合 ハードディスクのRAID化がなされていないのはもちろん、データのバックアップすら考慮されておらず、ハードウェア障害時にはデータが消失してしまうケースも。 中小企業の場合 ファイルサーバやデータベースサーバのデータ自体のバックアップをしているケースは多いですが、システム自体はクラスタリングされていないため、ハードウェア障害時には復旧まで数時間、時には1日程度かかる場合もあり、その間業務は停止状態に。 拠点数が少ない中〜大企業の場合 システムがクラスタ化されているため、システム障害の発生は限りなく低く抑えられていますが、ハードウェアに対する火事や自然災

  • pgpool-II + Slony-Iクラスタ構成 | Let's POSTGRES

    各サーバマシンには、執筆時点で最新の pgpool-II 3.0.1 と PostgreSQL 9.0.2 をインストールします。pgpool-II のインストール方法については第2回の記事を参考にしてください。 以降、pgpool-II と PostgreSQL は「/usr/local」にインストールされており、データベースクラスタは「/var/pgsql/pgdata」にあるものとします。 また、Slony-I のデーモン slon は、マスタサーバとスレーブサーバで動かします。 PostgreSQLの設定 まず、pgpool-II と Slony-I からの接続を許可するため、マスタサーバとスレーブサーバの pg_hba.conf ファイルに次の1行を追加します。今回は簡易的にパスワード認証を使用せず、trust 認証を使用します。 host all all 192.168.1.0

  • グーグル、データセンターの障害にも耐えるApp Engineの新データストアを発表。Paxosを採用

    グーグルは1月6日、Google App EngineのデータストアとしてPaxos algorithmによるデータセンター間のデータ同期を採用し、可用性を大幅に向上させた新データストア「High Replication Datastore」を追加したと、ブログのエントリ「App Engine 1.4.1 をリリースしました - High Replication Datastore の紹介」で明らかにしました。 App Engine 1.4.1 をリリースしました - High Replication Datastore の紹介 - Google Japan Developer Relations Blog 複数のデータセンターにまたがったレプリケーションを行うことで、特定のデータセンターに障害が発生した場合でもほとんどの場合で問題なく動作するとのことです。 可用性は高まるが書き込みは遅く

    グーグル、データセンターの障害にも耐えるApp Engineの新データストアを発表。Paxosを採用
  • サーバとL2スイッチの接続を冗長化する設計の基本 - GeekFactory

    インフラを設計する上で冗長化による信頼性向上は避けて通れない道です。サーバとL2スイッチの接続を冗長化する設計については意外と情報が少ないのでまとめてみました。変なこと書いてたらご指摘ください。 インフラ設計の基は単一障害点(SPOF)を取り除くことです。構成要素のうち1つが故障してもサービスを維持できるように設計します。構成要素は以下のものが挙げられます: CPU マザーボード メモリ ローカルディスク 電源 FC-HBA NIC LANケーブル L2スイッチ ・・・ ただし、これらすべての故障に備えようとすると費用対効果が割に合わないので、ローカルディスクから下を冗長化する構成が一般的と思います。絶対に止まってはいけないサービスは別ですけどね。 冗長化の種類 サーバを冗長化するにはクラスタを組みます。クラスタはActive-ActiveとActive-Standby(HA)の二種類に

    サーバとL2スイッチの接続を冗長化する設計の基本 - GeekFactory
  • データベース・クラスタの概要

    はじめに これから4回にわたり、PostgreSQLを中心に、データベース・クラスタについて解説します。以下の内容を予定しています。 第1回: データベース・クラスタの概要 第2回: PostgreSQLクラスタの動向 第3回: 主要なPostgreSQLクラスタ(前編) 第4回: 主要なPostgreSQLクラスタ(後編) 1. データベース・クラスタとは データベース構築の基は、1つのサーバーに1つのデータベースを構築し、運用することです。しかし、いろいろな理由から、1つのデータベースを複数のサーバー(仮想サーバーを含む)にまたがって構築するケースが増えてきました。 連載では、いろいろな種類のデータベース・クラスタとその用途、主な技術や実装例を解説します。解説の対象となるデータベース・クラスタとは、1つのデータベースを、複数のサーバーや仮想サーバー上に構築するシステムを指します。

  • MySQLでサービス停止のないALTER TABLEの検討 - SH2の日記

    MySQLでテーブルへのカラム追加、インデックス追加やテーブルの再編成などを行うと、その間テーブルに共有ロックがかかってしまいます。そのためこれらのメンテナンス処理は、通常利用者の少ない深夜早朝帯にサービスを止めて実施する必要があります。日はそれを無停止、オンラインのままでできないかという話題です。 基的なアイデア メンテナンス対象の元テーブルをコピーして、作業用の仮テーブルを作ります 仮テーブルに対して、カラム追加などの変更を加えます その間、元テーブルに対して行われる更新処理について差分を記録しておきます 仮テーブルの変更が終わったら、記録しておいた差分データを仮テーブルに反映します 差分データの反映が終わったら、元テーブルと仮テーブルを入れ替えます これと似たようなことを考えた方は結構いらっしゃるのではないでしょうか。ただ、言うは易し、行うは難しです。整合性がきちんと取れるかどう

    MySQLでサービス停止のないALTER TABLEの検討 - SH2の日記
    lizy
    lizy 2010/07/04
    なんか綱渡りぽい
  • MySQLに自動フェイルオーバー機能を追加したAmazonクラウド。オンラインのままパッチ当てやバックアップも

    MySQLに自動フェイルオーバー機能を追加したAmazonクラウド。オンラインのままパッチ当てやバックアップも クラウド上でMySQLの運用を行うサービス「Amazon Relational Database Service」(Amazon RDS)を提供していたAmazonクラウドは、Amazon RDSに自動フェイルオーバーによる可用性を実現したオプション「Multi-AZ Deployments」を追加したと、ブログ「Amazon RDS - Multi-AZ Deployments For Enhanced Availability & Reliability」で明らかにしました。 データベースの計画停止がなくなる これまでのAmazon RDSは、MySQLがあらかじめインストール済みですぐに利用できると同時に、MySQLにパッチを当て最新に保つとともに、バックアップもしてくれる

    MySQLに自動フェイルオーバー機能を追加したAmazonクラウド。オンラインのままパッチ当てやバックアップも
  • Microsoft – クラウド、コンピューター、アプリ & ゲーム

  • InfoQ: Amazon S3の機能停止:SLAが信頼をもたらすか?

    Amazon Web ServicesによるSimple Storage Service (S3)(source)は、クラウドベースのストレージプラットフォームで、Twitter(サイト・英語)、G.ho.st(サイト・英語)および37signalsのBasecamp(source)などを含む多く の有名Webサイトで使用されているが、先日大規模な機能停止が発生した。それはS3の3つの地理的サイトの1つで起こり、2時間以上に渡り停止した。 AWSのデベロッパによる委員会(source)において、その発生がAWSが信頼できるものであったかどうかに一石を投じた。 S3サービスはすばらしいが、単にこういうことが起こっただけでそうではないと思われてしまう。長い期間低迷が続いているさなかに、特にこれは大問題である。 S3の長期間の信頼性についての記録を迅速に指摘したユーザもいた。 およそ1年前にサー

    InfoQ: Amazon S3の機能停止:SLAが信頼をもたらすか?
  • Product: DRBD - Distributed Replicated Block Device - High Scalability -

  • Tokyo TyrantによるHAハッシュDBサーバの構築 - mixi engineer blog

    来年のバレンタインデーに、正確には「2009-02-14T08:31:30+09:00」に、UNIX時間が「1234567890」を迎えることを発見してちょっと嬉しいmikioです。さて、今回は高効率ハッシュデータベースサーバTokyo Tyrantを用いてHAハッシュデータベースを構築する手法についてご紹介します。ちょっと難しいし非常に長い内容なのですが、最後までお付き合いくださいませ。 可用性と保全性 HA(High Availability:高可用性)とは、可用性(Availability)が高いことです。それでは説明になっていないので詳しく言い替えますと、システムに障害が起きにくくすることと、たとえ障害が起きたとしてもできるだけ迅速に復旧できるようにすることです。データベース系のシステムはユーザのデータを管理するという中核的役割を担うため、可用性を高めることは最も重要な課題となりま

    Tokyo TyrantによるHAハッシュDBサーバの構築 - mixi engineer blog