並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 10 件 / 10件

新着順 人気順

availabilityの検索結果1 - 10 件 / 10件

  • なぜマイクロサービスは失敗するのか? - kawasima

    Eberhard Wolffさんのこのプレゼンの要約です https://www.youtube.com/watch?v=B3O-qYM-Kkw 共通のデータモデル 共通のデータモデルを通信に使う 各サービスで必要となるデータの内部モデルは異なるかもしれない データモデルが、共通ライブラリと同じ意味合いになる すべてのサービスが、最新のライブラリを使わなくてはならない 共通データモデルの変更は、す

      なぜマイクロサービスは失敗するのか? - kawasima
    • 「当たり前に動いている」ネットワークを支える技術 - 冗長性を生み出すバックボーンの構成を、さくらインターネットに聞く - はてなニュース

      レンタルサーバーやクラウド、ハウジングサービスといった、ネットワークの基盤を支えるサービスは、どんな時でも当たり前に稼働し続けることが求められます。しかし、この「当たり前」を実現するには、地震や台風といった、予測のつかないリスクへの備えが不可欠です。 さくらインターネットは、2018年9月に発生した北海道地震の際にも安定した運用を継続し、利用者に安心感をもたらしました。同社のサービスが安定運用を続けることができるのはなぜか? 先日紹介したデータセンター運用に続き、今回はネットワークの安定運用に焦点を当て、同社の技術本部ネットワークグループの3名に聞きました。 ※この記事は、さくらインターネット株式会社によるSponsoredContentです。 石狩、東京、大阪を結ぶトライアングルネットワークが冗長性をつくりだす ネットワークの中の人が見る、トラフィックのいま ネットワークを「湯水のように

        「当たり前に動いている」ネットワークを支える技術 - 冗長性を生み出すバックボーンの構成を、さくらインターネットに聞く - はてなニュース
      • PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021

        Preferred Networks(PFN)は深層学習などの最先端の技術を最短路で実用化することで、これまで解決が困難であった現実世界の課題解決を目指しています。コンピュータビジョン、自然言語処理、音声認識、ロボティクス、コンパイラ、分散処理、専用ハードウェア、バイオインフォマティクス、ケモインフォマティクスといった幅広い分野で研究開発を行っており、それを支えているのが Kubernetes を用いて構築しているオンプレミス/ベアメタルの GPU クラスタです。 本セッションでは、PFN が Kubernetes を用いてクラスタを運用するなかでどのような障害が起きるのかを紹介し、また障害対応をどのように自動化しているのかを具体的に使用/開発したソフトウェアを含めてご紹介します。また Kubernetes クラスタの管理、アップグレードの自動化にも取り組んでおり、それを実現する Clus

          PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
        • RDSのDBメンテナンスについて

          内容 らくがき記事、RDSでダウンタイムなしの24-365構成ってどうすればと思い書いている記事です。 とりあえずはRDSでメンテナンスやアップデート処理が走る時に、サービスダウンするのか否かを整理した資料となります。 RDS(MySQL)の整理 機能概要 最大 64 TiB のデータベースサイズをサポート 汎用インスタンスクラス、メモリ最適化インスタンスクラス、およびバースト可能パフォーマンスインスタンスクラスをサポート 自動バックアップとポイントインタイムリカバリをサポート。 単一のリージョン内または 5 つのリードレプリカのクロスリージョン内で、インスタンスごとに最大 15 個のリードレプリカをサポート 可用性と耐久性 3種類のオプションが選択可能 単一DBインスタンス スタンバイインスタンスのない単一の DB インスタンスを作成します。 マルチAZ DBインスタンス 別のアベイラビ

            RDSのDBメンテナンスについて
          • 超PayPay祭による高負荷にヤフーはどのように立ち向かったか

            ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。ヤフーの大岩です。 ヤフーが提供するYahoo!ショッピングやPayPayモールでは1年に1度大規模セールを行っています。 去年(2020/10/17~11/15)の対象期間は、超PayPay祭の開催に合わせて過去最大級の大規模セールとなっていました。特にセール最終日はグランドフィナーレと呼ばれ、ポイント還元率が年間を通して最大となる1年で最もお得な日となっていました。 集客の予測値は通常セールの数倍が見込まれており、セールの高負荷を乗り切るために、セール高負荷専用の対策チームが組まれ、そこを中心として高負荷対策を進めることになりました。 本記事では、大規模セールの高負荷に対して実際にどのような負荷対策を行ったかをサー

              超PayPay祭による高負荷にヤフーはどのように立ち向かったか
            • LINEのメッセージングサーバが新年のトラフィックに対応する過程

              はじめに LINEの通信トラフィックは、メッセンジャーアプリ特有のパターンを持っています。新年の0時を迎えた瞬間に、ユーザ同士がLINEで新年のあいさつを交わしていることが想定され、それにより平常時に比べてメッセージの送信件数が大幅に増加します。その際、サービスを提供する国ごとに、時差や文化の違いによってさまざまなトラフィックの増加パターンを見せます。LINEでは、このような一時的なトラフィック増加を問題なく処理するため、毎年さまざまな対策を行っています。これを「新年対応」と呼んでいます。本記事では、2020年の新年対応における私たちの取り組みと、成果についてご紹介します。 LINEのメッセージングサーバが新年のトラフィックに備えるプロセス 各国で新年の0時になると、多くのユーザがLINEで新年のあいさつメッセージを送っていると想定されます。そのため、平常時より一時的にトラフィックが大幅に

                LINEのメッセージングサーバが新年のトラフィックに対応する過程
              • インシデント管理で得られた教訓

                0 0 57 0 ジョーイ・ベイダ、ロス・デリンジャー共同執筆 Dropbox では、インシデント管理は信頼性への取り組みにおける重要な要素だと考えています。実際の障害発生に備えるために、カオス エンジニアリング(Chaos Engineering)などのプロアクティブな手法も採用していますが、インシデントへの対応の仕方がユーザー エクスペリエンスを大きく左右します。サイトの停止や製品の問題が発生する可能性がある場合、ユーザーにとって、それは一刻を争う事態です。 導入されて数年になるインシデント管理プロセスの主要コンポーネントですが、この領域には常に進歩する要素がありました。時間をかけて、技術的にも組織的にも、さらには手続き的にも細かな調整を加えてきました。 この投稿で触れているのは、 Dropbox がインシデント管理で得た教訓の一部について、深く掘り下げて説明します。インシデントにおけ

                  インシデント管理で得られた教訓
                • AWS IAM で障害が起こったらどうなるの? AWS IAM のレジリエンス(復元力)に関する記述がドキュメントに追記されていた | DevelopersIO

                  コンバンハ、千葉(幸)です。 AWS サービスで広範囲の障害が起こったときにどう備えるか?は AWS を利用する上では避けて通れない課題です。 例えば Amazon EC2 であれば、アベイラビリティゾーン(AZ)単位での障害に備えてマルチ AZ 構成にしておく、リージョン単位の障害に備えて別リージョンにバックアップを退避させておく、などの構成が思いつきます。 では AWS IAM で障害が起こったときに備えてどうすべきか?改めて問われると難しい問題です。わたしはぼんやりと「そもそも障害が起こることはないんじゃないか?そもそも AWS IAM における障害って何?」という思いを抱いていました。 そんな折、いつものように AWS IAM のドキュメントの更新履歴を眺めていると IAM のレジリエンスに関する更新が行われていることに気がつきました。 Document history for I

                    AWS IAM で障害が起こったらどうなるの? AWS IAM のレジリエンス(復元力)に関する記述がドキュメントに追記されていた | DevelopersIO
                  • AWS スポットインスタンスを用いたサービスの平均故障間隔(MTBF)を定量的に評価する | BLOG - DeNA Engineering

                    はじめに こんにちは、IT基盤部の天野です。AWSやGCPを用いたゲームインフラを担当しています。 DeNAが運用している大型ゲームでは、ステートレスなサーバにスポットインスタンスを使用しています。 スポットインスタンスはAWSに中断(=shutdown)されることがある代わりに、コストを大幅に抑えることができるインスタンスです。 AWSのイベントで見かける資料では、定常的な負荷はリザーブドインスタンスや Savings Plans を利用し、さらに負荷が増える部分で万が一落とされても問題ない範囲をスポットインスタンスで運用することが推奨されていたりします。 しかし、DeNA では web、memcached、worker等のサーバにおいて、ほとんどのリソースをスポットインスタンスで運用し、それでいてサービスは絶対に落ちない自信を持っています。 実際に DeNA でスポットインスタンスを本

                      AWS スポットインスタンスを用いたサービスの平均故障間隔(MTBF)を定量的に評価する | BLOG - DeNA Engineering
                    • バックアップのことストレージのこと最初に学ぶ人が見るサイト!|ネットワールド@NetworldCorp

                      IT業界新人教育に◎インフラ担当になったらまず押さえておきたい基礎知識を超わかりやすく解説。今更聞けない常識からトレンドネタまで教えちゃいます。

                        バックアップのことストレージのこと最初に学ぶ人が見るサイト!|ネットワールド@NetworldCorp
                      1