タグ

障害に関するMakotsのブックマーク (74)

  • 『家族アルバム みてね』を支えるオンコールエンジニア制度 | gihyo.jp

    株式会社MIXIで『家族アルバム みてね』(⁠以下みてね)のSREグループに所属している間です。 みてねは現在、1,500万人を超えるユーザに175の国と地域でサービスを提供しています(2022年8月現在)。そこで、より高い信頼性と可用性を担保するためにみてねのSREグループではオンコールエンジニア制度を設けています。 今回はこの「みてねのSREグループにおけるオンコールエンジニア制度の取り組み」についてご紹介させて頂きます。 オンコールの定義 まず、どのような条件でアラートを設定しオンコールを実施するかの定義について簡単に触れておきます。 現在はさまざまなソースから多種多様な情報を収集することができます。 たとえば、みてねではKubernetesAmazon EKS)を採用しています。Kubernetesだけでも非常に多くのメトリクスが収集できますが、それだけではなくアプリケーション

    『家族アルバム みてね』を支えるオンコールエンジニア制度 | gihyo.jp
  • 【1月23日追記】12月23日、24日に発生しました障害に関するご報告

    いつもSkebをご利用いただき、誠にありがとうございます。 12月23日12時よりskeb.jpにアクセスできない大規模な障害が発生しておりましたが、12月24日07時に復旧いたしました。 12月23日、および12月24日が納品期限のリクエストは納品期限を12月25日23時59分までに延長させていただきます。 みなさまには多大なご迷惑をお掛けしましたことをお詫び申し上げます。 障害につきまして詳細をご報告させていただきます。 概要日時: 12月23日12時22分〜12月24日7時00分 (JST) ダウンタイム: 18時間38分 内容: skeb.jpにアクセスできない不具合 原因: SkebはすべてのサーバとシステムをHerokuに設置していたが、障害発生時刻より同サービスのアカウントが理由の通知なく利用できなくなった。 解決: Herokuの一切の利用を中止し、すべてのサーバとシステ

  • うるう秒を過去のものにする時が来た

    Metaのエンジニアリング・ブログより。 BY オレグ・オブレウコフ、アフマド・ビャゴウィ うるう秒の概念は、1972年に国際地球回転・基準系事業(IERS)によって初めて導入された。これは、観測された太陽時(UT1)に不確定性があり、地球の自転が長期的に減速しているため、協定世界時(UTC)を定期的に更新しようという試みだった。この定期的な調整により、科学者や天文学者はほとんどの用途でUTCを使用して天体を観測することができるようになり、主な恩恵を受けてきた。もし、UTCの補正がなければ、天体観測のためにUTCに同期するレガシー機器とソフトウェアに調整を加えなければならなくなる。 うるう秒が導入されて以来、今日までUTCは27回更新されている。 1972年当時、うるう秒は科学界と通信業界の双方を満足させるものだったが、最近のUTCはデジタル・アプリケーションと科学者の双方にとって等しく悪

    うるう秒を過去のものにする時が来た
  • KDDIの通話・通信障害メモ - show log @yuyarin

    この記事は7/3午前中に記載したもので、まだKDDI社長の会見内容を反映していません。 今回のKDDIの障害が具体的にどういうサービスに影響が出るのものか、モバイルネットワーク初心者としてLTE/EPC/IMS周りの挙動の勉強のためにまとめてみた。 はじめにまとめ モバイルの通信には音声通話とデータ通信があり、今回主に長時間の障害を受けたのは音声通話(IMS)の方だった。 7/2(土)の日中帯はデータ通信はできるが音声通話やそれに付属するサービスが利用できない状態が継続していた。データ通信も不安定な状態になっていた。 端末の実装(主にAndroid端末)によっては音声通話ができないとデータ通信も止めてしまう挙動があった。これによりLTEを回線として使用しAndroidベースで構築された決済システムなどが利用不可能な状態が継続した。 音声通話(IMS)が利用できないと、通常の電話はもちろん、

    KDDIの通話・通信障害メモ - show log @yuyarin
  • Kubernetes障害で泣かないための羅針盤、Observabilityを活用したトラブルシューティングフロー大公開

    ※岡、正野、宇都宮はNTTデータ所属 Kubernetesやクラウドネイティブをより便利に利用する技術やツールの概要、使い方を凝縮して紹介する連載「Cloud Nativeチートシート」。前回から複数回に分けて「Observability(オブザーバビリティ)」「可観測性」にフォーカスして解説しています。 Kubernetesを使っていてトラブルが発生したけど、原因究明をどう進めればいいか分からない……ということはありませんか? コンテナを利用したシステムでは、マイクロサービス化が容易なので、コンポーネントやサービスの数が従来のシステムに比べて非常に多くなります。そのため、障害が発生した場合の原因の究明も大変になります。 そこで今回は、「Observabilityでいろいろとデータが取れるのは分かったけど、何からどう見ていけばいいのか分からない」という方向けに、Kubernetesで実

    Kubernetes障害で泣かないための羅針盤、Observabilityを活用したトラブルシューティングフロー大公開
  • 自社のDB破壊しCEOに身代金要求、freeeが本当にやったクラウド障害訓練の舞台裏 「従業員はトラウマに」

    自社のクラウド環境に侵入され、データベースから経営に欠かせないデータを持ち出される。バックアップも消され、データを取り戻したければ、身代金を支払うよう要求される──企業にとって絶対に直面したくない事態の一つだ。しかしこのシチュエーションをあえて再現し、訓練という形で自社のCEOに身代金まで要求した企業がある。クラウド会計サービスを提供するfreeeだ。 freeeは2021年10月、標的型攻撃とランサムウェアを組み合わせたシナリオを基に全社的な訓練を実施。AWS上のDBからデータを盗み出し、バックアップを消した上で、自社のCEOに社内SNSを通して身代金を要求したという。訓練を主導したのは、製品やサービスのセキュリティ向上を目指す社内組織「PSIRT」だ。 訓練を実施した背景には、情報システム部などのIT部門だけでなく、経営層まで巻き込みたい考えがあったという。同社のPSIRTが取り組んだ

    自社のDB破壊しCEOに身代金要求、freeeが本当にやったクラウド障害訓練の舞台裏 「従業員はトラウマに」
  • bash スクリプトの実行中上書き動作について

    を設定してから再度試した所 bar が表示された。backupcopy は編集中のファイルによって自動で判別する auto がデフォルトになっている為、試す際には明示的に yes に設定しないといけない。 bash の実装確認 evalstring.c の parse_and_execute でコマンドが処理されており、input.c の with_input_from_buffered_stream で読み込みの準備が行われている。バッファの読み込みの体は y.tab.c つまりパーサから直接呼ばれており、このパーサは fgets(3) で読み込まれつつ実行される為、一括でファイルが読み込まれている訳ではない。 while/do でループ実行した際に、ファイルを書き換えられたら戻り先はどうなるか、についてはスクリプトはバッファ付きで読み込まれており、そのバッファがファイルシステムから読

    bash スクリプトの実行中上書き動作について
  • スーパーコンピュータシステムのファイル消失のお詫び | お知らせ | 京都大学情報環境機構

    京都大学学術情報メディアセンター センター長 岡部 寿男 2021年12月14日 17時32分 から 2021年12月16日 12時43分にかけて,スーパーコンピュータシステムのストレージをバックアップするプログラム(日ヒューレット・パッカード合同会社製)の不具合により,スーパーコンピュータシステムの大容量ストレージ(/LARGE0) の一部データを意図せず削除する事故が発生しました. 皆さまに大変なご迷惑をおかけすることになり,深くお詫び申し上げます. 今後,再びこのような事態の生じることのないよう再発防止に取り組む所存ですので,ご理解をいただきますよう,どうぞよろしくお願いいたします. ファイル消失の影響範囲 ・対象ファイルシステム: /LARGE0 ・ファイル削除期間:2021年12月14日 17時32分 ~ 2021年12月16日 12時43分 ・消失対象ファイル:2021年12

  • 【マジで】サイバー演習シナリオの作り方【怖い】 - freee Developers Hub

    CEOに身代金を要求したい」 こんにちは、PSIRTマネージャのただただし(tdtds)です。この記事はfreee Developers Advent Calendar 2021 18日目です。 freeejoinしてから早くも14ヶ月がすぎました。freeeでは毎年10月に全社障害訓練をしていて、昨年は入社したてで右も左もわからないままAWS上の番環境(のレプリカ)に侵入してDBをぶっ壊す役目をさせられたのも良い思い出です*1。 で、上の「CEOに身代金を要求したい」という物騒な相談は、今年の訓練計画の話です。話を持ち掛けてきたのはCIOの土佐。昨年は主要サービスが落ちて、開発チームが対応にあたる中、ビジネスサイドも顧客対応などで訓練参加しましたが、今年はさらに、経営サイドまで巻き込もうというゴール設定がされたわけですね。腕が鳴ります。 ゴールは「CEOに4BTCを要求する」 ゴー

    【マジで】サイバー演習シナリオの作り方【怖い】 - freee Developers Hub
  • 自動運転機能を持つ白杖、米スタンフォード大が開発 センサーで障害物を検知し、車輪で誘導

    Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米スタンフォード大学の研究チームが開発した「Multimodal sensing and intuitive steering assistance improve navigation and mobility for people with impaired vision」は、視覚障害者の歩行補助を強化する拡張した白杖だ。 白杖の手元には4種類のセンサー、先端には左右に回転する車輪を搭載。周囲の障害物を検知し、車輪を回転させることでユーザーをナビゲーションする。 視覚障害者をナビゲーションするには、衝突回避や屋内外の道案内、重要な物体の位置特定の3つの主な課題がある。一般的には白杖や盲

    自動運転機能を持つ白杖、米スタンフォード大が開発 センサーで障害物を検知し、車輪で誘導
  • 大規模Kafkaクラスターで起きた「SYN flood」 再現性のない問題をどのように原因究明したか

    2021年11月10日と11日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2021」がオンラインで開催されました。そこで岡田遥来氏が、LINEで最もよく使われるミドルウェアの1つ「Kafka」クラスターのリクエスト遅延を、どのように解決したかについて紹介しました。まずは起きた現象と、その原因究明について。 分散ストリーミングミドルウェア「Apache Kafka」 岡田遥来氏:ではセッションを始めます。よろしくお願いいたします。 こんにちは。岡田遥来と申します。LINEでシニアソフトウェアエンジニアをやっていて、全社的に利用されるApache Kafkaプラットフォームの開発・運用を担当しています。 ご存じの方も多いかもしれませんが、Apache Kafkaは分散ストリーミングミドルウェアで、LINEでは最もよく使われるミドル

    大規模Kafkaクラスターで起きた「SYN flood」 再現性のない問題をどのように原因究明したか
  • インシデントレスポンスを自動化で支援する Slack Bot で人機一体なセキュリティ対策を実現する

    インシデントレスポンスを自動化で支援する Slack Bot で人機一体なセキュリティ対策を実現する https://event.cloudnativedays.jp/cndt2021/talks/1260

    インシデントレスポンスを自動化で支援する Slack Bot で人機一体なセキュリティ対策を実現する
    Makots
    Makots 2021/11/07
    めちゃくちゃ良かった
  • Understanding how Facebook disappeared from the Internet

    Understanding how Facebook disappeared from the Internet2021-10-04 This post is also available in 简体中文, 繁體中文, 日語, 한국어, Deutsch, Français, Español, Português, Pусский, and Italiano. The Internet - A Network of Networks“Facebook can't be down, can it?”, we thought, for a second. Today at 15:51 UTC, we opened an internal incident entitled "Facebook DNS lookup returning SERVFAIL" because we were worr

    Understanding how Facebook disappeared from the Internet
  • Istio入門 その4 -基礎から振り返る- - Qiita

    2017年のZ Lab Advent CalendarでもIstio入門シリーズについて書きました。あれからはや1年。Istioのバージョンもv0.2からv1.0.4まで11バージョンもリリースされています。またIstioで使われているEnvoyは、Kubernetesなどと同じご卒業フェーズ1になりました。 もちろんコンセプトは変わっていませんが、v0.8あたりからv1にむけてコンポーネント名や設定方法などは大幅に変更されています。これらの変更点に注意しつつ、Istioを基から振り返って見ましょう。2 マイクロサービスとその問題点 マイクロサービスというシステムの設計パターンは2012年ごろから言われていましたが、世界的にバズったのは2014年のJames Lewis & Martin FowlerによるMicroservicesについてのブログ記事がきっかけです。 マイクロサービスと

    Istio入門 その4 -基礎から振り返る- - Qiita
  • 障害発生!全員集合? - オンコールアンチパターンからの一歩前進 - Cybozu Inside Out | サイボウズエンジニアのブログ

    8月だというのに涼しい日が続きますね。 kintone.comのDevOpsをしている@ueokandeです。 もうすぐAWSkintoneのローンチからから2年が経過しようとしています。 この2年間、DevOpsチームではkintone.comのサービス安定化やスケーラビリティに注力してきました。 時には番環境の障害で休日や深夜に障害対応することもあります。 kintone.comの障害の一次対応は、我々DevOpsメンバーが実施しています。 サービスローンチ直後は、メンバーの多くがオンコールに不慣れで、慌てて障害対応したりうまく進められないことが何度もありました。 そこでメンバー全員が効率的・効果的な障害対応を目指すべく、チームでPagerDuty社のIncident Response(非公式日語訳版)を読むことにしました。 この記事ではAWSkintoneで実際に体験した障害

    障害発生!全員集合? - オンコールアンチパターンからの一歩前進 - Cybozu Inside Out | サイボウズエンジニアのブログ
  • プログラマにも読んでほしい「QC検定にも役立つ!QCべからず集」OSEK(71) - Qiita

    QCの基はデータ解析。データ解析ばかりしていて、仕事に役立てない人をいっぱいみてきた。 ある日、ある人の言葉から、筋書きを考えていたら、それ自分かもってなった。 データサイエンティストの気づき『勉強だけして仕事に役立てない人。大嫌い』それ自分かもってなった。 https://qiita.com/kaizen_nagoya/items/d85830d58d8dd7f71d07 OSEK OSを利用するにあたって、設計にあたっての証明と、HAZOPによる安全分析と、成果に対する品質測定を行ってきた。 QC検定にも役立つ! QCべからず集 すごく内容がよい。 プログラマの方にも読んで欲しいと思い、筆をとりました。 はじめに(introduction) 統計、確率を学べば、因果関係が大事なのではなく、時系列の推移が大事だとわかる。 統計力学、量子力学、遺伝子工学、疫学などの分野で常識になると嬉し

    プログラマにも読んでほしい「QC検定にも役立つ!QCべからず集」OSEK(71) - Qiita
  • PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021

    Preferred Networks(PFN)は深層学習などの最先端の技術を最短路で実用化することで、これまで解決が困難であった現実世界の課題解決を目指しています。コンピュータビジョン、自然言語処理、音声認識、ロボティクス、コンパイラ、分散処理、専用ハードウェア、バイオインフォマティクス、ケモインフォマティクスといった幅広い分野で研究開発を行っており、それを支えているのが Kubernetes を用いて構築しているオンプレミス/ベアメタルの GPU クラスタです。 セッションでは、PFN が Kubernetes を用いてクラスタを運用するなかでどのような障害が起きるのかを紹介し、また障害対応をどのように自動化しているのかを具体的に使用/開発したソフトウェアを含めてご紹介します。また Kubernetes クラスタの管理、アップグレードの自動化にも取り組んでおり、それを実現する Clus

    PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
  • Operating a Large, Distributed System in a Reliable Way: Practices I Learned

    For the past few years, I've been building and operating a large distributed system: the payments system at Uber. I've learned a lot about distributed architecture concepts during this time and seen first-hand how high-load and high-availability systems are challenging not just to build, but to operate as well. Building the system itself is a fun job. Planning how the system will handle 10x/100x t

    Operating a Large, Distributed System in a Reliable Way: Practices I Learned
  • 小学4年生の男の子が自分の発達障害について創った資料を公開します|中里祐次 @wato

    こんにちは。 『「好き」で自信を創り、「好き」で社会とつながる』をビジョンに、発達障がい児や不登校のお子さん向けにメンターマッチングサービスと教室運営をしているBranchの中里です。 今回は、Branch room(代官山にある教室)に通ってきている男の子が創った資料を公開します。 ※人の許可を得ています。 自分が発達障がいであると知っており(開示されている)、それをより自分で理解して周りの人にも知ってもらいたいと思って創ったそうです。 これを見て「これで小学生か、、すごいな」と思ったし、僕もより周りの方にこういった内容を知ってもらいたいと思い、公開をお願いしてみました。 どうぞご覧ください。 下記のページを参考にしていて、イラスト/内容もここから持ってきていますが、それを整理して気持ちの部分やまとめの部分などは全部自分の言葉で書いているそうです。 「発達障害」子どもと一緒にイラスト

    小学4年生の男の子が自分の発達障害について創った資料を公開します|中里祐次 @wato
    Makots
    Makots 2019/06/15
    やさしくて勇気があって賢くてすごい子だなあ
  • ソフトバンク大規模通信障害の原因:Geekなぺーじ

    2018年12月6日、ソフトバンクのネットワークにおいて、4時間25分にわたり約3060万回線の利用者に影響を及ぼす通信障害が発生しました。 ソフトバンクおよびワイモバイルの4G(LTE)携帯電話サービス、「おうちのでんわ」、Softbank Air、3Gサービスなどが影響を受けました。 この障害は、EricssonのMME内部にハードコーディングされた証明書が期限切れになったため、SGSN-MME(Serving GPRS Support Nodex - Mobility Management Entity)が再起動を繰り返してしまったのが原因です。 ただ、証明書が期限切れになることで、なぜ大規模な通信障害に繋がってしまうのかが良くわかりませんでした。 どのような設計をしたら、証明書が期限切れになったことで通信機器が再起動を繰り返すような状況になるのか、昨年段階では、いまいち理解できなか

    Makots
    Makots 2019/02/04
    これは厳しいな…