タグ

障害に関するymm1xのブックマーク (56)

  • いつものように本番作業してたはずなのに - Qiita

    この記事は「番環境でやらかしちゃった人 Advent Calendar 2019」の1日目です。 https://qiita.com/advent-calendar/2019/yarakashi-production なかなか濃いラインナップが期待されますが、まずはさらっといきたいと思います。 具体性が乏しい部分もあると思いますが、そこはお察しください。。。 やらかし 背景(前提条件) いっていに昔の話です ETL(データ加工)サーバ 数十を超えるシステムからデータを集める BIツールなどで活用できるように各種加工処理を行い、DBなどにロードする 繁忙の違いはあれど、24/365で常時一定量の処理は稼働している 複数のチームが共存しているサーバ アプリ面では比較的疎 ETL処理のリリース前に番サーバ上で試験をする取り決めになっていた 性能や番相当データのテストが安全に行えるような環境

    いつものように本番作業してたはずなのに - Qiita
    ymm1x
    ymm1x 2019/12/02
  • crontab database ~君がしでかしてくれたもの~ - Qiita

    この記事は番環境でやらかしちゃった人のアドベントカレンダー2日目の記事です。 内容的にそろそろ時効だと思うので供養のために書きました。 追記。そういえば時期をちゃんと書いてなかったけど事件が起きたのは去年2018年、つまり仕込み(ヲイ)は2017年の話です ぶっちゃけネタ記事ですw (たまたま見つけて参加してみただけなのに昨日の記事の伸びっぷりを見て戦々恐々としてる TL;DR DB移行作業において、テスト期間中は常に最新のデータで処理できるように書いておいたプログラムをcrontabで実行していた。最終的に番に合わせて日時を調整していたが、そのことを失念し1年後に再実行されてしまい、番データが1年前に巻き戻る事故発生。 crontab は分、時、日、月、曜日を指定できるが、1年後に帰ってくるから気をつけてね。という話。 惨劇はなぜおこってしまったのか 結論から言えばcrontabの

    crontab database ~君がしでかしてくれたもの~ - Qiita
    ymm1x
    ymm1x 2019/12/02
  • QTnetデータセンターの電源トラブルと楽天カードの決済障害についてまとめてみた - piyolog

    2019年11月23日朝、QTnetのデータセンターで電源設備のトラブルが発生し、これの影響を受け同センター利用各社のサービスが利用できない等の障害が発生しました。(24日時点で完全復旧はしていない)影響を受けた企業の内、楽天カードでは朝からカードが利用できない等のシステム障害が発生しました。ここでは関連する情報をまとめます。 原因はQTnetの電気工事 2019年11月23日 [PDF] 【QTnet データセンター】データセンターシステムの障害による停止について 2019年11月25日 [PDF] データセンターの電源障害による停止について~2019 年 11 月 23 日発表「【QTnet データセンター】データセンターシステムの障害による停止について」の続報~ 2019年11月23日にQTnetはデータセンターで老朽化した電源設備更新のため取り替え工事(約10分間)を行っていた。*

    QTnetデータセンターの電源トラブルと楽天カードの決済障害についてまとめてみた - piyolog
  • 楽天ペイで再び障害 楽天カードの一部機能も復旧めど立たず

    スマートフォン決済サービス「楽天ペイ」で11月25日午前から不具合が発生し、利用できない状態が続いている。23日にも障害が発生し同日中に復旧していたが、再び不具合が発生した。楽天は復旧を急いでいるが、詳しい原因や復旧のめどは明かしていない。 楽天ペイの障害が解消 クレカの一部機能は使えないまま 楽天ペイの障害、原因は「楽天カードの復旧作業」 楽天ペイアプリを起動すると「ただいま緊急メンテナンス中のためサービスを停止しております。ご不便をおかけいたしますが、今しばらくお待ちください」と表示される(25日午後2時時点) 23日にも、楽天ペイとクレジットカード楽天カード」で障害が発生していた。楽天が利用している外部のデータセンターで、電源設備の更新作業中に不具合が起きたことが原因とみられる。 楽天ペイは23日中に復旧したが、25日午前から再び使えなくなった。クレジットカードの借り入れなどは23

    楽天ペイで再び障害 楽天カードの一部機能も復旧めど立たず
  • 楽天ペイが復旧 楽天カードで一部影響残る | NHKニュース

    楽天が手がけるスマートフォン決済サービスの楽天ペイは、23日に続いて25日も一時、利用ができなくなりましたが、午後2時すぎに復旧しました。 会社が復旧作業を進めた結果、午後2時すぎに利用できるようになったということです。 楽天ペイは23日、九州電力の子会社で福岡市にある通信会社「QTnet」のデータセンター設備の不具合によって一時、利用ができなくなったばかりでした。 一方、同じく23日、一時利用ができなくなったクレジットカード楽天カードは、25日午後1時半の時点で買い物での支払いやカードの申し込みはできるものの、カードを使った借り入れや会員情報の変更など、一部のサービスへの影響は残っているとしています。 楽天によりますと、一連の問題は23日の不具合からの復旧作業の過程でシステムが不安定になったことが原因とみられるということです。 楽天は「お客様には多大なご迷惑とご不便をおかけし深くおわび

    楽天ペイが復旧 楽天カードで一部影響残る | NHKニュース
  • 楽天ペイ 再び利用できず | NHKニュース

    スマートフォン決済の楽天ペイが、25日午前中から利用できなくなっています。楽天ペイは23日も一時、利用ができなくなっていて、会社は原因を調べるとともに復旧を急いでいます。 楽天ペイは23日、九州電力の子会社で福岡市にある通信会社「QTnet」のデータセンター設備の不具合によって一時、利用ができなくなったばかりです。 楽天によりますと、25日は午前0時から午前6時までの予定で利用を停止してメンテナンスの作業をしていたということで、会社は原因を調べるとともに復旧を急いでいます。 楽天ペイは、事業者の参入が相次ぐスマホ決済サービスの中で大手の一角で、利用を伸ばしています。 楽天ペイのスマホのアプリには25日正午時点で「ただいま緊急メンテナンス中のためサービスを停止しております。ご不便をおかけいたしますが、今しばらくお待ちください」と表示されています。

    楽天ペイ 再び利用できず | NHKニュース
  • 【完全復旧】システム不具合によるサービスの一時利用停止のお詫びとお知らせ:楽天カード

    楽天グループ関連 補助メニュー カードの盗難・紛失よくあるご質問 主なカテゴリー 現在地 トップ > お知らせ一覧 > 【完全復旧】システム不具合によるサービスの一時利用停止のお詫びと完全復旧のお知らせ 【完全復旧】システム不具合によるサービスの一時利用停止のお詫びと完全復旧のお知らせ 更新日時:2018年3月7日7時00分 日頃より、「楽天カード」をご利用いただきまして誠にありがとうございます。 2018年3月1日23時50分ごろから、サービスの一部がご利用いただけない事象が発生しておりましたが、お客様向けサービスが完全に復旧いたしましたので、お知らせいたします。 このたびは、お客様には長時間にわたり多大なご迷惑とご不便をおかけし、深くお詫び申し上げます。 3月7日7時00分に復旧し、現在は正常にご利用いただける状態となっております。 今後再発防止に努め、お客様に安心して楽天カードをご利

    【完全復旧】システム不具合によるサービスの一時利用停止のお詫びとお知らせ:楽天カード
    ymm1x
    ymm1x 2019/11/23
  • NHKサイトの接続障害、原因はネットワーク機器の不調 「サイバー攻撃ではない」

    11月12日午後11時ごろから、NHKの関連Webサイトや公式アプリを管理するネットワーク機器に障害が発生し、約1時間30分にわたってアクセスできない状態が続いた。13日午前1時ごろに復旧した。サイバー攻撃による障害ではなく、機密情報の流出はないという。 NHKによると、障害は12日午後11時15分に発生。原因はネットワーク機器の障害で、ネットワーク系統を切り替えることで対応。13日午前0時52分に復旧した。閲覧できなくなったサービスは、NHKの公式Webサイト「NHKオンライン」やネット配信サービス「らじるらじる」、公式アプリ「NHK ニュース・防災」(iOS/Android)など。

    NHKサイトの接続障害、原因はネットワーク機器の不調 「サイバー攻撃ではない」
  • Origami Payでシステム障害、一部加盟店で約2時間決済できず

    同社によると、障害が発生したのは同日午前9時1分ごろから午前11時2分ごろまで。「一部の加盟店で決済できない状態だった」としている。日経 xTECH記者が同日正午ごろ、東京都内のローソンにおいてOrigami Payで決済しようとしたところ、複数回試してもエラーが出て決済できない状態だった。同日午後2時ごろにローソンの同店舗で再びOrigami Payで決済すると、正常に完了した。 Origamiは障害の状況や原因について「調査中」とのみ回答しており、詳細を明らかにしていない。

    Origami Payでシステム障害、一部加盟店で約2時間決済できず
  • https://www.konami.com/games/jp/ja/topics/15369/

  • 増税に伴うシステムトラブルをまとめてみた - piyolog

    2019年10月1日の消費税率変更を受け、一部の小売や外、交通系のシステムでトラブルが発生しました。ここでは関連する情報をまとめます。 トラブルまとめ 発生組織 トラブルの内容 ミニストップ [PDF] 消費税増税に伴うシステム障害に関するお詫びとお知らせ ・軽減税率対象の商品の内税表示等が誤っていた ・税率10%の商品を8%で販売していた。さらにレシートは内税10%の表示となっていた。 ・値引き商品を1円以上多く受領している可能性がある。 ・10月1日0時過ぎに社員の見回りで発覚し、3時に対応された。 ・全国数百店舗に影響。 ・顧客より多く徴収していた場合レシート提示で返金に応じる。 ・来徴収すべきだった2%分は部が負担の方向で検討中。 スシロー 消費税改定に伴うレジシステム不具合復旧のお知らせ ・会計時に外税0%となり消費税が実質0%計算された。 ・ネット決済以外を除き、持ち帰り

    増税に伴うシステムトラブルをまとめてみた - piyolog
  • 運用とログ - 京都行きたい

    アラート起因で調べるベースの運用とログの話を書いておく。 状況確認 状況確認は大事。ひとまず初動で原因が分かると嬉しいので ざっくり状況確認。 ログを読む エラーログを読む なにも出てなかったらWARNを読む メトリクスを見る 5xxエラーを見る どのサービスがダメになってる? 状況別調査 状況別に自分が見ているところをざっくりメモベースで書いておいた。 変なレスポンスが返っている ログを見る リクエストに紐付いた一意なIDを元にログで処理を追いかける 外部通信した時はこの一意なIDと一緒にログに出力しておきたい レスポンスが遅い レスポンスタイムを見る 特定のリクエストだけ遅い場合があるので、基的にAverageじゃなくてPercentileを使う 依存先のサービスも見る サービスのCPU使用率見る 特定のインスタンスのCPU使用率を見る RDBやバックエンドのCPU使用率を見る IO

    運用とログ - 京都行きたい
  • SREによる構成変更がGmailなど広範囲な障害の引き金に。3月13日に発生した障害についてGoogleが報告

    SREによる構成変更がGmailなど広範囲な障害の引き金に。3月13日に発生した障害についてGoogleが報告 3月13日の11時53分から15時13分(いずれも日時間)までの3時間20分のあいだ、GmailやGoogle Drive、Google Photos、Google Storage、App EngineのBlobstore APIなどGoogleの広範囲なサービスで一部の機能が利用できなくなる、あるいは遅延が発生するなどの障害が発生しました。 その原因と対策について、Googleが「Google Cloud Status Dashboardのインシデント#19002」として報告しています。 報告では障害の原因が、ストレージ内のリソースを削減しようとしたSRE(Site Reliability Engineer)による構成変更にあったと説明。 SRE(Site Reliabili

    SREによる構成変更がGmailなど広範囲な障害の引き金に。3月13日に発生した障害についてGoogleが報告
    ymm1x
    ymm1x 2019/03/18
  • Gmailの障害原因が明らかに 設定変更に“副作用”

    「Gmail」「Google ドライブ」で障害が発生した件で、Googleが詳しい原因を明らかにした。 Googleが運営するメールサービス「Gmail」やオンラインストレージサービス「Google ドライブ」で3月12日(米国時間)、ファイルを添付したメールが送受信しづらかったり、保存したファイルが開きにくかったりする障害が発生した件で、同社が14日、詳しい原因を明らかにした。 Googleによれば、障害は12日午後6時40分~午後10時50分(米国時間)に発生。Google内部で画像や音声などのマルチメディアオブジェクト(BLOB:Binary Large OBject)を管理しているストレージサービスでトラブルが起きたことが原因という。BLOBストレージサービスを活用しているGmail、Google ドライブなど「利用者にも見えるサービスでもエラーが生じた」(同社)としている。 同社

    Gmailの障害原因が明らかに 設定変更に“副作用”
    ymm1x
    ymm1x 2019/03/16
  • minne の障害訓練(ミンドリ)のご紹介 - Pepabo Tech Portal

    あけましておめでとうございます。ペパボテックブログ 2019 年一発目の記事は minne 事業部チーフテクニカルリードの @_shiro16 がお送りします。 minne では定期的に障害訓練を行なっています。そこで今回はなぜ障害訓練を実施するようになったのか?や実際に実施してみて等のご紹介をしたいと思います。 はじめに 障害訓練の名前についてミンドリと名付ける事にしました。障害訓練の内容をテックブログに書こうと思っているんですがネーミングセンスが無なので困っていると社の Slack相談したところ @monochromegane が下記のような理由でミンドリという名前を提案してくれたので、採用させてもらいました。 経緯 minne にて sidekiq の特定の job の処理に時間がかかるようになり、一定時間の job を捌ける件数より積まれる件数が多く job の件数が増え続けこ

    minne の障害訓練(ミンドリ)のご紹介 - Pepabo Tech Portal
    ymm1x
    ymm1x 2019/01/21
  • dd と僕 - 水深1024m

    自分のメインマシンこと MacBook Pro の SSD に Ubuntu インストールディスクを dd して破壊した。 正直書くのも憚られる話で、お前来年から当に職業エンジニアになれんのって話なのだけど、 当にクリティカルな状況下でやらかさないよう戒めとしてまとめることにした。 びっくりするほどレベルの低い話。 修士論文の提出も終わり、さてやっと研究室のサーバ環境を更新できるぜぐへへ、 とか思いながらとりあえず転がっていた HP MicroServer に Ubuntu を入れ、 作業用ストレージにしようとしていた。 自宅でも MicroServer を使っていたのでさくさくっと HDD を突っ込み、MicroServer には光学メディアドライブがないので USB メモリからインストールしようといつものようにインストールイメージをダウンロード。 光学メディアのないマシンにインスト

    dd と僕 - 水深1024m
  • niconico、アクセスしづらい状態に 「異常な量の通信を検知」

    ドワンゴが運営する動画サービス「niconico」などが10月29日午後7時16分ごろから、アクセスしにくい状態になった。同日午後9時19分ごろに復旧した。ドワンゴによれば「システムに負荷をかける異常な量の通信を検知した」という。 同社は「不具合の対策のため、日国外との通信を一部遮断した」という。 一方、はてなが運営する「はてなブックマーク」も同日午後7時12分ごろからアクセスしにくくなった。翌30日午前2時41分ごろに復旧した。「原因はネットワークに過大な負荷がかかっているため」(同社)という。 【編集履歴:2018年10月30日10時39分更新 ※両サービスが復旧したことを追記しました】 関連記事 はてなブックマークがダウン ネットワーク負荷が原因(追記あり) 「はてなブックマーク」で10月29日午後7時12分からアクセス障害が発生している。 大規模な接続障害、Googleが謝罪 「

    niconico、アクセスしづらい状態に 「異常な量の通信を検知」
  • はてなブックマークがダウン ネットワーク負荷が原因(追記あり)

    ソーシャルブックマークサービス「はてなブックマーク」で10月29日午後7時12分からアクセス障害が発生している。Web版、アプリ版のどちらも接続できない状態が続いており、運営元のはてなは復旧に向けて対応を進めているという。 障害の原因について、同社は「ネットワークに過大な負荷がかかっているため」と説明している。 はてなは同日、EvernoteやFacebookなどの外部サービスとの連携や、対象のはてなIDに通知やメッセージを届ける「IDコール」など一部機能の終了を発表。このうちIDコールを廃止するリニューアルは10月29日中に行うとしていた。 【追記:障害は10月30日午前2時41分ごろに復旧した】 関連記事 はてなダイアリー、全投稿データをはてなブログへ自動移行 放置されている記事が消えることはなさそうだが、はてなは自身での移行を推奨している。 ユーザーの反応に「完全に狼狽した」 はてな

    はてなブックマークがダウン ネットワーク負荷が原因(追記あり)
  • はてなブックマークに接続できない障害が発生しています - はてなブックマーク開発ブログ

    平素よりはてなブックマークをご利用いただきありがとうございます。 2018年10月29日(月)19:12より、はてなブックマーク(Web、アプリとも)に接続できない障害が発生しています。 原因はネットワークに過大な負荷がかかっているためで、現在対応を行っております。復旧まで今しばらくお待ちください。 追記 2018年10月30日 02時41分頃復旧いたしました。ご迷惑をおかけし申し訳ございませんでした。 再発防止に努めてまいります。

    はてなブックマークに接続できない障害が発生しています - はてなブックマーク開発ブログ
  • 東証がシステム障害の原因公表、メリルリンチがIPアドレスを重複使用 | 日経 xTECH(クロステック)

    取引所グループ傘下の東京証券取引所は2018年10月23日、9日に株式売買システム「arrowhead」で起こったシステム障害のより詳しい原因や再発防止策などを公表した。合わせて東証の宮原幸一郎社長に月額報酬の10%を1カ月間減額するなどの経営幹部の処分も発表した。

    東証がシステム障害の原因公表、メリルリンチがIPアドレスを重複使用 | 日経 xTECH(クロステック)