タグ

障害と2021年に関するlocke-009のブックマーク (9)

  • 京大スパコンのデータ77TBが消失 バックアップ処理中に不具合 日本ヒューレット・パッカード「100%弊社の責任」

    京都大学は12月28日、同学のスーパーコンピュータに保存していたデータ約77TBが消失したと発表した。うち約28TBはバックアップがなく復元不能という。原因は日ヒューレット・パッカード(HPE)製バックアッププログラムの不具合で、同社は「100%弊社の責」と謝罪している。 消失したのは、12月3日以降に更新がなかった3401万1293個のファイル。HPEによると、ストレージのバックアップ処理実行中にバックアッププログラムの更新作業をしたことで、ストレージ内のファイルを削除する想定外の処理が発生したのが原因という。 京都大学とHPEはバップアップ作業を停止。プログラムの改善と再発防止策を施した上で1月末までに再始動する予定。HPEは苦情や善後策の相談などを受け付けるメール窓口を設置した。 京都大学は今後、バックアップ機能の強化と運用管理の改善に取り組む。HPEは「担当技術者へのヒューマンエ

    京大スパコンのデータ77TBが消失 バックアップ処理中に不具合 日本ヒューレット・パッカード「100%弊社の責任」
  • ドコモが10月14~15日の「重大な通信障害」を総務省に報告 音声は約460万人、データは830万人以上に影響

    NTTドコモは11月10日、10月14日から15日にかけて発生した通信障害について、総務省に「重大な事故報告書」を提出した。同省ではこれを受領し、今後精査の上でNTTドコモへの対応を検討する。 →NTTドコモの携帯電話で通話やデータ通信がしづらい状況が発生 順次回復へ →ドコモの通信障害、4Gと5Gは15日5時5分に全て復旧 →ドコモの通信障害、15日22時に3Gも復旧 報告書の提出を受けて、ドコモは同日、当該の障害に関する説明会を改めて開催した。この記事では、10月15日の説明会からアップデートされた内容を中心に解説する。 障害の原因除去後の「接続不具合」の影響人数が明らかに 当該の障害は、タクシーの電子決済や自動販売機で使われるIoTサービス用の「加入者/位置情報サーバ(HLR/HSS)」を旧設備に切り戻し(ロールバック)をしたことが原因で発生した。詳しい経緯は10月15日の説明会で説

    ドコモが10月14~15日の「重大な通信障害」を総務省に報告 音声は約460万人、データは830万人以上に影響
  • 1290万人? 830万人? ドコモ通信障害の影響規模がよく分からないのはなぜか

    NTTドコモは11月10日、10月14日に発生した大規模な通信障害について、対応状況を発表した。この通信障害は、新設したIoTサーバへの切り替え工事中での作業手順の認識齟齬(そご)により、IoT端末から大量の位置情報登録信号が発生。ドコモ回線にアクセスが集中し混雑するネットワークの輻輳(ふくそう)が起き、全国のドコモユーザーに影響を与えた。 障害を起こした責任として、井伊基之社長など幹部8人が役員報酬を自主返上する。総務省は是正に向けた行政指導を実施するなど、対応を検討するとしている。

    1290万人? 830万人? ドコモ通信障害の影響規模がよく分からないのはなぜか
  • ドコモの通信障害はなぜ長期化したのか? 障害の告知方法やMVNOの扱いには課題も

    ドコモの通信障害はなぜ長期化したのか? 障害の告知方法やMVNOの扱いには課題も:石野純也のMobile Eye(1/3 ページ) 10月14日に、ドコモのネットワークで大規模な通信障害が発生した。緊急通報を含む音声通話やデータ通信に影響が出た他、位置登録自体ができず、圏外になってしまったユーザーもいたようだ。ドコモはネットワークに対する規制を徐々に緩和し、14日の19時57分に終了させたが、その後もユーザーの通信が集中する形で、通話やデータ通信がつながりづらい状況になった。 4Gと5Gの障害が解消されたのは、翌15日の5時5分のことだ。15日には、ドコモが緊急会見を開催。障害発生の原因や影響の中身などを説明した。トータルで見ると約12時間に渡って発生していたドコモの通信障害だが、その具体的な理由は携帯電話がつながる仕組みを理解していないとなかなか理解しづらい。ここでは、その原因を解説する

    ドコモの通信障害はなぜ長期化したのか? 障害の告知方法やMVNOの扱いには課題も
  • みずほ銀行のシステム障害特別調査委員会報告書を読んで|つっちーさん

    おはよう人類。 2月28日のみずほ銀行のシステム障害を発端として、3月に計3回、その後も8月に3回のシステム障害が発生し世間を騒がせている。メガバンクの中でも最新かつ先進的なシステムを採用し、しかも格稼働してすでに2年以上たっているシステムで、なぜこのような障害が連続するのか、なかなか理解しがたいものがある。 このうち、2月28日の第1回目障害から3月中に発生した計4回の障害については、6月15日に外部の有識者によって構成されたシステム障害特別調査委員会による報告書が発表されている。文は167ページに渡るボリュームなのだが、結構内容に目を通している方も多く、TwitterBlog、Yotubeなどでも報告書の解説を試みている方もおられる(あまり目を通してはいないが)。 みずほFGの全面的なバックアップがあったとはいえ、限られた時間でこれだけの内容をまとめ上げるのも大変だったと思うし、

    みずほ銀行のシステム障害特別調査委員会報告書を読んで|つっちーさん
  • Android版Googleアプリ「繰り返し停止しています」問題発生

    [設定]→[アプリ情報]でGoogleを選び、「無効にする」を選べばとりあえずエラーは表示されなくなる。 なお、WebのGoogle検索およびiOS版Googleアプリは問題なく稼働する。 現在この件についてGoogleに問い合わせ中だ。 【UPDATE】午後4時、Googleから「Android の一部の利用者において、Google アプリの不具合が起きているという報告を受けています。現在、調査を行っています」という声明文を受け取った。 【UPDATE2】正式なものではないが、比較的まともな対処法はこちら。 【UPDATE3(午後6時20分)】Googleがコミュニティページで対処法を説明した。「問題が発生している場合、以下の手順をお試しください」としているが、これによりGoogleアプリの設定が初期化されるので、設定を変更している場合は対策後、再度設定を見直す必要がある。 Androi

    Android版Googleアプリ「繰り返し停止しています」問題発生
  • みずほ銀行のATMが大量の通帳を飲み込み、対応が遅れた理由:データイズム:オルタナティブ・ブログ

    みずほ銀行のATMのトラブルは衝撃的だった。「みずほ銀行が保有する約5900台のうち、ピーク時は7割超に相当する4318台に不具合が出た。」(日経クロステック)。累計5244件キャッシュカードや通帳が取り出せなくなったというというトラブルの規模は前代未聞であり、迅速に対応できなかったために、みすみす2000名ほどの顧客に被害が広がったと考えられる。 「旧日陸軍では一般的に損耗率50%を全滅と見做した」という基準からするともう、ATMが全滅以上の機能不全に午前になっていた、「みずほ銀が全営業店の行員に出勤指示を出したのは午後2時半。」(日経新聞)という対応の遅れは、現場の顧客の状況を考えずに目の前の定期預金の処理の問題だけを見てしまった結果だろう。 藤原頭取は「午前中は定期預金の処理能力の枯渇問題に対処していた」 と語っており、「前線」で何か問題が起きているか察知する、想像力と仕組みが欠け

    みずほ銀行のATMが大量の通帳を飲み込み、対応が遅れた理由:データイズム:オルタナティブ・ブログ
  • Zennで発生した障害の原因と行なった対策のまとめ

    2021/02/24の11時頃〜1時間ほどzenn.devにアクセスしづらい・アクセスできない問題が発生していました。その後も3時間ほど一部のページへのアクセスができない状況となっていました。Zennに投稿してくれた方、見に来てくれた方、ご迷惑をおかけしてすみませんでした。 今回の障害は学びが多かったので、個人の記事として残しておくことにします。 原因 今回の障害は、使用しているクラウドサービスではなく、Zenn自体に原因がありました。 1. KaTeX記法により生成されるHTMLが思った以上に大きかった ZennのマークダウンエディターではKaTeX記法をサポートしています。例えば、$a\ne0$と書くとa\ne0と表示されます。 KaTeXはサーバーサイドレンダリングをサポートしており、KaTeX記法からの数式のHTMLへの変換はサーバーサイドで行なっていました。DBにはマークダウンだ

    Zennで発生した障害の原因と行なった対策のまとめ
  • Android版COCOAを「無用の長物」にした重大バグ、4カ月以上見過ごされた理由

    厚生労働省が新型コロナウイルス感染拡大防止策として導入した接触確認アプリ「COCOA(ココア)」に前代未聞のトラブルが発生している。2021年2月3日にAndroid版のCOCOAで、陽性登録したアプリ利用者と接触しても検知しない障害が明らかになった。検知しないため当然通知も来ない。 障害は2020年9月28日のバージョンアップに伴い発生。その機能がなければCOCOAが「無用の長物」と化してしまう中核機能が働かないという前代未聞の障害がなぜ4カ月以上も見過ごされたのか。掘り下げて取材すると、行政機関が委託元となるソフト開発・保守の発注の在り方から課題があることが見えてきた。 「お粗末」と菅首相もバッサリ COCOAはスマートフォンのBluetoothを使って、COCOA導入ユーザー同士の接触を検知・記録するアプリである。新型コロナ感染症の陽性者と接触した可能性が生じた場合、COCOAがユー

    Android版COCOAを「無用の長物」にした重大バグ、4カ月以上見過ごされた理由
  • 1