タグ

障害と考察に関するlocke-009のブックマーク (3)

  • ITインフラの障害時、「今どうなってるんだおじさん」にならないために 必要な心構えを考える

    先日、KDDIが大規模な通信障害を起こした。社会インフラである携帯電話に関する障害ということもあって影響は大きく、SNSでもさまざまな話題のタネになった。障害対応をしている真っ最中の現場など、関係各所に「今どうなってるんだ」と怒鳴り込み、解決を遅らせる「今どうなってるんだおじさん」もその一つだ。 例えばauの障害時は、auショップに怒鳴り込む人が相次いだという。総務省がKDDIに幹部を直接送り込んだ報道に対しても「『今どうなってるんだおじさん』ではないのか」と疑問視する声が見られ、後に総務省が「足を引っ張ったわけではない」と詳細を説明していた。 実はこの問題、携帯回線だけでなく、クラウドなど、他のITインフラの障害時にも起こり得る。もし周りでITインフラが障害を起こしたとき、今どうなってるんだおじさんにならないためにどんな考え方をすればいいのか。auの一件や、エンジニアコンサルタントとし

    ITインフラの障害時、「今どうなってるんだおじさん」にならないために 必要な心構えを考える
  • bash スクリプトの実行中上書き動作について

    を設定してから再度試した所 bar が表示された。backupcopy は編集中のファイルによって自動で判別する auto がデフォルトになっている為、試す際には明示的に yes に設定しないといけない。 bash の実装確認 evalstring.c の parse_and_execute でコマンドが処理されており、input.c の with_input_from_buffered_stream で読み込みの準備が行われている。バッファの読み込みの体は y.tab.c つまりパーサから直接呼ばれており、このパーサは fgets(3) で読み込まれつつ実行される為、一括でファイルが読み込まれている訳ではない。 while/do でループ実行した際に、ファイルを書き換えられたら戻り先はどうなるか、についてはスクリプトはバッファ付きで読み込まれており、そのバッファがファイルシステムから読

    bash スクリプトの実行中上書き動作について
  • みずほ銀行のATMが大量の通帳を飲み込み、対応が遅れた理由:データイズム:オルタナティブ・ブログ

    みずほ銀行のATMのトラブルは衝撃的だった。「みずほ銀行が保有する約5900台のうち、ピーク時は7割超に相当する4318台に不具合が出た。」(日経クロステック)。累計5244件キャッシュカードや通帳が取り出せなくなったというというトラブルの規模は前代未聞であり、迅速に対応できなかったために、みすみす2000名ほどの顧客に被害が広がったと考えられる。 「旧日陸軍では一般的に損耗率50%を全滅と見做した」という基準からするともう、ATMが全滅以上の機能不全に午前になっていた、「みずほ銀が全営業店の行員に出勤指示を出したのは午後2時半。」(日経新聞)という対応の遅れは、現場の顧客の状況を考えずに目の前の定期預金の処理の問題だけを見てしまった結果だろう。 藤原頭取は「午前中は定期預金の処理能力の枯渇問題に対処していた」 と語っており、「前線」で何か問題が起きているか察知する、想像力と仕組みが欠け

    みずほ銀行のATMが大量の通帳を飲み込み、対応が遅れた理由:データイズム:オルタナティブ・ブログ
  • 1