タグ

troubleに関するyhira0202のブックマーク (23)

  • ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン

    同期処理が失敗した原因は、4台をつなぐスイッチの不具合。具体的には、スイッチが故障状態であるにもかからず、故障を知らせる「故障シグナル」を発信しなかった。国内線システムは故障シグナルを検知するとスイッチを予備機に切り替えるが、今回はその機能そのものを作動できなかった。 スイッチは完全に停止したわけではなく、「不安定ながらも動作していたようだ」(同)。そのため、DBサーバー間の同期は順次失敗し、停止していったと見られる。 ANA広報によると、スイッチは米シスコシステムズ製「Catalyst 4948E」という。「2010年6月の発売開始以降、世界で4万3000台、うち日で8700台を販売しているが、今回の不具合は初めての事象と聞いている」(ANA広報)。なぜ「故障シグナル」が発信できなかったかは分かっていない。 1台での縮退運転を決断 4台の完全停止から37分後、ANAは1台のDBサーバー

    ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン
    yhira0202
    yhira0202 2016/03/31
    マジックワード。
  • システム障害と僕達はいかにして戦えば良いのか、障害対応について考えた - Qiita

    IT界隈でエンジニアしていると、よく出くわすのが障害対応です。できれば会いたくないという人が多いと思うんですが、僕はけっこう好きです。障害対応。どこに原因があるのか調査をして、バランス良くベターな対応をしたときの楽しさは、プログラミングとはまた違ったものがあります。探偵っぽい感じが面白いですよね。もちろん、障害が発生しない状況を作るのが一番です 弊社では数多くのWebサービス/アプリを運営しているので、過去様々な障害対応をしてきました。その際に、解決までどんな道筋を僕がたどるのかを振り返ってまとめてみました。これが大正解なんてことはなく、人や事象によって違うとは思いますが。 なお、障害検知手法とか、サーバのコマンドとか、コードのデバッグ手法とか、具体的なことは一切出てきません。手続きと思考プロセス的な話です。 障害対応フローチャート 一般的な感じだと思いますが、障害報告から対応完了までのフ

    システム障害と僕達はいかにして戦えば良いのか、障害対応について考えた - Qiita
  • JRの架線切断 ショートの熱が原因か NHKニュース

    4日夜、横浜市内のJR京浜東北線で架線が切れ、首都圏のJRで運転見合わせが相次いだトラブルで、JRが原因を調べたところ架線と車両のパンタグラフの間でショートが起こり、その熱で架線が切れた可能性があることが分かりました。 5日朝も京浜東北線と横浜線の一部の区間で始発から運転を見合わせましたが、午前5時半すぎまでに復旧作業が終わり、現在はいずれも平常どおり運転しています。 現場付近は2の架線が重なるつなぎ目の区間で、JR東日が調べたところ、架線と車両のパンタグラフの間でショートが起こり、その熱で架線が溶けて切れた可能性があることが分かりました。 架線のつなぎ目の区間では2の架線の電圧が異なることがあり、その区間で電車が発進するなどして強い電流が流れると、ショートを起こす場合があるということです。 JR東日は運転士や車掌から聞き取りを行い、当時の運行状況などについて詳しく調べています。

  • 『創』休載の理由 - 柳美里の今日のできごと

    福島県南相馬市小高区で、 「フルハウス」「Rain Theatre」を営む 小説家・柳美里の動揺する確信の日々 『創』の連載エッセイ「今日のできごと」が休載されています。 今月発売号の編集後記に、休載の理由が一言も触れられていなかったので、ここに書きます。 現状では、柳美里が「落とした」のだと誤解されるから――。 実は、もう何年も稿料が支払われていないのです。 先月、意を決して、「稿料未払い分を計算して、振り込んでください。全額振り込まれるまで、次の原稿を書くことはできません」と篠田博之編集長にメールしました。 篠田編集長から、9月2日にメールが届きました。 「返信が遅くなって申し訳ありません。ショッキングなメールでしたので、考える時間が必要でした。 おっしゃること、もっともだと思います。何とかしようとは思っているのですが、大変な時期に力になれずにいて申し訳ありません」 篠田さん、何故、支

    『創』休載の理由 - 柳美里の今日のできごと
    yhira0202
    yhira0202 2014/10/16
    何かの冗談だと思った。読めば読むほどコントのようにしか思えない。
  • 失業手当、1日5円過払いか プログラムにミス:朝日新聞デジタル

    厚生労働省は3日、雇用保険統計データのプログラムでミスがあり、失業者が受け取る失業手当の一部で2011年8月以降、1人あたり1日5円の「過払い」が生じた可能性があると発表した。詳しい影響や金額は調査中で、厚労省は過払い額が確定すれば、プログラムの製造元の富士通に負担を求めることを検討している。 ミスがあったのは、ハローワーク職員が扱う富士通製プログラム。2011年1月から今年3月にかけ、約1100事業所分の産業別の労働者数などの集計が正しくできていなかった。集計結果を利用する毎月勤労統計では09年1月から今年3月分までの増減率など、データの一部を訂正する。 この影響で、毎月勤労統計の平均給与額をもとに毎年8月に改定する失業手当の支給上限額(いまは29歳以下の失業者なら1日最大6405円など)が、11年以降、1日5円高く払われた可能性があるという。

    yhira0202
    yhira0202 2014/06/04
    富士通からの厚労省を経由した無職への施し也。/e・ge・tsu・na・i!!/よく、この時期になって気がついたなと思ったけど。
  • ファーストサーバの事故から考えること

    つい先日、ファーストサーバというホスティング企業が多数の顧客の全データを喪失するという前代未聞の事故が起こりました。 twitterやfacebookでは技術者や弁護士など、様々な方々が色んな観点からの議論を始めています。 私としても、今回の事故から得られた教訓と、弊社でのデータ保全の取り組みについてお話ししたいと思います。 大規模障害の概要と原因について(中間報告) ファーストサーバ サポートWEB こちらに中間報告があがっていますが、オペレーションミスによりサーバの削除タスクをバックアップ環境を含めた全サーバに対して適応してしまったという前代未聞の事故です。 動的にサーバのプロビジョニング(構成管理)を行う場合には、バグやオペミスによりデータを誤って消してしまうということは考えられますので、その点では作業手順やプログラムの安全品質については厳重な管理が必要と考えられます。 質的な原因

  • まとめよう、あつまろう - Togetter

    コミュニケーションが生まれるツイートまとめツール

    まとめよう、あつまろう - Togetter
    yhira0202
    yhira0202 2012/05/09
    これ、武雄市長は躁状態なんじゃないかと。本当に出来るのかどうか分からないし、影響力が有るか分からないけど、お前の上司に云々の話、ソトン社長と同様の手口じゃないですか!!市長がそんなレベルでいいのかよと。
  • 年末年始のさくらクラウドのトラブルをまとめてみた(後日来たメールも記載済) – 機械忍者 @cyborg__ninja

    機械忍者 @cyborg__ninja 主に「くだらないこと」「デジタル機器系」「すげぇと思ったもの」「Googleなどの検索エンジンもの」「マーケットやアンケート調査」「サッカー」「ゲーム」「ロードバイク(自転車)」などの情報をピックアップしています。たまにSEORuby、CMSなどのナレッジログがあります。 まあやってくれましたわ。 年末年始にかけて、さくらクラウドさんのご対応含めて時系列含めて障害があったんだぜということを記録しておいてやろうということです。 (さくらクラウドさんは是非これで対応含めて改善いただけることを当然期待しての投稿です) なお、フォロー等のつもりではないですが、さくらのVPSサービスや専用サーバサービスで不満は一切ありません。価格帯の割には落ちないし良い&(共用サービスは除きますが)SSH等も使わせてくれて便利で助かるわーと、いわゆる「高評価」でした。 それ

    年末年始のさくらクラウドのトラブルをまとめてみた(後日来たメールも記載済) – 機械忍者 @cyborg__ninja
  • Twitter(別名デマッター)でネットジャーナリストを釣る方法(フリージャーナリスト) - 愛・蔵太の気になるメモ(homines id quod volunt credunt)

    以下のまとめを作っているうちに、当にやりかねない人が想定できたので削除します。興味のあるかたはメールででも。 →岩上安身さん懲りずにまたフォロワーに情報提供を求めながら未確認情報を流す - Togetter そんなに危なくないほうのこちらは残します。 →ネットジャーナリストは釣られないためにどうすればいいか(Twitter/デマッターとフリージャーナリスト) 書き込みに異議がありましたら、ぼく、もしくははてな事務局にメールしてみてください。ケース・バイ・ケースで対処します。ぼくのメールアドレスは「プロフィール」の中にあります。その他いろいろプロフィールに書いてあります。Twitterでのメンション飛ばしは、ブロックしてたりされてたりでうまくいかないかもしれません。

    Twitter(別名デマッター)でネットジャーナリストを釣る方法(フリージャーナリスト) - 愛・蔵太の気になるメモ(homines id quod volunt credunt)
    yhira0202
    yhira0202 2011/11/15
    上杉無双状態、素敵☆ミ。でも、非常に笑えない現実。
  • メールサーバからメールが送信されない (1/4)

    ひと口に「メールが送信できない」といっても、それだけでは漠然としすぎていて何が問題なのかを把握できない。メールクライアントソフトの設定ミスかもしれないし、経路にあるスイッチが故障したのかもしれない。まずは問題が発生している場所を絞り込もう。 「メールが送信できない」とはどういうこと? メールが送信できないというトラブルが生じた場合、まずは、いずれかのメールサーバからエラーメールが返送されていたり、メールサーバのメールキューに未送信メールが溜まっていることを確認する。これが確認できれば、クライアントとメールサーバ間の通信に問題はないと考えられる。 ここではメールサーバから先に問題が発生している場合に限定して、トラブルとその対応を説明する。 メールサーバの配置と配送の設定 ネットワークの構成や運用ポリシーによっていろいろなメールサーバの配置形態がある。もっとも単純な形態は、1台のメールサーバが

    メールサーバからメールが送信されない (1/4)
  • /.Jに聞け:今までに経験した、馬鹿らしい障害原因は? | スラド IT

    ストーリー by headless 2011年09月17日 14時42分 ほぼ編集が終わっているストーリーをリセット。今日は2回目。 部門より LARTHの日記で知ったのだが、「アクセスカウンターの表示件数を越えるアクセスがあったため」に岡山県総合防災情報システムが閲覧不能になったそうだ。 アクセスカウンターは5桁ということで、10万を超えるアクセスがあった場合ページが表示できなくなっていたそうだ。非常に原因はばかばかしいものではあるが、だからこそ意外に見落とされやすいバグかもしれない。/.J読者にはシステム開発に携わる人が多いとは思うが、今まで経験した障害の中で、「原因がばかばかしかった障害」はあるだろうか。公開できる範囲でお教え頂きたい。

  • みずほシステム障害の全貌

    みずほ銀行は今週、3月に発生した大規模システム障害に対する事後対応で、一つの区切りを迎えた。 5月20日、弁護士ら第三者で構成するシステム障害特別調査委員会の調査報告書が公開された。調査報告書には、障害の発生原因やその後に起こした複数の対応ミスにより障害が長期化した経緯の全貌が記されていた。 これを受け5月23日には、みずほフィナンシャルグループが再発防止策を発表。さらに、みずほ銀行の頭取とIT・システムグループ担当常務執行役員が責任を取り6月20日付で退任することを明らかにした。 経営トップの引責辞任によってみずほ銀行は「けじめ」を付けたが、システム障害の事後対応はこれで終わりではない。みずほフィナンシャルグループは再発防止策の一つとして、みずほ銀行、みずほコーポレート銀行、みずほ信託銀行の基幹システムを統合する考えだ。 2002年4月にみずほ銀行が誕生して以来、2度の大規模システム障害

    みずほシステム障害の全貌
  • Q&A(よくあるご質問)

    Skip to content Q&A(よくあるご質問) キーワードで検索 全体カテゴリーから探す お客様情報 / 手続き @nifty ID / パスワード 入会 / 確認・変更 / 引越し / 解約・解除 利用料金 / 請求 法人向けサービス @nifty光 / ドコモ光 / その他フレッツサービス @nifty@nifty光ライフ with フレッツ @nifty with ドコモ光 Bフレッツ フレッツ・ADSL / フレッツ・ISDN @nifty光電話 ひかり電話 @nifty Wi-Fiルーターレンタルサービス その他接続サービス @nifty auひかり @nifty コミュファ光 ADSL接続サービス @nifty WiMAX @nifty MOBILE(YM) 電話回線ダイヤルアップ 音声通話 / データ通信 NifMo NifMoサービス メール メールサービス

  • Amazonクラウドの大規模障害、そのときに内部で何が起きていたのか? 日本語での要約

    4月21日から23日のあいだ、Foursquare、Quora、Herokuなど多くのサービスに影響を与えたAmazonクラウドの大規模障害。このとき実際にどのような障害が発生していて、どう対応したのか、詳しい日語での資料がAmazonから公開されています。 この資料は非常に詳細に記されているため、短時間で内容を把握できるものではありません。そこで記事では資料からポイントを引用し、要約してみました。 以下からの記事はあくまで独自に内容を要約したものです。正確な情報は原文をご覧ください。 今回発生した障害とは何だったのか? 今回発生した障害を手短にまとめると、米国東 (US East) リージョンにおける一部のアベイラビリティゾーンにおいて、Amazon Elastic Block Store (EBS) で読み込み、書き込み操作が行えなくなる、という現象でした。 そして障害の影響は一部

    Amazonクラウドの大規模障害、そのときに内部で何が起きていたのか? 日本語での要約
  • みずほ銀行、障害の発端は人為ミス - 日経コンピュータReport:ITpro

    「社会インフラを担う銀行として、あってはならないトラブル。ご迷惑をおかけした皆様におわび申し上げる」。みずほ銀行の西堀利頭取は、3月15日から続く大規模システム障害に関する記者会見でこう陳謝した。 15日朝に表面化した障害は、振り込みシステムから起きた。「初動対応に不手際があった」(西堀頭取)ため、これが勘定系システムに波及(図)。その結果、最大で116万件の振り込みが未処理になった。窓口業務やATMもたびたび停止した(表)。

    みずほ銀行、障害の発端は人為ミス - 日経コンピュータReport:ITpro
  • 【更新・復旧済】12月11日に発生した一部サイトへアクセスしづらい状況について | SoftBank

    ソフトバンクの公式ホームページです。スマートフォン・携帯電話の「お知らせ」をご紹介します。

    【更新・復旧済】12月11日に発生した一部サイトへアクセスしづらい状況について | SoftBank
    yhira0202
    yhira0202 2010/12/24
    お疲れさん~。
  • [速報]mixiが障害の経緯を発表。原因はお盆のアクセス急増ではなく、memcachedの異常終了

    8月10日の17時20分頃から12日未明までの長時間にわたり、サービスが利用不能もしくは利用しにくい状況になっていた「mixi」。数度の断続的な復旧ののちに、日12日午前1時50分頃には復旧が完了し、現時点で全面的に復旧しているようです。 その障害の経緯について株式会社ミクシィの広報からプレスリリース「『mixi』のアクセス障害のお詫び及び復旧に関するお知らせ」として発表されました。 原因はアクセスの急増ではなかった プレスリリースの中で、今回の障害の原因は以下のように説明されています。 『mixi』のデータベースへの負荷軽減のために導入しているデータキャッシュシステムが複数同時に異常終了したことに伴い、データベースへの負荷が急増したため『mixi』を閲覧しづらい状態となりました。 高負荷かつ特殊な状態でのみデータキャッシュシステムの異常終了が発生していたため、根的な原因の究明に時間が

    [速報]mixiが障害の経緯を発表。原因はお盆のアクセス急増ではなく、memcachedの異常終了
  • コデラノブログ4 : 日テレ放送事故に関する技術的考察 - ライブドアブログ

    2009年08月08日18:23 カテゴリ放送 日テレ放送事故に関する技術的考察 ずっとしかつめらしいエントリーばかり書いていたので、今日はちょっと違うことを書いてみようと思う。 先日の8月6日、日テレビの番組「おもいッきりDON!」の番組ラストで、映像がフィードバックする放送事故があった。動画サイトにも上がっているようだが、ここからは特にリンクはしない。 なぜ映像がこうなったのか、興味のある人あるかと思うので、おそらくこうだろう、という原因を推測しつつ、解説してみたい。 事故は、番組の一番最後から、スポット広告に切り替わった瞬間に起きている。すなわち番組送出サーバからCMバンクにラインが切り替わった時である。 番組送出では、映像の最終出力段として「マスタースイッチャ」というものがある。そして番組やCMの送出は、自動番組制御装置(Automatic Program control Sys

  • DISK BOOT FAILURE, INSERT SYSTEM DISK AND PRESS ENTER エラー対処法

    症状 パソコンの電源を入れると、黒い画面にエラーメッセージが表示され、Windows XPが起動しない。 原因 Windowsのシステムファイル、またはハードディスクの起動に必要な情報が破損してしまったようです。 対策 回復コンソールから以下を試みます。 [[回復コンソールの起動方法>win/回復コンソールの起動方法]]を参考に回復コンソールを起動します。 fixmbrと入力してEnterキーを押します。

  • [メール・サーバー障害編]障害発生!まずは手順書に従い復旧作業

    「システム運用担当者は,活躍する場が無いことが活躍しているってことなんだよ」 昔,システム運用経験の長い先輩によく言われたものである。システム運用担当というと,システムに障害が発生した瞬間に急に元気になり,徹夜もいとわず対処に没頭する技術者たちというイメージがある。だが,来システム運用担当の業務とは,システムに故障などが発生してもサービスの停止などが発生することの無いように,障害対策を練ったり日々のメンテナンスを行なったりすることにある。先輩の言葉は,どんな障害が発生しても,あらかじめ用意されている対応手順に従って淡々と対応できるよう,日々の準備を怠ってはいけない,ということを意味しているのである。 これから書く内容は,運用担当チームがシステムの監視に使用しているメール・サーバーで発生した障害とその対応の話である。筆者が障害対応担当者として直接かかわったものだ。対応の経過とともに,発生し

    [メール・サーバー障害編]障害発生!まずは手順書に従い復旧作業