「ラクス Advent Calendar 2022」 12月23日(金)担当のインフラエンジニアです。今回は知られざるインフラエンジニアの仕事について触れてみたいと思います。 はじめに 最近(でもないけど)twitterなどで駆け出しエンジニア?の方のツイートをよく目にするようになりました。 「駆け出しエンジニア」というと文字面からは1年目のなりたてエンジニアのような印象を受けますが、どちらかというとこれからエンジニアを目指すために勉強をしている方を指すことが多いようです。 そういった方のツイートを見ていると9割以上はプログラミングの話。実際に業界内で働いてみれば要件定義など単純にプログラミングしていればいいだけの世界ではないことは重々承知かと思いますが、未経験の方にはエンジニア=プログラミング、エンジニア=開発、というイメージがやはり強いのでしょう。はたまたインフラエンジニアなんて世界に
はじめに 2011年の東日本大震災、これから来ると言われる南海トラフ地震などの大規模な災害や事故に備えるために、災害復旧(DR)が可能なシステムと、その実現手段としてAWSを始めとしたクラウドが長年注目されています。 このDRに関連して、近年「レジリエンス」という言葉が注目を集めるようになりました。 レジリエンスとは、回復力、復元力、弾力などの意味を持つ英単語。IT分野では、情報システムがシステム障害や災害、サイバー攻撃などの問題に直面したとき、迅速に被害からの回復を図り正常な状態に復旧・復元する能力(の大きさ)をこのように呼ぶ。 https://e-words.jp/w/%E3%83%AC%E3%82%B8%E3%83%AA%E3%82%A8%E3%83%B3%E3%82%B9.html AWSでは、2019年8月に大規模障害が発生したことがあり、この時もAZ障害が起きた時に取り得る対策
電柱は、電力会社が所有者。 一方、電信柱はNTTが所有者。 見分けは、柱に札が貼ってる。 電力会社のロゴ(東電とか関電とか)があれば、電柱。 NTTロゴがあれば、電信柱。 で、どちらの札も貼ってるのが共同柱。 電気も通信も担ってるハイブリッド柱である。 あと、電柱には、変圧器がある。 バケツみたいな奴。 ここで電圧を下げて、各家庭やマンションに電気を送ってる。 通信系の電信柱の線には、筒状の物体が付いてる。 黒の筒はアナログ回線、グレーの筒はデジタル回線。 また、電柱の感覚はだいたい30メートル毎にある。 これは距離を測る時に便利。 車を運転しながらだと、いっぱい柱が見えるんだよね。 あの柱はどうだとか、あの装置はなんだとかで、割と話せる。 5時間はすごいと思うけど。
10日夜、仙台市太白区のおよそ▼1500戸で電気が1時間半にわたり点滅する状態が続きました。東北電力ネットワークは、電柱にある電気を流すスイッチの不具合が原因だとして詳しく調べています。 【写真を見る】仙台で”謎の”電気点滅 原因は電柱上の「スイッチ不具合」か 平野耕一カメラマン: 「太白区萩ケ丘です。街灯や家の電気が点滅を繰り返しています」 警察によりますと、10日午後9時過ぎから、太白区の八木山、向山、萩ヶ丘地区などで電気が点滅したり完全に消えたりしているという通報が相次いで寄せられました。 住民: 「家にいて急にチカチカしはじめたので、どうしたのかな、自分の家(だけ)なのかと思って外を見たら、一帯がチカチカしていたので怖くなりました」 「うちはオール電化なので、お風呂に入れない。泣いてしまった」 東北電力ネットワークによりますと、向山地区の電柱にある開閉器と呼ばれる電気を流すスイッチ
The Art of SLOsは、GoogleのCustomer Reliability Engineeringチームによって開発されたワークショップです。このワークショップの目的は、Googleがサービスの信頼性を計測する方法 サービスレベル指標(SLI) とサービスレベル目標 (SLO)を参加者に紹介し、実際にこれらの計測方法を作成することを体験してもらうことです。これらは重要で土台となる概念です。サービスの信頼性を客観的に測定する方法があれば、サービスの信頼性について有意義な会話をすることがはるかに簡単になります。 ワークショップの理論編では、開発チームと運用チームの間でしばしば生じる組織的な緊張を、サービスの望ましい信頼性を表す目標値を設定することで解決する方法を学びます。また、SLOとエラーバジェットを使って、データ駆動で、客観的、かつユーザー重視の方法でサービスの信頼性を測定・
京都大学学術情報メディアセンター センター長 岡部 寿男 2021年12月14日 17時32分 から 2021年12月16日 12時43分にかけて,スーパーコンピュータシステムのストレージをバックアップするプログラム(日本ヒューレット・パッカード合同会社製)の不具合により,スーパーコンピュータシステムの大容量ストレージ(/LARGE0) の一部データを意図せず削除する事故が発生しました. 皆さまに大変なご迷惑をおかけすることになり,深くお詫び申し上げます. 今後,再びこのような事態の生じることのないよう再発防止に取り組む所存ですので,ご理解をいただきますよう,どうぞよろしくお願いいたします. ファイル消失の影響範囲 ・対象ファイルシステム: /LARGE0 ・ファイル削除期間:2021年12月14日 17時32分 ~ 2021年12月16日 12時43分 ・消失対象ファイル:2021年12
アーカイブ2022年8月 (1)2022年2月 (1)2021年11月 (1)2021年9月 (1)2021年5月 (1)2021年3月 (1)2021年1月 (1)2020年12月 (1)2020年11月 (2)2020年10月 (3)2020年9月 (1)2020年8月 (3)2020年7月 (1)2020年6月 (2)2020年5月 (4)2020年4月 (2)2020年3月 (2)2020年2月 (1)2020年1月 (1)2019年12月 (4)2019年11月 (3)2019年10月 (5)2019年9月 (4)2019年8月 (5)2019年7月 (6)2019年6月 (7)2019年5月 (7) 自分には、日常のどうでもいいスナップ写真を撮るという趣味というか癖みたいなものがある。毎日写真を撮っているわけではないのだが、きっと5年後、10年後に見返したら面白いだろうなと思え
調査会社のSynergy Researchおよびcanalysは、2021年第3四半期におけるグローバルのクラウドインフラ市場について調査結果を明らかにしました。 Synergy Researchの調査結果は次のグラフで示されています。 クラウドインフラ市場全体は過去1年で37%の成長。シェアトップはAWSで33%、2位はマイクロソフトで20%、3位はGoogleで10%となっています。 一方、canalysの調査結果ではクラウドインフラのシェアは以下のようになっています。 1位はAWSで32%、2位はマイクロソフトで21%、3位がGoogleで8%です。 Synergy Researchとcanalysの結果はおおむね一致しているように見えます。 9カ月前とシェアはほぼ変わらず ちなみに、下記のグラフはcanalysによる2020年第4四半期、つまり9カ月前の時点でのシェアのグラフです。
おしらせ:12/23 に後編記事がでました! tech-blog.monotaro.com こんにちは、データ基盤グループの香川です。 現在モノタロウではBigQueryに社内のデータを集約し、データ基盤を構築しています。 およそ全従業員の6割が日々データ基盤を利用しており、利用方法や目的は多岐に渡ります。 データ基盤グループはこれまでデータ基盤システムの開発保守と利用者のサポートを主な業務として取り組んできましたが、これら多岐にわたる社内のデータ利用における課題の解決及びさらなるデータ活用の高度化を目的として、今年の5月よりデータ管理を専門に行う組織として新たに体制を再構築しました。 そこで改めて組織として取り組むべき課題や方向性を決めるために、まず自分たちの現在地を知ることが重要と考え、データ基盤の歴史を振り返り、社内のデータ活用における課題やそれを取り巻く状況がどう変わってきたのかを
中国では、夫や家族と麦やトウモロコシを栽培して生計を立てていました。 冬はマイナス20度、夏は40度を超える過酷な環境で、暮らしていました。 20年ほど前に母親の故郷の石川県能登町に戻り、中国人の夫とともに穏やかな生活を送っていました。 年齢とともに足腰が弱くなったため、10年ほど前から電動車いすに乗っていました。 おしゃれが大好き。服や靴を布から自分で作るのが趣味でした。 お気に入りの服や生地を探しにショッピングに出かけるのが一番の楽しみだったといいます。 そんな王さんが亡くなったのは、去年6月1日。 自宅から2キロほどはなれた町道のトンネルで事故に遭いました。 電動車いすで移動中、トラックにはねられたのです。 夫が病院に駆けつけたときには、すでに息を引き取っていたということです。 どうして事故は起きたのか。 警察への取材だけでは詳しい背景まではわかりませんでした。 事故から半年がたった
突然ですが... あなたは、あるゲームプロジェクトの本番リリース2日前にサーバエンジニアとしてJOINしました。いざリリースを迎えたとき、ElastiCacheのメモリが突然危険域を超え、さらにあと2時間で枯渇しそうな状況になりました。 さて、この状況におかれたあなたは何をしますか? はじめに モバイルゲームのシステムは新しいイベントをopenするとトラフィックが2倍、3倍、時には普段の10倍以上来ることがあり、トラフィックの変動が非常に大きい特性があります。 新しいゲームのリリース時はより顕著で、想定以上のトラフィックが来ることもしばしばあります。 この記事は、あるゲームプロジェクトの本番リリース時に大規模トラフィックが来た際のサーバトラブルを題材に、 どのような観点で問題を切り分けていったのか、トラブルシュートのプロセス どのような準備(負荷テスト)をしていれば防げるのか という話をし
群馬県にある「鳴瀬橋」。 長さ32メートルのコンクリート製の橋で、かつては車も通れる橋でした。 しかし、3年前から通行止めの状態が続いています。 これは北海道の「百松橋」。 こちらも車が通れる橋でしたが、今は車両通行止めに。 看板には「解除時期は未定」の文字が…。 実は今、こうした「渡れない橋」が各地で増えています。 国土交通省が調べたところ、自治体が管理する橋のうち、通行止めになっているのは2018年で2901。2008年は977橋だったのに10年間で3倍近く増えています。 背景にあるのが…そう「老朽化」です。 「コンクリートは永久構造物」「とにかく造れ」 そう思われていた時代がありました。 戦後の高度経済成長期です。 人口が増加する中で、私たちの暮らしを豊かにするために、「道路を造れ」「トンネルを掘れ」「橋を架けろ」という時期でした。 いわば“どんどん”造れや造れの時代。 「老朽化」や
はてなブログでSREをやっているid:cohalzです。 2019年12月頃からid:utgwkkやid:onkとともに、はてなブログにおけるキャッシュ周りの改善を行いました。その結果、次のような成果が得られました。 ブログ記事のキャッシュヒット率が、1日平均で8%から58%に向上 アプリケーションサーバの台数を、以前の半数以下に削減 DBに届くリクエスト数が、以前の3分の2まで減少 レスポンスタイムの平均が、以前の8割まで減少 この記事では、実際にどういった改善を行ったのか、その際に気をつけたことや大変だったことを紹介します。 はてなブログがVarnishを導入した経緯と課題 開発合宿をきっかけに問題が明らかになる 進め方をまず考える ホストのメモリをできるだけたくさん利用する メモリを積んだホストでなぜかレイテンシが悪化 キャッシュが分散しないようVaryヘッダを使う デバイス情報を適
こんにちは。 ご機嫌いかがでしょうか。 "No human labor is no human error" が大好きなネクストモード株式会社の吉井 亮です。 日本国内においても多くのシステムがクラウド上で稼働していることと思います。 俊敏性、拡張性、従量課金、IaS、セキュリティなどクラウドのメリットを享受しやすい所謂 SoE で多くの実績があるように感じます。 ここ1~2年は、社内基幹システム・情報システム、SoR 系のシステムのクラウド移行が本格化してきたというのが肌感覚であります。 クラウドでのシステムインフラ構築は従来のようにゼロから非機能要件定義を行っていくものではなく、ベストプラクティスをまず実装して少しずつ微調整を行っていくものと考えています。とはいえ、システムごとの要件は予め明らかにしておくことがインフラ構築においても重要になります。 クラウド上では出来ること出来ないこと
1,000台規模のインフラ刷新! Kubernetesを採用したサイボウズが語る「NoOps」な未来 Kubernetesの設計思想に共感して、1,000台規模のインフラ刷新プロジェクトに採用したサイボウズが、独自のインフラ、自社開発のOSSツールで挑戦するNoOpsな未来について聞きました。 1,000台規模のインフラをKubernetesで刷新する なぜパブリッククラウドではなく独自インフラなのか インフラ自体を継続的デリバリするためツールをOSSで Kubernetesの設計思想にインスパイアされたNeco ビジネスとして大切にしている部分は細部まで自分たちで 主力製品の「サイボウズ Office」「Garoon」「kintone」などを、2011年からクラウドサービス cybozu.com として提供してきたサイボウズ。これらのサービスのために同社が自前で構築したインフラ基盤は、国
2018年9月6日に北海道を襲った震災により、停電状態に陥ったさくらインターネットの石狩データセンターに対し、9月8日ようやく電力供給が再開された。想定を超えた約60時間を非常用電源設備で乗り切り、インフラ事業者としての矜持を見せた石狩データセンターの「奇跡」について、改めてきちんと説明していきたいと思う。 卓越したオペレーション能力で「想定外」を「想定内」に 2011年11月に開設された石狩データセンターは、数多くのサーバーを収容するさくらインターネットの基幹データセンターになる。開設当時はソーシャルゲームの普及でサーバーの需要がうなぎ登りだったほか、環境に配慮したエコなデータセンターが求められていた。こうしたニーズに対応する石狩データセンターは、寒冷地のメリットを活かした外気冷却と東京ドーム1個分に相当する広大な敷地を用いたスケーラビリティが大きな売りだった。私も開設時と増設時で2回ほ
ファーストサーバのレンタルサーバ「Zenlogic」で6月19日から断続的に障害が起きたため、7月6日からサービスを全面停止し、メンテナンスが行われている。メンテナンスは9日午前8時までに終了し、サービス再開予定だったが延長されており、再開のめどは立っていない。 ソフトバンク傘下のファーストサーバが展開しているレンタルサーバサービス「Zenlogic」で6月19日から断続的に障害が起きたため、7月6日からサービスを全面停止し、メンテナンスを続けている。メンテナンスは9日午前8時までに終了し、サービス再開予定だったが、「再開処理後、再度の高負荷発生を確認した」としてメンテナンスを延長しており、再開のめどは立っていない。 Zenlogicは、ヤフー(Yahoo!JAPAN)のインフラを活用したクラウド型レンタルサーバ。今年2月時点で、中小企業・官公庁など約2万社が利用しているという。 6月19
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く