タグ

monitoringとdesignに関するraimon49のブックマーク (11)

  • みずほ銀行システム障害に学ぶ

    みずほ銀行システム障害の調査報告書が公開されたのがニュースになって、Twitterなどで色々な人がコメントをしているのを見た。140文字しか書けない空間で他人の失敗談の揚げ足取りをするのは簡単だが、そこからは一時の爽快感以外に何も得るものがないので、僕はそういうのはカッコ悪いと思っている。 そこで、ちゃんと読んでみたら全く他人事でない部分も沢山あるし、非常に面白く勉強になったので、ブログにまとめてみる。 技術的な話 銀行のシステムがどのようになっているのか、全然イメージが湧いていなかったので、それがまず勉強になった(p.29)。 トラフィックのソースに応じて用意された色々なシステムから基幹システム「MINORI」の取引メインバスにトラフィックが流れ、そこから各種システムへとリクエストが送られていく。この辺はService Oriented Architectureらしい。開発当時としては(

    みずほ銀行システム障害に学ぶ
  • 開疎化がもたらす未来 - ニューロサイエンスとマーケティングの間 - Between Neuroscience and Marketing

    Leica M7, 1.4/50 Summilux, RDPIII, Somewhere in AZ, USA 「開疎化」という言葉を世に出してから二週間たった。3/11のWeeklyOchiaiで落合陽一氏と話した「Withコロナ」からはもう一ヶ月以上だ。 Withコロナというのは解決策が必ずしもない新型コロナ(SARS-CoV-2)や様々な病原体とともに生きなければいけない状況、環境のことを言う。世の中の期待と異なり、状況の収束にはSARS-CoV-2対応に絞ったとしても、現実的な楽観シナリオでも1-2年はかかる、更に様々な病原体がこれから現れる可能性は相当に高く、これが終わりなわけではない、その視点で課題と未来に向けた方向性を整理する必要がある、というのが前回の議論『そろそろ全体を見た話が聞きたい2』だった。 kaz-ataka.hatenablog.com 開疎化と言っているのは、

    開疎化がもたらす未来 - ニューロサイエンスとマーケティングの間 - Between Neuroscience and Marketing
  • AWSのAZ(アベイラビリティーゾーン)とは?AZ障害が起きたときどうすればよいのか

    アドテク部の黒崎( @kuro_m88 )です。 2019/08/23にAWSの東京リージョンで特定のAZ内で大きめの障害がありました。 私が開発しているプロダクトもAWSの東京リージョンを利用していて、常時数百インスタンスが稼働しているため、今回の障害の影響範囲に含まれていました。 何が起きたのか? AWSから公式発表が出ています。 東京リージョン (AP-NORTHEAST-1) で発生した Amazon EC2 と Amazon EBS の事象概要 データセンタ内の冷却の障害が原因で一部のハードウェアホストが過熱し電源が失われてしまったようです。これにより影響を受けたハードウェアホスト上で稼働していたEC2インスタンスやEBSボリュームは電源が失われているため、外部から見ると突然応答がなくなったように見えました。 担当サービスでも公式発表と同じくらいの時刻にELBやその配下のサーバ

    AWSのAZ(アベイラビリティーゾーン)とは?AZ障害が起きたときどうすればよいのか
    raimon49
    raimon49 2019/08/27
    最後に学生向けデータセンタ見学会を告知してるのも、読んだ人は行ってみたくなるだろうし、いい記事だなぁ。
  • #64: Automating Chaos Experiments in Production

    Netflix の Chaos Engineering 最新事情っぽい論文を森田が冷やかします。感想などはハッシュタグ #misreading か hello@misreading.chat にお寄せください。 [1905.04648] Automating chaos experiments in production Netflix TechBlog Four Reasons We Choose Amazon’s Cloud as Our Computing Platform (2010) 5 Lessons We’ve Learned Using AWSNetflix TechBlog – Medium (2010) The Netflix Tech Blog: Chaos Monkey Released Into The Wild (2012, from Internet A

    #64: Automating Chaos Experiments in Production
    raimon49
    raimon49 2019/07/16
    Chaos Engineeringという名前が付けられたのは2015年。
  • なぜMicroservicesか?

    現職においてMonolithアーキテクチャからMicroservicesアーキテクチャへの移行とその基盤の構築に関わって2年近くが経った.未だ道半ばであるがこれまでの経験や日々のインプットをもとにいろいろ書いておこうという気持ちになった.記事ではそもそもMicroservicesアーキテクチャとは何かを整理し,なぜやるべきか?・なぜ避けるべきかを整理する. Microservices? Microservicesアーキテクチャとは「Single purpose,High cohesion,そしてLoosly Couploedなサービスを組み合わせてシステムを構築する」アーキテクチャ手法である.それぞれの原則をまとめると以下のようになる. Single purpose: 一つのことに集中しておりそれをうまくやること Loose coupling: サービスは依存するサービスについて最小限の

    raimon49
    raimon49 2019/05/21
    Microservicesは組織論 逆コンウェイの戦略 完全な自由がある訳ではなく、しっかりした基盤の上で設計や拡張の自由があるという話
  • Microservicesでなぜ作るのか - An Epicurean

    「Microservices時代の監視設計」と言うエントリーを書きたいのだけど、そもそもなんでMicroservicesで作る必要があるのかというところを先に書く必要があると感じたので私見を述べてみる。すでにMicroservicesで作っている人からすると「何をいまさら」と言う内容も多いかもしれません。 Microservicesでなぜ作るのか ドメイン分割のレイヤーの変遷 今は成長段階 Microservicesのメリットとアーキテクト クラウドはフレームワークになった 共有データベースアンチパターンとMicroservices設計 Microservices時代の監視設計 参考図書など Microservicesでなぜ作るのか 身も蓋もないことを書いてしまうと、これはもう「潮流がそうなっているから」ということだと思う。業界がそういうアプリケーションの作り方をしてノウハウを貯めていく流

    Microservicesでなぜ作るのか - An Epicurean
  • Nintendo Switchのプッシュ通知を支えるテクノロジー

    テクノロジーに興味がある人なら、身近な製品の裏側って気になるもの。そんな知的欲求を満たしてくれるセッションが、昨年の夏に行なわれたre:Union 2018 Osakaには用意されていた。Nintendo Switchの裏側にあるシステムを紹介する「Nintendo Switch向けプッシュ通知システム『NPNS』」と題して、任天堂 ネットワークシステム部の渡邉 大洋さんが語ったセッションだ。フレンド登録したユーザーのゲームプレイ通知など、見慣れたあのメッセージは、こうやって送られていたのだ。 想定同時接続数1億台のリアルタイム通信インフラをAWSに構築 「実はこのセッション、AWS Summit Tokyoでもやったので聴いたことがある人がいるかもしれません。が、そこは今日初めて聴いたようなテンションで聴いてください」(渡邉さん) という出足で会場の笑いをさらった渡邉さんにならって私も書

    Nintendo Switchのプッシュ通知を支えるテクノロジー
    raimon49
    raimon49 2019/01/15
    LBは置かず性能要件をミリ秒単位でなく「フレンドに数秒以内に通知が届けば正常」と定義。割り切り大事だ。
  • 組織に流れるフォースを間接的にコントロールする仕事 - @i2key のBlog

    Recruit Engineers Advent Calendar 2018 - Adventar ということで、エンジニアリングマネージャー的なことを書いてみます。1on1とか採用とか評価制度とかではなく、組織力学のような話を。 フォースを感じる 自分は普段からエンジニア組織をマネジメントする際に「構造によって発生する力学」をすごく意識しています。いま、大体100人弱の社員エンジニア組織をマネジメントしているなかで、役割上、判断する仕事がかなりの割合をしめます。その判断でどんな力学が発生して最終的に現場で何が起こるかまで可能な限り想像力を張り巡らさないとならないです。そして、この想像力において、どれだけ解像度を高くできるかこそが現場感だと思います。経験がないと何がおこるか想像すら出来ないと思うので。 ビジネスにおける意思決定で発生したフォースは徐々に伝搬し、最終的にエンジニアの現場に流れ

    組織に流れるフォースを間接的にコントロールする仕事 - @i2key のBlog
    raimon49
    raimon49 2018/12/19
    追う数字を誤ると見えない力学が働いてしまう話。めっちゃ分かる。
  • マイクロサービスチーム編成のベストプラクティスとメルカリでの構想 - Mercari Engineering Blog

    今年もMercari Advent Calendar 2018 が始まりました。初日は @stanaka がお送りします。 メルカリでは創業以来開発してきたPHPのアプリケーションから(主に)Goで実装されたマイクロサービスアーキテクチャへの移行を進めています。これまでにMercari Tech Conferenceやその他のカンファレンスでMicroservice化の意義、移行の方法、基盤となるMicroservice Platformの概要などについて様々な発表をしてきました。 現在、来年からの格的なマイクロサービスアーキテクチャでの開発に向けて、これまでのサービスの施策ドリブンのチーム編成から、マイクロサービスを軸としたチーム編成に移行しようとしています。 しかし、マイクロサービスアーキテクチャを成功させるためには、各種プラットフォームの機能を揃え、それらを利用したマイクロサービス

    マイクロサービスチーム編成のベストプラクティスとメルカリでの構想 - Mercari Engineering Blog
    raimon49
    raimon49 2018/12/02
    ゴールと定めるアーキテクチャを達成するための組織デザイン、逆コンウェイの法則を実践する。とても真摯で良い記事。
  • ふつうのRailsアプリケーション開発

    2. 自己紹介 • 大仲 能史 a.k.a. @onk • 株式会社ドリコム • Railsエンジニア歴8年ぐらい – 1.2.6から触り始めた – 格的にproductionで使ってるのは3.0から 1

    ふつうのRailsアプリケーション開発
    raimon49
    raimon49 2017/06/24
    easyはsimpleの上で成立 easyを作りふつうを維持する体制づくり
  • 正しく運用されているかを評価するのが監視である~ゼロからの運用監視設計(前編)。July Tech Festa 2016

    正しく運用されているかを評価するのが監視である~ゼロからの運用監視設計(前編)。July Tech Festa 2016 運用監視の自動化は、複雑化するアプリケーションやサービスに対して効率的かつ確実な運用監視を実現する上で、またコスト削減の意味でも重要な要素になってきています。運用監視の自動化は、どのように考えて実現していけばいいのでしょうか。 7月24日に産業技術大学院大学で行われたイベント「July Tech Festa 2016」のセッション「運用自動化のための Re:ゼロから始める監視設計」は、そのための知見を得る上で大変参考になるものでした。この記事では、そのダイジェストを紹介します。 運用自動化のための Re:ゼロから始める監視設計 前佛雅人氏。 今日の私の話は、業界経験が豊富な方には当たり前すぎる内容かも知れませんが、自分だったら20年前にこれを知りたかったな、ということを

    正しく運用されているかを評価するのが監視である~ゼロからの運用監視設計(前編)。July Tech Festa 2016
  • 1