タグ

インフラに関するgiassのブックマーク (5)

  • なぜ企業は「オンプレ回帰」するのか?米Kyndrylのクラウドリーダーにモダナイズの失敗原因を訊く

    モダナイズに悩むのは日だけでない ──まずは、Grama様の経歴とKyndrylでの役割を教えていただけますか? UNIXカーネル開発者としてキャリアをスタートし、その後IBMに入社。主にIBMでキャリアを積んできましたが、2016年から2年間はIBMを離れ、金融機関であるJP Morgan ChaseのCIO兼マネージング・ディレクターを務めました。ここでは、アプリケーションとインフラをハイブリッドクラウド、パブリッククラウドへ移行させる変革の指揮を執りました。その後、IBMに戻ってソフトウェアビジネスで様々な部署を経験し、2018年から2021年は数十億ドル規模のパブリッククラウド事業を統括しました。 そして現在は、Kyndrylのグローバル・クラウド・プラクティス・リーダーを務めており、クラウド・オファリングの開発、提案、デリバリーなどクラウド・プラクティスのすべてを見ています。K

    なぜ企業は「オンプレ回帰」するのか?米Kyndrylのクラウドリーダーにモダナイズの失敗原因を訊く
  • 障害から学ぶクラウドの正しい歩き方について考える - そーだいなるらくがき帳

    AWSで大きな障害が発生したこの機会に、自分がクラウドと正しく付き合っていくために必要なことを考える。 piyolog.hatenadiary.jp ちなみに稼働率 99.99% くらいを目指していくために必要な事を考える。 必要な稼働率を見極める 今回は 99.99% くらいを目指すと言ったが、実際に自分たちにとってどのくらいの稼働率を目指すか?ということはとてもとても大切だ。 幸い、今回自分は影響がなかったが、当に完璧か?と言われるとそうではない。 まず弊社の場合、マルチリージョンではないので東京リージョンが落ちたら落ちる。 これを許容できない場合に99.99%を目指せるか?というと正直厳しい。 しかしサイトの規模はそんなに大きくないのでデータサイズも現実的に転送出来る範囲で、コンポーネントも少なく、TerraformやAnsibleによって再構築しやすい状態は整っている。 そのため

    障害から学ぶクラウドの正しい歩き方について考える - そーだいなるらくがき帳
  • インフラ・サービス監視ツールの新顔「Prometheus」入門 | さくらのナレッジ

    サーバーやインフラなどの監視ツールの1つとして最近注目されているのが「Prometheus」だ。Prometheusはインストールや設定が容易で、かつ十分な機能を持ち管理しやすいという特徴を持つ。記事ではこのPrometheusの導入方法、基的な監視設定の流れを紹介する。 クラウド時代の監視管理ツール ネットサービスを運営する場合、そのサービスを運営するソフトウェアやサーバー、ネットワーク機器などの状況を監視する手段を用意するのが一般的だ。監視を行い、意図しない状況になったら自動的にメールなどで通知を行うシステムを構築することで、問題をいち早く解決できるようになる。さらに、サービスやマシンの稼働ログを適切に記録することで潜在的な問題を事前に見つけたり、最適化に向けた分析を行うといったことも可能になる。 監視や問題発覚時の通知などを行うオープンソースのツールとしては、過去にElastic

  • インフラ自動化ツール「Ansible 2.3」リリース。SSHのコネクションを使い続けるPersistent Connectionでタスク処理が高速に - Publickey

    インフラ自動化ツール「Ansible 2.3」リリース。SSHのコネクションを使い続けるPersistent Connectionでタスク処理が高速に オープンソースで開発されているインフラ自動化ツール「Ansible」の最新バージョン、「Ansible 2.3」正式版がリリースされました。 インフラ自動化ツールにはChefやPuppetなどよく知られるオープンソースソフトウェアが他にも存在しますが、Ansibleの特徴はサーバやネットワーク機器にあらかじめエージェントなどを導入することなく利用できる点にあります。 エージェントを使うことなく多数のサーバなどに対して設定やソフトウェア導入などの構成管理を行う仕組みとしてAnsibleではおもにSSHを用いています。 Ansibleのこれまでのバージョンでは、ネットワーク機器に対して構成管理のタスクを1つ実行するたびにSSHの接続を開始、終了

    インフラ自動化ツール「Ansible 2.3」リリース。SSHのコネクションを使い続けるPersistent Connectionでタスク処理が高速に - Publickey
  • Google、書籍「Site Reliability Engineering」の無料公開を開始。インフラや運用をソフトウェアで改善していく新しいアプローチ

    Google、書籍「Site Reliability Engineering」の無料公開を開始。インフラや運用をソフトウェアで改善していく新しいアプローチ 「Site Reliability Engineering」(SRE)とは、GoogleのシニアVPであるBen Treynor氏が提唱した、高い信頼性や性能を発揮するシステムインフラを実現し、改善していくアプローチのひとつです。 これまでの運用チームやインフラチームによる運用や改善とSREが異なるのは、SREでは積極的にコードを書き、ソフトウェアによって目的の達成を目指している点にあるといえます。 Googleが公開しているSREのWebサイトでは、SREを次のように説明しています。 Like traditional operations groups, we keep important, revenue-critical syst

    Google、書籍「Site Reliability Engineering」の無料公開を開始。インフラや運用をソフトウェアで改善していく新しいアプローチ
  • 1