普段はGAFAの動向を追いかけている筆者だが、この数カ月は別のテーマに没頭していた。みずほ銀行の度重なるシステム障害や、システム障害を起こさないための安定稼働対策についてだ。しかし様々な金融機関を取材する中で、米Google(グーグル)に関係の深い話題が出てきた。キーワードは「SRE」である。 SREとはSite Reliability Engineeringの略称で、グーグルが提唱したシステムの安定稼働を実現する方法論である。日本ではシステム運用というと、決められた手順に従ってシステムを操作する文字通りの「オペレーション」だと認識されがちだが、SREはそうではない。システム運用にまつわる様々なプロセスをソフトウエアによって自動化するだけでなく、それを継続的に改善し続けることでシステムの安定稼働を目指す。SREにおいては運用担当者は単なるオペレーターではなく、ソフトウエアを改善し続けるエン