PARTAKEサーバー管理担当の戸田です。11月1日夜から2日朝にかけてサービスに障害を発生させてしまい、申し訳ありませんでした。 今回の障害の原因は、毎日取得しているバックアップを削除せず放置していたことによる記憶容量欠乏です。こんな簡単な事象の想定が漏れていたとはお恥ずかしい限りです。この障害によりイベントの新規作成や登録などの操作、ならびに@partake_botによる新着イベントのツイートが停止していました。なお現在はすべて復旧しております。 さてこの記事では開発コミュニティのMLで議論された再発防止策、ならびにその実装方法について簡単にご説明させていただきたいと思います。 今回MLで議論された再発防止策は3つありました。 残りHDDが少なくなったら管理者にアラートを出す 古いバックアップを定期的に削除する仕組みを構築する postgresqlのダンプを圧縮することでバックアップの