ふり返る暇なんて無いね

日々のメモ書きをつらつらと。メインブログに書くほどでもないことを流してます

サイトは落ちるよ

あるサイトの昔話。

そのサイトはトップページはS3から静的HTML、/app/以下はアプリケーションサーバでサーブされていた。S3はそう簡単に落ちないから監視不要(それは間違いなのだがさておき)として、/app/およびappのヘルスチェックのみ監視していた。

ある日。静的HTMLジェネレータの不具合でindex.htmlが存在しないアーティファクトをS3にデプロイされてしまった。当然トップページ存在しないのでアクセスすると404が返るわけだが、監視がされてないので、誰も気づかない。サイトの主機能であるアプリケーションではないとは言え、しばらくトップページが表示されないのはそれなりまずい事態ではあった。

数十分後にようやく認知し、アーティファクトのバージョンを巻き戻し、CloudFrontをキャッシュをInvalidateして事なきを得るのであった。

大した教訓ではないが、以下のことを心にとめようと思ったのでした。

  • インフラが落ちなくても、関連コンポーネントのせいでサイトは落ちることはある
    • 過信は禁物
  • コンポーネント毎に適切な監視が必要
    • とはいえ、重要度に応じて