未解決: Cloud Runのオートスケールする条件が分からなかった

Cloud Runのオートスケールする条件がいまいちよく分からなかったので、調べてました。

結論として、ちゃんとした条件が分からなかったので、時間が取れるときにちゃんと実験したいです。

確実なのは公式ドキュメントなので、関係のありそうな歌唱から読んでいきます。

コンテナインスタンスの自動スケーリングについて | Cloud Run のドキュメント | Google Cloud

Cloud Run では、リビジョンのスケーリングが自動的に行われます。すべての受信リクエストまたはイベントを処理できるように、必要なコンテナインスタンスの数が調整されます。リビジョンがトラフィックを受信しない場合、デフォルトでは、コンテナインスタンスの数がゼロにスケールインされます。このデフォルトは必要に応じて変更できます。インスタンスをアイドル状態のままにすることも、最小インスタンスの設定を使用してウォームアップを指定することもできます。

受信リクエストまたはイベントのレートに加えて、スケジュールされるインスタンスの数は以下の影響を受けます。

リクエストまたはイベントを処理中の既存インスタンスの CPU 使用率（スケジュールされたインスタンスを CPU 使用率 60% に維持するためのターゲティング）

最大同時実行数の設定

コンテナインスタンスの最大数の設定

コンテナインスタンスの最小数の設定

ここでは、CPU使用率が60%を維持するようにつまり60%を超えるとスケールするように読み取れます。

インスタンスあたりの最大同時リクエスト数（サービス） | Cloud Run のドキュメント | Google Cloud

Cloud Run サービスでは、リビジョンのスケーリングが自動的に行われます。すべての受信リクエストを処理できるように、必要なコンテナインスタンスの数が調整されます。

ここでは、現在稼働してるインスタンスの合計最大同時実行数ではリクエストを処理しきれなくなりそうになるとスケールするように読み取れます。

リソースモデル | Cloud Run のドキュメント | Google Cloud

リビジョンは、受信したすべてのリクエストを処理できるように、コンテナインスタンスの数を自動的にスケーリングします。1 つのコンテナインスタンスが同時に多くのリクエストを受信する場合があります。同時実行の設定を使用すると、1 つのコンテナインスタンスに同時に送信されるリクエストの最大数を設定できます。

ここも同じこと言ってますね。

まとめると、

CPU60%を維持(超えない)ようにスケーリングする
すべてのリクエストを処理できるように(同時実行数を超えると)スケーリングする
- ただし、最大インスタンス数の制限を超えてスケールすることはできない。

ということでいいんですかね?

余談ですが、Cloud Runのオートスケーリングについて調べてたときに見つけたこの動画すごく参考になりました。オートスケーリングに関しては、何も得るものがなかったんですが、ログとリクエストの紐付けとか運用上役に立つ知識が得られました。

ふり返る暇なんて無いね

日々のメモ書きをつらつらと。メインブログに書くほどでもないことを流してます

未解決: Cloud Runのオートスケールする条件が分からなかった