先日の金曜日、すでに業務を終えたタイミングに限って会社のStatuscakeがアラートが鳴り響きました。
どうやらAWSの東京リージョンの特定アベイラビリティゾーンで障害が発生したようです。
幸いにもうちの会社のサービスはマルチAZ配列ですし、サービスがめちゃくちゃ重くなったくらいで済みました。
しかしせっかくの金曜日の夜なのに、深夜まで確認作業に追われる羽目に・・・(笑)
AWSの公式ではEC2とELBのみ障害対象としていましたが、実際にはRDSも正常に機能していなかったように思えます。
さて、 AWS障害になるとTwitterでもトレンドになるくらい話題になりますね!
そこでいろいろな人の意見を見るのですが、IaaSの影響でサービスがダウンする=冗長構成にできてないって捉えられることが多いみたいですね。
実際にはそのままでも稼働はするけどサービスが不安定な間はメンテナンスを挟んで止めておこうとか、データベースの書き込み側が不具合の影響を受けて停止してしまったなど、マルチAZ構成だけでは対応できないケースもあるんですよね。
なんならCloudFrontやRoute53などのグローバルサービスで障害が発生するケースもありますから。
IaaSが不安定だけどサービスは継続しておこうと判断するか、不安定な間はあえてメンテナンスにして止めておこうとするかは企業ごとの方針によると思います。
なので、IaaSの障害でサービスが止まった=冗長構成にできていないと決めつけるのは軽率かなと思います。
とはいってもサービスを受ける側は、企業の都合なんて知ったことではないので文句や悪評がでるのは仕方がないんですがね・・・。
とりあえず、インフラエンジニア目線で思うところを書いてみました。
コメントを残す