2020年のサービス障害を振り返る

2020年も終わりですね。もうこのネタでしかはてなに書いていないものだから、この時期を逃すと次は2021年度末になってしまう。2年分まとめるのはしんどい…というのを昨年は後悔したので今年のぶんは今年のうちにまとめておきます。2020年のサービス障害の振り返りです。基本的には通信・サービスプロバイダ・システムインフラ関連のサービス障害について集めています。

過去分 :

データソースは主にこのへん :

毎度の免責になりますが、私の観測範囲に基づいているものなのであまり正確ではないかもしれません。また、世の中のすべての事象を網羅的に調査しているようなものではありません。今年こういうことがあったね、くらいの参考にしてください。障害発生日時を付記しておきますが、海外のものについてはタイムゾーンとかを加味したものではないので目安程度です。

2020年の事例

個人的な所感

2020年はもうコロナの話題から逃れられないですね。Zoomの急成長やサービス障害など、コロナによるリモートのシフトやそれに伴うサービス障害などいろいろ。サービスの不具合から復旧できずに終了してしまうサービスなんかもありましたしね……。マクロに見た時の変化傾向なんかは Janog なんかで出てきてるはずだし今後も出てくるでしょう。

何かしらのサービスが止まって「もう今日仕事にならねぇな」というのはまあ前からありましたが、コロナによるリモートと Teams などオフィス系オペレーションのクラウド依存が広がるにつれて、その幅が広がって来たなあという気がしますね。Slack がとまったので Teams でとか、あるいはその逆とか。そして今年目についたのは、会社や仕事に関係してじゃなくて、日常生活のなかでのクラウド依存問題でしょうか。

こういうのを見るとIoT的なものが普段の生活の中に入ってきてるんだなあと思いますね。サービスに乗るのは利便性という点ではいいけど、障害が起きた時にどうなるか・ダイレクトに操作できるパスがあるかどうか、というのは考えておかないといけなさそうです。

あと気になったのは、インシデントレスポンスに対する反応かな。

イマドキ、あるサービスがそれ単体で完結していることはまずなくて、外部のベンダーやら他社サービスやらにも依存していたりするわけです。そういうところとどう関係を作るか・それらの障害をどのように受け止めて直接の顧客に相対するか、というのも重要だよな……というのがいろいろと。まあ今に始まったことではないんですが。「止まっちゃってるけどウチのせいじゃないよ」って言いたいのはわかる。でも「そりゃたしかに直接の原因はあなたのせいじゃないんだろうど、そこと付き合うと決めたのはあなたでしょうに」というのをどう考えるか。直接の顧客に対してというのがまずあるのはわかる。でも、それはいま一緒にやっている人たちから見てどう見えるかとか、その外から将来顧客になりうる人・ステークホルダーになりうる人からどう見えるかとかね……。

最後に。ちいさなミスによる障害もやっぱりなくならないですね。本番前の検証やテスト・自動デプロイをするためのシステムに不具合があって変なのが本番に入っちゃった、というのもいくつかありましたが、まあそのあたりは難しいんだろうなと思えます。ただ、ケーブル間違えて抜いちゃったり、証明書の更新を忘れたり、不用意な変更を入れてしまったり、クラウドサービスの契約手続きを忘れたり……。そういうのが大企業とか有名テックカンパニーとかでも起きている、かつニュースになるような障害を引き起こしているわけですよ。こういうのをなくすのがいかに難しいかってことなんだよね。