2021年のサービス障害を振り返る

今年も年1回のブログ更新の時期がやってまいりました。

[2021-12-31] 年末に起きたニュースを追記

過去分 :

データソースは主にこのへん :

毎度の免責になりますが、

  • 私の観測範囲で拾えたものというだけなので、あまり網羅性があるものではありません。
  • 基本的には通信・サービスプロバイダ・システムインフラ関連のサービス障害について集めています (情報セキュリティ関連の話は含めていません)。
  • 障害発生日を付記していますが、海外のものについてはタイムゾーン等を加味していません。参考情報です。

今年どんなことがあったんだろうというのをざっと振り返るくらいで見てください。

2021年の事例

個人的な所感

印象的なのはみずほ銀行Facebook かなあ。あとは CDN のトラブルによる「インターネットが落ちた」事象とか。

  • みずほ銀行については多数のニュースや解説記事等あるのでそちらを見てもらうとして。機器故障云々の前に運用上のあれこれ、組織編成等にまで及んで多数の課題点があるという話も出ています。
  • 正規フローから外れたオペレーションというのは big tech でも起きていて、salesforce (5月) の障害は正規のワークフローではなく緊急用のフローでショートカットしようとしていた、なんて話も出てきていますね。やっぱり近道を通ろうとしてしまう。
  • そしてオペミスが起こらないようにガードをかけたりチェックや検証をかけたりしていてもやっぱりミスは起きる。自動化されたオペレーションのバグ、特定の条件で発生するバグはいくつか事例が上がっていますがまあこういうのを完全に洗い出すのは難しい。セーフガードだけではなく、問題を早くキャッチして元に戻す方策も必要。
  • 落とし穴になりがちなのがDNSってのはありそうだなあ。上にあげた例だと、Facebook, Salesforce, Akamai, Slack はDNSあるいはDNSが関連した障害を起こしてますね。Salesforce は自社ドメインでのステータス表示すらできなくなっているし、Facebook は復旧に使う運用系のシステムの名前も引けなくなってしまったという話を見た記憶が。システムの大規模化・複雑化に伴って、どこかで「鍵のとじ込み」が発生してしまうケースを見極めきれるんだろうか?

あと気になるのは政治情勢の影響かなあ。ミャンマースーダンの話は上に書いた通り。ロシアについても通信規制の話は前から出てますよね。そのほかにも、政治活動等のターゲットとしてデータセンタが狙われるケースなんかもあり。

AWSの接続障害、人々はクラウド依存を実感 - WSJ って話もあって、生活の中にこういうITシステムとそのサービスが溶け込んでいくんでしょう。同時に、それらが攻撃面として選択されていくし、予想外のところで影響が起きることも増えていくんだろうなあ。

そしてこうしてまとめてみると、「観測される範囲」に入ってくるものはやっぱりエンドユーザ = “目” の数が多いサービスなんだよなあ、と思いますね。直接にせよ間接にせよ。そういう意味ではここに出てきているニュースは偏っていると思われます。……なぜこんな話出したかというと、過去記事眺めてると某サービスもちょいちょい障害起こしてるみたいなんだけど、私の観測範囲だとほとんど聞こえてきてなかったんですよ。サービスプロバイダとしては深刻な障害を起こしても何も非難されない方が恐怖なのではと思ったり……。