2018-2019年のサービス障害を振り返る

ときどき思い出したように書いている障害事例まとめです。こういうのをやるならせめて年1回くらいはまとめないとダメだね……。昔の記事だと経緯や内容を覚えていないし、ニュース記事 (特に新聞社の記事や企業の障害に関するリリース記事) が消えてしまっていたりする。年末にまとめてドカッと振り返るのはしんどい。

基本的には自分がブックマーク等でクリップしたものをもとにまとめています。主要なニュースソースはこの辺です。

以下、障害事象の発生日時をベースに並べていますがあまり正確ではありません: 海外事例で正確な発生日時が不明なものについては、ニュース記事の発行日でつけているものがあります。また海外事例については時差表記を統一しておらず、日本時間だったり現地時間だったりまちまちです(目安程度につけているだけなので統一できていません。)

2018年の事例

2019年の事例

2019/6-7月にかけてはこうしたクラウドサービスや通信事業者の大規模な障害が複数起きていてこんな記事も出ました : インターネットにとって最悪の1カ月 | TechCrunch Japan

個人的な所感

  • BGPルート漏洩などによる広域での障害は相変わらずだけど、中国政府がチャイナテレコムを通してBGPハイジャックを実行--研究者が指摘 - CNET Japan みたいな話があって不穏な気配が。
  • 銀行・金融系と、あと地方自治体システムでのトラブルが目立つようになってきた。役所でのクラウドサービス利用などが進行している分影響が目に見えるようになってきたんだろうか。
    • いずれにせよこの辺、バックエンドに SIer がいてやっていると思われるサービスとかについてはとにかく情報が出てない。もうちょっとなんかあってもいいのでは……(まあしがらみがあるのはわかるんだけど)。でも、ほかの会社が報告出してるかというと必ずしもそうでもないんだよな。Facebook他、障害があったことしかわからないのがいくつかあったし。
  • 大規模障害後の余波で 2 次障害 3 次障害と起きるケースがいくつか。システムの大規模化・複雑化が進んでいる・システム全体の挙動が読み切れない (どうしても予期しない事象が起きる) というのがあるんだろう。読み切れないものに対してどこまで被害を抑えられるかが今後の力の入れどころになると思われる。
    • 自動化されていることによる影響拡大というのは前も書いたけど、ソフトウェアによる誤検知 (false positive) が広くなってしまって障害に発展する……みたいな、よりアプリケーションよりの障害が増えてきた印象。
  • 2018-2019は、国内はどうしても災害とは切っても切り離せないですね。大阪北部や北海道胆振東部の地震もあったし大型台風も頻発した。ここではそれらに起因した障害は特にあがっていないけど、サービス運用の人たちは緊張の連続だったんじゃないだろうか。お疲れさまでした。
    • 自分自身が胆振地方出身だし、北海道東部の地震にはいろいろ思うところがありました。
    • 災害対応と今後 :: JANOG43 など。JANOG では災害時の対応報告なんかが上がっているので検索してみるとよいと思います。
  • それにしても、同時期に独立したサービスで障害がかたまって起きるのはなぜなんだろうか。2019/6-7月におきた大手クラウドサービスの障害連発とか、2019/11月の国内 DC サービス電源障害の連発とか。不思議だ。

オマケ

[2020-01-04] どれも情報系サービスってわけじゃないのと、ひとつ追記忘れていたものを見つけたのでちょっとよけます。生物起因の停電みっつ。ネズミはデータセンタとかでも何回か聞いたことがあるけど、ナメクジとかヤモリとかは珍しいね。