2020年のサービス障害を振り返る
2020年も終わりですね。もうこのネタでしかはてなに書いていないものだから、この時期を逃すと次は2021年度末になってしまう。2年分まとめるのはしんどい…というのを昨年は後悔したので今年のぶんは今年のうちにまとめておきます。2020年のサービス障害の振り返りです。基本的には通信・サービスプロバイダ・システムインフラ関連のサービス障害について集めています。
過去分 :
- 2018-2019年のサービス障害を振り返る - # cat /var/log/stereocat | tail -n3
- 2016-2017年のサービス障害を振り返る - # cat /var/log/stereocat | tail -n3
- 「なぜ障害事例をまとめているのか」についてはこっちにあります。
- DC/クラウド/通信事業者サービスの障害事例よせあつめ - # cat /var/log/stereocat | tail -n3
- 2010-2016あたりまでのメジャーな障害事例のまとめ
データソースは主にこのへん :
- データセンターの今がわかる - データセンターカフェ の 障害情報
- Publickey - Enterprise IT × Cloud Computing × Web Technology / Blog の 障害報告
- IT総合情報ポータル「ITmedia」 の システム障害
- ニュース | 日経クロステック(xTECH)
毎度の免責になりますが、私の観測範囲に基づいているものなのであまり正確ではないかもしれません。また、世の中のすべての事象を網羅的に調査しているようなものではありません。今年こういうことがあったね、くらいの参考にしてください。障害発生日時を付記しておきますが、海外のものについてはタイムゾーンとかを加味したものではないので目安程度です。
2020年の事例
- 2020/01/16, 海底ケーブルの障害がアフリカ各国のインターネットに影響 | DataCenter Cafe
- 海底ケーブル故障
- 2020/02/03, マイクロソフトのクラウドサービス「Microsoft Teams」がサーバ証明書を更新し忘れ。2時間のあいだユーザーからアクセスできなくなる障害発生 - Publickey
- 認証システムのサーバ証明書更新忘れ
- 2020/02/10, JRでシステム障害 みどりの窓口や券売機でクレカ使えず 現在は復旧済み - ITmedia NEWS
- データベース障害
- 2020/02/12, 「PayPay」などのスマホ決済で同時に障害発生 原因は日本ユニシス系ゲートウェイの不具合 - ITmedia NEWS
- 「コード決済ゲートウェイサービスの障害」
- 2020/02/17, 楽天モバイルで再び通信障害 約2時間で復旧、原因は調査中 - ITmedia NEWS
- 詳細未公開
- 2020/02/23, 電源故障で電力供給が4分間停止、日本IBMのデータセンター障害 | 日経クロステック(xTECH)
- 電源装置故障
- その後
- 2020/03/09, 住信SBIネット銀、一時サイト開けず: 日本経済新聞
- 詳細未公開, 「ネットワークが原因である可能性が高いとみて、確認を進めている」
- 2020/03/09, 楽天証券でログインできない障害発生 復旧済み、原因は調査中 - ITmedia NEWS
- 2020/03/15, 電源障害で米中西部のAzureリージョンが停止 | DataCenter Cafe
- 電源障害
- 2020/03/17, Googleでキャスターが潰れラックが過熱 | DataCenter Cafe
- サーバラックのキャスターが破損 → 液体冷却材の流れが混乱 → ラックが過熱
- サービス障害にまではつながっていないようです
- 2020/03/17, 米ダラスのIBM Cloudが小規模な停止 | DataCenter Cafe
- 詳細未公開
- 2020/03/19, 「どんなときもWiFi」通信障害の復旧は4月上旬ごろ 料金「希望者に日割りで免除」の対応に批判も - ねとらぼ
- 2020/03/26, Google Cloudの主要サービスが10時間ものあいだ障害発生。原因は分散アクセスコントロールへの大量の変更要求が引き起こしたメモリ不足 - Publickey
- 「IAMへの大量の変更要求によるバックログがキャッシュサーバのバグを呼び、メモリ不足を誘発」
- 2020/03/30, Google Cloud、先週に続き、再び断続的な障害が発生 | DataCenter Cafe
- 「今回の障害はサードパーティ製ルータのソフトウェアのバグであり、それが複数のルータに影響を及ぼし、同時にすべてがクラッシュしてしまった」
- 2020/03/30, フランスのOVHcloudで短時間のネットワーク障害が発生 | DataCenter Cafe
- ネットワーク機器障害
- 2020/04/08, Google Cloudが再びダウン、今度はGmail他に影響 | DataCenter Cafe
- Google Cloud Infrastructure Components Incident #20005
- 認証系(IAM)システムでほとんど実行されていない構成変更の実施 → カナリアシステムの潜在的な問題により構成変更が急速にグローバルに伝播
- 2020/04/13, JTBなど400社が使うTISのリモートアクセスサービスが全面停止、復旧は6月以降 | 日経クロステック(xTECH)
- RemoteWorksのシステム障害をまとめてみた - piyolog
- 「利用者数の急増に伴い不具合」→ 「ログイン画面に第三者のユーザーIDとみられる情報が含まれるエラーメッセージが表示されたという報告を利用者から受けた」
- その後
- 2020/04/15, パッチ盤からケーブルを引っこ抜いてしまいCloudflareに障害発生。ケーブルにラベリングされておらずどれを戻すべきかすぐに分からず - Publickey
- Cloudflare Dashboard and API Outage on April 15, 2020
- ケーブル誤抜去
- ケーブルラベルもなかった、というので話題に…
- 2020/04/20, AWS東京リージョンで発生した障害について(4.20) | DataCenter Cafe
- 2020/05/18, Microsoft Azureのインドリージョンが長時間停止 | DataCenter Cafe
- 送電網の故障 → 自家発電機による給電 → 一部の空調ユニットで異常 → 室内温度上昇 → システム保護のため自動化システムによるシステム停止
- 2020/05/28, Adobeのクラウドサービスが大規模停止、Photoshopなど利用不可 | DataCenter Cafe
- 詳細未公開
- 2020/05/22, どのように牛がGoogleネットワークの小規模な停止を引き起こしたか? | DataCenter Cafe
- 架空光ファイバが地面に落ちる → 牛が踏む → 障害
- 2020/05/31, 日本電子計算の自治体クラウドで障害、アップデート中に「想定外の事象が発生」 | 日経クロステック(xTECH)
- ストレージ製品のコントローラファームウェアアップデート中のトラブル
- 2020/06/04, NTTビズリンクのデータセンターで電源設備故障が発生、その影響で13自治体のWebサイトの名前解決ができなくなるなどのトラブル | スラド IT
- データセンターの電源故障の影響で起きた自治体サイト接続障害についてまとめてみた - piyolog
- UPS故障 (ショート) による停電
- 2020/06/10, 2020年6月10日に発生しましたIBM Cloudのネットワーク障害に関するご報告 | IBM ソリューション ブログ
- IBM Cloudが数時間にわたる世界規模の停止 | DataCenter Cafe
- 外部(第三者) ISP による不正経路広告
- 2020/06/14, データセンターの電源工事作業不備によりSMBC日興証券でシステム障害、売買注文の予約などできず | スラド IT
- DC電源工事作業不備による電源ダウン
- 2020/06/15, T-Mobileの米国内通信がダウンし、VerizonやAT&T等に影響 | DataCenter Cafe
- 2020/06/19, 英国でボーダフォンが停止、原因は「技術的な欠陥」 | DataCenter Cafe
- 詳細未公開
- 2020/06/24, IBM Cloudでエラーと停止がまたもや発生 | DataCenter Cafe
- 詳細未公開
- 2020/06/30, 正規番号でファックス誤送信が起きたNTT西の電話サービス故障についてまとめてみた - piyolog
- 工場で局内装置に誤ったデータを設定
- 2020/07/01, (ドイツの証券取引所の障害) Deutsche Boerse Snag Halts Trading Across Central Europe
- サードパーティー製ソフトウェアの不具合
- 4月にも障害が起きている
- 2020/07/01, 停電によりGoogle Cloudネットワーキングと永続ディスクに障害発生 | DataCenter Cafe
- 停電
- 2020/07/17, CloudflareのDNSが停止し多数のサービスに影響 | DataCenter Cafe
- Cloudflare outage on July 17, 2020
- ルータの設定ミス (トラフィック迂回のためのBGP経路広告設定ミス)
- 2020/08/07, キヤノンの写真クラウドで一部データ消失、ソフトの誤動作が原因 - ITmedia NEWS
- 「ソフトウェアの誤動作」
- 2020/08/18, エクイニクスLD8データセンターで大規模障害が発生 | DataCenter Cafe
- UPS障害によるシステム故障
- 「Equinix LD8での弊社2ラックのうちの1ラックでA・B系双方の電源を失った」
- 2020/08/19, Spotifyが全世界で1時間以上停止 | DataCenter Cafe
- 証明書更新忘れ
- 2020/08/20, Google Cloud、Gmail、ドライブなどのサービスに障害発生 | DataCenter Cafe
- Googleサービスでの8月20日の大規模障害について、Googleが原因と対策を説明 - ITmedia NEWS
- 非構造化データに共通の内部分散システムでの過負荷
- 2020/08/28, UPS故障によりTelstraロンドンデータセンターで火災が発生 | DataCenter Cafe
- UPS故障による火災
- 2020/08/30, CenturyLinkのIP障害によりCloudflareサーバがダウン | DataCenter Cafe
- August 30th 2020: Analysis of CenturyLink/Level(3) Outage
- 不適切な BGP Flowspec 設定による BGP Update の急増 → 負荷上昇、配下の顧客の多くがシングルホーム接続だったために問題が長時間に
- 2020/09/14, MS Azure UK Southリージョンが冷却障害により停止 | DataCenter Cafe
- 冷却ポンプの停止 → 室温上昇 → システム保護のためシャットダウン
- 2020/09/15, 与那国島のドコモ通信障害、携帯電話サービスは復旧 - ケータイ Watch
- 伝送路設備の故障
- 2020/09/25, Googleのサービスが軒並みダウン? 日本以外でも(UPDATE:9月25日午前11時ごろ、ほぼ復旧) - ITmedia NEWS
- Googleサービスが米国で30分停止 | DataCenter Cafe
- Google Cloud Infrastructure Components Incident #20010
- 内部サービスの変更にエラーがありサービスフロントエンドでメモリ不足が発生
- 2020/09/28, マイクロソフト、複数のサービスで発生した認証エラーの原因や対策を報告 - ZDNet Japan
- Microsoft 365の大規模障害、原因は未検証アップデートがデプロイシステムのバグにより通常のプロセスをバイパスして本番環境へ直接デプロイされたこと - Publickey
- Microsoft障害、Azure、Office365、Teamsなど停止 | DataCenter Cafe
- 検証用領域でサービスアップデートをデプロイ → Azure ADバックエンドがクラッシュ → デプロイメントプロセスのコードのバグが顕在化 → 未検証アップデートが本番へ
- 2020/09/30, Appleのネットサービスで大規模な接続障害が発生【復旧済み】 - ITmedia NEWS
- 詳細未公開
- 2020/10/01, 2020年10月に発生した東京証券取引所のシステム障害についてまとめてみた - piyolog
- 2020/10/02, Unisysデータセンター障害で米ペンシルベニア州サイトがダウン | DataCenter Cafe
- DC内機器故障
- 2020/10/04, ドコモの顧客システムに障害 店頭、Webや電話での手続きが不能に【回復済み】 - ITmedia Mobile
- 4日にドコモの顧客管理システムに障害が発生、14時50分に解消されるまで手続き不能に | スラド IT
- 「顧客システムの機器故障」
- 2020/10/09, (メキシコの証券取引所の障害) Mexico's main stock exchange opens after temporary trading suspension | Reuters
- 2020/10/12, 米コネチカット州で光ファイバ損傷によるデータセンター通信障害が発生 | DataCenter Cafe
- DCに接続されている6本の光ケーブルが落下したトランスにより切断
- 2020/10/12, 光ケーブルの切断事故で米バージニア州の有権者登録システムが停止 | DataCenter Cafe
- 建設作業員が誤って地下の光ファイバを切断
- 2020/10/15, CNN.co.jp : ツイッターで大規模障害、「不注意な変更」が原因
- Twitter outage due to API irregularities | ZDNet
- 内部システムに対する不注意な変更
- 2020/10/19, 欧州取引所でも19日にシステム障害。3時間ほど売買停止へ | スラド IT
- Euronext Stock Trading Resumes After Three-Hour Outage - Bloomberg
- ソフトウェアの不具合, 「ミドルウエアのシステムに技術的な問題が発生したため」
- 2020/10/22, AWS東京リージョンで発生した通信障害について(2020.10.22) | DataCenter Cafe
- AWSで1時間強にわたり障害、PayPayや一部アプリが一時利用できず | 日経クロステック(xTECH)
- 「ネットワーク接続性の問題」
- 2020/11/01, 福井県産業情報ネットワーク「ふくいナビ」の障害発生について | 公益財団法人ふくい産業支援センター
- サーバ管理会社のクラウド契約に関するトラブル (手続きミス)
- 当初バックアップ等もなしという情報だったが、その後バックアップがみつかり10月頭時点の状態への復旧が可能になったとのこと > 福井県の企業支援サイトが消失、バックアップが残っていた意外な場所 | 日経クロステック(xTECH)
- 2020/11/02, A Byzantine failure in the real world
- ネットワーク機器の部分的な障害によって発生した etcd のビザンチン将軍問題による障害
- 2020/11/07, Global Switchの防火システム誤作動によりサーバが停止 | DataCenter Cafe
- 某かシステム誤作動 → 消火システム動作 → サーバ損害
- 2020/11/24, 楽天ペイで障害 サービスが一時停止中【追記あり】 - ITmedia NEWS
- 「社内システムのトラブル」
- 2020/11/25, AWSが11月の大規模障害について説明 - ZDNet Japan
- 「Kinesisのフロントエンドフリートに属する全てのサーバーで、スレッド数が現在のOSの設定で許容されている最大値を超過」
- 2020/11/30, みずほ銀行の法人向けサービスでシステム障害、月末で困惑の声相次ぐ | 日経クロステック(xTECH)
- 詳細未公開
- 2020/12/07, ネット証券3社でシステム障害、最大1時間取引できず 原因は米国の取次先システム - ITmedia NEWS
- 外部サービスの障害による影響
- 2020/12/11, NetGainがランサムウェア攻撃を受けデータセンターが停止 | DataCenter Cafe
- 2020/12/24, Googleの45分間ダウンの原因は認証ツールのストレージクォータの問題 - ITmedia NEWS
- グーグル、大規模障害の詳しい経緯を公表--システム移行時のミスが原因 - ZDNet Japan
- ID管理システムのストレージのクォータ自動管理システムに不備。自動的にストレージ容量を増やすツールが正常に動作せず、ログインが必要なサービスが利用できない → 10月におこなった新しいクォータシステムへの移行作業時に以前のシステムの一部が残っていたため
個人的な所感
2020年はもうコロナの話題から逃れられないですね。Zoomの急成長やサービス障害など、コロナによるリモートのシフトやそれに伴うサービス障害などいろいろ。サービスの不具合から復旧できずに終了してしまうサービスなんかもありましたしね……。マクロに見た時の変化傾向なんかは Janog なんかで出てきてるはずだし今後も出てくるでしょう。
- (2020/06/15) 新型コロナウイルス感染症の影響下におけるインターネットトラヒックの推移について (pdf), via. 総務省|ネットワーク中立性に関するワーキンググループ|ネットワーク中立性に関するワーキンググループ(第1回)配布資料
- インターネットトラフィックが急増、新型コロナの影響を検証する | 日経クロステック(xTECH)
- コロナ禍でインターネット障害は顕著に増加--ThousandEyes調べ - ZDNet Japan
- テレワーク利用でネット通信量急増、特に目立つ時間帯は「昼過ぎ」 : 経済 : ニュース : 読売新聞オンライン
- 新型コロナウイルス他の影響でDE-CIXが記録的なトラフィック | DataCenter Cafe
- 新型コロナでクラウド依存が進む中、DC障害のリスクを考える【特集】 | DataCenter Cafe
- DCの停止時間は長くなっているのか?【特集】 | DataCenter Cafe
何かしらのサービスが止まって「もう今日仕事にならねぇな」というのはまあ前からありましたが、コロナによるリモートと Teams などオフィス系オペレーションのクラウド依存が広がるにつれて、その幅が広がって来たなあという気がしますね。Slack がとまったので Teams でとか、あるいはその逆とか。そして今年目についたのは、会社や仕事に関係してじゃなくて、日常生活のなかでのクラウド依存問題でしょうか。
- AWS障害が起きたその日、人類は思い出した。ヤツらに支配されていた恐怖を…。 - Togetter
- 「外は雪が降りしきる中…」Googleの障害発生でGoogle Homeが使えない影響で凍死しかけている人現る - Togetter
- 災害時は「やっぱり現金」 九州豪雨でキャッシュレスのもろさ浮き彫り:東京新聞 TOKYO Web
こういうのを見るとIoT的なものが普段の生活の中に入ってきてるんだなあと思いますね。サービスに乗るのは利便性という点ではいいけど、障害が起きた時にどうなるか・ダイレクトに操作できるパスがあるかどうか、というのは考えておかないといけなさそうです。
あと気になったのは、インシデントレスポンスに対する反応かな。
イマドキ、あるサービスがそれ単体で完結していることはまずなくて、外部のベンダーやら他社サービスやらにも依存していたりするわけです。そういうところとどう関係を作るか・それらの障害をどのように受け止めて直接の顧客に相対するか、というのも重要だよな……というのがいろいろと。まあ今に始まったことではないんですが。「止まっちゃってるけどウチのせいじゃないよ」って言いたいのはわかる。でも「そりゃたしかに直接の原因はあなたのせいじゃないんだろうど、そこと付き合うと決めたのはあなたでしょうに」というのをどう考えるか。直接の顧客に対してというのがまずあるのはわかる。でも、それはいま一緒にやっている人たちから見てどう見えるかとか、その外から将来顧客になりうる人・ステークホルダーになりうる人からどう見えるかとかね……。
最後に。ちいさなミスによる障害もやっぱりなくならないですね。本番前の検証やテスト・自動デプロイをするためのシステムに不具合があって変なのが本番に入っちゃった、というのもいくつかありましたが、まあそのあたりは難しいんだろうなと思えます。ただ、ケーブル間違えて抜いちゃったり、証明書の更新を忘れたり、不用意な変更を入れてしまったり、クラウドサービスの契約手続きを忘れたり……。そういうのが大企業とか有名テックカンパニーとかでも起きている、かつニュースになるような障害を引き起こしているわけですよ。こういうのをなくすのがいかに難しいかってことなんだよね。