2021年のサービス障害を振り返る
今年も年1回のブログ更新の時期がやってまいりました。
[2021-12-31] 年末に起きたニュースを追記
過去分 :
- 2020年のサービス障害を振り返る - # cat /var/log/stereocat | tail -n3
- 2018-2019年のサービス障害を振り返る - # cat /var/log/stereocat | tail -n3
- 2016-2017年のサービス障害を振り返る - # cat /var/log/stereocat | tail -n3
- 「なぜ障害事例をまとめているのか」についてはこっちにあります。
- DC/クラウド/通信事業者サービスの障害事例よせあつめ - # cat /var/log/stereocat | tail -n3
- 2010-2016あたりまでのメジャーな障害事例のまとめ
データソースは主にこのへん :
- データセンターの今がわかる - データセンターカフェ の 障害情報
- Publickey - Enterprise IT × Cloud Computing × Web Technology / Blog
- IT総合情報ポータル「ITmedia」 の システム障害
- ニュース | 日経クロステック(xTECH)
毎度の免責になりますが、
- 私の観測範囲で拾えたものというだけなので、あまり網羅性があるものではありません。
- 基本的には通信・サービスプロバイダ・システムインフラ関連のサービス障害について集めています (情報セキュリティ関連の話は含めていません)。
- 障害発生日を付記していますが、海外のものについてはタイムゾーン等を加味していません。参考情報です。
今年どんなことがあったんだろうというのをざっと振り返るくらいで見てください。
2021年の事例
- 2021/01/01, 09, 海底ケーブル2本にトラブル、海外へのインターネットアクセスに影響 [社会] - VIETJOベトナムニュース
- 海底ケーブル切断
- 2021/01/04-05, Slack、1月の大規模障害の原因を説明。「AWS Transit Gateway」がトラフィックの急上昇に対応できず、AWSはアルゴリズムを見直すと - Publickey
- 2021/01/19, ウガンダ共和国、大統領がインターネットとの切断を命令、大統領選投票日の前日に - Publickey
- 2021/01/29, ケーブルをかじる動物が原因と見られるニュージーランドで起きたインターネット障害 | Data Center Café
- 光ファイバ断線
- 2021/02/02, 軍事クーデターでミャンマーのインターネット接続が低下 | Data Center Café
- 2021/02/19-20, AWS東京リージョン障害は5時間で復旧 | Data Center Café
- AWS障害、5時間でほぼ復旧 気象庁Webサイトなどに影響【各サービス復旧状況を追記】 - ITmedia NEWS
- 冷却装置の電源喪失 → 室温上昇 → 一部インスタンスの停止
- 2021/02/25, Federal Reserve interbank payment system suffers outage, disrupting crucial piece of US economy - DCD
- 連邦準備制度の銀行間決済システムが停止し、米国経済の重要部分が混乱 | Data Center Café
- ヒューマンエラー (操作ミス, 詳細非公開)
- 2021/02/27, インド国立証券取引所が停止、通信サービス事業者2社を非難 | Data Center Café
- 上流 SP 2社のリンク障害
- 2021/02/28, みずほ銀、システム障害で謝罪 原因はデータ移行作業や月末処理による過負荷 - ITmedia NEWS
- データ移行で発生したみずほ銀行のシステム障害についてまとめてみた - piyolog
- データ移行時のメモリ容量オーバー (ref. 株式会社みずほ銀行におけるシステム障害に係る対応状況について, 2021/04/05)
- 2021/03/03, みずほのATMでまた障害 3日夜、29台が一時停止 先日の障害とは「別の要因」 - ITmedia NEWS
- NW機器故障 (ref. 株式会社みずほ銀行におけるシステム障害に係る対応状況について, 2021/04/05)
- 2021/03/07, みずほ銀行、またトラブル 定期預金一時預け入れできず: 日本経済新聞
- プログラム不良 (ref. 株式会社みずほ銀行におけるシステム障害に係る対応状況について, 2021/04/05)
- 2021/03/10, フランスのクラウド「OVHcloud」でデータセンター火災、数百万サイトに影響か | 日経クロステック(xTECH)
- 大規模火災によるDC消失
- 2021/03/11, ロシアRostelecomが停止、ルーターのエラーを非難 | Data Center Café
- ルータ誤動作
- 2021/03/12, みずほ銀でシステム障害、外貨送金300件に遅れ-2週間で4度目 - Bloomberg
- 機器故障 (フェイルオーバーせず)
- 2021/03/16, データセンター機器の誤動作でアイオワ州Covid-19ワクチンデータが混乱 | Data Center Café
- ハードウェア故障?
- 2021/03/05, 「楽天モバイルの通話アプリが使えない」 福井のケーブルテレビ局が技術サポートを求め異例の発表 - ITmedia NEWS
- 楽天モバイル、福井ケーブルテレビ・さかいケーブルテレビでの「Rakuten Link」障害が解消 - ケータイ Watch
- NAT機器の「UDPサムチェックの取り扱いに齟齬」
- 2021/03/20, OVHcloudデータセンターで二度目の事故が発生 | Data Center Café
- 3/10 火災によるバッテリー損傷?
- 2021/03-05, ワクチン予約接種関連のシステムトラブルについてまとめてみた - piyolog
- 2021/04/04, 発電機火災事故で米ユタ州のWebNXデータセンターが停止 | Data Center Café
- 停電→バックアップ電源への切り替え→発電機故障による火災→消化のため電源システムの停止
- 2021/04/12, LINEの不具合、原因はメンテナンスの人的ミス 誤って機器をシャットダウン - ITmedia NEWS
- 2021年4月12日に発生した「LINE」アプリ障害について | ニュース | LINE株式会社
- 電源設備メンテナンス中の誤作動により複数の機器が停止
- 2021/04/27, Microsoft Teams was down worldwide for many users for two hours - The Verge
- 詳細不明 (非公開?)
- 2021/04/27, ビーバーがインターネット障害を引き起こしたカナダならではの事件 | Data Center Café
- ケーブル断線
- 2021/05/11, That Salesforce outage: Global DNS downfall started by one engineer trying a quick fix • The Register
- 2021/05/11, T-Mobileデータセンターで障害発生、ポーランドで小包ロッカーが開錠不能に | Data Center Café
- 原因不明
- 2021/05/25, IBM Cloud 、5日間で2度の障害発生 | Data Center Café
- IBM Cloud resets ‘Days Since Last Major Incident’ clock to zero – after just five days • The Register
- 4月以降複数回の Severity-1 障害が発生 (4/3, 20, 26, 5/20, 25)
- 2021/05-06, NTT西日本の工事システム障害で新事実、「汚れた」移行データ6.3万件が停止招く | 日経クロステック(xTECH)
- 2021/06/08, 世界に混乱もたらした米FastlyのCDN障害、原因は新規導入ソフトのバグ | 日経クロステック(xTECH)
- 2021/06/11, Cloudflare、米国で小規模なネットワーク障害が発生 | Data Center Café
- 詳細非公開
- 2021/06/12, AWSのフランクフルトAZ障害、消火システム誤作動により入室遮断、復旧対応が出来ず | Data Center Café
- 消火システムの誤動作、機器の温度上昇による自動停止。
- 2021/06/17, アカマイのDDoS対策サービスが誤ってオーストラリアの銀行他をダウン | Data Center Café
- 設定ミス
- 2021/06/24, 弊社幕張データセンターの障害について | IBM ソリューション ブログ
- 電源故障
- 2021/07/08, 「ウマ娘」「グラブル」などで約5時間のアクセス障害 現在は復旧 原因は「データセンターの設備障害」 - ITmedia NEWS
- データセンタ設備障害
- 2021/07/23, Akamai Edge の障害が多くのサイトやサービスに影響 | Data Center Café
- Akamaiの障害は「DNSのバグ」が原因だった | Data Center Café
- 設定更新がDNSのバグを誘発
- 2021/08/01, Vocusのオーストラリア・シンガポール間ケーブルの断線により、停電とレイテンシが発生 | Data Center Café
- 2021/08/07, Incident Review – Outage From Major European Backbone Carrier Telia Has a Huge Ripple Effect
- 2021/08/13, edpnetのベルギー・データセンターでコアルーターのクラッシュによる障害が発生 | Data Center Café
- NW機器障害
- 2021/08/19-20, みずほ銀行「5度目」のシステム障害、原因はDBサーバーのハード故障 | 日経クロステック(xTECH)
- 2021/08/23, みずほ銀行、ATM130台一時使えず 今年6回目の障害: 日本経済新聞
- 機器故障 (NW不安定)
- 2021/08/23, セブン銀行システム障害で1億円の振込遅延、原因は勘定系の高負荷 | 日経クロステック(xTECH)
- 2021/08/26, Google Cloud、豪メルボルン新リージョンで障害が発生 | Data Center Café
- 電圧変動によるNW機器再起動
- 2021/08/31 - 09/03, ハリケーン・アイダの影響でルイジアナ州全域でAT&TおよびT-Mobileのサービスが停止 ~通信事業者が携帯電話基地局を設置したことでサービス回復 | Data Center Café
- 2021/09/02, AWS東京リージョンで6時間の障害、銀行、証券会社、航空会社にも影響 | Data Center Café
- 2021/09/07, Incident Review - What Was Behind the September 7 Spectrum Outage: A Case of Dr. BGP Hijack or Mr. BGP Mistake?
- BGP経路ハイジャック
- 2021/09/08, みずほ銀で今年7回目の障害、ATM100台利用不能 - 産経ニュース
- みずほ銀行7回目のシステム障害、原因は取引メインのディスク故障 | 日経クロステック(xTECH)
- ハードウェア故障 (ディスク装置故障)
- 2021/09/30, 業務改善命令からわずか8日後、「8度目」障害で不透明さ増すみずほ銀行の当面の課題 | 日経クロステック(xTECH)
- 処理遅延の発生
- サービス障害とはまた別の問題も : みずほ銀行 マネーロンダリング対策など報告書 財務省に提出 | IT・ネット | NHKニュース
- 2021/10/01, Slackで接続障害、「1%未満のユーザー」に影響 DNS関連でトラブル - ITmedia NEWS
- DNS設定ミス
- 2021/10/04, Facebookが10月5日の全面ダウンの詳細を報告。バックボーンの停止がBGP停止となりインターネットから離脱、外部からのアクセスを失いデータセンターに乗り込んで対応 - Publickey
- FacebookのInstagramを含むすべてのサービスに障害 社内でのBGP更新が原因と専門家【復旧済み】 - ITmedia NEWS
- Facebookの障害~何が起こったのか?サイバーセキュリティ専門家たちの見解 | Data Center Café
- バックボーンネットワークの機器に対する誤った設定変更→DNS接続ができなくなったため拠点をインターネット接続から切断
- 2021/10/05, モバイルSuica・モバイルPASMOのシステム障害 午後4時ごろ復旧 | IT・ネット | NHKニュース
- 2021/10/05, 「Outlook」でアクセス障害 「最近の設定変更が原因」 Teamsなど別アプリでも影響か【復旧済み】 - ITmedia NEWS
- 詳細不明 (非公開?)
- 2021/10/11, Facebookがまたも金曜日に障害 | Data Center Café
- 原因非公開
- 2021/10/12, 三井住友銀行の外為システム障害、共通ストレージ装置の部品故障が引き金 | 日経クロステック(xTECH)
- ハードウェア故障 (フェイルオーバーせず)
- 2021/10/14, OVHcloud、グローバルバックボーンに影響を与える障害でダウン | Data Center Café
- NW再構成中のヒューマンエラー
- 2021/10/23, サーバー障害に伴う英国Channel 4の数ヶ月間に渡る字幕提供不可 | Data Center Café
- 消火システムの衝撃波によるハードウェア障害
- 2021/10/10, アナキストがギリシャ政府データセンターを石油爆弾で攻撃「次回は窓や壁を攻撃しない」
- 2021/10/14, NTTドコモで発生した全国規模の通信障害についてまとめてみた - piyolog
- ドコモが通信障害について会見 原因は加入者/位置情報サーバーの輻輳 | ビジネスネットワーク.jp
- 通信障害巡りドコモが説明会、2時間20分にわたり100万人が利用できず | 日経クロステック(xTECH)
- IoT機器の切り戻し・大量の再アクセスによるリソース枯渇
- 2021/10/15, 英国のホスティング企業Easily、データセンターの冷却水漏れによる障害が発生 | Data Center Café
- 冷却システムからの冷却水漏れ
- 2021/10-11, 通信線破損で相次ぎ指名停止、後絶たぬ「確認不足」「思い込み」 | 日経クロステック(xTECH)
- 地下に埋設された通信ケーブルの破損事例
- 2021/11/16, Google Cloudの障害により、Googleサービス、Spotify、エーペックス、Snapchatなどがダウン
- Google Cloud Status Dashboard
- 設定ルールを伝搬させる設定パイプラインのバグ
- 2021/11/19, MUFG信託銀行でシステム障害 ATM、ネットバンキングで一時取引できず - ITmedia NEWS
- 2021/11/20, サーバー障害で数百人のテスラ車ドライバーが車から閉め出される | Data Center Café
- 詳細不明 (非公開?)
- 2021/12/07, AWSのus-east-1障害により世界中のサービスが停止 | Data Center Café
- AWS大規模障害の原因自動化された活動が内部ネットワークで予期せぬ動作を引き起こしたためと発表| DC Cafe
- 自動化されたシステムの予期せぬ動作
- 2021/12/08, インドネシアCyber1火災:警察は12人の目撃者に聞き取り | Data Center Café
- DC火災
- 2021/12/16, Amazon Web Services が一時的にダウン、今月 2 回目の障害発生 | DC Cafe
- 非公開のインターネット接続障害
- 2021/12/22, AWSで一時障害、原因はデータセンターの電力消失 SlackやTrelloにも影響か - ITmedia NEWS
- データセンタ電源障害
- 2021/12/28, スーパーコンピュータシステムのファイル消失のお詫び | お知らせ | 京都大学情報環境機構
- 不用意なプログラムの修正と運用手順のミス (ヒューマンエラー)
- みずほ銀行 他行宛て振り込み 一時できなくなる不具合 | NHKニュース
- みずほ銀行で一時不具合“人為的なミス”(日本テレビ系(NNN)) - Yahoo!ニュース
- システム切替が年末は手動対応になっていて時間を間違えた (ヒューマンエラー)
個人的な所感
印象的なのはみずほ銀行と Facebook かなあ。あとは CDN のトラブルによる「インターネットが落ちた」事象とか。
- みずほ銀行については多数のニュースや解説記事等あるのでそちらを見てもらうとして。機器故障云々の前に運用上のあれこれ、組織編成等にまで及んで多数の課題点があるという話も出ています。
- 正規フローから外れたオペレーションというのは big tech でも起きていて、salesforce (5月) の障害は正規のワークフローではなく緊急用のフローでショートカットしようとしていた、なんて話も出てきていますね。やっぱり近道を通ろうとしてしまう。
- そしてオペミスが起こらないようにガードをかけたりチェックや検証をかけたりしていてもやっぱりミスは起きる。自動化されたオペレーションのバグ、特定の条件で発生するバグはいくつか事例が上がっていますがまあこういうのを完全に洗い出すのは難しい。セーフガードだけではなく、問題を早くキャッチして元に戻す方策も必要。
- 落とし穴になりがちなのがDNSってのはありそうだなあ。上にあげた例だと、Facebook, Salesforce, Akamai, Slack はDNSあるいはDNSが関連した障害を起こしてますね。Salesforce は自社ドメインでのステータス表示すらできなくなっているし、Facebook は復旧に使う運用系のシステムの名前も引けなくなってしまったという話を見た記憶が。システムの大規模化・複雑化に伴って、どこかで「鍵のとじ込み」が発生してしまうケースを見極めきれるんだろうか?
あと気になるのは政治情勢の影響かなあ。ミャンマー、スーダンの話は上に書いた通り。ロシアについても通信規制の話は前から出てますよね。そのほかにも、政治活動等のターゲットとしてデータセンタが狙われるケースなんかもあり。
AWSの接続障害、人々はクラウド依存を実感 - WSJ って話もあって、生活の中にこういうITシステムとそのサービスが溶け込んでいくんでしょう。同時に、それらが攻撃面として選択されていくし、予想外のところで影響が起きることも増えていくんだろうなあ。
そしてこうしてまとめてみると、「観測される範囲」に入ってくるものはやっぱりエンドユーザ = “目” の数が多いサービスなんだよなあ、と思いますね。直接にせよ間接にせよ。そういう意味ではここに出てきているニュースは偏っていると思われます。……なぜこんな話出したかというと、過去記事眺めてると某サービスもちょいちょい障害起こしてるみたいなんだけど、私の観測範囲だとほとんど聞こえてきてなかったんですよ。サービスプロバイダとしては深刻な障害を起こしても何も非難されない方が恐怖なのではと思ったり……。