2021-12-29

2021年のサービス障害を振り返る

memo

今年も年1回のブログ更新の時期がやってまいりました。

[2021-12-31] 年末に起きたニュースを追記

過去分 :

2020年のサービス障害を振り返る - # cat /var/log/stereocat | tail -n3
2018-2019年のサービス障害を振り返る - # cat /var/log/stereocat | tail -n3
2016-2017年のサービス障害を振り返る - # cat /var/log/stereocat | tail -n3
- 「なぜ障害事例をまとめているのか」についてはこっちにあります。
DC/クラウド/通信事業者サービスの障害事例よせあつめ - # cat /var/log/stereocat | tail -n3
- 2010-2016あたりまでのメジャーな障害事例のまとめ

データソースは主にこのへん :

毎度の免責になりますが、

私の観測範囲で拾えたものというだけなので、あまり網羅性があるものではありません。
基本的には通信・サービスプロバイダ・システムインフラ関連のサービス障害について集めています (情報セキュリティ関連の話は含めていません)。
障害発生日を付記していますが、海外のものについてはタイムゾーン等を加味していません。参考情報です。

今年どんなことがあったんだろうというのをざっと振り返るくらいで見てください。

2021年の事例

2021/01/01, 09, 海底ケーブル2本にトラブル、海外へのインターネットアクセスに影響 [社会] - VIETJOベトナムニュース
- 海底ケーブル切断
2021/01/04-05, Slack、1月の大規模障害の原因を説明。「AWS Transit Gateway」がトラフィックの急上昇に対応できず、AWSはアルゴリズムを見直すと－ Publickey
- AWS Transit Gatewayの飽和
2021/01/19, ウガンダ共和国、大統領がインターネットとの切断を命令、大統領選投票日の前日に－ Publickey
2021/01/29, ケーブルをかじる動物が原因と見られるニュージーランドで起きたインターネット障害 | Data Center Café
- 光ファイバ断線
2021/02/02, 軍事クーデターでミャンマーのインターネット接続が低下 | Data Center Café
2021/02/19-20, AWS東京リージョン障害は5時間で復旧 | Data Center Café
- AWS障害、5時間でほぼ復旧　気象庁Webサイトなどに影響【各サービス復旧状況を追記】 - ITmedia NEWS
- 冷却装置の電源喪失 → 室温上昇 → 一部インスタンスの停止
2021/02/25, Federal Reserve interbank payment system suffers outage, disrupting crucial piece of US economy - DCD
- 連邦準備制度の銀行間決済システムが停止し、米国経済の重要部分が混乱 | Data Center Café
- ヒューマンエラー (操作ミス, 詳細非公開)
2021/02/27, インド国立証券取引所が停止、通信サービス事業者2社を非難 | Data Center Café
- 上流 SP 2社のリンク障害
2021/02/28, みずほ銀、システム障害で謝罪　原因はデータ移行作業や月末処理による過負荷 - ITmedia NEWS
- データ移行で発生したみずほ銀行のシステム障害についてまとめてみた - piyolog
- データ移行時のメモリ容量オーバー (ref. 株式会社みずほ銀行におけるシステム障害に係る対応状況について, 2021/04/05)
2021/03/03, みずほのATMでまた障害　3日夜、29台が一時停止　先日の障害とは「別の要因」 - ITmedia NEWS
- NW機器故障 (ref. 株式会社みずほ銀行におけるシステム障害に係る対応状況について, 2021/04/05)
2021/03/07, みずほ銀行、またトラブル　定期預金一時預け入れできず: 日本経済新聞
- プログラム不良 (ref. 株式会社みずほ銀行におけるシステム障害に係る対応状況について, 2021/04/05)
2021/03/10, フランスのクラウド「OVHcloud」でデータセンター火災、数百万サイトに影響か | 日経クロステック（xTECH）
- 大規模火災によるDC消失
2021/03/11, ロシアRostelecomが停止、ルーターのエラーを非難 | Data Center Café
- ルータ誤動作
2021/03/12, みずほ銀でシステム障害、外貨送金300件に遅れ－２週間で４度目 - Bloomberg
- 機器故障 (フェイルオーバーせず)
2021/03/16, データセンター機器の誤動作でアイオワ州Covid-19ワクチンデータが混乱 | Data Center Café
- ハードウェア故障?
2021/03/05, 「楽天モバイルの通話アプリが使えない」　福井のケーブルテレビ局が技術サポートを求め異例の発表 - ITmedia NEWS
- 楽天モバイル、福井ケーブルテレビ・さかいケーブルテレビでの「Rakuten Link」障害が解消 - ケータイ Watch
- NAT機器の「UDPサムチェックの取り扱いに齟齬」
2021/03/20, OVHcloudデータセンターで二度目の事故が発生 | Data Center Café
- 3/10 火災によるバッテリー損傷?
2021/03-05, ワクチン予約接種関連のシステムトラブルについてまとめてみた - piyolog
2021/04/04, 発電機火災事故で米ユタ州のWebNXデータセンターが停止 | Data Center Café
- 停電→バックアップ電源への切り替え→発電機故障による火災→消化のため電源システムの停止
2021/04/12, LINEの不具合、原因はメンテナンスの人的ミス　誤って機器をシャットダウン - ITmedia NEWS
- 2021年4月12日に発生した「LINE」アプリ障害について | ニュース | LINE株式会社
- 電源設備メンテナンス中の誤作動により複数の機器が停止
2021/04/27, Microsoft Teams was down worldwide for many users for two hours - The Verge
- 詳細不明 (非公開?)
2021/04/27, ビーバーがインターネット障害を引き起こしたカナダならではの事件 | Data Center Café
- ケーブル断線
2021/05/11, That Salesforce outage: Global DNS downfall started by one engineer trying a quick fix • The Register
- Multi-Instance Service Disruption on May 11-12, 2021
- DNS設定展開スクリプトのバグ
2021/05/11, T-Mobileデータセンターで障害発生、ポーランドで小包ロッカーが開錠不能に | Data Center Café
- 原因不明
2021/05/25, IBM Cloud 、5日間で2度の障害発生 | Data Center Café
- IBM Cloud resets ‘Days Since Last Major Incident’ clock to zero – after just five days • The Register
- 4月以降複数回の Severity-1 障害が発生 (4/3, 20, 26, 5/20, 25)
2021/05-06, NTT西日本の工事システム障害で新事実、「汚れた」移行データ6.3万件が停止招く | 日経クロステック（xTECH）
2021/06/08, 世界に混乱もたらした米FastlyのCDN障害、原因は新規導入ソフトのバグ | 日経クロステック（xTECH）
- Fastly、グローバル大規模障害は顧客が引き起こしたソフトウェアバグが原因と発表、株価は急上昇 | Data Center Café
- 2021 年 6 月 8 日に発生した障害について | Fastly
- fastlyのCDNで発生したシステム障害についてまとめてみた - piyolog
- ソフトウェアのバグ
2021/06/11, Cloudflare、米国で小規模なネットワーク障害が発生 | Data Center Café
- 詳細非公開
2021/06/12, AWSのフランクフルトAZ障害、消火システム誤作動により入室遮断、復旧対応が出来ず | Data Center Café
- 消火システムの誤動作、機器の温度上昇による自動停止。
2021/06/17, アカマイのDDoS対策サービスが誤ってオーストラリアの銀行他をダウン | Data Center Café
- 設定ミス
2021/06/24, 弊社幕張データセンターの障害について | IBM ソリューションブログ
- 電源故障
2021/07/08, 「ウマ娘」「グラブル」などで約5時間のアクセス障害　現在は復旧　原因は「データセンターの設備障害」 - ITmedia NEWS
- データセンタ設備障害
2021/07/23, Akamai Edge の障害が多くのサイトやサービスに影響 | Data Center Café
- Akamaiの障害は「DNSのバグ」が原因だった | Data Center Café
- 設定更新がDNSのバグを誘発
2021/08/01, Vocusのオーストラリア・シンガポール間ケーブルの断線により、停電とレイテンシが発生 | Data Center Café
- オーストラリア－シンガポール間のケーブル修理完了、オペレーション再開～13日の金曜日はVocusにはラッキーデーに | Data Center Café
- 海底ケーブル切断
2021/08/07, Incident Review – Outage From Major European Backbone Carrier Telia Has a Huge Ripple Effect
2021/08/13, edpnetのベルギー・データセンターでコアルーターのクラッシュによる障害が発生 | Data Center Café
- NW機器障害
2021/08/19-20, みずほ銀行「5度目」のシステム障害、原因はDBサーバーのハード故障 | 日経クロステック（xTECH）
- みずほ銀行窓口業務ストップの真相、DC切り替えをためらい障害が長期化 | 日経クロステック（xTECH）
- データセンターを切り替えずとも復旧できた、みずほ銀行が「5度目」障害で見解 | 日経クロステック（xTECH）
- みずほ幹部「システム使いこなせず」　機器の故障頻発: 日本経済新聞
- DBサーバの機器故障
2021/08/23, みずほ銀行、ATM130台一時使えず　今年6回目の障害: 日本経済新聞
- 機器故障 (NW不安定)
2021/08/23, セブン銀行システム障害で1億円の振込遅延、原因は勘定系の高負荷 | 日経クロステック（xTECH）
- https://www.sevenbank.co.jp/corp/news/2021/pdf/2021082401.pdf
- サーバ高負荷
2021/08/26, Google Cloud、豪メルボルン新リージョンで障害が発生 | Data Center Café
- 電圧変動によるNW機器再起動
2021/08/31 - 09/03, ハリケーン・アイダの影響でルイジアナ州全域でAT&TおよびT-Mobileのサービスが停止 ~通信事業者が携帯電話基地局を設置したことでサービス回復 | Data Center Café
- ニューオリンズ市役所のデータセンターで火災。ハリケーン・アイダの影響下の市政府機関のサイトが停止~最悪のタイミングで停電が発生 | Data Center Café
- 通信網の破損等
2021/09/02, AWS東京リージョンで6時間の障害、銀行、証券会社、航空会社にも影響 | Data Center Café
- Summary of AWS Direct Connect Event in the Tokyo (AP-NORTHEAST-1) Region
- NW機器障害
2021/09/07, Incident Review - What Was Behind the September 7 Spectrum Outage: A Case of Dr. BGP Hijack or Mr. BGP Mistake?
- BGP経路ハイジャック
2021/09/08, みずほ銀で今年７回目の障害、ＡＴＭ１００台利用不能 - 産経ニュース
- みずほ銀行7回目のシステム障害、原因は取引メインのディスク故障 | 日経クロステック（xTECH）
- ハードウェア故障 (ディスク装置故障)
2021/09/30, 業務改善命令からわずか8日後、「8度目」障害で不透明さ増すみずほ銀行の当面の課題 | 日経クロステック（xTECH）
- 処理遅延の発生
- サービス障害とはまた別の問題も : みずほ銀行マネーロンダリング対策など報告書財務省に提出 | IT・ネット | NHKニュース
2021/10/01, Slackで接続障害、「1％未満のユーザー」に影響　DNS関連でトラブル - ITmedia NEWS
- DNS設定ミス
2021/10/04, Facebookが10月5日の全面ダウンの詳細を報告。バックボーンの停止がBGP停止となりインターネットから離脱、外部からのアクセスを失いデータセンターに乗り込んで対応－ Publickey
- FacebookのInstagramを含むすべてのサービスに障害　社内でのBGP更新が原因と専門家【復旧済み】 - ITmedia NEWS
- Facebookの障害~何が起こったのか？サイバーセキュリティ専門家たちの見解 | Data Center Café
- バックボーンネットワークの機器に対する誤った設定変更→DNS接続ができなくなったため拠点をインターネット接続から切断
2021/10/05, モバイルSuica・モバイルPASMOのシステム障害午後4時ごろ復旧 | IT・ネット | NHKニュース
- “iPhone用のOS『iOS』のネットワーク障害”
2021/10/05, 「Outlook」でアクセス障害　「最近の設定変更が原因」　Teamsなど別アプリでも影響か【復旧済み】 - ITmedia NEWS
- 詳細不明 (非公開?)
2021/10/11, Facebookがまたも金曜日に障害 | Data Center Café
- 原因非公開
2021/10/12, 三井住友銀行の外為システム障害、共通ストレージ装置の部品故障が引き金 | 日経クロステック（xTECH）
- ハードウェア故障 (フェイルオーバーせず)
2021/10/14, OVHcloud、グローバルバックボーンに影響を与える障害でダウン | Data Center Café
- NW再構成中のヒューマンエラー
2021/10/23, サーバー障害に伴う英国Channel 4の数ヶ月間に渡る字幕提供不可 | Data Center Café
- 消火システムの衝撃波によるハードウェア障害
2021/10/10, アナキストがギリシャ政府データセンターを石油爆弾で攻撃「次回は窓や壁を攻撃しない」
2021/10/14, NTTドコモで発生した全国規模の通信障害についてまとめてみた - piyolog
- ドコモが通信障害について会見　原因は加入者／位置情報サーバーの輻輳 | ビジネスネットワーク.jp
- 通信障害巡りドコモが説明会、2時間20分にわたり100万人が利用できず | 日経クロステック（xTECH）
- IoT機器の切り戻し・大量の再アクセスによるリソース枯渇
2021/10/15, 英国のホスティング企業Easily、データセンターの冷却水漏れによる障害が発生 | Data Center Café
- 冷却システムからの冷却水漏れ
2021/10-11, 通信線破損で相次ぎ指名停止、後絶たぬ「確認不足」「思い込み」 | 日経クロステック（xTECH）
- 地下に埋設された通信ケーブルの破損事例
2021/11/16, Google Cloudの障害により、Googleサービス、Spotify、エーペックス、Snapchatなどがダウン
- Google Cloud Status Dashboard
- 設定ルールを伝搬させる設定パイプラインのバグ
2021/11/19, MUFG信託銀行でシステム障害　ATM、ネットバンキングで一時取引できず - ITmedia NEWS
- MUFG信託銀の障害　原因は「修正プログラムの不備」　巻き戻しで解消 - ITmedia NEWS
- 修正プログラムの不備
2021/11/20, サーバー障害で数百人のテスラ車ドライバーが車から閉め出される | Data Center Café
- 詳細不明 (非公開?)
2021/12/07, AWSのus-east-1障害により世界中のサービスが停止 | Data Center Café
- AWS大規模障害の原因自動化された活動が内部ネットワークで予期せぬ動作を引き起こしたためと発表| DC Cafe
- 自動化されたシステムの予期せぬ動作
2021/12/08, インドネシアCyber1火災：警察は12人の目撃者に聞き取り | Data Center Café
- DC火災
2021/12/16, Amazon Web Services が一時的にダウン、今月 2 回目の障害発生 | DC Cafe
- 非公開のインターネット接続障害
2021/12/22, AWSで一時障害、原因はデータセンターの電力消失　SlackやTrelloにも影響か - ITmedia NEWS
- データセンタ電源障害
2021/12/28, スーパーコンピュータシステムのファイル消失のお詫び | お知らせ | 京都大学情報環境機構
- 不用意なプログラムの修正と運用手順のミス (ヒューマンエラー)
みずほ銀行他行宛て振り込み一時できなくなる不具合 | NHKニュース
- みずほ銀行で一時不具合“人為的なミス”（日本テレビ系（NNN）） - Yahoo!ニュース
- システム切替が年末は手動対応になっていて時間を間違えた (ヒューマンエラー)

個人的な所感

印象的なのはみずほ銀行と Facebook かなあ。あとは CDN のトラブルによる「インターネットが落ちた」事象とか。

みずほ銀行については多数のニュースや解説記事等あるのでそちらを見てもらうとして。機器故障云々の前に運用上のあれこれ、組織編成等にまで及んで多数の課題点があるという話も出ています。
正規フローから外れたオペレーションというのは big tech でも起きていて、salesforce (5月) の障害は正規のワークフローではなく緊急用のフローでショートカットしようとしていた、なんて話も出てきていますね。やっぱり近道を通ろうとしてしまう。
そしてオペミスが起こらないようにガードをかけたりチェックや検証をかけたりしていてもやっぱりミスは起きる。自動化されたオペレーションのバグ、特定の条件で発生するバグはいくつか事例が上がっていますがまあこういうのを完全に洗い出すのは難しい。セーフガードだけではなく、問題を早くキャッチして元に戻す方策も必要。
落とし穴になりがちなのがDNSってのはありそうだなあ。上にあげた例だと、Facebook, Salesforce, Akamai, Slack はDNSあるいはDNSが関連した障害を起こしてますね。Salesforce は自社ドメインでのステータス表示すらできなくなっているし、Facebook は復旧に使う運用系のシステムの名前も引けなくなってしまったという話を見た記憶が。システムの大規模化・複雑化に伴って、どこかで「鍵のとじ込み」が発生してしまうケースを見極めきれるんだろうか?

あと気になるのは政治情勢の影響かなあ。ミャンマー、スーダンの話は上に書いた通り。ロシアについても通信規制の話は前から出てますよね。そのほかにも、政治活動等のターゲットとしてデータセンタが狙われるケースなんかもあり。

AWSの接続障害、人々はクラウド依存を実感 - WSJ って話もあって、生活の中にこういうITシステムとそのサービスが溶け込んでいくんでしょう。同時に、それらが攻撃面として選択されていくし、予想外のところで影響が起きることも増えていくんだろうなあ。

そしてこうしてまとめてみると、「観測される範囲」に入ってくるものはやっぱりエンドユーザ = “目” の数が多いサービスなんだよなあ、と思いますね。直接にせよ間接にせよ。そういう意味ではここに出てきているニュースは偏っていると思われます。……なぜこんな話出したかというと、過去記事眺めてると某サービスもちょいちょい障害起こしてるみたいなんだけど、私の観測範囲だとほとんど聞こえてきてなかったんですよ。サービスプロバイダとしては深刻な障害を起こしても何も非難されない方が恐怖なのではと思ったり……。

2020-12-29

2020年のサービス障害を振り返る

memo

2020年も終わりですね。もうこのネタでしかはてなに書いていないものだから、この時期を逃すと次は2021年度末になってしまう。2年分まとめるのはしんどい…というのを昨年は後悔したので今年のぶんは今年のうちにまとめておきます。2020年のサービス障害の振り返りです。基本的には通信・サービスプロバイダ・システムインフラ関連のサービス障害について集めています。

過去分 :

2018-2019年のサービス障害を振り返る - # cat /var/log/stereocat | tail -n3
2016-2017年のサービス障害を振り返る - # cat /var/log/stereocat | tail -n3
- 「なぜ障害事例をまとめているのか」についてはこっちにあります。
DC/クラウド/通信事業者サービスの障害事例よせあつめ - # cat /var/log/stereocat | tail -n3
- 2010-2016あたりまでのメジャーな障害事例のまとめ

データソースは主にこのへん :

毎度の免責になりますが、私の観測範囲に基づいているものなのであまり正確ではないかもしれません。また、世の中のすべての事象を網羅的に調査しているようなものではありません。今年こういうことがあったね、くらいの参考にしてください。障害発生日時を付記しておきますが、海外のものについてはタイムゾーンとかを加味したものではないので目安程度です。

2020年の事例

2020/01/16, 海底ケーブルの障害がアフリカ各国のインターネットに影響 | DataCenter Cafe
- 海底ケーブル故障
2020/02/03, マイクロソフトのクラウドサービス「Microsoft Teams」がサーバ証明書を更新し忘れ。2時間のあいだユーザーからアクセスできなくなる障害発生－ Publickey
- 認証システムのサーバ証明書更新忘れ
2020/02/10, JRでシステム障害　みどりの窓口や券売機でクレカ使えず　現在は復旧済み - ITmedia NEWS
- データベース障害
2020/02/12, 「PayPay」などのスマホ決済で同時に障害発生　原因は日本ユニシス系ゲートウェイの不具合 - ITmedia NEWS
- 「コード決済ゲートウェイサービスの障害」
2020/02/17, 楽天モバイルで再び通信障害　約2時間で復旧、原因は調査中 - ITmedia NEWS
- 詳細未公開
2020/02/23, 電源故障で電力供給が4分間停止、日本IBMのデータセンター障害 | 日経クロステック（xTECH）
- 電源装置故障
- その後
  - 2/27 : 住信SBIネット銀が別拠点で勘定系を代替運用、日本IBMのDC障害で | 日経クロステック（xTECH）
2020/03/09, 住信SBIネット銀、一時サイト開けず: 日本経済新聞
- 詳細未公開, 「ネットワークが原因である可能性が高いとみて、確認を進めている」
2020/03/09, 楽天証券でログインできない障害発生　復旧済み、原因は調査中 - ITmedia NEWS
- 詳細不明。「楽天証券は、同社で主回線として使っているKDDIの回線が何らかの理由でダウンしたとしており、副回線に切り替えて復旧したという。一方、KDDIは「KDDIの設備側では異常が確認できなかった」としており、両社は原因究明を続けている。」
2020/03/15, 電源障害で米中西部のAzureリージョンが停止 | DataCenter Cafe
- 電源障害
2020/03/17, Googleでキャスターが潰れラックが過熱 | DataCenter Cafe
- サーバラックのキャスターが破損 → 液体冷却材の流れが混乱 → ラックが過熱
- サービス障害にまではつながっていないようです
2020/03/17, 米ダラスのIBM Cloudが小規模な停止 | DataCenter Cafe
- 詳細未公開
2020/03/19, 「どんなときもWiFi」通信障害の復旧は4月上旬ごろ　料金「希望者に日割りで免除」の対応に批判も - ねとらぼ
- 通信障害、「一部のキャリアからのSIMカードの提供ストップや、新型コロナウイルスの混乱によりSIMカードを動かすための設備の製造や発送が停止・遅延しているため」
- その後、4月に新規受付停止、6月に総務省指導、10/31にサービス終了
  - 総務省がグッド・ラックに行政指導　「どんなときもWiFi」について - ITmedia Mobile
  - 「どんなときもWiFi」は何が問題だったのか？　サポートの側面から考える (1/2) - ITmedia Mobile
2020/03/26, Google Cloudの主要サービスが10時間ものあいだ障害発生。原因は分散アクセスコントロールへの大量の変更要求が引き起こしたメモリ不足－ Publickey
- 「IAMへの大量の変更要求によるバックログがキャッシュサーバのバグを呼び、メモリ不足を誘発」
2020/03/30, Google Cloud、先週に続き、再び断続的な障害が発生 | DataCenter Cafe
- 「今回の障害はサードパーティ製ルータのソフトウェアのバグであり、それが複数のルータに影響を及ぼし、同時にすべてがクラッシュしてしまった」
2020/03/30, フランスのOVHcloudで短時間のネットワーク障害が発生 | DataCenter Cafe
- ネットワーク機器障害
2020/04/08, Google Cloudが再びダウン、今度はGmail他に影響 | DataCenter Cafe
- Google Cloud Infrastructure Components Incident #20005
- 認証系(IAM)システムでほとんど実行されていない構成変更の実施 → カナリアシステムの潜在的な問題により構成変更が急速にグローバルに伝播
2020/04/13, JTBなど400社が使うTISのリモートアクセスサービスが全面停止、復旧は6月以降 | 日経クロステック（xTECH）
- RemoteWorksのシステム障害をまとめてみた - piyolog
- 「利用者数の急増に伴い不具合」→ 「ログイン画面に第三者のユーザーIDとみられる情報が含まれるエラーメッセージが表示されたという報告を利用者から受けた」
- その後
  - TISがサービスを長期停止、原因は別企業のユーザーIDが表示される不具合だった | 日経クロステック（xTECH）
  - 6/18 : TISのリモートアクセスが提供終了、セキュリティー上の問題解消できず | 日経クロステック（xTECH）
2020/04/15, パッチ盤からケーブルを引っこ抜いてしまいCloudflareに障害発生。ケーブルにラベリングされておらずどれを戻すべきかすぐに分からず－ Publickey
- Cloudflare Dashboard and API Outage on April 15, 2020
- ケーブル誤抜去
- ケーブルラベルもなかった、というので話題に…
2020/04/20, AWS東京リージョンで発生した障害について(4.20) | DataCenter Cafe
- AWS東京リージョンで4月20日夜に大規模障害か、複数のオンラインサービスに影響 | 日経クロステック（xTECH）
- 詳細未公開
2020/05/18, Microsoft Azureのインドリージョンが長時間停止 | DataCenter Cafe
- 送電網の故障 → 自家発電機による給電 → 一部の空調ユニットで異常 → 室内温度上昇 → システム保護のため自動化システムによるシステム停止
2020/05/28, Adobeのクラウドサービスが大規模停止、Photoshopなど利用不可 | DataCenter Cafe
- 詳細未公開
2020/05/22, どのように牛がGoogleネットワークの小規模な停止を引き起こしたか？ | DataCenter Cafe
- 架空光ファイバが地面に落ちる → 牛が踏む → 障害
2020/05/31, 日本電子計算の自治体クラウドで障害、アップデート中に「想定外の事象が発生」 | 日経クロステック（xTECH）
- ストレージ製品のコントローラファームウェアアップデート中のトラブル
2020/06/04, NTTビズリンクのデータセンターで電源設備故障が発生、その影響で13自治体のWebサイトの名前解決ができなくなるなどのトラブル | スラド IT
- データセンターの電源故障の影響で起きた自治体サイト接続障害についてまとめてみた - piyolog
- UPS故障 (ショート) による停電
2020/06/10, 2020年6月10日に発生しましたIBM Cloudのネットワーク障害に関するご報告 | IBM ソリューションブログ
- IBM Cloudが数時間にわたる世界規模の停止 | DataCenter Cafe
- 外部(第三者) ISP による不正経路広告
2020/06/14, データセンターの電源工事作業不備によりSMBC日興証券でシステム障害、売買注文の予約などできず | スラド IT
- DC電源工事作業不備による電源ダウン
2020/06/15, T-Mobileの米国内通信がダウンし、VerizonやAT＆T等に影響 | DataCenter Cafe
- T-Mobile、大規模障害原因は光ファイバ回線障害と「トラフィックストーム」 | DataCenter Cafe
2020/06/19, 英国でボーダフォンが停止、原因は「技術的な欠陥」 | DataCenter Cafe
- 詳細未公開
2020/06/24, IBM Cloudでエラーと停止がまたもや発生 | DataCenter Cafe
- 詳細未公開
2020/06/30, 正規番号でファックス誤送信が起きたNTT西の電話サービス故障についてまとめてみた - piyolog
- 工場で局内装置に誤ったデータを設定
2020/07/01, (ドイツの証券取引所の障害) Deutsche Boerse Snag Halts Trading Across Central Europe
- サードパーティー製ソフトウェアの不具合
- 4月にも障害が起きている
2020/07/01, 停電によりGoogle Cloudネットワーキングと永続ディスクに障害発生 | DataCenter Cafe
- 停電
2020/07/17, CloudflareのDNSが停止し多数のサービスに影響 | DataCenter Cafe
- Cloudflare outage on July 17, 2020
- ルータの設定ミス (トラフィック迂回のためのBGP経路広告設定ミス)
2020/08/07, キヤノンの写真クラウドで一部データ消失、ソフトの誤動作が原因 - ITmedia NEWS
- 「ソフトウェアの誤動作」
2020/08/18, エクイニクスLD8データセンターで大規模障害が発生 | DataCenter Cafe
- UPS障害によるシステム故障
- 「Equinix LD8での弊社2ラックのうちの1ラックでA・B系双方の電源を失った」
2020/08/19, Spotifyが全世界で1時間以上停止 | DataCenter Cafe
- 証明書更新忘れ
2020/08/20, Google Cloud、Gmail、ドライブなどのサービスに障害発生 | DataCenter Cafe
- Googleサービスでの8月20日の大規模障害について、Googleが原因と対策を説明 - ITmedia NEWS
- 非構造化データに共通の内部分散システムでの過負荷
2020/08/28, UPS故障によりTelstraロンドンデータセンターで火災が発生 | DataCenter Cafe
- UPS故障による火災
2020/08/30, CenturyLinkのIP障害によりCloudflareサーバがダウン | DataCenter Cafe
- August 30th 2020: Analysis of CenturyLink/Level(3) Outage
- 不適切な BGP Flowspec 設定による BGP Update の急増 → 負荷上昇、配下の顧客の多くがシングルホーム接続だったために問題が長時間に
2020/09/14, MS Azure UK Southリージョンが冷却障害により停止 | DataCenter Cafe
- 冷却ポンプの停止 → 室温上昇 → システム保護のためシャットダウン
2020/09/15, 与那国島のドコモ通信障害、携帯電話サービスは復旧 - ケータイ Watch
- 伝送路設備の故障
2020/09/25, Googleのサービスが軒並みダウン？　日本以外でも（UPDATE:9月25日午前11時ごろ、ほぼ復旧） - ITmedia NEWS
- Googleサービスが米国で30分停止 | DataCenter Cafe
- Google Cloud Infrastructure Components Incident #20010
- 内部サービスの変更にエラーがありサービスフロントエンドでメモリ不足が発生
2020/09/28, マイクロソフト、複数のサービスで発生した認証エラーの原因や対策を報告 - ZDNet Japan
- Microsoft 365の大規模障害、原因は未検証アップデートがデプロイシステムのバグにより通常のプロセスをバイパスして本番環境へ直接デプロイされたこと－ Publickey
- Microsoft障害、Azure、Office365、Teamsなど停止 | DataCenter Cafe
- 検証用領域でサービスアップデートをデプロイ → Azure ADバックエンドがクラッシュ → デプロイメントプロセスのコードのバグが顕在化 → 未検証アップデートが本番へ
2020/09/30, Appleのネットサービスで大規模な接続障害が発生【復旧済み】 - ITmedia NEWS
- 詳細未公開
2020/10/01, 2020年10月に発生した東京証券取引所のシステム障害についてまとめてみた - piyolog
- 東証、障害の原因を特定　設定値に不備、切り替え失敗 - ITmedia ビジネスオンライン
- 東京証券取引所様の株式売買システム「arrowhead」で発生した障害の原因と対策について : 富士通
- 自動バックアップ、5年間オフのまま　東証システム障害、富士通のマニュアルに不備 - ITmedia NEWS
- ストレージ設定値不備 → OEM製品のマニュアル不備
- その後
  - システム障害に係る「再発防止策検討協議会」 | 日本取引所グループ
2020/10/02, Unisysデータセンター障害で米ペンシルベニア州サイトがダウン | DataCenter Cafe
- DC内機器故障
2020/10/04, ドコモの顧客システムに障害　店頭、Webや電話での手続きが不能に【回復済み】 - ITmedia Mobile
- 4日にドコモの顧客管理システムに障害が発生、14時50分に解消されるまで手続き不能に | スラド IT
- 「顧客システムの機器故障」
2020/10/09, (メキシコの証券取引所の障害) Mexico's main stock exchange opens after temporary trading suspension | Reuters
- Gulftimes : Outages halting trades span globe in hostile month for bourses
- メインサーバに障害 (詳細不明)
2020/10/12, 米コネチカット州で光ファイバ損傷によるデータセンター通信障害が発生 | DataCenter Cafe
- DCに接続されている6本の光ケーブルが落下したトランスにより切断
2020/10/12, 光ケーブルの切断事故で米バージニア州の有権者登録システムが停止 | DataCenter Cafe
- 建設作業員が誤って地下の光ファイバを切断
2020/10/15, CNN.co.jp : ツイッターで大規模障害、「不注意な変更」が原因
- Twitter outage due to API irregularities | ZDNet
- 内部システムに対する不注意な変更
2020/10/19, 欧州取引所でも19日にシステム障害。3時間ほど売買停止へ | スラド IT
- Euronext Stock Trading Resumes After Three-Hour Outage - Bloomberg
- ソフトウェアの不具合, 「ミドルウエアのシステムに技術的な問題が発生したため」
2020/10/22, AWS東京リージョンで発生した通信障害について(2020.10.22) | DataCenter Cafe
- AWSで1時間強にわたり障害、PayPayや一部アプリが一時利用できず | 日経クロステック（xTECH）
- 「ネットワーク接続性の問題」
2020/11/01, 福井県産業情報ネットワーク「ふくいナビ」の障害発生について | 公益財団法人ふくい産業支援センター
- サーバ管理会社のクラウド契約に関するトラブル (手続きミス)
- 当初バックアップ等もなしという情報だったが、その後バックアップがみつかり10月頭時点の状態への復旧が可能になったとのこと > 福井県の企業支援サイトが消失、バックアップが残っていた意外な場所 | 日経クロステック（xTECH）
2020/11/02, A Byzantine failure in the real world
- ネットワーク機器の部分的な障害によって発生した etcd のビザンチン将軍問題による障害
2020/11/07, Global Switchの防火システム誤作動によりサーバが停止 | DataCenter Cafe
- 某かシステム誤作動 → 消火システム動作 → サーバ損害
2020/11/24, 楽天ペイで障害　サービスが一時停止中【追記あり】 - ITmedia NEWS
- 「社内システムのトラブル」
2020/11/25, AWSが11月の大規模障害について説明 - ZDNet Japan
- 「Kinesisのフロントエンドフリートに属する全てのサーバーで、スレッド数が現在のOSの設定で許容されている最大値を超過」
2020/11/30, みずほ銀行の法人向けサービスでシステム障害、月末で困惑の声相次ぐ | 日経クロステック（xTECH）
- 詳細未公開
2020/12/07, ネット証券3社でシステム障害、最大1時間取引できず　原因は米国の取次先システム - ITmedia NEWS
- 外部サービスの障害による影響
2020/12/11, NetGainがランサムウェア攻撃を受けデータセンターが停止 | DataCenter Cafe
- MSPがランサムウェア攻撃を受ける → 被害にあったシステムの再構築のためDCシャットダウンの実施 (DC事業者ドメインコントローラ再構築)
- セキュリティ系事案ははずす…といいつつも、これは事業者が攻撃を受けた結果、DC単位のサービスを停止させなければいけなかった事例としてピックアップしました。上の記事中にほかの事例についても言及があります。
2020/12/24, Googleの45分間ダウンの原因は認証ツールのストレージクォータの問題 - ITmedia NEWS
- グーグル、大規模障害の詳しい経緯を公表--システム移行時のミスが原因 - ZDNet Japan
- ID管理システムのストレージのクォータ自動管理システムに不備。自動的にストレージ容量を増やすツールが正常に動作せず、ログインが必要なサービスが利用できない → 10月におこなった新しいクォータシステムへの移行作業時に以前のシステムの一部が残っていたため

個人的な所感

2020年はもうコロナの話題から逃れられないですね。Zoomの急成長やサービス障害など、コロナによるリモートのシフトやそれに伴うサービス障害などいろいろ。サービスの不具合から復旧できずに終了してしまうサービスなんかもありましたしね……。マクロに見た時の変化傾向なんかは Janog なんかで出てきてるはずだし今後も出てくるでしょう。

何かしらのサービスが止まって「もう今日仕事にならねぇな」というのはまあ前からありましたが、コロナによるリモートと Teams などオフィス系オペレーションのクラウド依存が広がるにつれて、その幅が広がって来たなあという気がしますね。Slack がとまったので Teams でとか、あるいはその逆とか。そして今年目についたのは、会社や仕事に関係してじゃなくて、日常生活のなかでのクラウド依存問題でしょうか。

こういうのを見るとIoT的なものが普段の生活の中に入ってきてるんだなあと思いますね。サービスに乗るのは利便性という点ではいいけど、障害が起きた時にどうなるか・ダイレクトに操作できるパスがあるかどうか、というのは考えておかないといけなさそうです。

あと気になったのは、インシデントレスポンスに対する反応かな。

イマドキ、あるサービスがそれ単体で完結していることはまずなくて、外部のベンダーやら他社サービスやらにも依存していたりするわけです。そういうところとどう関係を作るか・それらの障害をどのように受け止めて直接の顧客に相対するか、というのも重要だよな……というのがいろいろと。まあ今に始まったことではないんですが。「止まっちゃってるけどウチのせいじゃないよ」って言いたいのはわかる。でも「そりゃたしかに直接の原因はあなたのせいじゃないんだろうど、そこと付き合うと決めたのはあなたでしょうに」というのをどう考えるか。直接の顧客に対してというのがまずあるのはわかる。でも、それはいま一緒にやっている人たちから見てどう見えるかとか、その外から将来顧客になりうる人・ステークホルダーになりうる人からどう見えるかとかね……。

最後に。ちいさなミスによる障害もやっぱりなくならないですね。本番前の検証やテスト・自動デプロイをするためのシステムに不具合があって変なのが本番に入っちゃった、というのもいくつかありましたが、まあそのあたりは難しいんだろうなと思えます。ただ、ケーブル間違えて抜いちゃったり、証明書の更新を忘れたり、不用意な変更を入れてしまったり、クラウドサービスの契約手続きを忘れたり……。そういうのが大企業とか有名テックカンパニーとかでも起きている、かつニュースになるような障害を引き起こしているわけですよ。こういうのをなくすのがいかに難しいかってことなんだよね。

2019-12-30

2018-2019年のサービス障害を振り返る

memo

ときどき思い出したように書いている障害事例まとめです。こういうのをやるならせめて年1回くらいはまとめないとダメだね……。昔の記事だと経緯や内容を覚えていないし、ニュース記事 (特に新聞社の記事や企業の障害に関するリリース記事) が消えてしまっていたりする。年末にまとめてドカッと振り返るのはしんどい。

2016-2017年のサービス障害を振り返る - # cat /var/log/stereocat | tail -n3
- 「なぜ障害事例をまとめているのか」についてはこっちに書いた内容そのままなのでこちらを参照してください。
DC/クラウド/通信事業者サービスの障害事例よせあつめ - # cat /var/log/stereocat | tail -n3
- 2010-2016あたりまでのメジャーな障害事例のまとめ

基本的には自分がブックマーク等でクリップしたものをもとにまとめています。主要なニュースソースはこの辺です。

以下、障害事象の発生日時をベースに並べていますがあまり正確ではありません: 海外事例で正確な発生日時が不明なものについては、ニュース記事の発行日でつけているものがあります。また海外事例については時差表記を統一しておらず、日本時間だったり現地時間だったりまちまちです（目安程度につけているだけなので統一できていません。）

2018年の事例

二重引き落とし、他社カードでも　ニコス障害Q&A　　:日本経済新聞
- 三菱UFJニコス、年末に発生したシステム障害の影響と原因を公表 | 日経 xTECH（クロステック）
- 三菱UFJニコスのシステム障害の原因が判明、3個のHDDが同時に故障 | 日経 xTECH（クロステック）
- 2017/12/26-1/5, HDD故障 (15個中3個のHDDが同時に故障)
ハワイのミサイル誤警報､ミスはなぜ起きたか | ロイター | 東洋経済オンライン | 経済ニュースの新基準
- ハワイで「ミサイル飛来、これは訓練ではない」の緊急警報、人的ミスの誤報 - ITmedia NEWS
- 1/16, この記事で取り上げる情報サービス系の障害というのとはちょっと違いますが、ドロップダウンメニューでの選択ミスということで。
オブジェクトストレージ障害復旧のお知らせ - ニフクラ Information
- 富士通系のクラウドストレージサービスが利用不能に、全面復旧に1カ月以上 | 日経 xTECH（クロステック）
- 1/19-2/26, "オブジェクトストレージで使用しているディスク装置のソフトウェア不具合"
楽天カードで「購入できない」など障害　データ整合性管理システムの不具合で - ITmedia NEWS
- 3/1, "データ整合性管理システム"の不具合。(DB不具合と思われる)
- これとは無関係とされていますが連続で障害が起きていました : 楽天カードで二重請求？　利用明細に誤表示　1日に起きたシステム障害とは「無関係」 - ITmedia NEWS
JALが2日連続でシステム不具合、航空券の購入・取り消しなどできず | 日経 xTECH（クロステック）
- システム不具合について - JAL
- 4/4-5, 詳細不明
ジョージタウン大学のデータセンターで火災発生、キャンパスが機能停止に陥る | Data Center Cafe
- 4/9, 電源系統の火災による正副電源システムの停止。
DigiPlexの消火システムの誤作動で、NASDAQノルディックがダウン | Data Center Cafe
- 4/23, 火災は起きていなかったが消火システムが作動 → データルームがオフラインに → バックアップ反応が遅れて障害発生。
「きらぼし銀行」初日にシステム障害 - ITmedia NEWS
- 5/1, ソフトウェアのバグ?
AWSのデータセンター、電力障害で一時混乱に | Data Center Cafe
- 6/5, DC電力障害→機器(ハードウェア)障害
Visa、広範なサービス停止の原因はデータセンターのスイッチ障害と発表 | Data Center Cafe
- 6/25, DC間スイッチの障害で副系に切り替わらず → DC間でのデータ同期をキャッシュ → システム性能低下
みずほ証券システム障害、1日経っても復旧せず - ITmedia NEWS
- 6/26, "ネットワーク不具合"
ファーストサーバのレンタルサーバ「Zenlogic」、金曜夜からの全面サービス停止が解けず、いまだ停止中。ストレージ障害のためのメンテナンスで（追記あり）－ Publickey
- ファーストサーバのZenlogic、ストレージ障害の原因は想定以上の負荷、対策したはずの設定にミスがあったため長期化－ Publickey
- 7/9, 分散ストレージのキャパシティプランニングのミス(一部のシステムに処理が偏り後負荷に)→ストレージサーバ追加によるデータ移動とネットワークの飽和
システムが1週間停止した福井県9市町、発端は仮想化ソフト更新 | 日経 xTECH（クロステック）
- 福井県9市町の同時システム障害、5日目も影響続く　　:日本経済新聞
- 7/22, 仮想化ソフトウェアの更新に失敗
Google Cloud Load Balancerの障害、原因は新機能に含まれていたバグ。テスト時も導入時にも発見できず－ Publickey
- 7/23, ソフトウェアの不具合
東京・多摩のビル建設現場火災でAWSのデータセンターが炎上か | Data Center Cafe
- 多摩のビル火災、アマゾンのデータセンターか　（写真=共同）　:日本経済新聞
- 7/26, 開業前の建物なので直接のサービス障害とかではありません
ネットワーク障害により、英ガトウィック空港が大混乱 | Data Center Cafe
- 8/23, 通信事業者の光ファイバ損傷
AWS 東京リージョンで発生した大規模障害についてまとめてみた - piyolog
- アマゾンのクラウド「AWS」で大規模障害　（写真=ロイター）　:日本経済新聞
- AWS、東京リージョン23日午後の大規模障害について詳細を報告。冷却システムにバグ、フェイルセーフに失敗、手動操作に切り替えるも反応せず－ Publickey
- 8/23, 冷却装置のバグ → サーバオーバーヒート
(3) ニコニコ窓口担当さんはTwitterを使っています: 「今回メンテナンスが長引いている経緯についてご説明させていただきます。データセンター内の、動画・生放送を司るネットワーク機器のファームウェアを更新したところ、予期せぬ不具合が発生してしまい、一部が不安定な状態になってしまいました。」 / Twitter
- 8/23
Azure障害は、データセンターでの冷却装置トラブル - MS暫定レポート | Data Center Cafe
- 9/4落雷によるDC電源トラブル → 発電機へフェイルオーバー → 冷却停止 → 一部のサーバがオーバーヒート
- その後のソフトウェアアップデートでも障害があった : Microsoft、先日のデータセンター障害に続きS/Wアップデートでもトラブル | Data Center Cafe
9月5日に発生した金融機関のワンタイムパスワード認証サービスの障害についてまとめてみた - piyolog
- 9/5, 詳細不明
9/6, 北海道胆振東部地震による北海道全域の停電発生
- データセンターと通信への影響、北海道地震で生かされた経験 | 日経 xTECH（クロステック）
- 約60時間を非常用電源設備で乗り切った石狩データセンターの奇跡 - 週刊アスキー
上位ISPで発生したとみられる通信障害についてまとめみた - piyolog
- 10/4
2018年10月に発生した東京証券取引所のシステム障害についてまとめてみた - piyolog
- 同じIPアドレスが原因　東証、システム障害で報告書　　:日本経済新聞
- 東証がシステム障害の原因公表、メリルリンチがIPアドレスを重複使用 | 日経 xTECH（クロステック）
- 10/9, 重複したIPの利用 → 大量の再送要求による高負荷
10/22【Twitter画像】札幌市営地下鉄南北線で運転見合わせ　運行システムに障害か - NAVER まとめ
- 10/22, 新聞社記事が消えていてあまり精度の高い情報のリンクがありません。運航制御システムのリセット(機器再起動)で復旧とある。
GitHubの障害、完全復旧までに24時間を要する | スラドデベロッパー
- GitHubが障害を総括、43秒間のネットワーク断が1日のサービス障害につながった：データベースの不整合解消に時間 - ＠IT
- 10/30, ネットワーク機器のモジュール交換による 43 秒間の通信断 → DC間で異なるDBマスターが選択されてユーザデータの不整合が発生
Why Google Internet Traffic Rerouted Through China and Russia | WIRED
- 11/12, BGPルート漏洩
「初期対応難しかった」　Azureの多要素認証ダウン、Microsoftが原因を明らかに - ITmedia NEWS
- マイクロソフト、AzureやOffice 365にログインできなくなる多要素認証の障害を二度も発生。アップデートしたコードにバグが潜り込んでサーバがフリーズ－ Publickey
- 11/19, 27
「うんこボタン」全品交換の理由 - ITmedia NEWS
- 11/26, IoTデバイスアップデートで通信機能不具合があり遠隔更新不可能に。
ソフトバンク大規模通信障害の原因:Geekなぺーじ
- ソフトバンク通信障害の原因は「エリクソンの技術的ミス」　エリクソン・ジャパンが説明 - ITmedia Mobile
- ASCII.jp：総務省、12月のソフトバンク大規模障害に対する指導
- 12/6, NW機器内にハードコードされたTLS証明書の失効。日本ではソフトバンクが影響を受けたが世界11か国で同時発生した。
ワイモバイルのWebサイトで管理画面が表示されるトラブル | 日経 xTECH（クロステック）
- 12/23
CenturyLink Let One Bad Networking Card Disrupt 911 Services in Multiple States | Tom's Hardware
- Large Layer-2 Domains Strike Again… « ipSpace.net blog
- 12/27-29, NICが吐いた不正なパケットに起因して15のデータセンタが50時間にわたって停止し、アメリカの 911 (救急) も停止。

2019年の事例

札幌市の電算システムで障害、原因はデータベースの過負荷対策機能 | スラド IT
- 1/4
海底ケーブル破損で携帯もネットも中断、島国トンガ「最悪の事態」　写真1枚　国際ニュース：AFPBB News
- 1/23
2019年2月のCARDNETセンターの障害についてまとめてみた - piyolog
- CARDNETセンターで障害発生、総務省のセキュリティー調査など | 日経 xTECH（クロステック）
- 2/2, 作業ミスに起因した機器故障
JR旅客販売総合システムのシステム障害についてまとめてみた - piyolog
- 2/19, ソフトウェアの不具合
Facebookで発生した世界的障害の原因は？ | Data Center Cafe
- Facebookの障害、サーバーの設定変更が原因だった | ギズモード・ジャパン
- 3/13
SREによる構成変更がGmailなど広範囲な障害の引き金に。3月13日に発生した障害についてGoogleが報告－ Publickey
- 3/13, 設定変更によりストレージが過負荷に。
Google、Facebookに続いてアップルのiCloudサービスにも大規模障害が発生。現在はすでに復旧 - Engadget 日本版
- AppleのiCloudで大規模なシステム障害が発生、GoogleやFacebookに引き続き - GIGAZINE
- 3/14, サーバ設定変更による影響
Myspaceが12年分の全データを喪失したことを公式に認め掲示板では悲痛な叫び声があがる - GIGAZINE
- 3/19
ニフティクラウドのネットワーク機器障害
- 今年起こした障害の話 - Qiita
- 3/22, スイッチのハードウェア故障。Qiita記事は12月(アドベントカレンダー)のもの
東京の４島インターネット回線つながらず海底ケーブル損傷 : NHKNews
- 伊豆諸島の4島、海底ケーブル損傷でインターネットや電話、ATMなどが使えない状態に | スラド IT
- 4/22
改元対応関連いろいろ
- 改元に伴うシステム改修関連の障害が17件　IPAが情報システム障害データを公開：キャッシュレス決済の障害は9件 - ＠IT
- 改元関連の不具合やシステム障害についてまとめてみた - piyolog
Microsoft Azure、DNSの設定変更に失敗して全世界的にサービス障害。日本は十連休中だったのが不幸中の幸いか－ Publickey
- 5/2, DNSメンテナンス作業ミス
全国で発生した電子マネーやギフトカードのシステム障害についてまとめてみた - piyolog
- 5/24
Google CloudやYouTubeの障害は「数台のサーバへの設定変更のつもりが、誤って複数リージョンの多数のサーバに適用されてしまった」。Googleが説明－ Publickey
- 6/2, 間違ったサーバ設定が複数のリージョンに拡散
大阪市システム障害の原因はデータベースに、管理領域が2系統とも破損 | 日経 xTECH（クロステック）
- 7/7, Active/Active稼働していたDBのシステムファイルが両系統とも破損。
Salesforce、大規模なサービス停止に苦しむ | Data Center Cafe
- 5/28, ソフトウェアの不具合
GMO系列のホスティングサービスでGmailへメールが送信できない不具合が発生中 | OXY NOTES
- GMOクラウド　| メンテナンス・障害情報
- 5/31, GMOの持つリレーサーバがブラックリスト入り
Google Cloudが一時ダウン、多数のサービスに影響 | TechCrunch Japan
- An update on Sunday’s service disruption | Google Cloud Blog
- 6/2, 一部のサーバを対象にした構成変更が複数の地域にまたがる多数のサーバに適用されたことによる輻輳の発生
BGP event sends European mobile traffic through China Telecom for 2 hours | Ars Technica
- 6/9, China Telecomによるルート漏洩によりヨーロッパのモバイルトラフィックがChina Telecomに吸い込まれる。
The deep-dive into how Verizon and a BGP Optimizer Knocked Large Parts of the Internet Offline Monday
- Verizon BGP route leak causes Cloudflare customer outages, AWS issues - DCD
- 6/29, BGPルート漏洩。日本語版記事があったんだけどなぜか404になる
InstagramやFacebookで画像を投稿できない障害発生（対処中） - ITmedia NEWS
- 7/3, 原因詳細不明。
CloudflareのCDNが全面的に約30分ダウンし、世界中のWebサイトが影響を受ける。原因はソフトウェアの動作不良。ロールバックで対応－ Publickey
- Cloudflare、ファイアウォールに追加した「正規表現のミス」が全面的なCDNダウンの原因と報告。「キルスイッチ」で解除－ Publickey
- Cloudflare outage caused by bad software deploy (updated)
- 7/3, ソフトウェア障害(ファイアウォールのルールに含まれていた正規表現のミス)。
- Downdeltectorで障害範囲を確認しようとしたら Downdetector が Cloudflare をつかっていたため障害に巻き込まれていてアクセスできないという事象が話題に。
Google Cloud、複数のファイバケーブルで物理的な損傷によるネットワーク障害。米東1リージョンで－ Publickey
- Google Cloud us-east1データセンターが「マルチファイバーバンドルの物理的損傷」のために混乱 | Data Center Cafe
- 7/4,
またもやiCloudで大規模なシステム障害が発生、Apple Storeでの取引にも影響 - GIGAZINE
- 7/4, BGPの経路フラッピングによるもの? → (3) ThousandEyesさんはTwitterを使っています: 「The packet loss appears to have been caused by a BGP route flap issue, where a routing announcement is made and withdrawn in quick succession, often repeatedly. https://t.co/KUX0gXdFkg」 / Twitter
ガーナ保健省本部サーバールームが火災で焼失 | Data Center Cafe
- 7/8

2019/6-7月にかけてはこうしたクラウドサービスや通信事業者の大規模な障害が複数起きていてこんな記事も出ました : インターネットにとって最悪の1カ月 | TechCrunch Japan

８信用金庫のシステム障害についてまとめてみた - piyolog
- 8/15, 通信機器障害?
Prosaデータセンター障害で、メキシコ全土の決済サービスが停止で混乱 | Data Center Cafe
- 8/15, 電源設備障害
デンバーデータセンターの停電により、北米日産のサービスが停止 | Data Center Cafe
- 8/23, 原因詳細は不明
AWS 東京リージョンで発生した大規模障害についてまとめてみた - piyolog
- AWS、東京リージョンでの大規模障害 | Data Center Cafe
- AWS、複数のアベイラビリティゾーンで稼働していたアプリケーションでも大規模障害の影響があったと説明を修正。東京リージョンの大規模障害で追加報告－ Publickey
- AWS障害、“マルチAZ”なら大丈夫だったのか？　インフラエンジニアたちはどう捉えたか、生の声で分かった「実情」 (1/3) - ITmedia NEWS
- AWS、東京リージョン23日午後の大規模障害について詳細を報告。冷却システムにバグ、フェイルセーフに失敗、手動操作に切り替えるも反応せず－ Publickey
- 8/23, 空調装置の障害(バグ) → サーバのオーバーヒート。
- 複数AZに分散した一部アプリケーションでも影響を受けていたという点で議論に。
クアラルンプール空港がネットワーク障害により機能不全 | Data Center Cafe
- 8/25, ネットワーク機器(ハードウェア)障害
OCNで全国的な通信障害、Windows Updateが原因か - INTERNET Watch
- 8/29, Windows Updateとみられるトラフィック増加による通信遅延
増税に伴うシステムトラブルをまとめてみた - piyolog
- 10/01, 各所で消費税率変更に伴うシステム障害発生
JR東日本の「えきねっと」で発券できず、消費増税とは別のシステム改修に不具合 | 日経 xTECH（クロステック）
- 10/01, ソフトウェアの不具合
台風前には与那国側のケーブル断線　八重山の大規模通信障害　初期対応遅れる | 沖縄タイムス＋プラス　ニュース | 沖縄タイムス＋プラス
- 10/3
AWSのDNSに対するDDoS攻撃で断続的なエラーが発生 | Data Center Cafe
- 10/24, DDoS攻撃に対して正常なリクエストも拒否してしまった
Office 365のメール受信障害についてまとめてみた - piyolog
- Microsoft「Office365」連日の障害　通信設定に問題　　:日本経済新聞
- 11/19, スパム対策更新の影響
QTnetデータセンターの電源トラブルと楽天カードの決済障害についてまとめてみた - piyolog
- 【QTnetデータセンター】データセンターシステムの障害による停止について（障害お知らせ）
- 無停電機能を外したまま電源設備を更新、楽天などに影響した九電系データセンター障害の原因判明 | 日経 xTECH（クロステック）
- 11/23, DC設備更新のための取り換え工事中、(作業のため無停電切替機能を停止した状態で)過電流を検知し電源切り替えがおきて 7 秒間の停電発生。収容されていた複数のシステムで障害に。特に楽天カードが使えなくなったことが大きな問題になりました。ほかにも福岡県庁や九州電力などでも障害に。
楽天ペイで再び障害　楽天カードの一部機能も復旧めど立たず - ITmedia NEWS
- 楽天ペイの障害、原因は「楽天カードの復旧作業」 - ITmedia NEWS
- 11/25-26, その余波というか、復旧作業中にシステムが不安定になったため一時サービス停止するといった事象も起きていました。
NTTコムの岐阜県データセンターで電源故障、「無瞬断切替装置の切り替え作業中にUPSが停止」 | 日経 xTECH（クロステック）
- 11/26, "無瞬断切替装置の切り替え作業中に過大な電流が流れたためUPS(無停電電源装置)が停止"
図で技術的に何が起きたかを解説スマホゲーム『偽りのアリス』の不具合報告がやたら丁寧と話題に「BtoBみたいな報告で草」「なんだこの説明量は」 - Togetter
- 12/18, ゲーム系でこのレベルの障害報告が出てくるのは珍しいってことで話題になりました。クラウドサービス内のネットワーク障害とそれに伴うDB内データ不整合
類例報告過去4件の不具合で発生した自治体専用IaaSのシステム障害についてまとめてみた - piyolog
- 新たな不具合発覚で異例の6日目突入、50自治体システム障害の続報 | 日経 xTECH（クロステック）
- 「33自治体のデータがIaaSから消失」、日本電子計算がシステム障害の詳細明かす | 日経 xTECH（クロステック）
- 15％データ喪失の自治体システム障害、長期化招いた日本電子計算の誤算とミス | 日経 xTECH（クロステック）
- 50自治体システム障害はIaaSで使うソフトのバグが原因、復旧メド立たず | 日経 xTECH（クロステック）
- 「自治体クラウド」を巡る2つの動きに対する2つの懸念 - ZDNet Japan
- 12/4-9, 影響範囲の広さ・障害の長期化から社会問題に。ストレージのファームウェアの故障とデータ消失。一部バックアップデータが取れていないなど問題点が指摘されました。
- なお、この直前に発表されていたHPEのストレージのバグとの関係性があるのではと言われていましたが、無関係とのこと: HPEのサーバー向けSAS SSD、稼働32,768時間超えでデータ喪失。復旧も不可 - PC Watch

個人的な所感

BGPルート漏洩などによる広域での障害は相変わらずだけど、中国政府がチャイナテレコムを通してBGPハイジャックを実行--研究者が指摘 - CNET Japan みたいな話があって不穏な気配が。
銀行・金融系と、あと地方自治体システムでのトラブルが目立つようになってきた。役所でのクラウドサービス利用などが進行している分影響が目に見えるようになってきたんだろうか。
- いずれにせよこの辺、バックエンドに SIer がいてやっていると思われるサービスとかについてはとにかく情報が出てない。もうちょっとなんかあってもいいのでは……(まあしがらみがあるのはわかるんだけど)。でも、ほかの会社が報告出してるかというと必ずしもそうでもないんだよな。Facebook他、障害があったことしかわからないのがいくつかあったし。
大規模障害後の余波で 2 次障害 3 次障害と起きるケースがいくつか。システムの大規模化・複雑化が進んでいる・システム全体の挙動が読み切れない (どうしても予期しない事象が起きる) というのがあるんだろう。読み切れないものに対してどこまで被害を抑えられるかが今後の力の入れどころになると思われる。
- 自動化されていることによる影響拡大というのは前も書いたけど、ソフトウェアによる誤検知 (false positive) が広くなってしまって障害に発展する……みたいな、よりアプリケーションよりの障害が増えてきた印象。
2018-2019は、国内はどうしても災害とは切っても切り離せないですね。大阪北部や北海道胆振東部の地震もあったし大型台風も頻発した。ここではそれらに起因した障害は特にあがっていないけど、サービス運用の人たちは緊張の連続だったんじゃないだろうか。お疲れさまでした。
- 自分自身が胆振地方出身だし、北海道東部の地震にはいろいろ思うところがありました。
- 災害対応と今後 :: JANOG43 など。JANOG では災害時の対応報告なんかが上がっているので検索してみるとよいと思います。
それにしても、同時期に独立したサービスで障害がかたまって起きるのはなぜなんだろうか。2019/6-7月におきた大手クラウドサービスの障害連発とか、2019/11月の国内 DC サービス電源障害の連発とか。不思議だ。

オマケ

[2020-01-04] どれも情報系サービスってわけじゃないのと、ひとつ追記忘れていたものを見つけたのでちょっとよけます。生物起因の停電みっつ。ネズミはデータセンタとかでも何回か聞いたことがあるけど、ナメクジとかヤモリとかは珍しいね。