2018-2019年のサービス障害を振り返る
ときどき思い出したように書いている障害事例まとめです。こういうのをやるならせめて年1回くらいはまとめないとダメだね……。昔の記事だと経緯や内容を覚えていないし、ニュース記事 (特に新聞社の記事や企業の障害に関するリリース記事) が消えてしまっていたりする。年末にまとめてドカッと振り返るのはしんどい。
- 2016-2017年のサービス障害を振り返る - # cat /var/log/stereocat | tail -n3
- 「なぜ障害事例をまとめているのか」についてはこっちに書いた内容そのままなのでこちらを参照してください。
- DC/クラウド/通信事業者サービスの障害事例よせあつめ - # cat /var/log/stereocat | tail -n3
- 2010-2016あたりまでのメジャーな障害事例のまとめ
基本的には自分がブックマーク等でクリップしたものをもとにまとめています。主要なニュースソースはこの辺です。
- Publickey - Enterprise IT × Cloud Computing × Web Technology / Blog の 障害報告
- 「システム障害」関連の最新 ニュース・レビュー・解説 記事 まとめ - ITmedia Keywords
- データセンターの今がわかる - データセンターカフェ
- piyolog の システム障害およびインシデントまとめ
以下、障害事象の発生日時をベースに並べていますがあまり正確ではありません: 海外事例で正確な発生日時が不明なものについては、ニュース記事の発行日でつけているものがあります。また海外事例については時差表記を統一しておらず、日本時間だったり現地時間だったりまちまちです(目安程度につけているだけなので統一できていません。)
2018年の事例
- 二重引き落とし、他社カードでも ニコス障害Q&A :日本経済新聞
- 三菱UFJニコス、年末に発生したシステム障害の影響と原因を公表 | 日経 xTECH(クロステック)
- 三菱UFJニコスのシステム障害の原因が判明、3個のHDDが同時に故障 | 日経 xTECH(クロステック)
- 2017/12/26-1/5, HDD故障 (15個中3個のHDDが同時に故障)
- ハワイのミサイル誤警報、ミスはなぜ起きたか | ロイター | 東洋経済オンライン | 経済ニュースの新基準
- ハワイで「ミサイル飛来、これは訓練ではない」の緊急警報、人的ミスの誤報 - ITmedia NEWS
- 1/16, この記事で取り上げる情報サービス系の障害というのとはちょっと違いますが、ドロップダウンメニューでの選択ミスということで。
- オブジェクトストレージ障害復旧のお知らせ - ニフクラ Information
- 富士通系のクラウドストレージサービスが利用不能に、全面復旧に1カ月以上 | 日経 xTECH(クロステック)
- 1/19-2/26, "オブジェクトストレージで使用しているディスク装置のソフトウェア不具合"
- 楽天カードで「購入できない」など障害 データ整合性管理システムの不具合で - ITmedia NEWS
- 3/1, "データ整合性管理システム"の不具合。(DB不具合と思われる)
- これとは無関係とされていますが連続で障害が起きていました : 楽天カードで二重請求? 利用明細に誤表示 1日に起きたシステム障害とは「無関係」 - ITmedia NEWS
- JALが2日連続でシステム不具合、航空券の購入・取り消しなどできず | 日経 xTECH(クロステック)
- システム不具合について - JAL
- 4/4-5, 詳細不明
- ジョージタウン大学のデータセンターで火災発生、キャンパスが機能停止に陥る | Data Center Cafe
- 4/9, 電源系統の火災による正副電源システムの停止。
- DigiPlexの消火システムの誤作動で、NASDAQノルディックがダウン | Data Center Cafe
- 4/23, 火災は起きていなかったが消火システムが作動 → データルームがオフラインに → バックアップ反応が遅れて障害発生。
- 「きらぼし銀行」初日にシステム障害 - ITmedia NEWS
- 5/1, ソフトウェアのバグ?
- AWSのデータセンター、電力障害で一時混乱に | Data Center Cafe
- 6/5, DC電力障害→機器(ハードウェア)障害
- Visa、広範なサービス停止の原因はデータセンターのスイッチ障害と発表 | Data Center Cafe
- 6/25, DC間スイッチの障害で副系に切り替わらず → DC間でのデータ同期をキャッシュ → システム性能低下
- みずほ証券システム障害、1日経っても復旧せず - ITmedia NEWS
- 6/26, "ネットワーク不具合"
- ファーストサーバのレンタルサーバ「Zenlogic」、金曜夜からの全面サービス停止が解けず、いまだ停止中。ストレージ障害のためのメンテナンスで(追記あり) - Publickey
- ファーストサーバのZenlogic、ストレージ障害の原因は想定以上の負荷、対策したはずの設定にミスがあったため長期化 - Publickey
- 7/9, 分散ストレージのキャパシティプランニングのミス(一部のシステムに処理が偏り後負荷に)→ストレージサーバ追加によるデータ移動とネットワークの飽和
- システムが1週間停止した福井県9市町、発端は仮想化ソフト更新 | 日経 xTECH(クロステック)
- 福井県9市町の同時システム障害、5日目も影響続く :日本経済新聞
- 7/22, 仮想化ソフトウェアの更新に失敗
- Google Cloud Load Balancerの障害、原因は新機能に含まれていたバグ。テスト時も導入時にも発見できず - Publickey
- 7/23, ソフトウェアの不具合
- 東京・多摩のビル建設現場火災でAWSのデータセンターが炎上か | Data Center Cafe
- 多摩のビル火災、アマゾンのデータセンターか (写真=共同) :日本経済新聞
- 7/26, 開業前の建物なので直接のサービス障害とかではありません
- ネットワーク障害により、英ガトウィック空港が大混乱 | Data Center Cafe
- 8/23, 通信事業者の光ファイバ損傷
- AWS 東京リージョンで発生した大規模障害についてまとめてみた - piyolog
- (3) ニコニコ窓口担当さんはTwitterを使っています: 「今回メンテナンスが長引いている経緯についてご説明させていただきます。 データセンター内の、動画・生放送を司るネットワーク機器のファームウェアを更新したところ、予期せぬ不具合が発生してしまい、一部が不安定な状態になってしまいました。」 / Twitter
- 8/23
- Azure障害は、データセンターでの冷却装置トラブル - MS暫定レポート | Data Center Cafe
- 9/4落雷によるDC電源トラブル → 発電機へフェイルオーバー → 冷却停止 → 一部のサーバがオーバーヒート
- その後のソフトウェアアップデートでも障害があった : Microsoft、先日のデータセンター障害に続きS/Wアップデートでもトラブル | Data Center Cafe
- 9月5日に発生した金融機関のワンタイムパスワード認証サービスの障害についてまとめてみた - piyolog
- 9/5, 詳細不明
- 9/6, 北海道胆振東部地震による北海道全域の停電発生
- 上位ISPで発生したとみられる通信障害についてまとめみた - piyolog
- 10/4
- 2018年10月に発生した東京証券取引所のシステム障害についてまとめてみた - piyolog
- 同じIPアドレスが原因 東証、システム障害で報告書 :日本経済新聞
- 東証がシステム障害の原因公表、メリルリンチがIPアドレスを重複使用 | 日経 xTECH(クロステック)
- 10/9, 重複したIPの利用 → 大量の再送要求による高負荷
- 10/22【Twitter画像】札幌市営地下鉄南北線で運転見合わせ 運行システムに障害か - NAVER まとめ
- 10/22, 新聞社記事が消えていてあまり精度の高い情報のリンクがありません。運航制御システムのリセット(機器再起動)で復旧とある。
- GitHubの障害、完全復旧までに24時間を要する | スラド デベロッパー
- GitHubが障害を総括、43秒間のネットワーク断が1日のサービス障害につながった:データベースの不整合解消に時間 - @IT
- 10/30, ネットワーク機器のモジュール交換による 43 秒間の通信断 → DC間で異なるDBマスターが選択されてユーザデータの不整合が発生
- Why Google Internet Traffic Rerouted Through China and Russia | WIRED
- 11/12, BGPルート漏洩
- 「初期対応難しかった」 Azureの多要素認証ダウン、Microsoftが原因を明らかに - ITmedia NEWS
- 「うんこボタン」全品交換の理由 - ITmedia NEWS
- 11/26, IoTデバイスアップデートで通信機能不具合があり遠隔更新不可能に。
- ソフトバンク大規模通信障害の原因:Geekなぺーじ
- ソフトバンク通信障害の原因は「エリクソンの技術的ミス」 エリクソン・ジャパンが説明 - ITmedia Mobile
- ASCII.jp:総務省、12月のソフトバンク大規模障害に対する指導
- 12/6, NW機器内にハードコードされたTLS証明書の失効。日本ではソフトバンクが影響を受けたが世界11か国で同時発生した。
- ワイモバイルのWebサイトで管理画面が表示されるトラブル | 日経 xTECH(クロステック)
- 12/23
- CenturyLink Let One Bad Networking Card Disrupt 911 Services in Multiple States | Tom's Hardware
- Large Layer-2 Domains Strike Again… « ipSpace.net blog
- 12/27-29, NICが吐いた不正なパケットに起因して15のデータセンタが50時間にわたって停止し、アメリカの 911 (救急) も停止。
2019年の事例
- 札幌市の電算システムで障害、原因はデータベースの過負荷対策機能 | スラド IT
- 1/4
- 海底ケーブル破損で携帯もネットも中断、島国トンガ「最悪の事態」 写真1枚 国際ニュース:AFPBB News
- 1/23
- 2019年2月のCARDNETセンターの障害についてまとめてみた - piyolog
- CARDNETセンターで障害発生、総務省のセキュリティー調査など | 日経 xTECH(クロステック)
- 2/2, 作業ミスに起因した機器故障
- JR旅客販売総合システムのシステム障害についてまとめてみた - piyolog
- 2/19, ソフトウェアの不具合
- Facebookで発生した世界的障害の原因は? | Data Center Cafe
- SREによる構成変更がGmailなど広範囲な障害の引き金に。3月13日に発生した障害についてGoogleが報告 - Publickey
- 3/13, 設定変更によりストレージが過負荷に。
- Google、Facebookに続いてアップルのiCloudサービスにも大規模障害が発生。現在はすでに復旧 - Engadget 日本版
- AppleのiCloudで大規模なシステム障害が発生、GoogleやFacebookに引き続き - GIGAZINE
- 3/14, サーバ設定変更による影響
- Myspaceが12年分の全データを喪失したことを公式に認め掲示板では悲痛な叫び声があがる - GIGAZINE
- 3/19
- ニフティクラウドのネットワーク機器障害
- 今年起こした障害の話 - Qiita
- 3/22, スイッチのハードウェア故障。Qiita記事は12月(アドベントカレンダー)のもの
- 東京の4島 インターネット回線つながらず 海底ケーブル損傷 : NHKNews
- 改元対応関連いろいろ
- Microsoft Azure、DNSの設定変更に失敗して全世界的にサービス障害。日本は十連休中だったのが不幸中の幸いか - Publickey
- 5/2, DNSメンテナンス作業ミス
- 全国で発生した電子マネーやギフトカードのシステム障害についてまとめてみた - piyolog
- 5/24
- Google CloudやYouTubeの障害は「数台のサーバへの設定変更のつもりが、誤って複数リージョンの多数のサーバに適用されてしまった」。Googleが説明 - Publickey
- 6/2, 間違ったサーバ設定が複数のリージョンに拡散
- 大阪市システム障害の原因はデータベースに、管理領域が2系統とも破損 | 日経 xTECH(クロステック)
- 7/7, Active/Active稼働していたDBのシステムファイルが両系統とも破損。
- Salesforce、大規模なサービス停止に苦しむ | Data Center Cafe
- 5/28, ソフトウェアの不具合
- GMO系列のホスティングサービスでGmailへメールが送信できない不具合が発生中 | OXY NOTES
- GMOクラウド | メンテナンス・障害情報
- 5/31, GMOの持つリレーサーバがブラックリスト入り
- Google Cloudが一時ダウン、多数のサービスに影響 | TechCrunch Japan
- An update on Sunday’s service disruption | Google Cloud Blog
- 6/2, 一部のサーバを対象にした構成変更が複数の地域にまたがる多数のサーバに適用されたことによる輻輳の発生
- BGP event sends European mobile traffic through China Telecom for 2 hours | Ars Technica
- 6/9, China Telecomによるルート漏洩によりヨーロッパのモバイルトラフィックがChina Telecomに吸い込まれる。
- The deep-dive into how Verizon and a BGP Optimizer Knocked Large Parts of the Internet Offline Monday
- InstagramやFacebookで画像を投稿できない障害発生(対処中) - ITmedia NEWS
- 7/3, 原因詳細不明。
- CloudflareのCDNが全面的に約30分ダウンし、世界中のWebサイトが影響を受ける。原因はソフトウェアの動作不良。ロールバックで対応 - Publickey
- Cloudflare、ファイアウォールに追加した「正規表現のミス」が全面的なCDNダウンの原因と報告。「キルスイッチ」で解除 - Publickey
- Cloudflare outage caused by bad software deploy (updated)
- 7/3, ソフトウェア障害(ファイアウォールのルールに含まれていた正規表現のミス)。
- Downdeltectorで障害範囲を確認しようとしたら Downdetector が Cloudflare をつかっていたため障害に巻き込まれていてアクセスできないという事象が話題に。
- Google Cloud、複数のファイバケーブルで物理的な損傷によるネットワーク障害。米東1リージョンで - Publickey
- またもやiCloudで大規模なシステム障害が発生、Apple Storeでの取引にも影響 - GIGAZINE
- ガーナ保健省本部サーバールームが火災で焼失 | Data Center Cafe
- 7/8
2019/6-7月にかけてはこうしたクラウドサービスや通信事業者の大規模な障害が複数起きていてこんな記事も出ました : インターネットにとって最悪の1カ月 | TechCrunch Japan
- 8信用金庫のシステム障害についてまとめてみた - piyolog
- 8/15, 通信機器障害?
- Prosaデータセンター障害で、メキシコ全土の決済サービスが停止で混乱 | Data Center Cafe
- 8/15, 電源設備障害
- デンバーデータセンターの停電により、北米日産のサービスが停止 | Data Center Cafe
- 8/23, 原因詳細は不明
- AWS 東京リージョンで発生した大規模障害についてまとめてみた - piyolog
- AWS、東京リージョンでの大規模障害 | Data Center Cafe
- AWS、複数のアベイラビリティゾーンで稼働していたアプリケーションでも大規模障害の影響があったと説明を修正。東京リージョンの大規模障害で追加報告 - Publickey
- AWS障害、“マルチAZ”なら大丈夫だったのか? インフラエンジニアたちはどう捉えたか、生の声で分かった「実情」 (1/3) - ITmedia NEWS
- AWS、東京リージョン23日午後の大規模障害について詳細を報告。冷却システムにバグ、フェイルセーフに失敗、手動操作に切り替えるも反応せず - Publickey
- 8/23, 空調装置の障害(バグ) → サーバのオーバーヒート。
- 複数AZに分散した一部アプリケーションでも影響を受けていたという点で議論に。
- クアラルンプール空港がネットワーク障害により機能不全 | Data Center Cafe
- 8/25, ネットワーク機器(ハードウェア)障害
- OCNで全国的な通信障害、Windows Updateが原因か - INTERNET Watch
- 8/29, Windows Updateとみられるトラフィック増加による通信遅延
- 増税に伴うシステムトラブルをまとめてみた - piyolog
- 10/01, 各所で消費税率変更に伴うシステム障害発生
- JR東日本の「えきねっと」で発券できず、消費増税とは別のシステム改修に不具合 | 日経 xTECH(クロステック)
- 10/01, ソフトウェアの不具合
- 台風前には与那国側のケーブル断線 八重山の大規模通信障害 初期対応遅れる | 沖縄タイムス+プラス ニュース | 沖縄タイムス+プラス
- 10/3
- AWSのDNSに対するDDoS攻撃で断続的なエラーが発生 | Data Center Cafe
- Office 365のメール受信障害についてまとめてみた - piyolog
- Microsoft「Office365」連日の障害 通信設定に問題 :日本経済新聞
- 11/19, スパム対策更新の影響
- QTnetデータセンターの電源トラブルと楽天カードの決済障害についてまとめてみた - piyolog
- 【QTnetデータセンター】データセンターシステムの障害による停止について(障害お知らせ)
- 無停電機能を外したまま電源設備を更新、楽天などに影響した九電系データセンター障害の原因判明 | 日経 xTECH(クロステック)
- 11/23, DC設備更新のための取り換え工事中、(作業のため無停電切替機能を停止した状態で)過電流を検知し電源切り替えがおきて 7 秒間の停電発生。収容されていた複数のシステムで障害に。特に楽天カードが使えなくなったことが大きな問題になりました。ほかにも福岡県庁や九州電力などでも障害に。
- 楽天ペイで再び障害 楽天カードの一部機能も復旧めど立たず - ITmedia NEWS
- 楽天ペイの障害、原因は「楽天カードの復旧作業」 - ITmedia NEWS
- 11/25-26, その余波というか、復旧作業中にシステムが不安定になったため一時サービス停止するといった事象も起きていました。
- NTTコムの岐阜県データセンターで電源故障、「無瞬断切替装置の切り替え作業中にUPSが停止」 | 日経 xTECH(クロステック)
- 図で技術的に何が起きたかを解説 スマホゲーム『偽りのアリス』の不具合報告がやたら丁寧と話題に「BtoBみたいな報告で草」「なんだこの説明量は」 - Togetter
- 12/18, ゲーム系でこのレベルの障害報告が出てくるのは珍しいってことで話題になりました。クラウドサービス内のネットワーク障害とそれに伴うDB内データ不整合
- 類例報告過去4件の不具合で発生した自治体専用IaaSのシステム障害についてまとめてみた - piyolog
- 新たな不具合発覚で異例の6日目突入、50自治体システム障害の続報 | 日経 xTECH(クロステック)
- 「33自治体のデータがIaaSから消失」、日本電子計算がシステム障害の詳細明かす | 日経 xTECH(クロステック)
- 15%データ喪失の自治体システム障害、長期化招いた日本電子計算の誤算とミス | 日経 xTECH(クロステック)
- 50自治体システム障害はIaaSで使うソフトのバグが原因、復旧メド立たず | 日経 xTECH(クロステック)
- 「自治体クラウド」を巡る2つの動きに対する2つの懸念 - ZDNet Japan
- 12/4-9, 影響範囲の広さ・障害の長期化から社会問題に。ストレージのファームウェアの故障とデータ消失。一部バックアップデータが取れていないなど問題点が指摘されました。
- なお、この直前に発表されていたHPEのストレージのバグとの関係性があるのではと言われていましたが、無関係とのこと: HPEのサーバー向けSAS SSD、稼働32,768時間超えでデータ喪失。復旧も不可 - PC Watch
個人的な所感
- BGPルート漏洩などによる広域での障害は相変わらずだけど、中国政府がチャイナテレコムを通してBGPハイジャックを実行--研究者が指摘 - CNET Japan みたいな話があって不穏な気配が。
- 銀行・金融系と、あと地方自治体システムでのトラブルが目立つようになってきた。役所でのクラウドサービス利用などが進行している分影響が目に見えるようになってきたんだろうか。
- 大規模障害後の余波で 2 次障害 3 次障害と起きるケースがいくつか。システムの大規模化・複雑化が進んでいる・システム全体の挙動が読み切れない (どうしても予期しない事象が起きる) というのがあるんだろう。読み切れないものに対してどこまで被害を抑えられるかが今後の力の入れどころになると思われる。
- 自動化されていることによる影響拡大というのは前も書いたけど、ソフトウェアによる誤検知 (false positive) が広くなってしまって障害に発展する……みたいな、よりアプリケーションよりの障害が増えてきた印象。
- 2018-2019は、国内はどうしても災害とは切っても切り離せないですね。大阪北部や北海道胆振東部の地震もあったし大型台風も頻発した。ここではそれらに起因した障害は特にあがっていないけど、サービス運用の人たちは緊張の連続だったんじゃないだろうか。お疲れさまでした。
- 自分自身が胆振地方出身だし、北海道東部の地震にはいろいろ思うところがありました。
- 災害対応と今後 :: JANOG43 など。JANOG では災害時の対応報告なんかが上がっているので検索してみるとよいと思います。
- それにしても、同時期に独立したサービスで障害がかたまって起きるのはなぜなんだろうか。2019/6-7月におきた大手クラウドサービスの障害連発とか、2019/11月の国内 DC サービス電源障害の連発とか。不思議だ。
オマケ
[2020-01-04] どれも情報系サービスってわけじゃないのと、ひとつ追記忘れていたものを見つけたのでちょっとよけます。生物起因の停電みっつ。ネズミはデータセンタとかでも何回か聞いたことがあるけど、ナメクジとかヤモリとかは珍しいね。
- JR停電「犯人」はナメクジ 電力設備に侵入、ショート|【西日本新聞ニュース】
- 2019/06/27
- ネズミ侵入、山陽新幹線遅れ 車両基地の配電盤がショート | 共同通信
- 2019/10/28
- 変電所にヤモリ、停電発生 京急運休で7.5万人影響 :日本経済新聞
- 2019/10/31