2016-2017年のサービス障害を振り返る - # cat /var/log/stereocat

最近全然ブログとか書けてないなーと思いつつ 2018 年を迎えてしまいました。本年もよろしくお願いいたします。

以前、DC/クラウド/通信事業者サービスの障害事例よせあつめという記事を書いたところ意外と反響があったので、続きを書こうかなと年末考えていたのですが、結局 2017 年中は書けませんでしたね。いろいろあったんですよ。個人的な話なんで別にどうでもいいんですけど。そんなわけで年明けに書きます。

この記事は 2016 年アタマの GMO の障害とか github のサービス障害をきっかけに書いたものでした。その後、世の中的にはどんなサービス障害が起きているのかをざっとおさらいしてみたいと思います。いまシステムやサービスを作っていく中で、こういう原因で死ぬのか…というのを見ていくことは、ひいては「そこまで予見できなかった」あるいは「そこからは回復させられなかった」ってことを考えることなんですよね。落ちた = ダメじゃん、という話でおわるのはなくて、ここまでやられて初めて落ちるんか…とか、こういう可能性まで見込んで何か考えないとイカンのか…とか、こういう状況でもうまく逃げ切るための方法って何なのか…とか、発展的な話を考えるための材料だと思っていただければ。

挙げる事例については私がウォッチして見つけているものなので当然偏りがあります。その点はご承知おきください。他にもこういう事例があるよってのがあったら是非教えていただきたく。

参考資料

ニュースソース

ツイッターとかでも拾っていますがこの辺を見ることが多いですね。いろいろ時事ネタや速報だしてくれています。ありがたや。

参考記事

AWS でいままで起きた大規模障害を振り返る - Qiita
Learn from the outages of 2016 | Opinion | DatacenterDynamics
32％の企業が月1回以上の運用ミスによる障害やトラブルを経験――、IDC Japan調査 - クラウド Watch
データセンターで発生したミスをオープンに。DCIG（英国）の取り組み | Data Center Cafe
- 中身がわからんけど取り組みとしてはすごく気になる

2016年の事例

GMO、先週の24時間にわたるサービス障害時にはデータセンター内の約12％が電源喪失。変圧分電盤故障が原因の可能性。監視体制の強化など対策－ Publickey
- 2016/01
- ハードウェア障害(電源設備故障)
GitHubが先週木曜日にダウンした原因は、一時的な停電からの連鎖的な障害－ Publickey
- 2016/02
- ハードウェア障害(DCで発生した電源障害・停電による連鎖的な障害)
ニュース - ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン：ITpro
- 2016/03
- ハードウェア障害 (ネットワーク機器ソフトウェアのバグ: "スイッチが故障状態であるにもかからず、故障を知らせる「故障シグナル」を発信しなかった。")
- 影響が大きかったこと、報告における原因がはっきりしなかったせいか話題になりました
- 記者の眼 - 判明、ANAシステム障害の真相：ITpro
- 2016年3月22日に発生した、全日本空輸株式会社（ANA）の国内線システム障害についての考察 - わかりやすい
Google Compute Engine、全世界のリージョンが同時に外部とのネットワーク接続を失うという深刻な障害が発生。ネットワーク管理ソフトウェアにバグ－ Publickey
- 2016/04
- ソフトウェア障害 (ネットワーク管理ソフトウェアのバグ)
  - "本件においても、新しいコンフィグレーションは不正であることがこの検知工程によって検知された。しかし致命的なことに、ネットワーク管理ソフトウェアの2番目のバグによって、この検知工程の結果がコンフィグレーションの伝播機構に対して通知されなかった。結果として新しい(不正な)コンフィグレーションが伝播されていく。"
世界的なインターネット障害が発生:Geekなぺーじ
- 2016/06
- ヒューマンエラー (通信事業者側の NW 機器オペミスによる迂回経路の発生…BGP設定ミス?)
- ネットワーク障害でトラフィックが欧州から香港へ：これもヒューマン･エラー！ | Agile Cat --- in the cloud
シスコ、ルーターのトラフィック損失の原因は宇宙放射線が原因と発表 | スラド
- 2016/09
- サービス障害の話じゃないですが、こういう話もありうるということで。
ING銀行の基幹データセンター、消防訓練で消火ガス噴射の衝撃音が大量のハードディスクとサーバを破壊。ATMや決済サービスが停止に－ Publickey
- 2016/09
- ハードウェア障害 (消防訓練で消火ガス噴射装置からガス噴射 → 衝撃音が発生 → DC 内 HDD などを破損)
Microsoft AzureのAzure DNSが引き起こした大規模障害、原因はネットワークデバイスのバグ－ Publickey
- 2016/09
- ハードウェア障害 (ネットワークトラフィックのスパイク → ネットワーク機器バグ)
BGP errors are to blame for Monday’s Twitter outage, not DDoS attacks | CSO Online
- 2016/11
- BGP経路設定ミスによる接続障害
  Twitter障害の件、BGPのデータを見てみると14:46JST頃Twitter/AS13414経路が全て削除、15:11JST頃再度経路を広告開始、経路が有効になった所から復旧って感じ。Twitterからも復旧報告でてるね。https://t.co/ZvBt5pQwuW
  — Yoshinobu Matsuzaki (@maz_zzz) 2016年11月7日

2017年の事例

ニュース - 博多駅前の道路陥没でNTT西の通信遮断、福岡銀行などでシステム障害：ITpro
- 2017/02
- パブリックには資料が公開されていないのでこちらを参照 → JANOG39.5 Interim Meeting - その1 #janog (6ページ目) - Togetter
- ハードウェア障害 (道路陥没事故に伴うケーブル切断・通信障害)
GitLab.comが操作ミスで本番データベース喪失。5つあったはずのバックアップ手段は役立たず、頼みの綱は6時間前に偶然取ったスナップショット－ Publickey
- 2017/02
- 過負荷→オペミス (スパムで生じた大量のデータ書き込みがセカンダリデータベースでオンタイムに処理できなかった → 再度レプリケーション実行 → オペミスしてデータ喪失)
- 復旧作業の中継したことで話題になりました : GitLab復旧実況中継 #savegitlab - Togetter
Amazon S3ダウンの原因、コマンドの入力ミスで多数のサーバを削除。サブシステム再起動に時間がかかり障害が長引く。AWSの報告を読み解く－ Publickey
- 2017/03
- ヒューマンエラー? (デバッグ作業中のコマンド入力ミス→サーバ多数削除)
- AWS、S3の大惨事の原因を公開―ヒューマンエラーが発端だった | TechCrunch Japan
Nielsen Data Center Outage Delays Weekend TV Ratings | Data Center Knowledge
- 2017/03
- ハードウェア障害 (停電)
Azureの東日本リージョンが7時間にわたってダウン。原因はデータセンターの冷房が失われ自動シャットダウン。日本のリージョンはこの1カ月で三回目の障害－ Publickey
- 2017/04
- ヒューマンエラー? ("N+2で稼働する電源供給システムの故障に伴って実施された、電源復旧のオペレーションの問題")
ニュース - CARDNETのクレジット決済に6時間強障害、原因はL3スイッチ故障：ITpro
- 2017/04
- ハードウェア障害(L3スイッチ故障→待機系に偏ったことでトラフィック集中・輻輳発生)
- ここまではよくあるシステム障害かな、と思うのですが、個人的に気になっているのはその後日立の「システム稼働リスク可視化ソリューション」の試行開始　～AIによるネットワーク監視～こういうニュースが出たってあたりなんですよね。この辺の新しい技術の有効性が今後どう使われていくかな…ってところ。
ブリティッシュ・エアウェイズ社長、ヒューマンエラーによる停電を認める | Data Center Cafe
- 2017/06
- ヒューマンエラー (作業員が許可されていない電源設備操作を実行して停電?)
ZOZOTOWN、システム障害で26時間利用不可に　現在は復旧　データベース上のトラブルが原因 - ねとらぼ
- 2017/06
- ソフトウェア障害? (データベース上のトラブル)
ニュース - ローソンの「e発送サービス」再開、日本郵便のシステム障害発生から4カ月ぶり：ITpro
- 2017/06-10, 6月に障害があって4ヶ月止まっていました。
- ソフトウェア障害? ("日本郵便のサーバーで同時アクセス制御に不具合があったことによる")
富士通のシドニーデータセンターで5時間の停電が発生 | Data Center Cafe
- 2017/08
- ハードウェア障害 (停電) 停電の原因等については詳細不明。
- もともと落雷による停電をうけて機器アップグレードをしていたそうな… : 富士通、オーストラリアのデータセンター４施設をTier 4にアップグレード | Data Center Cafe
ネットワークケーブルの切断でソマリアに数百万ドルの損失 | Data Center Cafe
- 2017/07
- ハードウェア障害 (コンテナ船がアンカーを光ケーブルに引っ掛けた)
ニュース解説 - 北朝鮮のミサイルを警告できず、Jアラート障害の原因は設定ミス：ITpro
- 2017/08-09
- ヒューマンエラー (メール設定ミス)
英国・サウスロンドンで大規模なブロードバンド接続障害、原因はネズミ | スラド idle
- 2017/08
- ハードウェア障害 (ネズミがケーブルをかじった)
  - この記事あるいはコメント内で言及されていますが、カタツムリや日本だとセミによるトラブルなどもあるそうで…
ネットワーク機器を一括管理するクラウドサービスのCisco Meraki、オペミスでユーザーデータを削除。現在復旧作業中－ Publickey
- 2017/08
- ヒューマンエラー (オペミスによるユーザデータ削除)
沈黙のGoogleと過熱するメディア、2017年8月世界的ネットワーク障害の全貌をまとめた (1/3) － TechTargetジャパンクラウド
- 2017/08
- BGPルート漏洩による広域通信障害。日本で複数事業者にまたがる通信障害が起きたため話題になりました。
- 2017年8月25日の大規模インターネット障害:Geekなぺーじ
- 8月25日に発生した大規模通信障害をまとめてみた - piyolog
- ネットワークアーキテクチャ考 (21) 「HW ベンダーは何故怒られるのか」
- パブリックデータから経路リークを探る - LGTM
- (10) 【KOF2017講演会】日本のインターネットが揺れた日 - YouTube "Google謝罪"記事を書いた記者の講演
- 08/25の通信障害概説 Matsuzaki 'maz' Yoshinobu (pdf)
SEA-ME-WE3海底ケーブル、台風で切断される | Data Center Cafe
- 2017/09
- ハードウェア障害 (台風による海底ケーブル切断)
ニュース - ソネットの通信障害、原因は「中継機器への大量アクセス」：ITpro
- 2017/09
- 詳細不明…DDoS? ("中継機器への大量アクセス")
ニュース - 北洋銀行でシステム障害、ネットワーク機器の障害で窓口業務が1時間半できず：ITpro
- 2017/09
- ハードウェア障害? (社内ネットワークが Active-Standby で Active 側障害の後稼働系へ切り替わらなかった?)
- 北海道出身なものでちょっと気になりました。
経済産業省の旅費等システムのデータ消失について : 富士通
- 2017/09
- ヒューマンエラー (バックアップを取らずに作業)
- ソースは NHKのニュース記事だったんだけど記事消えてしまいました。
Linode社、未だ自社データセンターに問題を抱える | Data Center Cafe
- 2017/10
- 詳細不明だがネットワーク機器障害(機器OSバグ)だったようだ ("ハードウェアとソフトウェアの両方に障害が発生したことによって、両冗長ルーターの転送テーブルが誤作動を起こし、それが「ブラックホールルーター化」、または、一部のユーザートラフィックが知らないところで破棄される障害が発生")
  - Linode Status - Emergency Network Maintenance in Frankfurt この辺かと思われる。2017/10月で一連の緊急メンテ等の記事が歩けど月単位とかでまとめる URL がつかないので…。
防火システムの事故により、Microsoft Azureが一時停止 | Data Center Cafe
- 2017/10
- ハードウェア障害? ("消火システムのメンテナンス作業時に予期せぬ不活性ガス漏れが発生" → "ガス漏れが発生した際は周囲温度は通常の設定値よりも上昇したため、一部システムがシャットダウン")
  - ING銀行の事例も参照のこと (ガス噴射衝撃音による機器破損)
ビットコイン、「過去最高のトラフィック」で取引所がダウン —— 一時9000ドルまで下げるも回復 | BUSINESS INSIDER JAPAN
- 2017/11
- 過負荷
Slack、11月1日に発生した大規模障害の原因は、定期デプロイによるソフトウェア障害が原因－ Publickey
- 2017/11
- ソフトウェア障害 (提起デプロイされたソフトウェアによる問題でサービス接続障害発生)
Comcast's nationwide outage was caused by a configuration error
- 2017/11
- Comcast Suffers Outage Due to Significant Level 3 BGP Route Leak
- BGPルート漏洩による広域通信障害
作業員がつるはしでケーブルを切断、UKFastがサービス停止に | Data Center Cafe
- 2017/12
- ヒューマンエラー

おわりに

個人的な所感としてはこんな感じです。

相変わらず DC 設備系のトラブルはおきる : 停電・ケーブル切断などファシリティ・設備レベルの話はやっぱりゼロにはならない。
パブリッククラウド・クラウド上のサービス(XaaS)ではソフトウェアで自動化されることによって障害が増幅される : 自動化してレバレッジをかける……一度に大量のサーバを操作したり処理を実行できる。ただ、これは誤った手順・オペミスのリスクを拡大する方向にも働く。実行するツールの選択ミス・パラメタ設定ミスなどをどう防ぐか → オペレーションの妥当性・正当性をどう保証するか、というのは課題になるだろう。それと大規模にやらかしたときにどうやって復旧するか、という話。両面での対策検討が必要になると思われる。
- 複数のサイト(リージョン)やサービスをまたがるような障害にどう対処するか?
ネットワークエンジニア的には、この 1-2 年は BGP 操作による大規模障害が目立つのが気になるところ。とはいえこれ、upstream でやられちゃうと、エッジにいる側からはなかなか対処ができないんだよな。せめて問題検知や切り分け・状態の把握を早期にやれるようにするくらいか?