DC/クラウド/通信事業者サービスの障害事例よせあつめ - # cat /var/log/stereocat

はじめに

データセンタ障害の話題がちらほら流れておりますが、その中で見かけた「データセンタでそんな障害あったら意味ねえじゃん」みたいなコメントにちょっと引っかかるところがありまして。まあ確かに電源の二重化云々とかいろいろ災害やトラブルに対する対策はしてますよ。してますけど、でもデータセンタ・オーダーの障害とかも実際あるんですよね。落ちるときは落ちるんですよデータセンタだろうと。信頼性は高いけど100%じゃない。

ということで、じゃあ過去どんな事例があったのか、ざっと事例を挙げてみようと思いました。基本的には過去の私のツイートとかはてブとかネットをざーっと検索して出てくるものを取り上げています。「データセンタ使ってるからオールオッケー」みたいな話ではなくて、その上で・さらにこういうこともあるんだ、という話を見るのに参考にしてもらえれば良いかと思います。

なお、ここで取り上げている事例は、特定の会社やサービスをdisる意図で挙げているのではありません。

DC持ってるところだと、何らかの大規模障害の経験があるところはそれなりにあるんだと思うんですけど、それが特定ユーザ向けとかある程度影響範囲が「握れる」場合、外に情報が出てこなかったりするんですよね(特にエンタープライズ系だとね)。そうなると表に出ている範囲って、複数(多数)のユーザに影響があって、公開せざるを得なかった事例…ということになるかと思います。そういうところでちゃんと障害原因や事後対応について突っ込んだ情報を開示していることは、その企業/サービスの誠実さの表れだと思うのです。トラブルに対して責任ある対応をしているかどうか。

きっかけはデータセンタ(ファシリティ)障害についてですが、ファシリティ障害以外の話も含めて、データセンタ・その上に乗っているであろうクラウドサービスやキャリア(通信事業者)サービスなどの障害についての事例を取り上げています。

参考

こんなにあった！クラウド大規模障害まとめ - NAVER まとめ
システム障害事例情報の分析に基づく教訓・対策を共有する仕組み〜智の共有が安心・安全社会を創る〜重要インフラセキュリティセミナー 2014年12月4日独立行政法人情報処理推進機構（ＩＰＡ）技術本部ソフトウェア高信頼化センター（ＳＥＣ） (pdf)
- 情報システム障害の発生原因や状況など各種調査・分類など
JANOG35 ネットワーク災害訓練 BoF
- 柏崎先生。スライドだけ見てもわわからないと思うけど、災害訓練の話聞けるととても参考になると思う。

2016

[2016/01/31追記] github障害事例を追加

Data Center Power Outage Brings Down GitHub | Data Center Knowledge
- Update on 1/28 service outage
- ハードウェア故障(電源設備故障)
- "A brief power disruption at our primary data center caused a cascading failure that impacted several services critical to GitHub.com's operation." (プライマリデータセンタで発生した停電が連続した障害を引き起こし…)
GMO、先週の24時間にわたるサービス障害時にはデータセンター内の約12％が電源喪失。変圧分電盤故障が原因の可能性。監視体制の強化など対策 − Publickey
- ハードウェア障害(電源設備故障)

おわりに

ということで、まあいろいろありますね…。特に二重障害の発生や、切替・片寄せにともなう高負荷状態の発生と連鎖(将棋倒し)とか、もうこれどうしろって言うんですか的な事例とかもある。publickeyの記事タイトルにもあるみたいに、こうしたことを踏まえてそれでも動くシステムを考えようと思うと、サービス/DC/リージョンをまたいで冗長化するようなシステムを考えないといけなかったりするってことですね。まあパブリッククラウド上でのシステムを作る場合はもちろんそこらへんまで考えるよね、という話になってきてると思いますが…。

ともかく、予期しないことが起こりうるという心構えは持っておきたいものです。

そのほかこういう事例もあるで、というのがあったら教えて下しあ。

はじめに

参考

2016

2015

2014

2013

2012

2011

2009

2006

おわりに