DC/クラウド/通信事業者サービスの障害事例よせあつめ

はじめに

データセンタ障害の話題がちらほら流れておりますが、その中で見かけた「データセンタでそんな障害あったら意味ねえじゃん」みたいなコメントにちょっと引っかかるところがありまして。まあ確かに電源の二重化云々とかいろいろ災害やトラブルに対する対策はしてますよ。してますけど、でもデータセンタ・オーダーの障害とかも実際あるんですよね。落ちるときは落ちるんですよデータセンタだろうと。信頼性は高いけど100%じゃない。

ということで、じゃあ過去どんな事例があったのか、ざっと事例を挙げてみようと思いました。基本的には過去の私のツイートとかはてブとかネットをざーっと検索して出てくるものを取り上げています。「データセンタ使ってるからオールオッケー」みたいな話ではなくて、その上で・さらにこういうこともあるんだ、という話を見るのに参考にしてもらえれば良いかと思います。

なお、ここで取り上げている事例は、特定の会社やサービスをdisる意図で挙げているのではありません。

DC持ってるところだと、何らかの大規模障害の経験があるところはそれなりにあるんだと思うんですけど、それが特定ユーザ向けとかある程度影響範囲が「握れる」場合、外に情報が出てこなかったりするんですよね(特にエンタープライズ系だとね)。そうなると表に出ている範囲って、複数(多数)のユーザに影響があって、公開せざるを得なかった事例…ということになるかと思います。そういうところでちゃんと障害原因や事後対応について突っ込んだ情報を開示していることは、その企業/サービスの誠実さの表れだと思うのです。トラブルに対して責任ある対応をしているかどうか。

きっかけはデータセンタ(ファシリティ)障害についてですが、ファシリティ障害以外の話も含めて、データセンタ・その上に乗っているであろうクラウドサービスやキャリア(通信事業者)サービスなどの障害についての事例を取り上げています。

2016

[2016/01/31追記] github障害事例を追加

2012

おわりに

ということで、まあいろいろありますね…。特に二重障害の発生や、切替・片寄せにともなう高負荷状態の発生と連鎖(将棋倒し)とか、もうこれどうしろって言うんですか的な事例とかもある。publickeyの記事タイトルにもあるみたいに、こうしたことを踏まえてそれでも動くシステムを考えようと思うと、サービス/DC/リージョンをまたいで冗長化するようなシステムを考えないといけなかったりするってことですね。まあパブリッククラウド上でのシステムを作る場合はもちろんそこらへんまで考えるよね、という話になってきてると思いますが…。

ともかく、予期しないことが起こりうるという心構えは持っておきたいものです。

そのほかこういう事例もあるで、というのがあったら教えて下しあ。