先週2012年12月5日にZohoサービスへのアクセス障害が発生し、アクセス時のパフォーマンスが著しく低下しました。数時間の間、接続が断続的にしかできない状態が続き、その後回復しました。
アクセス障害の間、多くのユーザーの皆様にご不便とご迷惑をおかけし、大変申し訳ありませんでした。深くお詫び申し上げます。
本記事では、ZOHO CorporationのCEOであるSridhar Vembuより、障害が起きた経緯と今後の対応策についてお知らせいたします。
——————————————————————————————————————-
まず、問題が発生した時間は、日本時間の2012年12月5日午後9時(太平洋標準時間の午前4時)頃です。この時間帯から、当社のカリフォルニアの第一データセンターにおいてパケットロスが発生しました。パケットロスが徐々に発生したため、障害が発生した具体的な時点を特定するのは難しいのですが、この時間帯にZohoサービス全体へのアクセスにおいてパフォーマンスが低下し始めました。
パケットロスは徐々に拡大しましたが、ネットワーク上のすべての機器は正常通りに動いているように見えたため、当初、運用担当者による調査においても原因の特定ができていませんでした。
トラフィックの量はそれまでと比べて特に多いわけでもなく、その時点でのトラフィックよりはるかに多いトラフィックをこれまでに経験したこともありましたが、その時は特に問題はありませんでした。
また、閲覧専用のバージョンを提供しているニュージャージーのデータセンターも問題なく動作していました。このため、第一データセンターでの障害発生中の間、ユーザーの皆様には閲覧専用のバージョンをご利用頂くようにお願いしました(なお、今後、すべてのZohoサービスについて閲覧専用のバージョンを提供していく予定です)。
原因の特定が中々できなかったため、仮説を立てて検証を進めました。調査の結果、すぐに、外部へのインターネット接続が原因ではないことが分かり、当社内部のネットワークに問題があると判断しました。
ネットワーク上の各箇所について調査を進め、冗長化しているファイアーウォールとコアスイッチについても調査しました。
この間、カリフォルニアのデータセンター内のサーバーは通常通り動作していたため、問題はネットワークにあると切り分けの判断を行いました。
さらに調査を進めた後、専用線を用いて別のデータセンターからカリフォルニアの第一データセンターへとルートを変更することを決定しました。この措置により、サービスに接続できるようになりました。
この措置の結果、ユーザーの皆様からのトラフィックがカリフォルニアのサーバーによって処理されることは従前と同じだったのですが、まずニュージャージーのデーターセンターに到達した後、専用線を通じてカリフォルニアのデータセンターに到達する形となりました。
ここで、なぜこの措置を行うのに時間がかかったか説明したいと思います。ファイアーウォールとスイッチのレベルでは冗長化を行っていましたが、問題の切り分けの体制が十分にできておらず、その場で様々な仮設を立てて調査する必要がありました。
また、トラフィックの経路を変更する(ニュージャージーのデータセンターを通じてカリフォルニアのデータセンターに到達する)ように設定し、テストする必要がありました。こうした措置をそれまでに想定していなかったため、問題が発生している中で対応する必要があり、担当者にプレッシャーとストレスがかかりました。
この経験から当社が学んだことについて、まず、今回の問題はリーダーシップにおける失敗であり、最終的には会社のCEOである私の責任であると考えています。
これまでに行っていた準備は適切ではありませんでした。例えば、ニュージャージーのデータセンターを通じてカリフォルニアのデータセンターに到達するようにルートを変更するような措置を事前に想定してシミュレーションしていませんでした。
もしこの準備を行っていたら、数時間もかかることなく、数分で障害を復旧できていたと思います。予測や準備を行っていない中で緊急事態が発生してしまったのです。
今後の対応に関してですが、このようなケースを想定してシミュレーションを行い、それに対応するための準備を行う活動を立ち上げました。すでに先週末以来、専用の担当者がこれらの件に対応を行っています。
また、日々の運用とは別に、障害対応への準備に専任であたることができるように組織を変更しています。これまではそれらの2つを同じチームで扱っていたため、緊急事態が発生した時に対応が遅れてしまっていました。
最後に、Zohoへのトラフィックが減少するクリスマス休暇中にネットワークのアップグレードを予定しています。今回の障害により、アップグレードの緊急性がより高まったと考え、2-3週間の間、作業を止めずにアップグレードの対応を行い、早急に終わらせるように計画しています。もちろん、アップグレード中もサービスを利用し続けられることを最優先として対応いたします。
2012年に起こったことに鑑みると、当社が果たすべきと考えている高い水準には達していません。また、ユーザーの皆様に大変不便な経験をさせてしまったことを誠に申し訳なく感じております。2013年にはこのようなことが再発しないように対応を進めます。
ZOHO Corporation CEO
Sridhar Vembu(シュリダー・ベンブ)
——————————————————————————————————————-
なお、このブログは、英語版の Zoho Blogs の記事翻訳・加筆・修正したものです。
元の記事:About The Zoho Outage on December 5th and Next Steps