マイクロソフトによると、先週西ヨーロッパの Windows Azure 顧客に影響を与えた障害は、システム構成のミスが原因であったという。
その結果、マイクロソフトのパブリッククラウドアプリケーションホスティングおよび開発プラットフォームは、木曜日に約2時間半にわたって利用できなくなりました。マイクロソフトは、影響を受けた顧客数については明らかにしていません。
問題となったのは、Azure ネットワーク インフラストラクチャにおける、連鎖的なネットワーク障害を防ぐために設計された「安全弁」メカニズムです。このメカニズムは、ネットワーク ハードウェア デバイスが受け入れる接続数を制限することで、ネットワーク障害の連鎖を防ぎます。

「今回のインシデント発生以前、需要の増加に対応するため、西ヨーロッパ地域に新たな容量を追加しました。しかし、検証プロセス中に、対応するデバイスの制限が新たな容量に合わせて調整されていませんでした」と、Windows Azureゼネラルマネージャーのマイク・ニール氏はブログ投稿で述べています。
影響を受けたクラスタの使用量が急増し、「安全弁」の閾値を超え、ネットワーク管理アラートが大量に発生しました。「管理トラフィックの増加により、クラスタの一部のハードウェアデバイスにバグが発生し、CPU使用率が100%に達し、データトラフィックに影響を与えました」とニール氏は記しています。
バグを潰す
当時、マイクロソフトは影響を受けたクラスターの「安全弁」の制限値を引き上げることでこの問題を解決しました。再発を防ぐため、マイクロソフトはネットワークハードウェアデバイスで特定されたバグにパッチを適用するとともに、ネットワーク監視システムの改善も進めており、障害が発生する前に接続の問題を特定して対処できるようにしています。
フォレスター・リサーチのアナリスト、ジェームズ・ステイテン氏は、AzureのようなPaaS(サービスとしてのプラットフォーム)クラウドは非常に複雑で高度に自動化された環境であり、テスト環境では予測できない不具合が本番環境で発生することがあると述べています。「今回のケースはまさにその一つだと思われます」とステイテン氏はメールで述べています。
時間が経つにつれて、新機能や利用の増加、その他の要素が加わり、管理者は稼働中のシステムを調整して最適化する手順を踏まなければならなくなり、時には何かが壊れることもある、と彼は述べた。

「顧客が懸念すべき事態かと言えば、必ずしもそうではありません。これはクラウド環境で起こり得る事態の一例です。しかし、一般的な企業のデータセンターでは、はるかに深刻な事態が頻繁に発生しています」とスタテン氏は述べた。
クラウドでアプリケーションをホストすることを計画しているIT責任者や開発者は、アプリケーションをフォールトトレラントな構成で設計する必要があります。「これは、クラウド導入に着手する際に、ほとんどの開発者や企業の運用チームが理解する必要がある根本的な考え方の転換です」と彼は述べています。
「このような障害は、クラウド管理者とクラウド利用者の両方にとって、学習の機会となります。これらのインシデントをクラウドへの非難と捉えるのではなく、クラウドの利用方法を改善するための機会と捉えるべきです」と彼は付け加えました。
Juan Carlos Perezは、IDG News Serviceでエンタープライズ向けコミュニケーション/コラボレーションスイート、オペレーティングシステム、ブラウザ、そしてテクノロジー全般の最新ニュースをカバーしています。Twitterで@JuanCPerezIDGをフォローしてください。