Latest evidence-based health information
Airpods

アマゾン、ダブリンの停電後に冗長性向上を約束

アマゾン、ダブリンの停電後に冗長性向上を約束
アマゾン、ダブリンの停電後に冗長性向上を約束

アマゾン ウェブ サービス (AWS) は、ダブリンのデータセンターに影響を与えた障害から多くの教訓を学び、今後は電力の冗長性、負荷分散、クラウドに問題が発生した場合の通信方法の改善に取り組むと、同社はこの障害の概要の中で述べた。

事後調査では、Amazon EC2(Elastic Compute Cloud)、EBS(Elastic Block Store)、RDSデータベース、そしてAmazonネットワークの可用性に影響を与えた障害の原因をさらに詳しく調査しました。サービス障害は8月7日午前10時41分、Amazonの電力会社で変圧器の故障が発生したことに端を発しました。当初は落雷が原因とされていましたが、Amazonによると、電力会社は現在、落雷は原因ではないと考えており、調査を続けています。

アマゾン、ダブリンの停電後に冗長性向上を約束

通常、主電源が失われた場合、電気負荷はバックアップ発電機によってシームレスに引き継がれます。プログラマブルロジックコントローラー(PLC)は、発電機間の電力位相が同期していることを保証してから、電力供給を開始します。しかし、今回のケースでは、PLCの1つが大きな地絡事故のため、その役割を完了できず、Amazonによると、一部の発電機も故障したとのことです。

アマゾンは、このような障害の再発を防ぐため、PLC に冗長性と分離性を追加し、他の障害の影響を受けないようにすると発表した。

Amazonのクラウドインフラストラクチャは、リージョンとアベイラビリティゾーンに分かれています。リージョン(例えば、EU西リージョンとも呼ばれるダブリンのデータセンター)は、1つ以上のアベイラビリティゾーンで構成されており、同じリージョン内の他のゾーンの障害の影響を受けないように設計されています。Amazonは、複数のゾーンを使用することで信頼性を向上できると考えており、これを簡素化することに取り組んでいます。

Amazonによると、障害発生時、EU西部リージョンの複数のアベイラビリティゾーンでEC2インスタンスとEBSボリュームを個別に運用していたお客様は、サービス中断を経験しませんでした。しかし、障害の影響で管理サーバーが過負荷状態となり、リージョン全体のパフォーマンスに影響が出ました。

この問題の再発を防ぐため、Amazonはより優れた負荷分散を実装すると発表しました。また、過去数ヶ月にわたり、「EC2コントロールプレーンコンポーネントのさらなる分離を開発し、あるアベイラビリティゾーンでの遅延や障害が他のアベイラビリティゾーンへの呼び出し処理能力に影響を与えないようにしてきました」とAmazonは述べています。Amazonによると、この作業は現在も進行中で、完了までには数ヶ月かかるとのことです。

Amazonにとって最大の問題を引き起こしたサービスは、EC2インスタンスのデータ保存に使用されるEBSでした。このサービスは、耐久性と可用性を確保するために、ボリュームデータを複数のノードに複製します。障害発生後、ノードは相互に通信して変更を複製し始めました。Amazonにはこれに対応できる余裕容量がありましたが、今回はトラフィック量が多すぎて対応しきれませんでした。

1つのボリュームに関連するすべてのノードが電源を失った場合、Amazonはリカバリスナップショットを作成してデータを再作成する必要がある場合がありました。これらのスナップショットの作成プロセスは、すべてのデータをAmazon Simple Storage Service(S3)に移動し、処理を行い、スナップショットストレージ形式に変換し、ユーザーのアカウントからデータにアクセスできるようにする必要があったため、非常に時間がかかりました。

アマゾンによれば、8月10日午後8時25分(太平洋夏時間)までに、リカバリスナップショットの98%が配信され、残りの数件は手動による対応が必要だったという。

EBSに関してAmazonは、大規模な障害発生後の復旧時間を大幅に短縮することを目標としています。例えば、電源復旧時にデータを他の場所に移動することなく、EBSサーバー上で直接ボリュームを復旧できる機能を構築します。

ストレージ サービスの可用性は、停電だけでなく、ハードウェア障害が適切に処理されなかったことから始まった別のソフトウェア エラーや人的エラーによっても影響を受けました。

その結果、一部のデータブロックが誤って削除対象としてマークされました。Amazonによると、このエラーはその後発見され、データは更なる分析のためにタグ付けされましたが、プロセスにおける人によるチェックが不十分だったため、削除処理が実行されました。このような事態の再発を防ぐため、Amazonは新たなアラーム機能を導入し、異常な状況が発見された場合にAmazonに通知するようになりました。

ユーザーがこの規模の障害をどのように経験するかは、影響を受ける企業がユーザーにどれだけ最新の情報を提供しているかによっても異なります。

「お客様は、復旧の時期やその間の対応について当然ながら不安を感じています」とAmazonは述べている。同社はユーザーへの情報提供に最善を尽くしたが、改善できる点がいくつかあると認めている。例えば、サポートチームの人員増員ペースを加速させ、早期対応力をさらに強化することや、ユーザーが自分のリソースが影響を受けているかどうかをより簡単に判断できるようにすることなどが挙げられている。

同社は後者を実現するためのツールの開発に取り組んでおり、今後数か月以内に完成させたいと考えている。

Amazonは今回の障害について謝罪し、影響を受けたユーザーにサービスクレジットを付与します。EC2、EBS、RDSデータベースのユーザーには、10日分のサービスクレジットが付与されます。また、EBSソフトウェアのバグの影響を受けた企業には、EBSのご利用期間に相当する30日分のクレジットが付与されます。

クレジットは次回の AWS 請求書から自動的に差し引かれるため、ユーザーはクレジットを受け取るために何もする必要はありません。

ニュースのヒントやコメントは[email protected]までお送りください。

Otpoo

Health writer and researcher with expertise in evidence-based medicine and healthcare information.