
SkypeのCIO、ラース・ラベ氏は水曜日、同社のインターネット電話サービスが最近24時間停止したことについて率直な評価をブログ記事で示し、同社がネットワークをより強固にするために現在行っていることも説明した。
ラベ氏の投稿は企業としての謝罪でもあり、「今回の件で皆様のご期待に応えること、そして皆様とのコミュニケーションにおいて当社が不十分であったことは承知しております」と述べている。
多くのユーザーを対象とするSkypeサービスの障害は、12月22日午後4時(グリニッジ標準時)頃に始まり、23日の大半にわたって続いたとラベ氏は述べた。その水曜日、サーバー群が過負荷状態となり、一部のSkypeクライアントはサーバーからの応答が遅延した。Windows版Skypeクライアントの特定のバージョンでは、サーバーからの応答遅延によって処理に不具合が生じ、クライアントソフトウェアがクラッシュした。
影響を受けたSkype for Windowsクライアントのバージョンは5.0.0152で、ラベ氏によるとSkypeユーザーの約半数がこのバージョンを使用していました。クラッシュにより、これらのクライアントの約40%が機能不全に陥りました。そして、機能不全に陥ったクライアントの中には、Skypeのピアツーピアネットワークで重要なディレクトリサービスを提供していたシステムの4分の1から30%が含まれていました。
Skypeはこれらのいわゆるスーパーノードを迅速にオンラインに戻そうとしましたが、再起動後もこれらのシステムはしばらくの間ネットワークに接続できませんでした。その間、残りのスーパーノードへの負荷が他のシステムに限界を超え、さらに多くのシステムがシャットダウンしました。「これにより残りのスーパーノードへの負荷がさらに増加し、正のフィードバックループが発生し、トリガーイベントの数時間後にほぼ完全な障害が発生しました」とラベ氏は説明しました。
この問題を解決するため、Skypeのエンジニアは数百のSkypeインスタンスをピアツーピアネットワークに導入し、専用のスーパーノードとして機能させたとCIOは述べた。そのために、通常はグループビデオ通話で使用されるリソースを利用したため、サービスは一時的にオフラインになった。クリスマスまでに復旧したとラベ氏は記している。
Skypeは現在、ユーザーベースにクライアントソフトウェアを最新の状態に保つことに注力している。(ラベ氏は、同社が以前、影響を受けた(そして古い)Windows版Skypeのユーザーに、ソフトウェアのバグを修正するためのアップグレード版を提供していたことを指摘した。)さらにラベ氏は、「ユーザーに自動アップデートを提供するプロセスを見直せば、すべてのユーザーが最新のSkypeソフトウェアを利用できるように」なると付け加えた。また、テストプロセスの見直しによりソフトウェアの品質を向上させることも約束した。
Skypeチームが今回の障害にどのように対応したかについて、ラベ氏は、今後は問題をより迅速に検知し、大規模な混乱を未然に防ぐ方法を模索していくと述べた。また、障害発生後のシステム復旧までの時間を短縮することも目指しているという。
ラベ氏は、Skypeは「Skypeユーザーベースをサポートするコアシステムの容量を常に見直し、これらのシステムの容量と回復力の両方に投資し続ける」と約束した。