大規模障害の復旧はなぜ遅れた、カカオが明かした3つの理由=韓国(画像提供:wowkorea)
大規模障害の復旧はなぜ遅れた、カカオが明かした3つの理由=韓国(画像提供:wowkorea)
10月15日午後3時19分に発生したカカオの大規模障害は、完全復旧まで127時間33分の時間を要した。これほど復旧に時間がかかった理由は何だろうか。

カカオ非常対策委員会の原因調査小委員会長を務めた、グラブのイ・ファクヨン最高経営責任者(CEO)は7日、いくつか理由を説明した。

最初に言及したのは、データセンター間での二重化問題だ。イCEOは「一部システムがパンギョ(板橋)データセンター内でのみ二重化されていたため、復旧に時間がかかった」と指摘した。

サービス運営にかかわる多くのシステムで使われるキャッシュサーバーやオブジェクトストレージが、板橋データセンターにのみ設置されていた。カカオのログインやカカオトークの写真転送機能の復旧が遅れた原因だ。

2つ目は、サービスを開発・管理するのための運営管理ツールの冗長化が不足していた点だ。イCEOは「コンテナイメージを保存、管理するシステムや一部モニタリングツールなどを火災の影響で利用できなくなり、復旧が非常に困難だった」と説明した。

3つ目は、1か所のデータセンターで起きた全体的な障害に対応する人員と支援が十分ではなかった点だ。イCEOは「運営管理ツールを復旧する人材不足などは致命的だった」と指摘した。

これに加えて「カカオとその共同体、開発組織で一斉に障害に対応したが、全体的な調整や共同作業をバックアップできる、全社的な組織が設置されていなかった」と、司令塔の不在も指摘している。


Copyrights(C) Edaily wowkorea.jp 101