顧客データ消失など大規模な障害が発生したファーストサーバーより「大規模障害の概要と原因について(中間報告)」が公表されています。
「更新プログラム自体に不具合があったことに加えて、検証環境下での確認による防止機能が十分に働かなかったことと、メンテナンス時のバックアップ仕様の変更が重なり、今回のデータの消失(バックアップデータの消失を含む)が発生いたしました。」とまとめられています。具体的には、以下のようにいくかの障害が積み重なって被害が広がったようです。
- (脆弱性対策の)更新プログラムの不具合(ファイル削除コマンドを停止させるための記述漏れ、範囲指定もれ)により本番全サーバーのデータが削除される。
- バックアップにも同時に更新プログラムが適用される仕様だったため、バックアップ全サーバーのデータも削除される。
素人ですがバックアップと本番同時にプログラム走らせるのはちょっと怖い気がしました。