灾难规划、服务器恢复与迁移指南
测试响应计划
拥有一个灾难恢复计划固然重要,但只有经过实际测试,它才真正具有价值。显然,测试计划的最佳时机是在你方便且可控的条件下,而不是在实际灾难发生时。在可控条件下测试时发现详细的灾难恢复计划存在致命缺陷,这只是一件麻烦事;但在分秒必争的灾难时刻发现问题,那就不仅仅是麻烦了。
由于资源限制,你无法对灾难恢复计划中的所有内容进行测试。即使是大型组织,也难以创建完全逼真的模拟自然灾害并在可控条件下测试应对措施,小型企业更是如此。不过,你仍可以采取一些方法来测试响应计划。具体的测试细节取决于你的环境,但应尽可能进行逼真的测试,并覆盖响应计划的各个方面。
测试灾难恢复计划的另一个原因是它为团队提供了宝贵的培训机会。如果你已经确定了主要资源和备用资源,那么备用资源人员可能在特定领域的技能和知识不如主要资源人员。通过测试流程,你可以同时对备用资源人员进行培训。
此外,你还可以利用测试对非主要响应团队的人员进行交叉培训。这样不仅能让他们获得宝贵的培训,还能建立一个知识储备库。这些人员在实际执行恢复程序时可能不是直接需要的,但他们可以作为与其他人员的关键沟通者。
持续迭代计划
完成一个特定的灾难恢复计划后,你的工作并未结束。标准化流程只是第一步,你需要不断寻找改进的方法。
你应该定期与相关人员一起审查灾难恢复计划,确保其保持最新状态。每季度安排半天的异地会议是个不错的方式,既能提供结构化的审查流程,又能留出时间实际进行审查。利用这个机会全面审视整个灾难恢复计划,思考如何改进。同时,检查你的环境,了解自上次审查计划以来发生了哪些变化,如哪些设备已停用、添加了哪些新设备、软件有何不