造成数据中心故障宕机2大灾害因素及3大应对策略
通常来说,自然灾害主要包括洪涝、地震、火灾、台风、低温和雪灾、地质灾害等,极有可能造成房屋受损,或水电、交通等不畅。自然灾害以前曾是导致数据中心出现宕机或停服的主要原因。比如,2021年7月那场发生在郑州的百年未遇的大雨。2021年7月20日,郑州一小时最大降雨量达到201.9毫米,突破历史极值。因为大雨,导致城市基础设施建设受损、断电或者建筑物进水,一些第三方的数据中心服务商因其机房受到影响,而导致服务中断。
导致数据中心宕机主要有两大类情况:一是自然灾害,使得服务器、存储等IT设备,以及相关机房物理基础设受损,从而导致服务中断;二是人为的原因,比如管理员误操作、软件故障或者是恶意破坏行为(如勒索软件或病毒),也可能导致服务中断。
从近几年全球曝光的数据中心重大灾难性事件来看,因为自然灾害,比如火灾、物理设备故障等导致的停服事件,我们听说的似乎在减少。毕竟自然灾害相对来说还是小概率事件。另一方面,由于人们防灾减灾的意识不断增强,无论是在提前预测灾难性事件,还是在应急响应方面,都做了大量努力和工作,将因自然灾害导致的负面影响降得更低。
此外,人们在数据中心的规划和建设方面,越来越科学和规范化、标准化。比如在数据中心的选址方面,会选择远离地震带,而且水电和制冷资源丰富的地方,数据中心建筑物也是专门设计、独立建设的,而不是在一些写字楼的基础之上改造而来。数据中心内的设备也做了充分的冗余设计。很多企业平时也十分注重灾备演练。上述这些有效的措施,大大降低了因自然灾害导致的服务中断的可能性。
但是让我们不得不警醒的是,因人为原因造成的数据中心故障或宕机,成了影响业务连续性的最大“短板”。
NEWS
2023年1月,Kaseya旗下的IT文档软件厂商IT Glue报告称,在进行紧急数据库维护时,导致服务中断。
NEWS
2023年5月,微软Azure DevOps服务因一个简单的拼写错误致使17个生产数据库被删除。此次事故导致Azure DevOps服务在巴西南部地区停运了约10小时。
NEWS
2024年4月,国内某知名云服务商曝出服务故障,表现为接口响应报错和网页显示504错误,影响范围覆盖全国。服务中断近87分钟,据说是云API服务异常所导致。
NEWS
2024年6月,澳大利亚养老金巨头UniSuper的服务器发生中断,原因是 Google Cloud在配置UniSuper私有云期间出现了错误,导致该基金的Google Cloud账户被大规模删除,甚至删除了UniSuper在其他地方的备份数据。此次宕机持续了大约一周时间。
NEWS
近日又有消息曝出,东南亚某国国家数据中心遭勒索软件变种攻击,由于该数据中心超98%的数据未做数据备份,导致数据一时无法恢复。
从这些事件中可以看出,不当的数据删除、系统维护或升级过程中的误操作、备份不健全、勒索软件等恶意攻击行为等,是造成数据中心或云服务中断的主要重要。有统计显示,大约七成以上的数据中心事故都是由人为因素造成的。因为技术的进步、工作负载的增加,数据中心整个系统越来越庞大和复杂,这给日常的运维运营造成了极大的压力。另外,以勒索软件为代表的网络安全威胁愈演愈烈,成了数据中心正常运行的“不定时炸弹”。
找到病症,然后对症下药。既然人为因素是造成数据中心和云服务中断的最主要原因,那么在平时的系统运维以及灾备系统建设和实施的过程中,就应该针对各种可能造成事故的人为因素进行深入分析,找出有效的应对之策。
灾备意识要进一步增强
企业不仅要知其然,更要知其所以然,针对有可能导致数据中心故障或云服务宕机的各种因素进行充分分析,然后制定万全之策。千万不能有任何侥幸心理。企业管理层不仅要有极强的安全和灾备意识,更要督促企业各层级按照统一要求,将灾备和安全防御措施落实到位,责任到人。
灾备演练不能成为摆设
由于人力、成本、时间或者实施难度等问题,有些企业可能制定了灾备演练计划,但是没有严格按照既定的周期和目标完成演练。这样很容易导致在灾难或故障发生时,不敢切换或不能切换,让灾备建设流于口头,而不能充分发挥其实际作用。现在,国内的一些灾备厂商,比如英方软件、美创科技、科力锐等,在灾备一体化,尤其是灾备的管理上,做了进一步增强、优化,让用户可以低成本、更容易、更智能地实施灾备演练,并对整个灾备流程进行统一智能高效地管理。
网络韧性(网络弹性),是必须补上的一课
如今,网络攻击越来越猖獗,尤其是勒索病毒,针对性强、破坏性大。许多数据保护、灾备厂商,也都开始将提升“网络韧性”纳入了整体战略和解决方案中,比如VERITAS、Commvault、戴尔科技等。
运维管理常态化
建设一个灾备系统容易,但是在长期的系统日常运营维护中,少出错、不出错,最大程度地保证业务连续性,这是每个企业必须直面的挑战。企业不仅要在思想上重视起来,更要在公司制度、人才培养和使用、技能提升,甚至在外包服务的选择上,都要认真思考并严格执行。
导致数据中心宕机主要有两大类情况:一是自然灾害,使得服务器、存储等IT设备,以及相关机房物理基础设受损,从而导致服务中断;二是人为的原因,比如管理员误操作、软件故障或者是恶意破坏行为(如勒索软件或病毒),也可能导致服务中断。
从近几年全球曝光的数据中心重大灾难性事件来看,因为自然灾害,比如火灾、物理设备故障等导致的停服事件,我们听说的似乎在减少。毕竟自然灾害相对来说还是小概率事件。另一方面,由于人们防灾减灾的意识不断增强,无论是在提前预测灾难性事件,还是在应急响应方面,都做了大量努力和工作,将因自然灾害导致的负面影响降得更低。
此外,人们在数据中心的规划和建设方面,越来越科学和规范化、标准化。比如在数据中心的选址方面,会选择远离地震带,而且水电和制冷资源丰富的地方,数据中心建筑物也是专门设计、独立建设的,而不是在一些写字楼的基础之上改造而来。数据中心内的设备也做了充分的冗余设计。很多企业平时也十分注重灾备演练。上述这些有效的措施,大大降低了因自然灾害导致的服务中断的可能性。
但是让我们不得不警醒的是,因人为原因造成的数据中心故障或宕机,成了影响业务连续性的最大“短板”。
NEWS
2023年1月,Kaseya旗下的IT文档软件厂商IT Glue报告称,在进行紧急数据库维护时,导致服务中断。
NEWS
2023年5月,微软Azure DevOps服务因一个简单的拼写错误致使17个生产数据库被删除。此次事故导致Azure DevOps服务在巴西南部地区停运了约10小时。
NEWS
2024年4月,国内某知名云服务商曝出服务故障,表现为接口响应报错和网页显示504错误,影响范围覆盖全国。服务中断近87分钟,据说是云API服务异常所导致。
NEWS
2024年6月,澳大利亚养老金巨头UniSuper的服务器发生中断,原因是 Google Cloud在配置UniSuper私有云期间出现了错误,导致该基金的Google Cloud账户被大规模删除,甚至删除了UniSuper在其他地方的备份数据。此次宕机持续了大约一周时间。
NEWS
近日又有消息曝出,东南亚某国国家数据中心遭勒索软件变种攻击,由于该数据中心超98%的数据未做数据备份,导致数据一时无法恢复。
从这些事件中可以看出,不当的数据删除、系统维护或升级过程中的误操作、备份不健全、勒索软件等恶意攻击行为等,是造成数据中心或云服务中断的主要重要。有统计显示,大约七成以上的数据中心事故都是由人为因素造成的。因为技术的进步、工作负载的增加,数据中心整个系统越来越庞大和复杂,这给日常的运维运营造成了极大的压力。另外,以勒索软件为代表的网络安全威胁愈演愈烈,成了数据中心正常运行的“不定时炸弹”。
找到病症,然后对症下药。既然人为因素是造成数据中心和云服务中断的最主要原因,那么在平时的系统运维以及灾备系统建设和实施的过程中,就应该针对各种可能造成事故的人为因素进行深入分析,找出有效的应对之策。
灾备意识要进一步增强
企业不仅要知其然,更要知其所以然,针对有可能导致数据中心故障或云服务宕机的各种因素进行充分分析,然后制定万全之策。千万不能有任何侥幸心理。企业管理层不仅要有极强的安全和灾备意识,更要督促企业各层级按照统一要求,将灾备和安全防御措施落实到位,责任到人。
灾备演练不能成为摆设
由于人力、成本、时间或者实施难度等问题,有些企业可能制定了灾备演练计划,但是没有严格按照既定的周期和目标完成演练。这样很容易导致在灾难或故障发生时,不敢切换或不能切换,让灾备建设流于口头,而不能充分发挥其实际作用。现在,国内的一些灾备厂商,比如英方软件、美创科技、科力锐等,在灾备一体化,尤其是灾备的管理上,做了进一步增强、优化,让用户可以低成本、更容易、更智能地实施灾备演练,并对整个灾备流程进行统一智能高效地管理。
网络韧性(网络弹性),是必须补上的一课
如今,网络攻击越来越猖獗,尤其是勒索病毒,针对性强、破坏性大。许多数据保护、灾备厂商,也都开始将提升“网络韧性”纳入了整体战略和解决方案中,比如VERITAS、Commvault、戴尔科技等。
运维管理常态化
建设一个灾备系统容易,但是在长期的系统日常运营维护中,少出错、不出错,最大程度地保证业务连续性,这是每个企业必须直面的挑战。企业不仅要在思想上重视起来,更要在公司制度、人才培养和使用、技能提升,甚至在外包服务的选择上,都要认真思考并严格执行。
获取最新价格?我们会尽快回复(12小时内)