• 我的订阅
  • 科技

怎么让系统或平台在发生意外故障后仍能不间断地运行?

类别:科技 发布时间:2024-01-15 11:45:00 来源:浅语科技

相信不少人在生活中都接触过所谓的“故障场景”,而这些“故障”的出现,无疑给用户和企业都带来了一定的不良影响。那么,怎么让系统或平台在发生意外故障后仍能不间断地运行呢?这篇文章里,作者讨论了容灾方案的规划与设计,一起来看。

日常生活当中,我们经常会接触到因平台系统故障服务无法正常访问的情况。在过去的一年,很多头部游戏、生活服务类产品接连爆出宕机事故,因为涉及面广、影响范围大,产生了很多“名场面”,在网络上也是被频繁的讨论。

产品经理在规划系统和设计容灾方案时,需要从数据安全、业务稳定、经济可行等角度出发,考量各种故障场景,明确产品或系统应保持的容灾级别或范围,通过架构升级、建立容灾响应机制等手段,保证在发生意外故障后,业务系统仍能不间断地运行。

本文也是结合自身工作当中接触到的的一些云平台容灾经历,做了部分归纳整理,供相互学习和交流。

一、常见的故障场景

一般平台产品故障场景主要包括单产品故障、服务器断电或断网和硬件故障场景。当然也存在一些其他的原因,像编码的逻辑问题或漏洞、用户的运行环境和生产环境功能不一致等问题,这类情形一般是流程管控上的瑕疵,通过加强制度审查,是能规避掉大部分潜在风险的。

1.单产品故障

单产品故障是指组成我们业务平台的某一项产品服务发生了管控故障,不能正常履行既定职能,导致服务中断的情况,故障主要包括以下场景:

产品部署的资源夯死,数据读写异常;

未知问题产生的进程阻断;

产品所在的容器异常;

服务器宕机,无法访问。

2.断电断网

断电场景主要是指支撑业务平台的服务器机房整体断电了或部分机柜断电了,从而导致的异常。

断网场景则是因为平台上行链路和数据中心出口设备故障产生了异常。

3.硬件故障

核心设备硬件损伤后无法恢复引起的故障。

二、明确容灾级别或范围

在规划产品或系统容灾方案过程中,首先要明确自身的具体需求,是要保障核心服务还是要保障所有服务,当故障发生后需要在多长时间内响应和处理问题,诸如此类的问题都要好好考虑清楚。

1.容灾级别

从容灾保障对象层面来看,容灾大致分为两个级别:平台级容灾和业务级容灾。平台级容灾仅实现核心的数据备份、核心服务的双活或主备,不涉及全量的业务应用。而业务级容灾则是在平台级容灾的基础上,根据业务系统的容灾需求,从业务系统网络层、应用层、数据库层等构建跨站点集群,以实现网络双活、应用双活、数据主从。

怎么让系统或平台在发生意外故障后仍能不间断地运行?

2.主备和双活

定义好容灾级别后,就要考虑具体的容灾形式。通常情况下可以考虑两种容灾方式,双活模式和主备模式。

主备模式是依托两套环境,一套为主环境,另一套作为备用环境。正常情况下由主环境系统提供服务,另一个环境系统不承担任何流量,数据在主备之间同步复制。只有在主环境生产系统瘫痪,备用环境系统才会切换启用。

双活模式同样也是两套环境的业务系统,和主备不同的是两个环境会同时处于运行当中,类似于负载均衡,流量指向可通过工具控制,数据同步也是实时的,所以也就无所谓谁是主、谁是备了。

以上提到的容灾级别和容灾形式是做容灾方案规划设计时需要去考虑的,当然所有落地的方案都要基于实际去考量,不过度规划,合适的才是最好的。

三、建立容灾响应机制

在明确实施路径后,还应在制定应急响应计划,其中有几个关键因素需要特别注意。

首先,确定合理且完整的演练方案和应急响应流程。制定的计划中要明确每个人的任务和职责,充分培训和训练演练的参与人员,使其能够熟练掌握操作技能和相关知识。

其次,应建立健全的沟通机制和协调机构,确保各个环节的信息和指令能够及时传达和执行。

1.容灾演练

容灾演练是为了最大程度降低因故障引起的影响,确保产品或系统可持续提供对外服务,持续不断的去完善故障恢复应急保障机制,检验故障发生后的快速恢复效果,提升运维人员的应急处置能力,验证容灾处理重大问题的能力,夯实产品或系统的运行基础。

验证故障恢复处置能力,包括故障发现、故障处置、故障恢复等;

熟悉故障发生时的应急操作,锻炼运维团队应急能力;

根据容灾演练结果,逐步沉淀形成故障应急预案指导手册,形成标准化的应急处置流程。

2.容灾演练流程

容灾演练流程主要包括演练切换阶段、演练回切阶段和演练总结阶段。演练切换阶段包括演练准备与环境检查、模拟故障、容灾切换和结果验证;演练回切阶段主要包括故障恢复、检查恢复结果、容灾切换(回切)和结果验证等;演练总结阶段包括演练问题消缺、容灾方案完善、演练数据整理和产品消缺等工作。

最后

在规划设计容灾方案的时候,一定要考虑清楚想要的是什么,结合业务的具体需要,并不是越高大上越好。选定方案要综合考虑到成本、架构、业务诉求等诸多方面,选择更合适、更有性价比的方案,容灾是手段,系统稳定运行是目的。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-01-15 15:45:35

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

1.6万块H100训Llama 3.1,每3小时故障1次!罪魁祸首竟是GPU和HBM3显存
...程中,其运行的1.6万个GPU训练集群每3小时就会出现一次故障,意外故障中的半数都是由英伟达H100 GPU和HBM3内存故障造成的
2024-07-30 09:39:00
挽救工厂每年意外停机的千亿损失,这家公司给工业设备提前“看病”|产品观察
...较轻微的后果,对于风电厂、化工厂和钢铁厂而言,设备故障有可能造成大型事故的发生,损失更为巨大。中国工业如火如荼发展的数十年间,对于工业设备的监测仍以人工为主。过去,工厂的工业
2022-12-31 16:05:00
探访滴滴总部:有员工称系统崩溃时内网也崩了
...通明,滴滴员工陆续下班。对于昨日、今日为何出现网络故障,多位下班的员工表示并不了解原因,但也有滴滴员工对记者表示,“听说是机房挂了。”该员工猜测更多与运维有关,因为涉及稳定性
2023-11-29 11:43:00
世界人工智能大会 | “AI+轨交”更安全更韧性更高效
...动自适应策略,降低行车风险。面对轨交信号系统的突发故障,利用泛在感知技术和自主安全防护系统,列车能以全自动模式运行至站台,避免在轨道区域久留,确保在站台的乘客安全…… 上述
2024-07-01 09:13:00
...消站点12个,截至2022年底,全市共有救援站245个。门系统故障和人为原因在电梯故障中占比较大。其中门系统故障5004起
2023-01-12 07:35:00
...丽水市莲都区供电公司对10千伏太平144线安装配网行波型故障预警与定位系统终端装置。此次为该公司首次试点在配网线路上安装该系统。此次试点的10千伏太平144线为山区线路。该线
2023-12-07 17:48:00
第一人民医院实现智慧医院信息化系统一体化运维,监控易保障医疗服务质量
...运维平台,该平台可以集成各个系统的监控、配置管理、故障诊断和性能优化等功能。通过统一的平台,运维人员可以对整个系统进行全面的监控和管理,快速发现和解决问题,有效减少系统的故障
2023-08-21 16:00:00
“白菜价”机票尴尬了谁?南航系统故障的背后是管理故障
...票价低至30元以下。南航客服回应称,超低价机票是系统故障导致的。9日,南航公告称,“11月8日晚间在系统异常期间南航售出的所有机票(支付成功并已出票)全部有效”,在回应了社会
2023-11-14 10:56:00
“故障减一分,安全就多一分”
...自:中国气象报中央气象台信息系统运行科科长李伟:“故障减一分,安全就多一分”图为李伟正在紧盯综合业务智能感知平台图文/刘蕊2022年10月中旬,因突发疫情,中央气象台多数预报
2022-12-27 09:18:00
更多关于科技的资讯: