• 我的订阅
  • 科技

怎么让系统或平台在发生意外故障后仍能不间断地运行?

类别:科技 发布时间:2024-01-15 11:45:00 来源:浅语科技

相信不少人在生活中都接触过所谓的“故障场景”,而这些“故障”的出现,无疑给用户和企业都带来了一定的不良影响。那么,怎么让系统或平台在发生意外故障后仍能不间断地运行呢?这篇文章里,作者讨论了容灾方案的规划与设计,一起来看。

日常生活当中,我们经常会接触到因平台系统故障服务无法正常访问的情况。在过去的一年,很多头部游戏、生活服务类产品接连爆出宕机事故,因为涉及面广、影响范围大,产生了很多“名场面”,在网络上也是被频繁的讨论。

产品经理在规划系统和设计容灾方案时,需要从数据安全、业务稳定、经济可行等角度出发,考量各种故障场景,明确产品或系统应保持的容灾级别或范围,通过架构升级、建立容灾响应机制等手段,保证在发生意外故障后,业务系统仍能不间断地运行。

本文也是结合自身工作当中接触到的的一些云平台容灾经历,做了部分归纳整理,供相互学习和交流。

一、常见的故障场景

一般平台产品故障场景主要包括单产品故障、服务器断电或断网和硬件故障场景。当然也存在一些其他的原因,像编码的逻辑问题或漏洞、用户的运行环境和生产环境功能不一致等问题,这类情形一般是流程管控上的瑕疵,通过加强制度审查,是能规避掉大部分潜在风险的。

1.单产品故障

单产品故障是指组成我们业务平台的某一项产品服务发生了管控故障,不能正常履行既定职能,导致服务中断的情况,故障主要包括以下场景:

产品部署的资源夯死,数据读写异常;

未知问题产生的进程阻断;

产品所在的容器异常;

服务器宕机,无法访问。

2.断电断网

断电场景主要是指支撑业务平台的服务器机房整体断电了或部分机柜断电了,从而导致的异常。

断网场景则是因为平台上行链路和数据中心出口设备故障产生了异常。

3.硬件故障

核心设备硬件损伤后无法恢复引起的故障。

二、明确容灾级别或范围

在规划产品或系统容灾方案过程中,首先要明确自身的具体需求,是要保障核心服务还是要保障所有服务,当故障发生后需要在多长时间内响应和处理问题,诸如此类的问题都要好好考虑清楚。

1.容灾级别

从容灾保障对象层面来看,容灾大致分为两个级别:平台级容灾和业务级容灾。平台级容灾仅实现核心的数据备份、核心服务的双活或主备,不涉及全量的业务应用。而业务级容灾则是在平台级容灾的基础上,根据业务系统的容灾需求,从业务系统网络层、应用层、数据库层等构建跨站点集群,以实现网络双活、应用双活、数据主从。

怎么让系统或平台在发生意外故障后仍能不间断地运行?

2.主备和双活

定义好容灾级别后,就要考虑具体的容灾形式。通常情况下可以考虑两种容灾方式,双活模式和主备模式。

主备模式是依托两套环境,一套为主环境,另一套作为备用环境。正常情况下由主环境系统提供服务,另一个环境系统不承担任何流量,数据在主备之间同步复制。只有在主环境生产系统瘫痪,备用环境系统才会切换启用。

双活模式同样也是两套环境的业务系统,和主备不同的是两个环境会同时处于运行当中,类似于负载均衡,流量指向可通过工具控制,数据同步也是实时的,所以也就无所谓谁是主、谁是备了。

以上提到的容灾级别和容灾形式是做容灾方案规划设计时需要去考虑的,当然所有落地的方案都要基于实际去考量,不过度规划,合适的才是最好的。

三、建立容灾响应机制

在明确实施路径后,还应在制定应急响应计划,其中有几个关键因素需要特别注意。

首先,确定合理且完整的演练方案和应急响应流程。制定的计划中要明确每个人的任务和职责,充分培训和训练演练的参与人员,使其能够熟练掌握操作技能和相关知识。

其次,应建立健全的沟通机制和协调机构,确保各个环节的信息和指令能够及时传达和执行。

1.容灾演练

容灾演练是为了最大程度降低因故障引起的影响,确保产品或系统可持续提供对外服务,持续不断的去完善故障恢复应急保障机制,检验故障发生后的快速恢复效果,提升运维人员的应急处置能力,验证容灾处理重大问题的能力,夯实产品或系统的运行基础。

验证故障恢复处置能力,包括故障发现、故障处置、故障恢复等;

熟悉故障发生时的应急操作,锻炼运维团队应急能力;

根据容灾演练结果,逐步沉淀形成故障应急预案指导手册,形成标准化的应急处置流程。

2.容灾演练流程

容灾演练流程主要包括演练切换阶段、演练回切阶段和演练总结阶段。演练切换阶段包括演练准备与环境检查、模拟故障、容灾切换和结果验证;演练回切阶段主要包括故障恢复、检查恢复结果、容灾切换(回切)和结果验证等;演练总结阶段包括演练问题消缺、容灾方案完善、演练数据整理和产品消缺等工作。

最后

在规划设计容灾方案的时候,一定要考虑清楚想要的是什么,结合业务的具体需要,并不是越高大上越好。选定方案要综合考虑到成本、架构、业务诉求等诸多方面,选择更合适、更有性价比的方案,容灾是手段,系统稳定运行是目的。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-01-15 15:45:35

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

1.6万块H100训Llama 3.1,每3小时故障1次!罪魁祸首竟是GPU和HBM3显存
...程中,其运行的1.6万个GPU训练集群每3小时就会出现一次故障,意外故障中的半数都是由英伟达H100 GPU和HBM3内存故障造成的
2024-07-30 09:39:00
挽救工厂每年意外停机的千亿损失,这家公司给工业设备提前“看病”|产品观察
...较轻微的后果,对于风电厂、化工厂和钢铁厂而言,设备故障有可能造成大型事故的发生,损失更为巨大。中国工业如火如荼发展的数十年间,对于工业设备的监测仍以人工为主。过去,工厂的工业
2022-12-31 16:05:00
探访滴滴总部:有员工称系统崩溃时内网也崩了
...通明,滴滴员工陆续下班。对于昨日、今日为何出现网络故障,多位下班的员工表示并不了解原因,但也有滴滴员工对记者表示,“听说是机房挂了。”该员工猜测更多与运维有关,因为涉及稳定性
2023-11-29 11:43:00
世界人工智能大会 | “AI+轨交”更安全更韧性更高效
...动自适应策略,降低行车风险。面对轨交信号系统的突发故障,利用泛在感知技术和自主安全防护系统,列车能以全自动模式运行至站台,避免在轨道区域久留,确保在站台的乘客安全…… 上述
2024-07-01 09:13:00
...消站点12个,截至2022年底,全市共有救援站245个。门系统故障和人为原因在电梯故障中占比较大。其中门系统故障5004起
2023-01-12 07:35:00
...丽水市莲都区供电公司对10千伏太平144线安装配网行波型故障预警与定位系统终端装置。此次为该公司首次试点在配网线路上安装该系统。此次试点的10千伏太平144线为山区线路。该线
2023-12-07 17:48:00
“白菜价”机票尴尬了谁?南航系统故障的背后是管理故障
...票价低至30元以下。南航客服回应称,超低价机票是系统故障导致的。9日,南航公告称,“11月8日晚间在系统异常期间南航售出的所有机票(支付成功并已出票)全部有效”,在回应了社会
2023-11-14 10:56:00
第一人民医院实现智慧医院信息化系统一体化运维,监控易保障医疗服务质量
...运维平台,该平台可以集成各个系统的监控、配置管理、故障诊断和性能优化等功能。通过统一的平台,运维人员可以对整个系统进行全面的监控和管理,快速发现和解决问题,有效减少系统的故障
2023-08-21 16:00:00
“故障减一分,安全就多一分”
...自:中国气象报中央气象台信息系统运行科科长李伟:“故障减一分,安全就多一分”图为李伟正在紧盯综合业务智能感知平台图文/刘蕊2022年10月中旬,因突发疫情,中央气象台多数预报
2022-12-27 09:18:00
更多关于科技的资讯:
合肥新视野|东超科技:以无介质成像技术联结科技与生活新场景
大皖新闻讯 无需触碰实体屏幕,仅在空中动动手指就能完成挂号操作——这宛如科幻电影的场景,在安徽省东超科技有限公司(以下简称“东超科技”)的展厅内已成为现实
2025-12-09 21:39:00
越见企业家|卓谊生物让安全“看得见” 一支疫苗的承诺
二十年前,一位南方企业家踏上黑土地;二十年后,他手中的一支疫苗,凝结着南北融合的智慧,更承载着对生命安全的极致承诺。在2025长春健康产业博览会上
2025-12-09 16:55:00
不少家长对儿童电话手表“又爱又恨”。爱的是其定位、通话功能能让家长随时掌握孩子动态、保持联系;恨的是它功能日渐繁杂,从“安全工具”沦为“社交神器”
2025-12-09 16:59:00
技术赋能与文化活化双轮驱动— 沉浸式交互动漫人工智能创作高研班精彩不断
当数字技术遇上传统文化,会碰撞出怎样的创作火花?截至11月30日,国家艺术基金2025年度资助的“沉浸式交互动漫人工智能创作高级人才培养”项目
2025-12-09 12:34:00
以创新叩响未来之门:“凯叔讲故事”荣获第五届未来视听创新大赛优秀奖
以创新叩响未来之门:“凯叔讲故事”荣获第五届未来视听创新大赛优秀奖近日,第五届未来视听创新大赛获奖名单在京正式揭晓。在这场由国家广播电视总局
2025-12-09 13:04:00
科技创新铸就发展引擎 东风汽车自主动力技术再攀新高峰
2025年岁末,中国汽车产业科技创新版图再添浓墨重彩的一笔。12月8日,东风汽车自研全新马赫1.5T混动发动机凭借48
2025-12-09 13:34:00
乌江榨菜登顶山姆“双榜第一”,终端销售额突破千万元大关
近日,『乌江x山姆』双拼组合装乌江爽脆涪陵榨菜在山姆会员商店交出亮眼成绩单。这款10月22日在全国上市的新品,仅用一个月时间便荣登山姆会员店新品热度榜TOP1与酱菜类热度榜TOP1
2025-12-09 13:34:00
聚焦健博会|17 项专利加持!长春本土 “康复黑科技”设备 “走进寻常百姓家”
9日,在2025长春国际医药健康产业博览会现场,展厅内人流如织,聚焦“医学、医药、医疗、医养”的展馆内,带来智能康复设备的吉林省微渺医疗科技有限公司
2025-12-09 13:47:00
租赁市场价格“退烧” 租个人形机器人从每天两万元降至数千元
人形机器人在活动现场“上岗”。 (受访者 供图)人形机器人在展会现场“接待”。(厦门日报记者 杨霞瑜 摄) 厦门网讯 (厦门日报记者 杨霞瑜)有机器人在学校运动会上岗当纪律员
2025-12-09 08:57:00
钉钉安全护航:祝贺“国产GPU第一股”摩尔线程成功上市
12月5日,钉钉客户摩尔线程智能科技(北京)股份有限公司(以下简称“摩尔线程”)正式在上海证券交易所科创板挂牌上市,成为“国产GPU第一股”
2025-12-09 09:53:00
RGB-MiniLED 电视哪款值得入手?重点关注这几点
面对市场上各式各样的RGB-MiniLED电视,如何挑选一台真正适合自己、能提升生活品质的型号?如果你正在纠结“哪款值得入手”
2025-12-09 10:05:00
RGB-MiniLED 电视选哪款?一文读懂RGB-MiniLED为何成为高端首选
当电视行业步入以RGB-MiniLED为关键词的高画质竞赛,甄别技术的真伪与深度成为选购第一步。真正的RGB-MiniLED
2025-12-09 10:01:00
炎黄盈动重磅发布企业级AI平台,全面加速企业AI价值落地
随着AI技术的飞速发展,企业正面临从技术试点到全面应用的关键转折点。技术加速:Gartner报告显示,当前AI智能体和AI就绪型数据发展最快
2025-12-08 11:12:00
路边放一台南迪售货机,打造全时段消费新主张
还在为寻找稳定、低风险的增收渠道而烦恼吗?将一台南迪自动售货机放置在路边,它不仅是24小时不休的“金牌销售”,更是能创造被动收入的坚实资产
2025-12-08 13:35:00
人人租亮相2025中国企业家博鳌论坛平行论坛-创新探索、生态共筑
十年博鳌潮海阔,百舸争流共进发。12月2日至5日,2025企业家博鳌论坛系列活动在海南博鳌举办。围绕“链接全球,引领未来
2025-12-08 13:39:00