• 我的订阅
  • 科技

以正确的方式扩展站点可靠性工程 (SRE) 团队

类别:科技 发布时间:2023-06-04 22:26:00 来源:卓越科技

以正确的方式扩展站点可靠性工程 (SRE) 团队

大多数SRE团队遇到了一个时刻,他们似乎要处理的需求超出了他们的管理能力。这是这些团队可能需要扩展的时候。面临类似的挑战?让我们解开扩展团队的全部内容。

大多数SRE团队最终都会达到他们似乎无法满足对他们提出的所有要求的地步。这是这些团队可能需要扩大规模的时候。但是,重要的是要了解增加团队容量与增加团队人数不同。让我们解开扩展团队的全部内容、指标是什么、可以采取哪些步骤以及如何知道是否完成。

缩放触发器

有时很容易判断您是否需要扩展您的团队。例如:

当团队被分配更多的服务来管理时,

流量或用户显着增加,或

服务水平目标(SLO)变得更加苛刻

在上述情况下,通常很明显团队需要扩大规模。

在其他情况下,您需要缩放的迹象更加微妙,而且通常是模棱两可的。以下是您的团队需要扩展的一些指标:

工作量增加 没有创造长期价值且需要积极控制的重复性任务。自动化、运行手册 回顾都会减少工作量。然而,当一个团队处于压力之下时,它会毫不懈怠地 考虑减少辛劳等提高生活质量的问题。它将不断努力保持可靠性并实现业务目标。

可靠性或性能下降: 与辛勤工作类似,需要积极管理可靠性和性能。当团队过度紧张时,他们通常会对违反SLO做出反应,而不是主动启动性能或可靠性项目。

改进项目被延迟或取消: 工作量增加、性能或可靠性下降可能是更普遍问题的征兆:忽视长期规划而倾向于对短期问题做出反应。另一个症状是当任何类型的改进项目被取消优先级以支持功能开发时。

团队士气下降: 需要扩大规模的团队中的人员通常超负荷、压力大,并且快要精疲力尽了。事实上,这是扩大团队规模的首要原因,因为人员流失是最难恢复的问题之一。

所有这些指标都不是决定性的,可能有其他原因。您需要确保您正在解决正确的问题。将人力视为解决所有问题的一揽子解决方案可能非常诱人,但它可能会使问题恶化,并给你留下一个更棘手的缩减问题。

添加人员到你的团队应该是你在用尽所有其他选项后做的最后一件事。这不仅在财务上更加谨慎,而且还确保您不会忽视随着时间的推移可能变得更加难以解决的问题。

在考虑任何技术计划时,使用人员-流程-工具 模型将其分解是很有用的。这假定影响计划的最重要因素(按重要性排序)是人员、流程和工具。让我们按时间顺序来看它们。

过程

在开始扩展工作之前,您应该知道您正在尝试改进哪些指标以及您应该如何衡量它们。这是一个工程公理,你不能优化你没有测量的东西。要查看的确切指标因团队和情况而异,但这里有一些可以开始:

针对SLO的实际性能

项目指标:

80%等待时间

80%周期时间

平均每日队列大小

平均确认时间(MTTA)

一旦你衡量了你的关键指标,就建立一个过程来经常评估你在这些指标上的表现。为此目的,可能就像在每次冲刺回顾中花几分钟时间一样简单。

不要低估流程在帮助您扩展方面的价值。许多较小的团队经常使用简单的、临时的流程。工程师经常将流程视为不受欢迎的开销。这错过了减少错误和提高效率的流程存在的理由。

管理流程

ToilLimits 确保减少琐事任务的优先级。

事后分析确定了防止事件再次发生的措施。

像看板 这样的敏捷方法确保管理流程本身是高效的。

手指图 等报告可以帮助识别瓶颈。

工程流程

警报降噪使嘈杂的警报安静下来并确定它们的优先级。这减少了管理事件所需的工作量。

警报路由确保只有适当的人会收到有关事件的通知。

自动化减少了工作量和错误。

结对 有助于知识转移并减少错误。

基础架构即代码提高了可重复性并减少了错误。

工具

SRE工具的主题非常广泛——对于本文来说太大了。因此,与其对特定工具进行可能冗长的讨论,不如讨论如何在扩展的背景下考虑工具。

不同种类的工具具有不同种类的扩展影响。拥有表明需要进行何种改进的硬数据非常重要。这些数据可能在您的项目管理或故障单系统中,但您通常需要从您的团队那里获得反馈。

一般来说,您应该期望您的团队使用的工具能产生以下几种结果:

帮助您处理同一个团队更多负载的工具

这可以是从pssh到ansible的任何东西,可以帮助您处理大量服务器、VM或容器。现代监控工具不仅在规模上表现更好,而且通常也更容易配置。Squadcast等事件管理工具对事件进行优先排序和重复数据删除,使工程师能够专注于关键任务。

通过减少错误来减少返工的工具

脚本库、运行手册和运行手册自动化系统都有助于提高任务的可重复性——允许任务按需要可靠地频繁执行。使用容器来实现不可变服务器可确保避免由配置漂移引起的细微错误。

消除某些工作的工具

像Kubernetes这样的容器编排系统消除了大量的工作——从设置流程监管者到管理负载均衡器的监管者。

像OpenTelementry这样的分布式跟踪系统减少了对复杂日志聚合系统通过分布式系统跟踪事务的需求。

帮助委派工作的工具

RunDeck等工具允许对脚本进行安全、有防护、基于角色的访问。这允许开发人员或客户支持等依赖团队独立工作,而不会增加SRE工作量。

同样,Metabase、Kibana和Grafana等工具可用于为产品管理、客户支持或管理提供对生产数据、日志或指标的自助访问。

让高级管理层能够回答他们自己的问题是一种特别有效的方法,可以减少大量高优先级、低附加值的工作。

没有银弹

避免认为工具是万灵药的想法。引入新工具可能会造成财务负担和破坏性。如果引入不明智,它们很容易让你的团队变得更糟。这就是为什么在投资新工具之前需要进行清晰的成本效益分析的原因。

人们

一旦你用尽了所有其他增加团队能力的选项,你就必须开始向你的团队添加人员。

容量规划

容量规划与其说是一门科学,不如说是一门艺术,需要结合硬数据和判断力。构建完美的容量计划没有万无一失的方法。但这里有一些提示:

使用有关现有负载的数据进行预测。这可以是理想的工时或故事点。将其与管理下的服务联系起来。您应该可以这样说,“添加另一个微服务将每季度增加大约50小时的项目工作”或“我们目前每个sprint有80个故事点需求,而60个容量点。” 您必须能够大致量化和推理当前和预计的负载。

考虑年长者与晚年者的相对生产率和成本。大三学生通常比大四学生花更长的时间完成任务。老年人通常有其他职责,如代码审查、指导或面试。与负载一样,您应该能够量化和推理容量。

高利用率,定义为任务时间与可用工作时间的比率,并不是衡量 效率的好方法。更少的空闲时间意味着更少的用于创新和改进的创造性时间。它也可能导致沮丧和倦怠。尝试计划30%的冗余。

虽然将所有这些数字插入电子表格以进行预测可能是个好主意,但不要忽视这些只是对现实的粗略近似这一事实。确保您在容量预测方面保守,在需求预测方面宽松。随意添加缓冲区。最终获得比您需要的容量略多总比略少要好。

团队组成

在规划团队的组成时,需要考虑几个主要因素:

经验:平衡团队的经验组合需要一系列权衡。一般来说,我们可以把人分为初级、中级和高级。根据您当地的劳动力市场、技术栈和业务领域,根据多年的经验和能力来定义这些桶会有所不同。拥有10年Go微服务管理经验的人可能被认为是资深人士,但在核电站系统方面拥有类似经验的人可能被认为是初级人士。

大三学生的成本更低,效率更低,而大四学生则相反。那么,为什么不完全使用这种快乐的媒介——中间体呢?这个想法忽略了前辈和晚辈所增加的特殊价值。前辈的经验让他们无需重新发明轮子就能快速解决问题,更重要的是,边做边教别人。青少年是未来的中间人,他们不需要接受在别处养成的坏习惯的培训。

最好的折衷方案是围绕中级核心构建您的团队,并使用少量初级和高级来完善它。初级、中级和高级20:60:20的比例可能是一个争取的目标。

多样性:即使您忽略了支持历史上一直受到歧视的群体的道德义务,也有充分的操作理由在您的团队中寻求多样性。多视角有助于更大的创造力和创新。还有一些轶事证据表明,与非多元化团队偶尔会成为的以睾丸激素为燃料的男孩俱乐部相比,多元化团队表现得更好,更专业。

文化契合度:“文化契合度”通常是一种方便的工具,用于排除那些不符合工程师应有的先入为主观念的人。在我的书中,文化契合度检查只有一个基本目的,那就是排除混蛋。没有什么比不断制造小冲突或贬低队友的消极个体更能削弱团队的生产力了。重要的是在招聘过程中过滤掉混蛋,如果以后发现,要迅速摆脱他们。不要放过高绩效的混蛋——他们的生产力很少能弥补他们在团队中造成的绩效下降。

候选来源

你可以从哪里雇用?一个好方法是从你公司的其他地方挖来他们。他们的数量通常是已知的,而且通常比外部雇用便宜得多。许多传统组织都有系统管理、构建或DevOps团队,这些团队的人员可以成为优秀的SRE。软件开发人员可以为团队带来工程严谨性。

不过,通常情况下,内部招聘只会将扩展问题转移到另一个团队。最有效的候选人采购机制因地而异,但这里有一些重要的机制:

员工推荐

招聘顾问

工作委员会

广告

您网站上的职业页面。

一般来说,员工推荐比所有其他机制更便宜且命中率更高,因为它们已由员工预先过滤。确保你有奖励和激励措施来鼓励他们。

通过招聘来提高能力既费时又充满不确定性。理想情况下,您应该在预计增长前几个月开始。不幸的是,我们大多数人都没有那么奢侈,因此制定应急计划来处理招聘延误至关重要。

结论

扩展SRE团队是一项具有挑战性的工作,需要进行广泛的分析和规划。增加人员是缓慢、昂贵且有风险的,因此请考虑改进流程或技术来渡过难关。当您开始招聘时,使用数据而不是直觉来计划容量需求是值得的。仔细考虑团队的组成,因为这对长期成功至关重要。

举报/反馈

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-06-05 12:45:51

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

纪录片《登月·进行时》:记录“登天揽月”的动人故事
...方供图当嫦娥六号月背取壤的目标被提出时,面对专家“可靠性低”的反对声音,中国探月工程三期总设计师胡浩毅然坚持“可靠性低不代表不能实现”,精密筹划、放手一搏,创造人类航天事业的
2025-05-29 22:14:00
...用中,全球卫星导航系统积雪深度算法需要综合考虑精度可靠性和自动处理能力。为此,创新团队建立了一套积雪深度高精度自动化反演框架,并依托佳木斯和阿勒泰两个试验站开展分析研究,最终
2023-02-28 09:22:00
... 从个人经验到行业标准的升华王宏博深知,航天工程的可靠性源于知识的体系化传承。他主导编写的《测控接口设计规范》因逻辑严谨、案例详实,被同事称为“测控百科全书”;参与的商业航天
2026-01-07 16:26:00
...冻土温度分布图。降尺度后的多年冻土分布图仍具有很高可靠性,83.2%的误差值控制在1℃范围内,与区域内6条公路冻土工程地质勘察报告中对多年冻土段判别的一致性达到83.17%—
2023-10-12 02:32:00
互联网App连串崩溃背后:小规模“崩了修好”常发生
...用户请求。文章中提到,2021年7月13日22:52,SRE(负责站点可靠性的工程师)收到大量服务和域名的接入层不可用报警
2023-12-07 10:31:00
博士创新站典型案例|石家庄数英仪器有限公司博士创新站:攻克高次谐波源国产化难题
...焦以数字信号处理器技术为核心的数字控制系统,研发高可靠性100次谐波源。团队开展实验场景聚焦核心技术,实现双项突破博士创新站针对传统直接数字频率合成技术导致的频谱纯度衰减问题
2025-12-30 18:16:00
...能力,能实时监测状态、进行故障诊断,大大提高设备的可靠性。技术人员还采用最新通信加速软件和“平台+插件式”软件架构,确保遥测、数传数据快速传输,实现“国内登录、国内控制、自动
2025-05-29 09:11:00
狙击OpenAI 马斯克搞了个AI版“十二罗汉”
...计算机科学硕士学位,是一名具有数学背景的全堆栈站点可靠性工程师和数据科学家。最早是在 IntegriChain 做数据分析师
2023-07-13 17:12:00
...模型的泛化能力和精确性,同时保持数值模拟的普适性和可靠性。神工坊团队:创新与合作神工坊团队由任虎博士创立于2016年,源自国家超级计算无锡中心。团队致力于高性能数值模拟框架的
2024-05-30 13:18:00
更多关于科技的资讯:
鲁网1月17日讯1月13日上午,普惠(临沂)投资服务有限公司考察组一行赴临沂市供应链金融协会开展学习交流活动。临沂市供应链金融协会会长
2026-01-17 14:47:00
1月16日,全球最大、起重量达2300吨的桥面吊机在河北省秦皇岛市一装备制造企业正式下线,标志着我国在大型桥梁施工装备领域又获重大突破
2026-01-17 15:44:00
2026天然苏打水市场趋势:健康化、场景化成主流 泉匠深耕多区域市场实现销量突破
随着健康消费理念的深度渗透,天然苏打水行业正迎来高质量发展的黄金期。据行业权威报告预测,2026年中国天然苏打水市场规模将突破260亿元
2026-01-17 15:58:00
开元云与广西大学人工智能学院达成战略合作,共建AI产教融合新高地
广西大学人工智能学院常务副院长张振荣、副院长赵志刚、陈燕教授等老师,出席双方产学研合作签约仪式。2026年1月15日 广西南宁
2026-01-17 15:58:00
数据接口安全风险监测国标正式发布!深信服深度参编
根据2025年12月2日国家市场监督管理总局、国家标准化管理委员会发布的中华人民共和国国家标准公告(2025年第33号)
2026-01-17 16:00:00
近日,国网潢川县供电公司依托用电信息采集系统及“专变负载可视化”数据集,构建反向有功异常自动监测告警机制,实现非光伏用户反向用电异常精准识别处置
2026-01-17 16:00:00
新消费|万物皆可租!这届年轻人为何“能租就不买”?
租一台口袋相机只需30元一天专业优质的画质却可以让旅途回忆更生动用百来元就能配齐一整套露营装备花100元便能轻松满足整趟出国旅行的穿搭需要……如今越来越多的年轻人正通过“租赁”重新定义自己的消费方式近日
2026-01-17 16:54:00
冷暖省电双先锋!美的酷省电二代横扫抖音商城三榜冠军
2026刚开年,空调行业首款爆品已然出现——全新上市美的酷省电二代便凭硬核实力脱颖而出,强势斩获抖音商城智能空调爆款榜
2026-01-17 16:00:00
厦门钨业通过技术创新与人才创新,不断攻克行业技术难题,塑造发展新动能让“有色”更出色东南网1月17日讯 (福建日报记者 戴敏 李向娟)近日
2026-01-17 11:38:00
在漳州龙文区,智能机器人等一批前沿项目正在聚集,新质生产力蓬勃生长——“未来场景”来到家门口东南网1月17日讯 (福建日报报业集团记者 杨凌怡 通讯员 张小惠)广场前
2026-01-17 11:41:00
中国姚绣站上巴黎大展C位
1月15日至19日,非遗苏绣品牌姚绣(Yao Silk)再度亮相巴黎M&O展,成为本届展会Fine Craft(精品工艺)展区唯一中国品牌
2026-01-17 09:40:00
民大学子全国“摘金” AI巧解垃圾分类与楼宇管理难题
荆楚网(湖北日报网)讯(记者林杉 许文秀 通讯员陈韶月 张祎晗)面对垃圾分类的效率瓶颈,人工智能与机械设计如何给出更优解
2026-01-17 10:36:00
长白时评评论员 久泰平近日多起滥用“七天无理由退货”的新闻引发社会关注。有商家曝光,有学生集体网购演出服,演出后再把带着污渍
2026-01-17 05:55:00
1月14日消息,工业和信息化部近日公布了2025年全国中小企业人工智能典型应用场景名单,晋西春雷自主研发的“AI视觉质检实现铜带缺陷精准识别”项目成功入选
2026-01-17 07:39:00
当患者或患者家属去医院的病案室复印住院病历时,会发现住院病案首页出院诊断表格上有一栏疾病编码,疾病编码栏下填有一串串字母数字组成的编码
2026-01-17 04:40:00