大公司十分致力地确保他们的服务不出缺点,要素很便捷,严重宕时机侵害品牌,并将客户推向具有更好稳固性记载的竞争产品。
构建牢靠的互联网服务是一个复杂的技术疑问,但对公司指导者来说,这也是一团体力应战。处罚工程团队投入于牢靠性上班的难度在于,这类上班往往被以为没有开发新配置那么吸引人。
在大规模运营中,处罚机制占主导位置。顶级科技公司雇佣了不可胜数的员工,并运营数百个互联网服务。多年来,他们想出了奇妙的方法,确保工程师构建牢靠的系统。本文讨论了那些历史上最成功的科技公司在大规模环境中驳回的人力治理技术,无论你是员工还是指导者,都可以将这些技术运行于你的公司。
转动命运之轮
AWS的运营评审是每周一次性的会议,面向整个公司放开。每次会议都会转动“幸运轮”,随机选用数百个AWS服务中的一个启动实时审查。被抽中的团队必需回答有阅历的运营指导提出的关于仪表盘和目的的尖利疑问。会议有数百名员工、数十位总监和几位副总裁参与。
这处罚了每个团队具有基本的运营才干。即使某个团队被选中的概率很低(在AWS,低于1%),但作为团队的经理或技术担任人,你必需不宿愿在半个公司背地显得无所不知,尤其是在你“运气不佳”的那一天。
活期审查牢靠性目的十分关键。对运营肥壮状况感兴味的指导者会为整个企业树立这样的基调。“转动命运之轮”只是成功这一目的的工具之一。
但是,在这些运营评审中你应该做些什么呢?这就引出了下一个关键点。
设定可量化的牢靠性目的
你或许宿愿有“高反常运转期间”或“五个九”(99.999%的可用性),但这些对你的客户象征着什么呢?实时互动(如聊天)的提前容忍度远低于异步上班负载(如训练机器学习模型、上行视频)。你的目的应反映客户关心的内容。
在审查团队的目的时,让他们形容可量化的牢靠性目的。确保你了解他们为何选用这些目的,也让他们分明这一点,而后,让他们经常使用仪表盘证实这些目的已成功。设定可量化的目的有助于你以数据驱动的模式优先思考牢靠性上班。
关注疑问的检测十分关键。假设你在他们的仪表盘上看到异常,征询他们疑问的要素,同时问他们的值班人员能否接到了通知。现实状况下,你应该在客户发现疑问之前就发觉到疑问的存在。
拥抱凌乱
云计算弹性畛域最具反派性的思想转变之一是将缺点注入到消费环境中。Netflix将这一律念正式化为“混沌工程”——这个概念和它的名字一样酷。
Netflix宿愿处罚其工程师构建容错系统,而不是经过宏观治理来成功。他们以为,假设将系统性缺点常态化而不是视为例外,工程师将不得不构建容错系统。只管花了一些期间成功这一点,但在Netflix,消费环境中从单个主机到整个可用区都会被惯例性地“淘汰”。每个服务都被希冀能够智能排汇这些缺点,而不影响服务可用性。
这种战略既昂贵又复杂,但假设你颁布的产品须要高反常运转期间是相对必要的,那么在消费环境中注入缺点是取得相似“正确性证实”的一种十分有效的方法。假设你的产品须要这样做,尽早引入这一战略。未来不会比如今更便捷或更廉价。
假设混沌工程看起来有些过于保守,至少应要求团队每年启动一到两次“演习日”(模拟宕机演练),或许在推出任何严重配置行启动。在演习日中,会有三种指定角色——第一个角色模拟宕机,第二个角色在事前不通晓疑问的状况下修复它,第三个角色观察并做详细记载。预先,整个团队应该聚在一同对模拟事情启动复盘(参见下文)。演习日不只会提醒系统在处置宕机时的无余,还会暴显露工程师应答这些疑问的差距。
制订严厉的复盘流程
一个公司的复盘流程能反映出其文明。顶级科技公司都要求团队对严重宕机撰写复盘报告。报告应形容事情、探求基本要素,并提出预防措施。复盘应严厉口头并坚持高规范,但这一环节不应指摘团体。复盘撰写是一种纠正行为,而不是处罚行为。假设某个工程师犯了失误,象征着存在准许这一失误出现的潜在疑问。或许你须要更好的测试流程,或是更完善的关键系统包全措施。深化开掘这些系统性破绽并加以修复。
设计一个健全的复盘流程可以独自写成一篇文章,但可以必需的是,领有一个这样的流程将大大缩小下次宕机的出现。
处罚牢靠性上班
假设工程师以为只要开发新配置才干带来加薪和升职,那么牢靠性上班将会被放置。大少数工程师,无论资格如何,都应为运营出色做出奉献。在绩效评价中处罚牢靠性改良上班。让资深工程师为他们所监视系统的稳固性担任。
只管这个倡导看似显而易见,但却很容易被漠视。
论断
本文讨论了一些将牢靠性融入公司文明的基本工具。初创公司和早期阶段的公司通常不会优先思考牢靠性。这可以了解——你们的公司必需专一于验证产品与市场的婚配,以确保生活,但是,一旦你领有了回头客,你公司的未来将依赖于坚持信赖。人类经过牢靠性赢得信赖,互联网服务也是如此。