确定性运维白皮书——稳定可靠篇.pdf

“管好云”是数字化转型成功的关键环节
在数字化时代,政府企业云化的速度已经远超预期。如何真正用好云,实现云上的高效、稳定创新,提升价值,是所有政府/企业关心的共同话题。数字化转型不仅仅是“搬迁上云”,为充分发挥云的价值,实现资源弹性获取,享用更多“云服务”的便利,各类应用尝试从传统IT架构向云原生架构转型。数字化转型进入到“深度云化”的阶段,应用既要支撑业务创新,做好用户体验,还要关注安全可信、稳定可靠、资源高效与业务敏捷,这是上云用云后,管好云,是数字化转型成功的关键环节。
政第监管高度关注企业“管好云”的能力——本段落适用于中华人民共和国场景
为捉升企业云系统的风险管理能力,政策监管日益强调软件质量和系统稳定性的重要性。例如,《中华人民共和国突发事件应对管理法》要求规范突发事件应对活动;国务院颁布的《关键信息基础设施安全保护条例》明确强调建立健全的监测预警体系,并规定网络安全事件应急处置的要求;工业和信息化部发布的《“十四五”软件和信息技术服务业发展规划》强调提升软件质量管理和价值保障能力,积极推动软件产业的高质量发展。中国信通院稳定性保障实验室构建了“稳保体系”,制定了信息系统稳定性能力标准,显著增强了行业对有效管理信息系统的认知水平,并规范了实际应用能力。工信部信管局开展“云服务稳定安全运行应急演练专项行动”,以检验云服务稳定安全运行能力,推动了“稳保体系”的落地应用,进一步加强了企业对信息系统稳定安全运行的重视程度。总之,政策、监管鼓励各行业研发与运维团队树立稳定系统建设的理念,从工程设计到实际实施中规避风险,持续提供高质量的软件成果。
“稳定可靠”面临的主要挑战
伴随着业务快速迭代和敏态发展的要求,对传统运维提出了巨大的挑战,软件的快速上线模糊了运维和研发的边界,业务上线速度和现网稳定性之间的冲突,变得难以调和。华为云把这些挑战总结为MATE,即解耦网格Messy Complex、快速迭代Active lteration、安全生产Trustworthy Operation,全栈运维Evolution FullStack。
解耦网格Messy Complex
运维的对象不是可批量交付的成熟产品,而是微服务架构下的海量组件和节点。快速迭代Active Iteration
发布周期变短的代价是每个版本都没有经过充分的现网验证。安全生产Trustworthy Operation
现网操作人员多:研发和运维均可接触现网,且人员有一定的流动性。大爆炸半径:自动化放大了爆炸半径,运维操作可导致大范围故障。全栈运维Evolution FullStack系统整体可用性依赖全栈可用性,运维者需要具备全找运维技能。
在这种情况下,政府/企业深度数字化的压力骤然提升,稳定可靠是最基本的“生命线”。软硬件迭代加速,IT业务从“慢”节奏向“快”节奏转型,运维既要保“稳”,又要能“快”,传统Ⅱ的运维工作模式已无法满足,这也就意味着运维模式变革势在必行,业界迫切的需要一种运维组织、人员能力及知识体系发展的方法和指导。稳定可靠诞生顺应了当下的产业趋势
华为云过去几年的高速发展,业务量上千倍的增长,经历了上述“慢”向“快”的转变,运维作出变革满足了业务诉求。基于此,华为云总结出“确定性运维之运维可靠”体系,这是运维变革的一个样例。这个变革完成了运维团队从“消防员”向“建构师”的转型;通过“确定性”的各项能力,支撑业务团队既“快”又“稳”地发展业务;这是一个将运维团队从成本部门转化为生产力部门的实践,让运维变革成为数字化转型的加速器。
稳定可靠的核心要义:质量文化是基础、高可用架构是前提、动态风险治理是保障、智能运维是未来“稳定可靠”体系,是面向云时代的高效能、高质量的运维体系。是“高可用架构”、“动态风险治理”、“高度智能运维框架”形成的一个有机结合体,将“建构师”的思想注入到产品设计与开发阶段,从源头构建产品可用性能力,并在日常运维过程中用软件工程的思想解决问题,将风险、隐患系统性管理起来,将琐碎的活动自动化、提升效率。通过“稳定可靠”,将业务高速发展带来的“不确定性”变成SLO的“确定性”,而这一切的基础是需要全员共识的质量文化作为基础的。

本文来自知之小站

 

PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告

(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)