检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
建立持续学习和改进的文化 风险等级 高 关键策略 由于系统的独特性和复杂性,没有放之四海皆准的方案,为了达到卓越运营,需要不断改进这些最佳实践,并建立自己的最佳实践。所以,在所有最佳实践的第一条,就是在您的团队中培养持续学习和改进的文化。 而持续学习和改进需要鼓励团队沟通和共享,例
OPS08-02 进行事故复盘和改进 事故分析的目的是:规范和指导重大事故发生后,优化事故的输入、输出,确保事故回溯工作有效开展,回溯报告中发现的问题有效整改,总结的经验有效推广。 风险等级 高 关键策略 故障发生后,通过对现网重大故障处理过程 Review 及根因进行分析和改进总结,规范整个
设计原则 建立持续改进的团队文化和标准化运维体系 在卓越运营中,团队文化建设至关重要。运营是一门不断改进的艺术。只有不断从已有事故中学习经验,持续学习和改进,才能最终达到卓越运营。故而,团队应该培养持续学习和改进的文化,此外,在事故发生时,应该以对事不对人的态度,思考系统的改进,
PERF03-02 选择合适规格的虚拟机和容器节点 风险等级 中 关键策略 服务器资源就类似一块块资源拼成的木桶,其最多能承载的业务需求取决于哪一块资源最先达到瓶颈。 不同应用对资源需求不同,例如: 功耗密集型业务(如高性能计算、人工智能、深度学习等场景)主要就是消耗计算维度的容量。
根据需要进行更新和调整。持续改进是一个持久的过程。 文档和分享:将复盘的结果和改进措施进行文档化,并与团队内部分享。这有助于确保所有人都能从中学习,并避免类似的错误再次发生。 培训和意识提升:通过培训和意识提升活动,确保团队成员了解安全事件复盘的重要性,并能够积极参与其中。 父主题:
用户只需通过简单的操作,就能快速定位问题,并找到解决方案,节省了大量的时间和精力。 知识分享和交流:运维知识库系统还支持用户之间的知识分享和交流。用户可以将自己的经验和知识上传到系统中,与其他用户进行交流和讨论。这不仅可以扩展自己的知识面,还可以通过与其他人的交流,获得更多的解决方案。
(云内、云间) VPC 在逻辑隔离的虚拟网络中定义和启动华为资源,方便管理、配置内部网络。 ER 将VPC和本地网络连接到一个网关中,支持路由学习、动态选路以及链路切换,极大的提升网络的可扩展性及运维效率,从而保证业务的连续性。 ESW 将VPC和本地网络连接到一个网关中(二层互联),助力
全基线是团队内对安全的底线要求。根据基线定期衡量您的工作负载架构和运行情况,持续保持或改善工作负载的安全状况。 风险等级 高 关键策略 确定合规性要求:了解您的工作负载必须符合的组织、法律和合规性要求。 相关云服务和工具 华为云合规中心 华为云信任中心 华为云等保合规安全解决方案
问题和检查项 在迈向卓越运营的过程中,推荐使用如下问题寻找自身可以改进的点,并参考检查项/最佳实践进行改进,以下所有的检查项,也是最佳实践建议,将在下一章节进行详细描述。 问题 检查项/最佳实践 OPS01 您是否已经建立持续改进的团队文化和标准化运维体系? 1. 建立持续学习和改进的文化
在低需求时段过度预配。虚拟机弹性伸缩和容器弹性伸缩都是实现应用自动化扩容和缩容的方式,但虚拟机弹性伸缩需要更多的资源和时间来启动和部署,而容器弹性伸缩可以更快速地响应变化,同时具有更高的资源利用率。虚拟机场景可以使用AS,容器场景充分考虑CA和HPA的弹性策略。 使用容器时弹性策略可参考下面内容:
在设计网络拓扑时,仔细检查每个组件的连接要求,例如是否需要互联网可访问性(入站和出站)、连接到VPC的能力、边缘服务和外部数据中心等。除非资源必须接收来自公网的网络流量,否则不要将资源放置在VPC的公有子网中。 对于入站和出站流量,应采用深度防御方法。例如对入站流量进行入侵检测、防范恶意的网络攻击。
OPS01 建立持续改进的团队文化和标准化的运维体系 OPS01-01 建立持续学习和改进的文化 OPS01-02 规划标准化的运维组织 OPS01-03 规划标准化的运维流程和运维工具 父主题: 卓越运营支柱
问题和检查项 问题 检查项/最佳实践 SEC01 如何整体考虑云安全治理策略? 建立安全管理队 建立安全基线 梳理资产清单 分隔工作负载 实施威胁建模分析 识别并验证安全措施 SEC02 如何管理人机接口和机机接口的身份认证? 对账号进行保护 安全的登录机制 安全管理及使用凭证 一体化身份管理
便后续跟踪和改进。 确保问题得到适当的跟进和解决。 鼓励合作和讨论: 鼓励团队成员之间进行合作和讨论,分享经验和观点,以提高检视质量。 创建开放的氛围,使团队成员能够提出问题和建议,促进共同学习和成长。 持续改进: 定期评估代码检视过程,收集反馈意见,并进行必要的调整和改进。 着
RES02 您如何备份应用程序中的关键数据? 识别和备份应用中所有需要备份的关键数据 自动数据备份 定期进行备份数据恢复 RES03 您如何对应用程序进行跨AZ灾难恢复? 集群跨AZ部署 跨AZ数据同步 对接容灾仲裁,支持自动切换 支持容灾管理 RES04 您如何对应用程序进行跨Region或跨云灾难恢复?
问题和检查项 问题 检查项/最佳实践 PERF01 如何确立流程与规范? 全生命周期性能管理 应用性能编程规范 PERF02 如何进行性能规划? 定义性能目标 容量规划 PERF03 如何进行性能建模? 选择合适类型的计算云服务 选择合适规格的虚拟机和容器节点 使用弹性伸缩 选择合适类型的网络云服务
成熟。在实施过程中,更多应该将错误视为学习和改进流程的机会,这将减少不成熟的团队和管理团队对成本优化的恐惧心理。指标自身也需要不断优化,一开始可以从比较保守的目标开始推动,避免IT成本迅速下降造成的业务风险。而后不断迭代预算分配、IT 支出和预测,不断优化这些指标。 最后,需要在
务,也使用不同的账号和环境。 然而即使账号/环境是分散的,云资源管理策略和权限管理机制应该是集中的。 企业的中心团队,如上文所提的云业务办公室、云卓越中心或 FinOps 团队需要为各个账号环境实施与策略一致的组和角色,控制每个组中谁可以创建、修改或停用实例和资源。同时依据企业的
云可以提高效率、创新速度和灵活性,与此同时,也导致了云成本和使用模式的高度可变,客户应调整现有的组织预算和预测流程,以适应云的变化。 客户应密切关注历史消费趋势和不断变化的业务趋势,力求尽可能准确的预算规划。同时结合基于趋势(以历史支出作为输入)的预测和基于业务驱动因素(例如新业
响应。 预测:维护团队需要根据系统运行现状,通过数据分析、机器学习等方式,预测系统的风险情况,提前进行预防和处理。 在进行应急恢复处理时,通常需要尽快缓解或恢复业务,快速结束业务中断对客户的影响,然后再启动问题定位和修复处理流程,以减少业务中断时间。 组织协调:故障发生后,应急恢