检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
建立持续学习和改进的文化 风险等级 高 关键策略 由于系统的独特性和复杂性,没有放之四海皆准的方案,为了达到卓越运营,需要不断改进这些最佳实践,并建立自己的最佳实践。所以,在所有最佳实践的第一条,就是在您的团队中培养持续学习和改进的文化。 而持续学习和改进需要鼓励团队沟通和共享,例
PERF03-02 选择合适规格的虚拟机和容器节点 风险等级 中 关键策略 服务器资源就类似一块块资源拼成的木桶,其最多能承载的业务需求取决于哪一块资源最先达到瓶颈。 不同应用对资源需求不同,例如: 功耗密集型业务(如高性能计算、人工智能、深度学习等场景)主要就是消耗计算维度的容量。
设计原则 建立持续改进的团队文化和标准化运维体系 在卓越运营中,团队文化建设至关重要。运营是一门不断改进的艺术。只有不断从已有事故中学习经验,持续学习和改进,才能最终达到卓越运营。故而,团队应该培养持续学习和改进的文化,此外,在事故发生时,应该以对事不对人的态度,思考系统的改进,
用户只需通过简单的操作,就能快速定位问题,并找到解决方案,节省了大量的时间和精力。 知识分享和交流:运维知识库系统还支持用户之间的知识分享和交流。用户可以将自己的经验和知识上传到系统中,与其他用户进行交流和讨论。这不仅可以扩展自己的知识面,还可以通过与其他人的交流,获得更多的解决方案。
(云内、云间) VPC 在逻辑隔离的虚拟网络中定义和启动华为资源,方便管理、配置内部网络。 ER 将VPC和本地网络连接到一个网关中,支持路由学习、动态选路以及链路切换,极大的提升网络的可扩展性及运维效率,从而保证业务的连续性。 ESW 将VPC和本地网络连接到一个网关中(二层互联),助力
在设计网络拓扑时,仔细检查每个组件的连接要求,例如是否需要互联网可访问性(入站和出站)、连接到VPC的能力、边缘服务和外部数据中心等。除非资源必须接收来自公网的网络流量,否则不要将资源放置在VPC的公有子网中。 对于入站和出站流量,应采用深度防御方法。例如对入站流量进行入侵检测、防范恶意的网络攻击。
在低需求时段过度预配。虚拟机弹性伸缩和容器弹性伸缩都是实现应用自动化扩容和缩容的方式,但虚拟机弹性伸缩需要更多的资源和时间来启动和部署,而容器弹性伸缩可以更快速地响应变化,同时具有更高的资源利用率。虚拟机场景可以使用AS,容器场景充分考虑CA和HPA的弹性策略。 使用容器时弹性策略可参考下面内容:
根据需要进行更新和调整。持续改进是一个持久的过程。 文档和分享:将复盘的结果和改进措施进行文档化,并与团队内部分享。这有助于确保所有人都能从中学习,并避免类似的错误再次发生。 培训和意识提升:通过培训和意识提升活动,确保团队成员了解安全事件复盘的重要性,并能够积极参与其中。 父主题:
OPS01 建立持续改进的团队文化和标准化的运维体系 OPS01-01 建立持续学习和改进的文化 OPS01-02 规划标准化的运维组织 OPS01-03 规划标准化的运维流程和运维工具 父主题: 卓越运营支柱
云可以提高效率、创新速度和灵活性,与此同时,也导致了云成本和使用模式的高度可变,客户应调整现有的组织预算和预测流程,以适应云的变化。 客户应密切关注历史消费趋势和不断变化的业务趋势,力求尽可能准确的预算规划。同时结合基于趋势(以历史支出作为输入)的预测和基于业务驱动因素(例如新业
响应。 预测:维护团队需要根据系统运行现状,通过数据分析、机器学习等方式,预测系统的风险情况,提前进行预防和处理。 在进行应急恢复处理时,通常需要尽快缓解或恢复业务,快速结束业务中断对客户的影响,然后再启动问题定位和修复处理流程,以减少业务中断时间。 组织协调:故障发生后,应急恢
成熟。在实施过程中,更多应该将错误视为学习和改进流程的机会,这将减少不成熟的团队和管理团队对成本优化的恐惧心理。指标自身也需要不断优化,一开始可以从比较保守的目标开始推动,避免IT成本迅速下降造成的业务风险。而后不断迭代预算分配、IT 支出和预测,不断优化这些指标。 最后,需要在
不要只在出账后或收到异常通知时再查看成本和用量,应使用工具定期检查成本。定期监控和主动分析成本,有助于您及时识别成本趋势,避免异常发生。 相关服务和工具 创建预算提醒,将预算设置为提醒阈值,在预测或实际成本超出预算时,及时获取超预算通知,防止潜在成本超支。 创建成本监控,华为云成本中心的成本监控引入机器学习,对客
问题和检查项 在迈向卓越运营的过程中,推荐使用如下问题寻找自身可以改进的点,并参考检查项/最佳实践进行改进,以下所有的检查项,也是最佳实践建议,将在下一章节进行详细描述。 问题 检查项/最佳实践 OPS01 您是否已经建立持续改进的团队文化和标准化运维体系? 1. 建立持续学习和改进的文化
COST05-01 分析业务趋势和优化收益 风险等级 高 关键策略 云成本是一个综合工程,也是一个定期审核、回顾和执行的流程,除了考虑优化带来的收益以外,还需要考虑相关成本,例如,因为优化带来的人员和时间成本。 为了降低整体成本,优化的工作量必须与潜在的节省额成比例。优化可以从应用占成本的比例考虑。
安全、密钥安全、密钥管理复杂等问题。 云证书管理服务 CCM:为云上海量证书颁发和全生命周期管理的服务。目前它可以提供SSL证书管理和私有证书管理服务。 数据库安全服务 DBSS:基于机器学习机制和大数据分析技术,提供数据库审计,SQL注入攻击检测,风险操作识别等功能,保障云上数据库的安全。
确定资源需求 根据需求和预测分析的结果,进行容量评估和规划。确定系统所需的计算资源、存储资源和网络带宽等资源,以满足系统的性能要求。 计算资源:根据预测的需求,计算所需的CPU、GPU、内存等计算资源,并根据实际情况进行选择和配置。 存储资源:根据预测的需求,计算所需的存储空间,
便后续跟踪和改进。 确保问题得到适当的跟进和解决。 鼓励合作和讨论: 鼓励团队成员之间进行合作和讨论,分享经验和观点,以提高检视质量。 创建开放的氛围,使团队成员能够提出问题和建议,促进共同学习和成长。 持续改进: 定期评估代码检视过程,收集反馈意见,并进行必要的调整和改进。 着
RES15-04 灰度部署和升级 原地升级和回滚时,升级和回滚过程中业务将会中断,中断时长受限于升级和回滚的时长,对业务影响比较大;而采用灰度部署和升级,可减少升级和回滚过程中的业务中断,提升系统可用性。 风险等级 高 关键策略 通过金丝雀部署、蓝绿部署等方式实现灰度升级或部署,
定义响应触发条件:基于威胁情报、异常行为检测和实时监测的结果,确定哪些情况会触发自动化响应。 制定响应策略:为每种类型的威胁或事件制定具体的响应动作,例如隔离、修复、通知、调查等。 优先级与分级:根据事件的严重性和紧急程度,定义响应的优先级,确保重要事件得到优先处理。 持续监控:利用SIEM(安全信息和事件管理)