检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
PERF01 流程与规范 全生命周期性能管理 应用性能编程规范 父主题: 性能效率支柱
全生命周期性能管理 全生命周期性能管理围绕需求、设计、开发、测试与编护完整的软件生周期展开,将性能活动内化到生命周期流程中,实现性能工作的常态化。 PERF01-01 全生命周期性能管理 父主题: PERF01 流程与规范
应用性能编程规范 PERF01-02 应用性能编程规范 父主题: PERF01 流程与规范
选择合适的计算资源 评估计算要求涉及评估工作负载的特定计算需求,包括实例类型、可伸缩性和容器化等因素。不同的计算服务具有不同的功能和特征,可能会影响工作负载的性能。选择最佳计算服务以确保工作负载高效运行。请考虑以下策略: 了解实例类型 不同的实例类型针对不同的工作负载进行优化,例
PERF05 性能优化 性能优化工作中,需警惕“过早优化”的问题。我们的基本指导策略还是首先让系统运行起来,再考虑怎么让它变得更快。一般只有在我们证实某部分代码的确存在一个性能瓶颈的时候,才应进行优化。除非用专门的工具分析瓶颈,否则很有可能是在浪费自己的时间。另外,性能优化的隐含
基础概念 名称 名词解释 确定性运维 确定性运维旨在构建可防、可控、可治的运维管理体系。首先是通过高质量的产品开发,严谨的运维流程和制度来降低故障的概率,要挑战零故障,同时也要有技术手段对可能发生的故障,将间隔、影响范围及故障恢复时间做到可防、可控、可治,要把数字化带来的“不确定性”通过运维变成“确定性”。
OPS01 建立持续改进的团队文化和标准化的运维体系 OPS01-01 建立持续学习和改进的文化 OPS01-02 规划标准化的运维组织 OPS01-03 规划标准化的运维流程和运维工具 父主题: 卓越运营支柱
OPS05 运维准备和变更管理 OPS05-01 进行生产准备度评审(Product Readiness Review) OPS05-02 进行变更风控 OPS05-03 定义变更流程 父主题: 卓越运营支柱
参考案例 通过AOM助力系统运维能力提升,降低运维成本与难度 基于LTS采集多类端侧日志,问题全链路追踪分析和业务运营分析 LTS助力某公司高效完成日常业务运维与等保合规 父主题: 卓越运营支柱
卓越运营云服务介绍 软件开发生产线(CodeArts) 资源编排服务(RFS) 云运维中心(COC) 云监控中心(CES) 云日志服务(LTS) 应用运维管理(AOM2.0) 应用性能管理(APM) 云堡垒机(CBH) 应用管理与运维平台(ServiceStage) 多活高可用(MAS)
以保证用户能够始终处于技术领先的状态,应对各种复杂的问题。 提供多种形式的知识展示:运维知识库系统支持多种形式的知识展示,包括文字、图片、视频等。这样可以满足用户的不同需求,让用户可以更直观地理解和掌握知识。用户可以根据自己的喜好选择适合自己的知识展示形式。、 父主题: OPS08
RES02-01 识别和备份应用中所有需要备份的关键数据 不同数据的重要性不一样,针对应用系统内的所有数据,需要明确其重要性及对应的RPO/RTO指标要求。比如对于重要数据,通常允许数据丢失的时间会比较少,从而需要更频繁的备份;对于一般的数据,允许数据丢失的时间比较长,可以使用较
RES07-01 定义关键指标与阈值并监控 对资源进行监控时,需要先定义资源的关键指标以及对应的阈值,以便快速有效的发现业务表现和系统状态,以便在异常状态下尽早干预恢复,或定位改进系统缺陷。 风险等级 中 关键策略 关键指标需要与系统内工作负载的关键性能指标相关,并能确定为系统性
RES01-01 应用组件高可用部署 应用系统内的所有组件均需要高可用部署,避免单点故障。 风险等级 高 关键策略 应用系统内各组件需要根据其具体能力,采用不同的高可用部署方案: 使用原生高可用实例:当云服务既支持单节点资源,又支持主备或集群资源时,应用的关键节点应使用主备或集群
OPS08-01 使用度量指标衡量运营目标 风险等级 高 关键策略 定义清晰的运营成功的目标和 KPI,设置基线作为参考点并定期重新评估。与业务领导者和利益相关者确定服务的总体目标。确定各个运营团队的任务以及可能面临的挑战。并明确运营目标的关键绩效指标 (KPI),可能是客户满意度、TTM、平均问题解决时间等等。根据
PERF03-07 选择合适的Kafka 风险等级 中 关键策略 根据生产流量、消费流量、老化时间、副本数等指标,计算业务所需的规格,选择合适的Kafka规格。 规格测算: 性能容量维度所需最小节点数 = max((存储带宽需求 / 单节点存储带宽),(网络带宽需求 / 单节点网络基准带宽))
RES07-02 日志统计监控 应用系统需要收集日志,在必要时对日志进行统计分析,设置告警规则触发告警,统计分析的内容可以是统计一定时间段内某些关键字出现的次数。 风险等级 中 关键策略 日志关键字与出现次数阈值需要合理设置,以免监控信息不正确。 日志信息(如关键字或出现频率)发生变化时,需要及时更新告警规则。
SEC09-02 安全事件记录及分析 在发生安全事件之前,可以考虑构建取证能力来支持安全事件调查工作。记录攻击和异常行为并对其分析:应在关键网络节点处(例如内外网的交界处、ELB流量转发处等)检测、防止或限制网络攻击行为;应采取技术措施对采集的安全日志进行持续监控和分析,实现对网
SEC09-03 实施安全审计 对云服务的关键操作开启安全审计,审计覆盖到每个用户。对审计日志进行保护并定期备份,避免受到未预期的删除、修改或覆盖。 风险等级 高 关键策略 云服务的关键操作包含高危操作(如创建IAM用户、删除IAM用户、重启虚拟机、变更安全配置等)、成本敏感操作
RES13-02 应用系统负载均衡,避免流量不均匀 针对无状态集群业务,通过负载均衡来保证业务均匀分发,可避免部分组件空闲,而部分组件过载而影响业务;同时还可以充分利用系统资源,提高系统性能,改善系统可靠性。 风险等级 高 关键策略 负载均衡分发业务粒度需避免过大,而导致部分组件过载。