检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
保障使用质量和安全。 降低开源漏洞的影响。开源软件的安全漏洞传播快,影响大。一旦出现安全漏洞,快速排查受影响的产品并进行修复是降低影响的关键。 可追溯。对开源软件的变更过程可控、有记录可查,建立产品版本与第三方软件及漏洞的关系。 父主题: SEC06 应用安全性
色)实例处理所有工作负载。第二个(绿色)实例已使用新功能进行更新并进行了内部测试。经过内部测试后,生产流量的子集从蓝色实例路由到绿色实例。与金丝雀部署一样,当您引流更多流量转移到绿色实例时,引流是渐进的。完成转出后,更新实例将变为蓝色实例,绿色实例已准备好进行下一次部署。这两个实例在逻辑上彼此分离,以防止发生故障。
PERF04-01 定义验收标准 风险等级 高 关键策略 验收标准是用于评估指定工作负载是否满足性能要求的指标,需要在性能测试前期定义合理的验收标准。 查看性能目标 性能目标定义了工作负载所需的性能级别。查看为工作负载建立的性能目标。性能目标是可能涉及响应时间、吞吐量、资源利用率
PERF06-01 分层看护 风险等级 高 关键策略 基于业务的部署架构,一般可以从最底层的硬件基础设施到最上层的应用分成5层资源,云上服务可以只需要关注虚拟网络、实例、应用三层。结合每一层资源的特征指标进行分层建模,分别设置不同梯度的性能看护指标。通常按照指标劣化程度可以设计成
SEC03-03 定期审视权限 定期检视和更新权限,以避免权限蔓延,持续清理无用的权限。 风险等级 高 关键策略 使用IAM用户组控制人员的访问权限,并设置权限的到期时间。 如果用户组的职责产生变化,应该及时调整用户组的权限。 当账号委托给另一个账号时,设置到期时间。 通过IAM
OPS06-07 通过可观测性指标引入自动化措施 风险等级 高 关键策略 可观测与自动化运维工具联动,实现自动化的故障检测、恢复及弹性伸缩等功能,进一步提升运维响应速度和准确性,降低人为干预带来的延误,甚至错误。 父主题: OPS06 可观测性体系
RES01-03 云服务器反亲和 应用内相同业务的ECS需要分散到多台物理服务器,避免运行到同一台物理服务器上,当发生这种情况时,可能会由于一台物理服务器故障而导致业务中断。 风险等级 高 关键策略 针对多个承载相同业务的ECS,需要配置主机组反亲和,从而可以将相同业务的ECS调
RES15-02 自动化检查 在部署或升级过程中集成基本测试功能,实现自动化检查,无需人工参与。 风险等级 高 关键策略 在部署或升级过程中集成基本测试功能,在部署或升级完成后自动进行检查和测试,以验证新部署的代码功能是否正确。 在部署或升级过程中集成故障注入测试功能,在部署或升
SEC06-04 应用安全配置 对应用运行时的各项配置进行加固,以避免因安全配置错误而产生的安全漏洞和风险。 风险等级 高 关键策略 根据安全配置规范,对您工作负载中的应用,如Nginx、Tomcat、Apache、Jetty、JBoss、PHP、Redis等完成安全配置加固和Web攻击防护。
过短消息、邮件等方式发送给所有相关人员,确保使相关人第一时间得知故障信息,以便快速组织应急响应。 预测:维护团队需要根据系统运行现状,通过数据分析、机器学习等方式,预测系统的风险情况,提前进行预防和处理。 在进行应急恢复处理时,通常需要尽快缓解或恢复业务,快速结束业务中断对客户的
COST05-02 建立可以量化的优化目标 风险等级 高 关键策略 成本优化是一项投资,而且是一个需要持续进行的流程。为了向公司或者组织的决策者、利益相关方说明投资的价值,就需要对成本优化自身,尤其是其执行的目标进行量化。从而在持续的优化活动中,都可以从决策者或者利益相关者那里得
OPS07-01 创建可操作的告警 风险等级 高 关键策略 收到告警时,一般需要做出响应,消除无须响应的告警。 比如磁盘IO 量瞬间飙升,CPU 使用率瞬间飙高,这类告警无需做出响应,对业务而言,意义就不大了。 遵循可操作性原则能避免很多误报。并且要定期统计和分析告警频率,识别高
RES15-03 自动化回滚 在升级或部署过程中出现异常,或检查/测试失败时,支持自动回滚,减少人工干预,避免回滚失败。 风险等级 高 关键策略 检测到异常后,可一键式回滚。 回滚过程自动化完成。 父主题: RES15 升级不中断业务
SEC06-02 建立安全编码规范 应用安全涉及需求、设计、实现、部署多个环节,实现的安全是应用安全的重要一环。建立安全编码规范有助于团队编写更安全、更高质量的代码,减少甚至规避由于编码错误引入的安全风险。 风险等级 高 关键策略 发布团队常用编程语言的安全编码规范。通用的安全编
Turbo),生成按需转包年包月的优化建议和节省评估。 资源包购买建议:自动分析客户按需资源消耗和华为云在售资源包商品(比如OBS标准存储单AZ存储包、OBS标准存储多AZ存储包、OBS公网流出流量包、SFS存储资源包)的覆盖情况,生成相应的资源包购买建议和节省评估。 父主题: COST06
RES12-02 制定应急预案 针对常见问题现象,提供标准化的应急恢复指导,以便在出现问题后,可以有序的完成恢复操作,避免操作失误。 风险等级 高 关键策略 需要覆盖常用典型场景。 应急恢复需要有标准的操作流程和动作,确保在事件发生时,相关干系人都能够明确自身职责和所需要采取的措施。
常见故障模式 ELB的并发连接数/新建连接数/带宽使用率过高 检测:通过CES监控ELB的并发连接数/新建连接数/带宽使用率。 恢复: 根据业务情况,采用独享型负载均衡器,并手工调整ELB负载均衡器规格。 父主题: ELB弹性负载均衡
要保证重复执行多次的结果不变。 风险等级 高 关键策略 应用系统在设计时,应使操作具有幂等性,也就是允许一个操作连续执行两次或多次时,应该与单次调用产生的结果相同,从而保证重试安全;若不支持操作的幂等性,会导致客户端难以重试或重试的处理更复杂。 父主题: RES09 故障重试
制定KPI指标支撑改进: 成本标签核心目的是成本分配,建议将KPI定为成本可分配比例,用于衡量标签的覆盖率。可分配成本比例越高,成本分配和报告效率越高,成本数据越可信任。在标签治理过程中,通过可分配成本比例趋势的上升和下降,检查组织内标签的标记覆盖率是在提升还是在下降 识别标签缺失和错误:在确定需
RES09-03 重试需要避免造成流量压力 对于链路闪断等原因导致的临时性故障,客户端进行一定的重试,可取得较好的效果;对于流量过载等原因导致的故障,重试可能会导致情况进一步恶化,因此需要避免这种影响。 风险等级 高 关键策略 客户端进行重试处理时,建议: 增加指数回退和抖动方法