检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
现、故障定位、故障恢复、故障复盘及持续改进(含故障演练),基于故障模式库,面向全流程、构建恢复能力、保证平均恢复时长(MTTR)的长效收敛,实现故障的快速恢复。 设计建议 父主题: OPS07 进行故障分析和管理
RES09-03 重试需要避免造成流量压力 对于链路闪断等原因导致的临时性故障,客户端进行一定的重试,可取得较好的效果;对于流量过载等原因导致的故障,重试可能会导致情况进一步恶化,因此需要避免这种影响。 风险等级 高 关键策略 客户端进行重试处理时,建议: 增加指数回退和抖动方法
SEC06-04 应用安全配置 对应用运行时的各项配置进行加固,以避免因安全配置错误而产生的安全漏洞和风险。 风险等级 高 关键策略 根据安全配置规范,对您工作负载中的应用,如Nginx、Tomcat、Apache、Jetty、JBoss、PHP、Redis等完成安全配置加固和Web攻击防护。
业务数据不均衡原因 业务中部分Topic的流量远大于其他Topic,会导致节点间的数据不均衡。 生产者发送消息时指定了分区,未指定的分区没有消息,会导致分区间的数据不均衡。 生产者发送消息时指定了消息Key,按照对应的Key发送消息至对应的分区,会导致分区间的数据不均衡。 系统重新实现了分
制定和实施可观测性指标 风险等级 高 关键策略 指标是对时间周期内的测量数据的数值表示。可观测性指标是围绕发现率、定级准确率、定界时长、覆盖率、有效率、 一致率打造可观测能力,将可观测设计规范统一发布,统一设计要求与运维管理要求。 设计建议 整体技术方案会变成标准并进行发布,各个业
包括事件发生的时间、地点、责任人、事件的过程、原因、影响等。 组建复盘团队:邀请相关的团队成员和利益相关者参与复盘过程。确保涵盖各个关键领域的代表,如技术人员、安全运营人员等。 分析根本原因:通过结果追溯分析事件的根本原因,连续问几个为什么,找出导致事件发生的最根本的问题。这有助于避免将来类似事件的发生。
将成本分配到责任团队,使各责任团队及时准确清晰的了解自己业务成本,加强团队成本意识,在构建方案时追求性能、可靠性和成本的平衡。 相关服务和工具 华为云支持您按照组织规划的方式分配成本。随着云服务的使用,规划的组织方式也会随着云服务的费用生成,体现在账单管理、成本分析等可视化工具的数据中。 您还可以使用成
COST07-01 持续监控资源利用率指标 风险等级 高 关键策略 持续地在组织中定义资源的核心利用率指标(如CPU利用率,内存,CDN服务的流量,数据库的TPS),按(天、周、月)等时间周期发现规律,对低利用率资源的应用/项目进行审查。 父主题: COST07 管理和优化资源
自动扩容到最大时的规则不超过配额限制。 在系统中也可配置资源使用超过一定限额后进行预警,避免配额超过限制后导致业务受影响。 相关云服务和工具 使用华为云“我的配额”,可以查询每个云服务不同资源类型的总配额限制和已用配额,可根据业务的需要申请扩大对应云服务指定资源的配额,也可配置配
同步开启审计日志的文件校验,保障审计文件的完整性,防止文件被篡改。 集中管控运维账号访问系统和资源的权限,对系统和资源的访问权限进行细粒度设置。 关于数据的安全审计见:SEC07-03 对数据操作实施监控 相关云服务和工具 云审计服务 CTS:用户开通CTS后,系统会自动创建一个
标、数据指标、资源指标三种维度指标需要达到的目标基线,指导系统能达到以最小的资源占用管理最大的数据并给用户提供最优的体验目标,输出系统各个场景所要达到的SLA。 2.创建测试方案 创建测试方案是指设计适合性能测试系统负载的特定场景或条件的过程,性能测试方案设计要求全面、无遗漏,使
个基线和测试来验证代码。然后,它向提交者提供有关这些测试状态的反馈。如果基线检查和测试进展顺利,集成过程将生成并暂存部署更新软件的资产。这些资产包括编译的代码和容器映像。 持续集成可以通过执行以下操作更快地交付高质量的软件: 针对代码运行自动化测试,以便尽早检测到重大更改。 运行代码分析以确保代码标准、质量和配置。
IaC 的更好的整体选择。声明性工具对其定义文件使用更简单的语法,仅定义部署完成后所需的环境状态。命令式工具需定义达到所需最终状态所需的步骤,因此文件可能比声明性文件复杂得多。声明性定义文件还有助于减少维护命令式代码(例如部署脚本)的技术债务,这些技术债务会随着时间的推移而增加。
建立安全事件响应团队,明确各角色与职责。 风险等级 高 关键策略 安全事件响应团队一般包含如下角色及职责: 安全响应专家:主导网络安全事件调查,负责对事件进行定级、通报、攻击溯源以及确定影响范围,制定应急处置措施,推动服务控制风险。 攻击溯源专家:根据攻击的IOC信息进行溯源,追溯攻击
y攻击的占比增加、社工手段的多样性增加,大部分攻击都是内网渗透、正面入侵很少。整体攻击战法更贴近于真实的网络入侵,符合“以攻促防”的目标。 防守要点变化: 从单点防护开始转变为多点协同防护;从大范围的黑名单拦截转变为有技巧性的联动防护;从边界的纵深拦截延伸到内网的异常监控;从被动的监控防御延伸到主动的诱捕溯源。
VM中使用一个内部队列,这会消耗一定的资源。大多数场景下,使用最多5个优先级就够了。 如何确定消息大小 如何选择发往RabbitMQ的消息长度是一个常见问题。记住,每秒钟发送的消息数比消息大小更容易达到瓶颈。虽然发送大消息不是一个好的做法,但是发送多条小的消息也可能不是一个好的选择。更好的方法是生产者把
长,且成本高 解决方案: 业务价值: 端侧日志全面采集接入,自定义域名上报:集成LTS提供的多端SDK,全面采集端侧日志,接入LTS,且支持上报服务端域名自定义,在用户面保持了业务一致性与合规性,降低了问题定位复杂度,提升了运维效率 端侧日志数据毫秒级上报,数据0丢失:端侧采集日
个项目/业务/应用全生命周期的云开销。 企业的项目/业务是随时间变化而变化的,一般而言,新兴业务/项目常有更多云资源扩容的需求,而稳定的业务/项目则可以更多考虑单位收益的云成本是否可以持续优化,而处于生命周期末尾的项目/业务则需要考虑逐步释放不再需要的资源。 企业制定预算时,应该
网络资源支撑业务发展。 风险等级 高 关键策略 云上网络规划设计应满足以下原则: 针对每个Region,根据业务需要规划不同的VPC,每个VPC使用独立的地址空间;并需要预留IP地址空间用于新建VPC。 针对每个VPC中,需要根据业务需要规划子网和IP地址空间;并需要预留IP地址空间用于新建子网。
RES15-01 自动化部署和升级 部署和升级过程由代码实现,以固化部件间依赖、安装和配置过程,减少人工错误。 风险等级 高 关键策略 部署和升级过程自动化完成。 父主题: RES15 升级不中断业务