检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
网络资源支撑业务发展。 风险等级 高 关键策略 云上网络规划设计应满足以下原则: 针对每个Region,根据业务需要规划不同的VPC,每个VPC使用独立的地址空间;并需要预留IP地址空间用于新建VPC。 针对每个VPC中,需要根据业务需要规划子网和IP地址空间;并需要预留IP地址空间用于新建子网。
常见故障模式 弹性伸缩失败 检测:查看弹性伸缩组的弹性伸缩活动历史。 恢复: 根据伸缩活动失败描述信息进行修复。 父主题: AS弹性伸缩
RDS、DDS等实例负载状态及资源故障切换等的监控,在负载超过阈值或状态异常时告警。 弹性扩缩容 支持自动弹性伸缩;针对ECS,通过ELB实现ECS实例的故障检测与负载均衡,并可通过AS监控负载随时添加和移除ECS实例来扩展应用系统的服务能力;针对RDS for MySQL,可根
灾难场景通常采用RTO和RPO目标定义: 恢复时间目标RTO:指灾难发生后应用不可用的最长时间。RTO决定了应用容灾整体架构,是采用数据备份,还是冷备、温备、热备。 恢复点目标RPO:指灾难发生后应用数据丢失的最大时间。RPO决定了数据备份频率或复制方式,是在线备份还是离线备份,是同步复制还是异步复制。
n故障而导致所有业务中断。 在多AZ部署能满足需求的情况下,应优先使用多AZ部署。大多数工作负载的可用性目标都可通过在单个Region内多 AZ 部署来实现,只有工作负载具有极高的可用性要求或者其他业务目标时,才考虑多Region架构。 父主题: RES01 冗余
应用控制平面与数据平面隔离 通常应用的数据平面处理业务,比较重要,可用性要求比较高,而控制平面不直接处理业务,因此其故障时不应该影响业务系统。 风险等级 高 关键策略 应用控制平面与数据平面隔离,避免控制系统故障影响业务。 数据平面所在业务系统的故障恢复可不依赖控制平面,避免由于控制平面故障而导致业务系统无法恢复。
)时引发的业务中断风险及变更失败可能导致的业务受损风险。 设计建议 变更风控衡量指标:变更风控衡量指标为变更导致事件密度和变更引入重大事件数。 变更导致事件密度定义:每月变更导致对客户造成影响的事件数与总变更数的比值。 计算公式:变更导致事件密度=变更导致对客户造成影响的事件数/总变更数。
求下部署的典型架构示例。针对每种场景,从以下几个维度进行设计,来达成可用性目标。 类别 应用可用性影响 冗余 应用内组件的高可用能力,在应用内部分节点故障时业务自动恢复能力 备份 应用数据被破坏的情况下的恢复能力 容灾 在Region/AZ/IDC或其他云站点发生灾难的情况下的恢复能力
控实例内的内存占用率,在超过阈值的情况下及时告警,人工介入迅速恢复,可避免造成业务中断。 典型的亚健康场景有:通信链路丢包/错包、硬盘性能下降、CPU/内存过载等,当应用系统内组件出现亚健康时,可能会导致应用系统对外业务成功率下降。 由于亚健康并非故障,因此针对亚健康的检测一般是
的监控,可视化地还原业务的执行路线和状态,协助性能及故障快速定位。 在查询后的调用链列表中,单击待查看的调用链的链接,查看该调用链基本信息。 调用链详情页面可以查看调用链的完整链路信息,包含本地方法堆栈和相关远程调用的调用关系。 调用链与日志关联,提高用户体验。用户可以从调用链直接跳转LTS查看日志。
RES07-02 日志统计监控 应用系统需要收集日志,在必要时对日志进行统计分析,设置告警规则触发告警,统计分析的内容可以是统计一定时间段内某些关键字出现的次数。 风险等级 中 关键策略 日志关键字与出现次数阈值需要合理设置,以免监控信息不正确。 日志信息(如关键字或出现频率)发生变化时,需要及时更新告警规则。
在部署或升级过程中集成基本测试功能,在部署或升级完成后自动进行检查和测试,以验证新部署的代码功能是否正确。 在部署或升级过程中集成故障注入测试功能,在部署或升级完成后自动注入故障进行测试,以验证新部署代码的韧性。 父主题: RES15 升级不中断业务
RES13-06 压力负载测试 通过压力测试,可衡量系统的弹性扩容能力是否能满足业务要求。 风险等级 高 关键策略 参见“RES11-02 压力负载测试”章节。 父主题: RES13 过载保护
COST08-02 云原生架构改造 风险等级 中 关键策略 基于云原生架构改造,主要是应用容器化和微服务化的改造,从而发挥云原生的优势,如:自动弹性扩缩容等,容器技术可以提高资源利用率,避免闲置资源,从而降低计算成本,应用微服务化可以降低运维复杂度,从而降低运维成本。 广告电商等
离是一种数据处理技术,它将数据存储和数据处理(计算)分开,使得存储和计算可以独立地进行优化和扩展,这种技术提高数据处理的效率、降低成本并满足大规模数据存储和分析的需求。 如某导购网站日志分析业务,存储经常扩容,计算需求没有明显增长,计算资源浪费;某互联网客户推荐业务,存储容量缓慢
无法采集云服务指标信息:客户自建运维体系无法采集到云服务等场景的指标信息,不能满足大屏展示需要 告警通知能力不足:自建运维平台告警通知能力不能完全满足多场景通知的需要,且没有告警降噪能力 解决方案: 业务价值: 降低了运维成本与难度:降低了运维多套系统的难度,减少了客户运维起步的资源投入,降低了运维成本 运营分
SEC08-04 数据收集合规性 数据收集合规性是指数据控制者在收集个人数据时需遵守相关的法律法规和隐私保护准则,确保数据收集活动符合法律规定并尊重数据主体的权利。 风险等级 高 关键策略 收集个人数据必须获得数据主体授权。 收集敏感个人数据必须获得数据主体明示同意。 个人数据收
常见故障模式 ELB的并发连接数/新建连接数/带宽使用率过高 检测:通过CES监控ELB的并发连接数/新建连接数/带宽使用率。 恢复: 根据业务情况,采用独享型负载均衡器,并手工调整ELB负载均衡器规格。 父主题: ELB弹性负载均衡
应用管理与运维平台(ServiceStage) 应用管理与运维平台(ServiceStage)是面向企业的应用管理与运维平台,提供应用发布、部署、监控与运维等一站式解决方案。支持Java、Php、Python、Node.js、Docker、Tomcat技术栈。支持Apache ServiceComb
RES14-04 提供runbook进行标准化变更 runbook是指运行手册,是用来实现变更的详细操作过程。 变更前需提供标准化runbook用于变更和回退,变更过程中严格按照runbook执行,在变更失败时根据runbook进行回退。 风险等级 高 关键策略 runbook需