检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
能力至关重要。在进行网络设计时,需要充分考虑应用系统对内和对外的网络连接、IP地址管理和域名解析等。 华为云中网络高可用主要涉及三个场景: 公有云网络:构建应用系统相关的公网网络连接的高可用,可减少由于网络连接中断而导致的业务中断。 混合云网络:对于自建本地数据中心(IDC)或使
使用Core数量等,通过这些指标可以衡量任务在该类型机器或该机器上的执行情况,观察集群各机器的通用指标,可以看到集群的负载是否均衡。 接入层指标 Hive连接数,并行SQL数量,输入缓存值(或每批大小)。单HiveServer实例可以处理的最大并发数可以通过参数控制,默认是500
nGraph函数执行何种逻辑。 策略: 正确的使用连接池,保持连接存活并重用在上一次调用中建立的连接(HTTP,数据库、redis等)。 通过接口调用FunctionGraph函数时,建议客户端维护http连接池,减少http连接初始化时间。 避免在每次调用时重新初始化变量对象(使用全局静态变量、单例等)。
常见故障模式 ELB的并发连接数/新建连接数/带宽使用率过高 检测:通过CES监控ELB的并发连接数/新建连接数/带宽使用率。 恢复: 根据业务情况,采用独享型负载均衡器,并手工调整ELB负载均衡器规格。 父主题: ELB弹性负载均衡
风险等级 中 关键策略 快速通道模式 通过减少支配性工作量负载的处理量,只剩下必要的部分,来改进响应的时间。一个软件可以有多项功能,只有几个是被经常使用的,经常使用的功能构成支配性工作量负载。快速通道模式减少这些功能的处理量,或简化其处理过程。快速通道通过简化执行路径的方式来实现,简化路径即是快速通道。
现跨Region的数据双写,以进行数据同步。 接入侧主Region与灾备Region各自申请外部IP,并通过DNS域名解析到主Region,在主Region故障时,将DNS域名对应IP地址修改为灾备Region中的外部IP。 申请MAS多活高可用服务,进行容灾编排,以便在灾难场景快速主备切换恢复业务。
OPS02 通过CI/CD实现高效的频繁可逆的小规模变更 OPS02-01 进行需求管理和迭代开发 OPS02-02 关联源代码版本和部署的应用版本,使用代码质量最佳实践 父主题: 卓越运营支柱
通过AOM助力系统运维能力提升,降低运维成本与难度 某平台服务的认证驾驶员用户1000万人,货主用户500万人,集团业务覆盖全国339个主要城市,覆盖线路数量超过11万条,实现了全国多中心运营的架构。 客户痛点: 多云双活场景运维难保障:大规模集群场景,单个云厂商灾备不足以保障业
本的需求 相关服务和工具 华为云成本中心的成本单元提供按比例的公共成本分拆方式。 华为云成本中心提供共同成本分拆,支持CDN、Live按照域名流量进行成本分拆。 华为云CCE服务提供细化的按照Pod Level的成本分拆,并可以卷积到Workload,Service等各种标准K8S模型层级。
/内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高 检测:通过CES监控CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率。 恢复: 根据业务情况,手工变更规格以扩展资源。 开启存储空间自动扩容,以便在磁盘容量不足时自动扩容。 应用层进行过载保护,保障优先业务的运行。 连接后端RDS失败 检测:连接失败。
OPS06-07 通过可观测性指标引入自动化措施 风险等级 高 关键策略 可观测与自动化运维工具联动,实现自动化的故障检测、恢复及弹性伸缩等功能,进一步提升运维响应速度和准确性,降低人为干预带来的延误,甚至错误。 父主题: OPS06 可观测性体系
/内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高 检测:通过CES监控CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率。 恢复: 根据业务情况,手工变更规格以扩展资源。 开启自动扩缩容,以便在过载时自动扩容规格和/或只读节点。 应用层进行过载保护,保障优先业务的运行。 连接后端云数据库 TaurusDB失败
/内存/磁盘容量/磁盘IOPS使用率过高 检测:通过CES监控CPU/内存/磁盘容量/磁盘IOPS使用率 恢复: 根据业务情况,更换规格更高的BMS实例或增加BMS实例进行负荷分担。 应用层进行过载保护,保障优先业务的运行。 连接后端BMS失败 检测:网络连接失败。 恢复: 至少部署2个后端B
将VPC和本地网络连接到一个网关中,支持路由学习、动态选路以及链路切换,极大的提升网络的可扩展性及运维效率,从而保证业务的连续性。 ESW 将VPC和本地网络连接到一个网关中(二层互联),助力企业客户灵活构建大规模、高性能、高可靠的云上/云下网络。 NAT gateway 通过地址转换的
业务能力、网络每个部分的带宽满足业务高峰期的需要。 风险等级 高 关键策略 在设计网络拓扑时,仔细检查每个组件的连接要求,例如是否需要互联网可访问性(入站和出站)、连接到VPC的能力、边缘服务和外部数据中心等。除非资源必须接收来自公网的网络流量,否则不要将资源放置在VPC的公有子网中。
陌生。要保证云上应用进行迭代更新,那么从需求阶段,就要进行迭代规划和跟踪,通过迭代的方式进行开发管理,根据需求划分迭代计划。 相关云服务和工具 华为云CodeArts Req服务 父主题: OPS02 通过CI/CD实现高效的频繁可逆的小规模变更
华为云云服务提供了手工恢复功能,用户可定期执行恢复操作,以进行恢复测试。 相关云服务和工具 云备份 CBR 云数据库 RDS 分布式缓存服务 DCS 父主题: RES02 备份
实例、DDS集群、DCS主备或集群实例等。对于运行在CCE集群上的工作负载,也需要配置多个,以避免单个节点故障就导致业务中断。 单节点实例通过多实例实现高可用:当云服务只支持单节点发放,则需要应用层来实现多个节点之间的主备或负载均衡,如ECS实例,用户可以通过构建ELB+多ECS
对这种短时间故障进行适配处理,主要是采用重试机制。 云中故障需要重试的典型场景有: 实例主备切换时可能会导致连接中断,如DCS、RDS实例由于某些原因主备切换时,会导致连接中断,需要客户端重试。 实例由于故障重启可能会导致通信中断,如ECS所在物理服务器由于硬件原因故障时,ECS
和可靠性也更强。 风险等级 中 关键策略 组件之间通过消息队列、消息缓存、负载均衡器等交互(即松耦合关系),可一定程度上屏蔽组件的状态变化,防止对其他组件造成影响 相关云服务和工具 弹性负载均衡服务 ELB 分布式缓存服务 DCS 分布式消息服务Kafka版 分布式消息服务RabbitMQ版