检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过划分故障隔离域,限制工作负载的影响,可有效进行故障隔离。 RES10-01 应用控制平面与数据平面隔离 RES10-02 应用系统多位置部署 RES10-03 采用Grid架构 RES10-04 健康检查与自动隔离 父主题: 故障快速恢复
对用户无感知或仅需简单配置: OBS、SFS、FunctionGraph等服务会根据请求量自动扩展业务处理能力,用户无感知。 RDS服务最多支持5个只读副本,可在线扩展只读负载;一键规格变更实现CPU、内存扩容/缩容;在线存储容量扩容。 CCE服务支持配置自动扩容集群节点和工作负
建立持续改进的团队文化和标准化的运维体系 OPS02 通过CI/CD实现高效的频繁可逆的小规模变更 OPS03 完备的测试验证体系 OPS04 自动化构建和部署流程 OPS05 运维准备和变更管理 OPS06 可观测性体系 OPS07 进行故障分析和管理 OPS08 度量运营状态和持续改进 参考案例
接,保证网络不中断。两条VPN连接可以是双活或主备部署。具体的方案参见“通过VPN实现云上云下网络互通(双活模式)”与“通过VPN实现云上云下网络互通(主备模式)”。 DC专线/VPN主备:用户数据中心与华为云VPC之间同时部署DC专线和VPN两条网络链路,互为主备,并通过企业路
独享型负载均衡:独享型负载均衡实例资源独享,实例的性能不受其它实例的影响,可根据业务需要选择不同规格的实例。 共享型负载均衡:属于集群部署,实例资源共享,实例的性能会受其它实例的影响,不支持选择实例规格。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
配合弹性负载均衡ELB服务,可以实现多ECS实例的负载均衡。 健康检查 通过弹性负载均衡ELB服务,可对ECS实例进行健康检查。详见“修改健康检查配置”。 弹性伸缩 配合动态伸缩AS服务,可以实现跨AZ的ECS实例重建或均衡。 跨AZ容灾 配合ELB服务,可以实现跨AZ的故障切换。 监控告警
Join减少Shuffle的次数,大幅提升性能 不同SQL语句,完成同一个功能,生成Map Reduce的数量越少越好 Hive系统默认是典型的配置场景,结合业务实际情况,可以做一些参数的调整,如文件块的大小,Map个数与Reduce的个数,压缩算法等。 合理的使用分区,分区数量不要太多,查询的SQL尽量指定具体的分区值;
esos或者YARN上,能够接入HDFS、HBase、Hive等多种数据源,支持MapReduce程序平滑转接。 集群服务部署规划 服务规模与业务容量参数配置对照表 Spark作为内存计算引擎,需要更多的内存和CPU。用户在规划规格时,应根据当前的业务容量和增长速度,规划合理的内存和CPU资源,特别需要关注以下几点:
服务器从伸缩组中移除。详见“弹性伸缩健康检查”。 跨AZ容灾 AS支持后端服务器多AZ部署,当某个AZ出现故障时,AS可自动将云服务器创建到其他AZ,以快速恢复业务。 当选择多AZ部署时,可配置“多可用区扩展策略”为“均衡分布”或“选择优先”: 均衡分布:云服务器扩容时优先保证选
统的核心功能。 流量过载时支持功能逐步降级。 被依赖项本身的功能受损时,提供缺省处理,以便应用系统仍可继续正常运行;由于缺省处理可能与实际配置有差异,此时需要告警以便通知系统管理员解决问题。 父主题: RES08 依赖减少与降级
计算需求大,可容忍较高的时延。为了保证在线业务的性能和稳定性,通常按波峰时需要申请资源,这样在非波峰时段就有资源浪费。将在线离线业务混合部署,可有效提升整体利用率。 父主题: COST08 进行架构优化
如下的规范可以帮助我们在系统运行过程中,尽可能减少遇到redis不稳定或异常的概率, 保证系统的长稳运行。 业务使用规范 原则 原则说明 级别 备注 就近部署业务,避免时延过大 如果部署位置过远(非同一个region)或者时延较大(例如业务服务器与Redis实例通过公网连接),网络延迟将极大影响读写性能。 强制
RES09 故障重试 当应用系统部署在云中,虽然云具有一定的高可用和故障自动恢复能力,但对外仍会导致短时间的故障,需要应用系统能针对这种短时间故障进行适配处理,主要是采用重试机制。 云中故障需要重试的典型场景有: 实例主备切换时可能会导致连接中断,如DCS、RDS实例由于某些原因
全量日志接入:汽车APP、软件开发、流量平台等170个业务系统接入云日志服务,全面覆盖业务、应用、中间件和基础设施。 分钟级问题定界:秒级日志查询和分钟级日志监控,可配置告警和多渠道通知,90%问题感知与定位分析控制在30分钟。 存储时长满足等保要求:支持存储时长最大为365天,满足等保合规要求,智能冷热存储可降低存储成本,且提供便捷检索能力。
常后就不会将流量分发给该异常后端服务器。 云容器引擎 CCE:支持容器健康检查,容器运行过程中,可根据用户需要,定时检查容器健康状况。若不配置健康检查,如果容器内应用程序异常,Pod将无法感知,也不会自动重启去恢复。最终导致虽然Pod状态显示正常,但Pod中的应用程序异常的情况。
难易程度。同时,在每次回顾和审核时,持续改进流程,例如,通过降低测试和变更的成本从而提升整体的优化频率。最后,在云厂商新的服务、资源类型和配置推出后,也可以启动流程,对它们进行评估,以优化您的工作负载成本。 父主题: COST05 优化指定策略和目标
数据完整性保护。通过定期备份和版本控制来保护您的数据,防止数据被篡改或删除。将关键数据与其他数据隔离,以保护其机密性和数据完整性。 确保存储了重要业务数据、敏感数据的OBS桶,配置为非公开可读,防止数据被非法访问。 制定风险管理计划:了解数据被意外披露、更改或删除可能会带来的业务影响,有助于制定相应的风险管理计划。 相关云服务和工具
同时从可维护性来看,较之于一次性颠覆性的大范围应用/软件更新,小步快跑,持续迭代地进行云上软件的更新更有利于运维,因为一则小范围的云上软件更新和部署更不容易引起大范围事故,其次,不停地迭代更新也有效地保证了开发,运维团队成员能够时刻处于练兵状态,不至于对运维的流程,最佳实践比较陌生。要
码之外的文件或由第三方托管,将长期凭证作为变量传入使用。要定期审计和实施凭证轮换,以帮助降低长期凭证相关风险。 对您的身份提供者和IAM中配置的身份进行审计,这有助于验证只有经过授权的身份才能访问您的工作负载。 使用数据加密服务DEW托管凭据。实现对数据库账号口令、服务器口令、SSH
分区的边界。 VPC划分:为VPC指定合适的CIDR范围,以确定VPC的IP地址空间。 子网划分:在VPC中,创建多个子网,并将不同的资源部署在不同的子网中。 相关云服务和工具 虚拟私有云 VPC 父主题: SEC04 网络安全