检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
要与企业的组织和业务架构总体保持一致,但也不要完全照搬复制。华为云提供以下参考架构,建议按照业务架构、地理架构、IT职能等维度设计组织层级和账号。 按照业务架构在华为云上划分不同的组织层级和OU,每个业务OU下面可以按照业务系统创建独立的成员账号。规模较大的业务系统或安全隔离要求
系统内组件有可能完全故障,也有可能处于亚健康状态;亚健康是指系统整体业务未超标,但系统中局部实例业务超标。亚健康更多是个相对概念,相对历史表现的统计,或相对系统整体。因此针对亚健康的检测和判断有所不同。当处于亚健康状态时,系统也需要及时进行隔离或恢复处理,避免对业务造成影响。 风险等级 高 关键策略 亚健康
检测:通过CES监控CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率。 恢复: 根据业务情况,手工变更规格以扩展资源。 开启自动扩缩容,以便在过载时自动扩容规格和/或只读节点。 应用层进行过载保护,保障优先业务的运行。 连接后端GaussDB(for MySQL)失败 检测:连接失败。 恢复:
资源监控 IT 资源监控对 IT 资源的性能和容量进行监视和报告,确保您的业务稳定可靠运行 应用监控 应用监控基于应用资源管理对资源实行从应用、业务组件、到环境的分层监控,每一层对应的观测指标均不同。在应用层,主要监控业务层、应用层、中间件层以及基础设施层告警信息,同时通过绑定当前应用的
常见故障模式 ELB的并发连接数/新建连接数/带宽使用率过高 检测:通过CES监控ELB的并发连接数/新建连接数/带宽使用率。 恢复: 根据业务情况,采用独享型负载均衡器,并手工调整ELB负载均衡器规格。 父主题: ELB弹性负载均衡
高 关键策略 由于成本优化是跨组织多个业务部门的事项,而云资源是云上成本的主要开销,故而应该制定策略,确定您的组织应该如何管理资源。如上文所说的,可以使用账号隔离不同组织/部门的资源,甚至于在同一个组织/部门内部,开发,测试,核心业务,非核心业务,也使用不同的账号和环境。 然而即使
通过配置数据事前备份与恢复设计,确保在出现配置错误时能够快速恢复到正确的配置数据状态。 风险等级 高 关键策略 进行全量数据备份,以防变更过程中数据被破坏,影响业务。 异常回滚时,可使用备份数据进行恢复。 父主题: RES14 配置防差错
将成本按照业务语义分配到有意义的分组。基于成本单元的成本分配结果,支持在“成本分析”页面可视。 如果需要获取明细数据与自身云管平台进行集成,实现定制化的成本和使用分析,您还可以订阅账单明细数据、OBS转储成本明细或调用客户运营能力API。比如将成本和使用明细与企业的业务运营数据结合,生成业务单位成本KPI。
RES04-03 容灾恢复过程自动化 由于容灾恢复场景涉及容灾站点的业务恢复、数据库的主备切换、业务到容灾站点的流量切换等,恢复过程比较复杂,因此需要提供容灾管理功能,实现容灾状态及RPO监控,以及灾难场景下的一键式自动切换,减少人工干预。 风险等级 高 关键策略 实时监控容灾状态,了解容灾运行状态。
故障扩散。 风险等级 高 关键策略 对系统内组件需要定期进行健康检查,以判断其状态是否正常。 对于异常组件,需要能支持自动隔离,避免对整体业务造成影响。 相关云服务和工具 弹性负载均衡器 ELB:支持健康检查,会定期向后端服务器发送请求以测试其运行状态,并根据健康检查来判断后端服
伸缩时,要求业务与数据解耦,即将系统的业务处理逻辑与数据分离、数据(状态)外置,以实现业务节点(含资源)无状态,按需快速增加或减少,从而实现系统业务处理能力的伸缩。 当节点故障或资源不足时,系统需要自动检测和扩展节点,以实现自动横向扩缩容,自动增加资源容量,解决业务处理能力不足的问题,无需人工干预。
如下的规范可以帮助我们在系统运行过程中,尽可能减少遇到redis不稳定或异常的概率, 保证系统的长稳运行。 业务使用规范 原则 原则说明 级别 备注 就近部署业务,避免时延过大 如果部署位置过远(非同一个region)或者时延较大(例如业务服务器与Redis实例通过公网连接),网络延迟将极大影响读写性能。 强制 如果对于时延较为敏感,请避免创建跨AZ
OPS07-04 支持故障恢复流程 风险等级 高 关键策略 当现网发生故障时,既要快速恢复业务,又要降低影响,首先需要围绕故障全生命周期采取一系列控制流程,包含故障预防、故障发现、故障定位、故障恢复、故障复盘及持续改进(含故障演练),基于故障模式库,面向全流程、构建恢复能力、保证
整现有的组织预算和预测流程,以适应云的变化。 客户应密切关注历史消费趋势和不断变化的业务趋势,力求尽可能准确的预算规划。同时结合基于趋势(以历史支出作为输入)的预测和基于业务驱动因素(例如新业务上云或区域扩张)的预测,可以有效改进并提升企业的财务预测准确率。 相关服务和工具 使用
实现对网络质量、页面性能、端口性能、文件传输、音视频体验等场景进行周期性监控,支持多维度分析性能指标。利用可视化性能数据及时对业务质量作出反应,保证业务稳定正常运行。 父主题: OPS03 完备的测试验证体系
送多条小的消息也可能不是一个好的选择。更好的方法是生产者把多条小消息封装成一条大消息,然后由消费者来拆开处理。然而,如果一条大消息封装了太多的子消息,处理速度将会受到影响。如果一条子消息处理失败,整个大消息都需要重传。因此,当选择消息大小时,需要考虑带宽和业务架构。 连接和通道
PERF06-01 分层看护 风险等级 高 关键策略 基于业务的部署架构,一般可以从最底层的硬件基础设施到最上层的应用分成5层资源,云上服务可以只需要关注虚拟网络、实例、应用三层。结合每一层资源的特征指标进行分层建模,分别设置不同梯度的性能看护指标。通常按照指标劣化程度可以设计成
持按需弹性扩容、AI提升智能防御能力、灵活扩展满足云上业务的变化和扩张需求,极简应用让用户快速灵活应对威胁。云防火墙服务是为用户业务上云提供网络安全防护的基础服务。 WAF:保护网站等Web应用程序免受常见Web攻击,保障业务持续稳定运行,满足合规和监管要求。 AAD:华为云DD
应用组件需要部署在多个数据中心,以避免单个数据中心故障而导致业务中断。 风险等级 高 关键策略 可根据不同需求,将应用的数据和资源部署在多个位置: 应用多AZ部署:应用应尽可能部署在多个可用区,避免由于单个可用区故障而导致所有业务中断。 应用多Region部署:对于可用性要求高的应用系
以了解系统运行状态和趋势。 风险等级 中 关键策略 监控数据存储时长需要满足保留要求。 监控数据需要定期分析,以便发现或预测系统故障,减少业务中断。 相关云服务和工具 LTS云日志服务:支持日志分析与数据转储 父主题: RES07 监控告警