检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
相关服务和工具 创建预算提醒,将预算设置为提醒阈值,在预测或实际成本超出预算时,及时获取超预算通知,防止潜在成本超支。 创建成本监控,华为云成本中心的成本监控引入机器学习,对客户历史消费数据进行建模,对于不符合历史数据模型的成本增长,识别为异常成本记录,同时提供异常增长的To
工作负载,划分Web区、App区、Data区等。最重要的边界是公共网络(互联网)与应用程序之间的边界,这个边界是您的工作负载的第一道防线。华为云的VPC和子网都可以作为每个网络分区的边界。 VPC划分:为VPC指定合适的CIDR范围,以确定VPC的IP地址空间。 子网划分:在VP
、支持计划、未及时标记的成本。只有将公共成本也分配下去,才能让业务团队关注这部分消费,从而合理化使用,减少不必要的浪费。 相关服务和工具 华为云成本中心提供包年包月、资源包成本按实际使用者和实际消耗的成本分摊(即摊销成本)。 父主题: COST03 对成本进行分配
并提升运营效率,让云上应用始终最具成本效益。 成本优化实践不意味着只有降本,它是安全合规、韧性等维度的平衡,也是达成业务目标的最优投入。 华为公司结合云业务成本运营经验和业界最佳实践总结并提炼出体系化实践与建议,包括:提升成本管理效率、合理选择与分配云资源、建立预算管理机制、持续成本治理、提升资源效率及架构优化等。
卓越运营支柱简介 在华为公司,卓越运营代表着质量、效率和可持续的卓越客户体验。它帮助改进设计、开发、测试、部署、发布和运维活动,持续实现高质量的交付结果,推动了持续集成和持续交付(CI/CD)落地;同时助力打造确定性运维体系,让研发团队将更多时间用在构建让客户受益的新功能上,减少
可靠性功能 集群HA DCS服务提供主备、Proxy集群、Cluster集群实例,通过节点冗余方式实现实例容灾,当检测到主节点故障后,快速切换到备节点并自动恢复,在异常检测和恢复期间,可能会影响业务,时间在半分钟内。 数据备份和恢复 DCS支持将当前时间点的实例缓存数据备份并存储
以便在警报触发时能够快速采取必要的措施,如优化资源、停止不必要的服务,或者针对某个部门,项目进行新购买云资源的限制等。 相关服务和工具 华为云提供了通用的预算管理工具,您可以根据企业实际规划的预算,用预算管理工具跟踪起来,并可以设置细粒度的过滤条件,精细化跟踪具体产品、团队、项目的成本。
用跨AZ的ELB实现跨AZ的负载均衡和自动故障切换,或由应用层实现跨AZ多实例的自动故障切换能力,来实现跨AZ高可用。 相关云服务和工具 华为云大部分云服务支持创建多可用区实例,可实现在一个可用区故障时能自动快速切换,不影响实例对外提供服务,如ELB负载均衡、AS弹性伸缩、CCE
常见故障模式 OBS桶流量过载 检测:通过CES监控请求数、请求成功率、上传/下载带宽等流量指标。 恢复: 应用层调整批量业务,避免业务高峰期进行备份等业务; 应用层进行重试,以应对暂时性故障,如网络拥塞;应用故障重试处理可参考“故障重试”。 应用层进行过载保护,保障优先业务的运行。
上云提供网络安全防护的基础服务。 WAF:保护网站等Web应用程序免受常见Web攻击,保障业务持续稳定运行,满足合规和监管要求。 AAD:华为云DDoS防护提供全球化服务,以应对DDoS攻击挑战,可提供毫秒级攻击响应、多维度行为分析及机器学习、防御策略自动调优,精确识别各种复杂D
上线之前,通过功能相应接口,开发者和测试人员需要多次检测以保证模块功能的正确性。功能检测可以使用传统日志跟踪技术、调用链技术来进行检测,如华为云APM。 业务检测:模拟用户的业务操作过程,获得完成业务的操作过程性能数据和操作结果数据;业务检测使用拨测技术来完成检测,由于拨测需要占
与计量能力,有的针对平台网站具有Web应用、移动应用和API测试能力,所以性能压测工具是要依据业务测试场景来选择。 相关云服务和工具 参考华为云CodeArts PerfTest工具 父主题: OPS03 完备的测试验证体系
500错误)和隐式失败(如HTTP 200中包含了错误内容)。 饱和度:侧重在对系统中最为受限的瓶颈资源的监控。 对于基于Java的应用系统,华为云用户可使用APM服务实现基于调用链的业务延迟和错误率监控。函数服务FunctionGraph、微服务引擎CSE提供了流量、延迟和错误率监
SEC09-03 实施安全审计 对云服务的关键操作开启安全审计,审计覆盖到每个用户。对审计日志进行保护并定期备份,避免受到未预期的删除、修改或覆盖。 风险等级 高 关键策略 云服务的关键操作包含高危操作(如创建IAM用户、删除IAM用户、重启虚拟机、变更安全配置等)、成本敏感操作
RES07-03 监控到异常后发送消息通知 当对应用系统监控发现应用异常后,需要向相应的人员和系统发送实时通知消息和告警,以便及时处理。 风险等级 中 关键策略 采用实时快捷的消息通知方式,以便相关人员能及时得到消息。 消息发送人员需要涵盖运维人员,以便及时恢复。 运维人员需要有备份,避免单点风险。
SEC05-04 密钥安全管理 密钥的安全管理对于整个工作负载的安全性至关重要。如果使用不恰当的密钥管理方式,强密码算法也无法保证系统的安全。密钥的安全管理包括密钥的生成、传输、使用、存储、更新、备份与恢复、销毁等完整的生命周期流程。 风险等级 高 关键策略 生成密钥: 分层管理
可靠性功能 集群HA CCE集群支持3个Master节点高可用部署,确保集群的可靠性。 数据备份和恢复 为满足数据持久化的需求,CCE支持将云硬盘(EVS)创建的存储卷挂载到容器的某一路径下;CCE通过云硬盘EVS服务提供针对云硬盘的快照功能,当数据丢失时,可通过快照将数据完整的恢复到快照时间点。详见“快照与备份”。
可靠性功能 集群HA 云数据库 TaurusDB服务支持主节点+只读节点的高可用架构,当主节点故障时,系统会自动切换到只读节点,只读节点提升为主节点,原来故障的主节点也会自动恢复为只读节点。 云数据库 TaurusDB服务还支持异构容灾实例(MySQL节点),支持在极端场景,如社
问题和检查项 企业在进行应用韧性设计的过程中,推荐使用如下问题寻找自身可以改进的点,并参考检查项/最佳实践进行改进,以下所有检查项,也是最佳实践建议,将在下一章节进行详细描述。 问题 检查项/最佳实践 RES01 您如何使用冗余技术确保应用系统的高可用? 应用组件高可用部署 应用组件多位置部署
内部工具或公测类应用典型部署架构(99%) 内部工具类应用通常用于内部操作,且在故障时只会对内部员工造成影响,不可用时只会带来不方便,可以承受长时间的恢复时间和恢复点;公测类应用用于面向客户的实验性的工作负载,在必要时可以隐藏其功能;针对这些应用,其可用性目标通常要求不高,可达到99%,即每年中断时间可以为3