检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
多活高可用(MAS) 多活高可用(MAS)的混沌工程(ChaosEngineering)是一种通过主动注入故障识别并修复系统未知隐患的工程实践。MAS-CAST混沌工程服务提供丰富的故障模式库,通过混沌实验编排攻击目标、攻击策略进行故障注入,支持添加背景流量和资源监控,同时在故障
应用性能管理(APM) 华为云应用性能管理服务(Application Performance Management,简称APM)帮助运维人员快速发现应用的性能瓶颈,以及故障根源的快速定位,为用户体验保驾护航。 您无需修改代码,只需为应用安装一个APM Agent,就能够对该应用
可靠性功能 集群HA DCS服务提供主备、Proxy集群、Cluster集群实例,通过节点冗余方式实现实例容灾,当检测到主节点故障后,快速切换到备节点并自动恢复,在异常检测和恢复期间,可能会影响业务,时间在半分钟内。 数据备份和恢复 DCS支持将当前时间点的实例缓存数据备份并存储
选择合适网络服务资源 选择合适的网络服务资源是一个复杂的过程,需要考虑许多因素。以下提供了一些主要因素: 评估合适网络云服务,主要考虑如下性能指标: 网络流量:评估工作负载的预期网络流量,了解数据传输需求和网络请求的频率。 带宽要求:确定工作负载的带宽要求,考虑通过网络传输和接收的数据量。
选择合适的存储云服务 了解数据特征(如可共享、大小、访问模式、延迟、吞吐量和数据持久性),以便为您的工作负载选择合适的专用数据存储。 PERF03-05 选择合适类型的存储云服务 父主题: PERF03 性能建模
大数据性能优化 HIVE优化 Spark性能优化 Flink性能优化 父主题: 云服务性能优化介绍
Container Engine,简称CCE)提供高度可扩展的、高性能的企业级Kubernetes集群,支持运行Docker容器。借助云容器引擎,可以在云上轻松部署、管理和扩展容器化应用程序。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
RDS云数据库 云数据库RDS(Relational Database Service,简称RDS)是一种基于云计算平台的稳定可靠、弹性伸缩、便捷管理的在线云数据库服务。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
从而满足各团队或业务部门公平分配公共成本的需求 相关服务和工具 华为云成本中心的成本单元提供按比例的公共成本分拆方式。 华为云成本中心提供共同成本分拆,支持CDN、Live按照域名流量进行成本分拆。 华为云CCE服务提供细化的按照Pod Level的成本分拆,并可以卷积到Wor
可靠性功能 集群HA RDS服务支持HA主备高可用架构,故障秒级自动切换。 数据持久性 RDS数据持久性高达99.9999999%,保证数据安全可靠,保护业务免受故障影响。 数据备份和恢复 RDS支持每天自动备份数据,备份都是以压缩包的形式自动存储在对象存储服务(Object Storage
常见故障模式 RDS的CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高 检测:通过CES监控CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率。 恢复: 根据业务情况,手工变更规格以扩展资源。 开启存储空间自动扩容,以便在磁盘容量不足时自动扩容。 应用层进行过载保护,保障优先业务的运行。
消息队列性能优化 以下章节我们结合一些具体建议和指标来说明如何针对消息队列的使用进行性能优化。 Kafka性能优化 RabbitMQ性能优化 父主题: 云服务性能优化介绍
ache ServiceComb Java Chassis(Java Chassis)、Spring Cloud等微服务应用,让企业应用上云更简单。 ServiceStage主要包含如下能力: 应用管理:支持应用生命周期管理、环境管理。 微服务应用接入:支持Java Chassis、Spring
应用系统采用无状态应用+有状态数据库/虚拟机的分层部署架构。 应用系统在IDC/其他云与华为云中各部署一套完整系统;华为云采用跨AZ部署,可以实现云内应用层跨数据中心双活;云间数据支持将它云数据实时同步到华为云,采用主备容灾,在IDC/其他云故障的情况下能快速容灾切换到华为云。 接入层(外部DNS
支持业务运行状况、成功指标的检查,在发生故障时告警;支持ECS、DCS、Kafka、RDS、DDS等实例负载状态及资源故障切换等的监控,在负载超过阈值或状态异常时告警。 弹性扩缩容 支持自动弹性伸缩;针对ECS,通过ELB实现ECS实例的故障检测与负载均衡,并可通过AS监控负载随时添加和移除ECS实例来扩展应用系统的服务能力;针对RDS
进行站点运行状态检查,在发生故障时告警;针对ECS、RDS实例负载状态进行监控,在资源过载时需要告警。 弹性扩缩容 针对内部用户场景,资源足够,无需自动弹性伸缩;针对ECS,通过ELB实现ECS实例的故障检测与负载均衡,并可根据ECS监控情况随时添加和移除ECS实例来扩展应用系统的服务能力;针
常见故障模式 CCE集群的CPU /内存/磁盘容量使用率过高 检测:通过AOM监控CCE集群的CPU/内存/磁盘容量使用率。 恢复: 根据业务情况,手工变更集群规格或扩展资源。 CCE节点的CPU /内存/磁盘容量/磁盘IOPS/GPU/GPU缓存使用率过高 检测:通过AOM监控
应用系统采用无状态应用+有状态数据库的分层部署架构。 应用系统在其他云与华为云中各部署一套完整系统;华为与采用跨AZ部署,可以实现云内应用层跨数据中心双活;云间数据单元化部署,并支持将它云数据实时同步到华为云,实现双活容灾,在第三方云故障的情况下能快速容灾切换到华为云。 接入层(外部GSLB、API网关):
人工智能性能优化 1.训练优化模型性能提升实践 参数调优策略:调整模型flash attention、并行切分策略、micro batch size、重计算策略等参数。 尽可能充分利用显存和算力,通过参数调优,初步优化性能。 性能拆解 参数调优后性能仍然与转商目标有较大的差距,需
选择合适的应用中间件云服务资源 华为云提供Kafka、RocketMQ、RabbitMQ三种不同版分布式消息服务,您可根据业务需求和不同版本优势来选择合适的消息队列。 PERF03-06 选择合适的消息队列 PERF03-07 选择合适的Kafka PERF03-08 选择合适的RocketMQ