检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
应用运维管理(AOM2.0) 应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,融合云监控、云日志、应用性能、真实用户体验、后台链接数据等多维度可观测性数据源,提供应用资源统一管理、一站式可观测性分
GaussDB(for MySQL)云数据库 云数据库 GaussDB(for MySQL)是华为自研的最新一代企业级高扩展高性能分布式数据库,完全兼容MySQL。基于华为最新一代DFV存储,采用计算存储分离架构,128TB的海量存储,故障秒级切换,既拥有商业数据库的高可用和性能,又具备开源低成本效益。
常见故障模式 CCE集群的CPU /内存/磁盘容量使用率过高 检测:通过AOM监控CCE集群的CPU/内存/磁盘容量使用率。 恢复: 根据业务情况,手工变更集群规格或扩展资源。 CCE节点的CPU /内存/磁盘容量/磁盘IOPS/GPU/GPU缓存使用率过高 检测:通过AOM监控
COST08-03 存算分离 风险等级 中 关键策略 传统大数据方案计算和存储融合部署,扩容磁盘时必须扩容计算节点,在实际使用时产生浪费。存算分离是一种数据处理技术,它将数据存储和数据处理(计算)分开,使得存储和计算可以独立地进行优化和扩展,这种技术提高数据处理的效率、降低成本并满足大规模数据存储和分析的需求。
人工智能性能优化 1.训练优化模型性能提升实践 参数调优策略:调整模型flash attention、并行切分策略、micro batch size、重计算策略等参数。 尽可能充分利用显存和算力,通过参数调优,初步优化性能。 性能拆解 参数调优后性能仍然与转商目标有较大的差距,需
关联源代码版本和部署的应用版本,使用代码质量最佳实践 OPS03 你是否有完备的测试验证体系? 1. 推行开发者测试 2. 使用多个环境进行集成测试,构建和生产环境相同的预生产环境 3. 性能压测 4. 生产环境拔测 5. 混沌测试和演练 OPS04 自动化构建和部署流程是否完备?
大数据性能优化 HIVE优化 Spark性能优化 Flink性能优化 父主题: 云服务性能优化介绍
分区的边界。 VPC划分:为VPC指定合适的CIDR范围,以确定VPC的IP地址空间。 子网划分:在VPC中,创建多个子网,并将不同的资源部署在不同的子网中。 相关云服务和工具 虚拟私有云 VPC 父主题: SEC04 网络安全
常见故障模式 ELB的并发连接数/新建连接数/带宽使用率过高 检测:通过CES监控ELB的并发连接数/新建连接数/带宽使用率。 恢复: 根据业务情况,采用独享型负载均衡器,并手工调整ELB负载均衡器规格。 父主题: ELB弹性负载均衡
验证高可用设计:业务系统在规划设计阶段进行架构高可用设计、监控设计,在上线前进行生产准备度评审 (PRR)、性能压测,确保系统能够持续提供稳定、可靠的服务。混沌工程从应用部署架构、服务容量、监控告警、应用高可用等多维度设计演练场景,先测试、后攻防、再突袭逐步递进式的开展演练。通过持续演练,对架构高可用、监控、PRR
维护个人隐私权利,保护隐私数据的机密性和完整性。 DevSecOps DevSecOps的核心理念是将安全性纳入到整个软件开发生命周期中,从需求分析、设计、开发、测试、部署、运维、运营的每个阶段都考虑安全性,以确保系统的安全性和稳定性。 通过将安全性与DevOps的自动化流程相结合,DevSecOps可更快地
可靠性功能 集群HA RDS服务支持HA主备高可用架构,故障秒级自动切换。 数据持久性 RDS数据持久性高达99.9999999%,保证数据安全可靠,保护业务免受故障影响。 数据备份和恢复 RDS支持每天自动备份数据,备份都是以压缩包的形式自动存储在对象存储服务(Object Storage
常见故障模式 RDS的CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高 检测:通过CES监控CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率。 恢复: 根据业务情况,手工变更规格以扩展资源。 开启存储空间自动扩容,以便在磁盘容量不足时自动扩容。 应用层进行过载保护,保障优先业务的运行。
消息队列性能优化 以下章节我们结合一些具体建议和指标来说明如何针对消息队列的使用进行性能优化。 Kafka性能优化 RabbitMQ性能优化 父主题: 云服务性能优化介绍
SEC06-01 安全合规使用开源软件 开源软件在现代软件开发中的重要性不言而喻。越来越多的企业选择使用开源软件来开发和部署软件应用程序。开源软件的使用必须严格遵守合法合规的底线,包括开源软件的来源、漏洞管理、可追溯、归一化及生命周期管理等方面。 风险等级 高 关键策略 来源可靠
定义: RPO:允许的数据丢失量,与数据的周期性复制周期或连续性复制延时相关。 RTO:允许的业务恢复时长,即业务中断时长,与灾备端业务的部署与切换方式相关。 风险等级 高 关键策略 不同的业务系统重要性不一样,针对应用系统内的各种业务,需要明确其重要性及对应的RPO/RTO指标
卓越运营支柱简介 在华为公司,卓越运营代表着质量、效率和可持续的卓越客户体验。它帮助改进设计、开发、测试、部署、发布和运维活动,持续实现高质量的交付结果,推动了持续集成和持续交付(CI/CD)落地;同时助力打造确定性运维体系,让研发团队将更多时间用在构建让客户受益的新功能上,减少
常见故障模式 GaussDB(for MySQL)的CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高 检测:通过CES监控CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率。 恢复: 根据业务情况,手工变更规格以扩展资源。 开启自动扩缩容,以便在过载时自动扩容规格和/或只读节点。
设计原则与最佳实践,用以帮助企业利用华为云平台基础设施达到高可用、面向各种故障场景进行韧性设计,并具备一定的灾备能力;同时通过规范化变更、部署及应急恢复等处理流程,减少业务中断时长,提升可用性。 安全性支柱: 旨在确保业务的安全、可信、合规,通过一系列华为云架构的最佳实践保护工作
PERF03-07 选择合适的Kafka 风险等级 中 关键策略 根据生产流量、消费流量、老化时间、副本数等指标,计算业务所需的规格,选择合适的Kafka规格。 规格测算: 性能容量维度所需最小节点数 = max((存储带宽需求 / 单节点存储带宽),(网络带宽需求 / 单节点网络基准带宽))