检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
常见故障模式 CPU /内存/磁盘/带宽使用率过高 检测:通过CES监控CPU /内存/磁盘/带宽使用率。 恢复: 当CPU/内存使用高时,可根据业务情况,手工修改代理规格或增加代理数量以扩展资源。 当磁盘使用率高时,可根据业务情况,修改实例存储空间支持更大存储空间。 当带宽使用
常见故障模式 CCE集群的CPU /内存/磁盘容量使用率过高 检测:通过AOM监控CCE集群的CPU/内存/磁盘容量使用率。 恢复: 根据业务情况,手工变更集群规格或扩展资源。 CCE节点的CPU /内存/磁盘容量/磁盘IOPS/GPU/GPU缓存使用率过高 检测:通过AOM监控
常见故障模式 弹性伸缩失败 检测:查看弹性伸缩组的弹性伸缩活动历史。 恢复: 根据伸缩活动失败描述信息进行修复。 父主题: AS弹性伸缩
应用性能管理(APM) 华为云应用性能管理服务(Application Performance Management,简称APM)帮助运维人员快速发现应用的性能瓶颈,以及故障根源的快速定位,为用户体验保驾护航。 您无需修改代码,只需为应用安装一个APM Agent,就能够对该应用
当客户端请求超时或收到错误响应时,客户端需要决定是否重试;重试有助于客户端在请求失败时,通过重复消息来获得预期的结果,避免业务失败,但也会消耗更多的服务器时间来获取所需的成功响应。 风险等级 高 关键策略 请求超时,可能是链路闪断或其他临时性故障导致消息丢失,可以进行重试。 根据错误响应码进
应用运维管理(AOM2.0) 应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,融合云监控、云日志、应用性能、真实用户体验、后台链接数据等多维度可观测性数据源,提供应用资源统一管理、一站式可观测性分
大数据性能优化 HIVE优化 Spark性能优化 Flink性能优化 父主题: 云服务性能优化介绍
软件开发生产线(CodeArts) 软件开发生产线(CodeArts)是一站式、全流程、安全可信的DevSecOps平台,开箱即用,内置华为多年研发最佳实践,助力效能倍增和数字化转型。 CodeArts由以下几个主要服务构成: 需求管理:提供需求管理与团队协作服务,内置多种开箱即
SEC01 如何整体考虑云安全治理策略? 建立安全管理队 建立安全基线 梳理资产清单 分隔工作负载 实施威胁建模分析 识别并验证安全措施 SEC02 如何管理人机接口和机机接口的身份认证? 对账号进行保护 安全的登录机制 安全管理及使用凭证 一体化身份管理 SEC03 如何管理人员和机器的权限?
应用管理与运维平台(ServiceStage) 应用管理与运维平台(ServiceStage)是面向企业的应用管理与运维平台,提供应用发布、部署、监控与运维等一站式解决方案。支持Java、Php、Python、Node.js、Docker、Tomcat技术栈。支持Apache ServiceComb
的把握,以及对云数据库的性能负载能力和负载稳定性的评估,能够更好地帮助您选择符合业务需求的数据库服务;在做所需资源量的评估时,应基于数据库连接数、事务处理性能等关键指标的要求以及部署设计的约束(如容灾要求)来分析; 安全方面,则要针对设计约束进行逐条评估(如访问控制、数据加密),以判断数据库云服务满足度。
期备份,避免受到未预期的删除、修改或覆盖。 风险等级 高 关键策略 云服务的关键操作包含高危操作(如创建IAM用户、删除IAM用户、重启虚拟机、变更安全配置等)、成本敏感操作(创建、删除高价资源等)、业务敏感操作(网络配置变更等)。 启用关键操作通知功能。启用云审计服务CTS的关
Flink性能优化 概述 Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理,是业界最顶级的开源流处理引擎。Flink最适合的应用场景是低时延的数据处理(Data Processing)场景:高并发pi
对您的身份提供者和IAM中配置的身份进行审计,这有助于验证只有经过授权的身份才能访问您的工作负载。 使用数据加密服务DEW托管凭据。实现对数据库账号口令、服务器口令、SSH Key、访问密钥等各类型凭据的统一管理、检索与安全存储。 使用数据加密服务DEW中的凭据管理服务(CSMS)定期轮换凭证。
Spark性能优化 概述 Spark是基于内存的分布式计算框架。在迭代计算的场景下,数据处理过程中的数据可以存储在内存中,提供了比MapReduce高10到100倍的计算能力。Spark可以使用HDFS作为底层存储,使用户能够快速地从MapReduce切换到Spark计算平台上去
在后端节点故障的情况下,需要自动将业务分发给其他健康节点处理,以避免业务失败。 相关云服务和工具 弹性负载均衡 ELB:支持业务负载均衡处理,还支持后端服务器健康状态检测,自动隔离异常状态的ECS。 父主题: RES13 过载保护
实施持续的监控,包括云环境的日志、网络流量和异常行为。当检测到潜在事件时,进行初步分析以确定事件的性质和严重性。 实施快速安全响应动作,隔离受影响的系统或账户、断开网络连接、停止服务、清除恶意文件、修复漏洞、替换受损系统并加固系统,确认所有威胁已经被完全清除,避免再次发生。 制定恢复策略,逐步恢复受影响服务,
触发告警规则设置的阈值时,系统提供邮件和短信通知,用户可以在第一时间知悉业务运行状况,还可以通过HTTP、HTTPS将告警信息发送至告警服务器,便于用户构建智能化的程序处理告警。 父主题: SEC09 安全感知及分析
场景如产品促销前预测会有突发大流量,则可手工进行扩容处理。 华为云服务实例支持主动横向或纵向扩容功能;如对于ECS实例可以通过创建多个ECS实例实现横向扩容,也可升级ECS规格实现纵向扩容;对于RDS实例可升级RDS实例规格实现纵向扩容。 父主题: RES13 过载保护
OPS07-03 支持事件管理 风险等级 高 关键策略 事件(incidents)是需要干预的事情。当发生事故(incidents)时,通过流程来处理。如何与团队沟通活动的状态?谁负责响应处置?使用哪些工具来缓解该事件?这些都是流程中需要回答的问题,并需要获得可靠的响应过程。流程必须中心化,并