检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
常见故障模式 RDS的CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高 检测:通过CES监控CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率。 恢复: 根据业务情况,手工变更规格以扩展资源。 开启存储空间自动扩容,以便在磁盘容量不足时自动扩容。 应用层进行过载保护,保障优先业务的运行。
推荐如下: 尽量使用ORC File, 配上合适的压缩算法, 主要可选的压缩算法为Zlib和Snappy。其中Zlib压缩比高,但压缩解压时间比Snappy长,消耗资源比如Snappy多。Snappy平衡了的压缩比和压缩解压的性能。推荐使用Snappy。 尽量使用Map Join减少Shuffle的次数,大幅提升性能
PU /内存/带宽/数据库连接数使用率过高”的处理。 对于非暂行性故障,应用层需要能回退到原始数据源进行处理,避免由于缓存故障而导致业务无法运行。 读写DCS概率性失败 检测:读写失败。针对低概率超时错误,是Redis使用的正常现象。Redis使用受到网络传输、客户端设置超时时间等因素影响,可能出现单个请求超时问题。
OPS07-01 创建可操作的告警 风险等级 高 关键策略 收到告警时,一般需要做出响应,消除无须响应的告警。 比如磁盘IO 量瞬间飙升,CPU 使用率瞬间飙高,这类告警无需做出响应,对业务而言,意义就不大了。 遵循可操作性原则能避免很多误报。并且要定期统计和分析告警频率,识别高频告警,解决告警问题,清除明确的告警误报。
源支撑业务发展。 风险等级 高 关键策略 云上网络规划设计应满足以下原则: 针对每个Region,根据业务需要规划不同的VPC,每个VPC使用独立的地址空间;并需要预留IP地址空间用于新建VPC。 针对每个VPC中,需要根据业务需要规划子网和IP地址空间;并需要预留IP地址空间用于新建子网。
RES11-03 长稳测试 基于用户使用场景构建业务模型,自动化构建覆盖系统容量规格70%的业务量,持续7*24小时进行长时间负载测试以评估系统稳定性。 风险等级 高 关键策略 模拟各种业务场景进行测试。 持续自动测试。 测试结果发生偏差时自动告警,以便及时定位和处理。 父主题:
服务。 RabbitMQ集群提供镜像队列,通过镜像在其他节点同步数据。单节点宕机时,仍可通过唯一的访问地址对外提供服务。 RocketMQ使用一主两备架构,备节点通过数据同步的方式保持数据一致。当节点故障时,通过Raft协议自动切换主备关系,保持数据强一致性。 跨AZ容灾 Kaf
高 关键策略 强密码:使用强密码来保护账号,包括数字、字母、特殊字符的组合,并确保密码足够长且复杂。 多因素认证(MFA):启用多因素认证为保护账号提供了额外的安全层次。除了密码之外,MFA需要额外的身份验证信息,提高了账号的安全性。 限制日常操作:避免直接使用账号进行日常操作,而
常见故障模式 云数据库 TaurusDB的CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高 检测:通过CES监控CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率。 恢复: 根据业务情况,手工变更规格以扩展资源。 开启自动扩缩容,以便在过载时自动扩容规格和/或只读节点。
可靠性功能 集群HA ELB采用集群化部署,支持多可用区的同城多活容灾,无缝实时切换。 后端服务器健康检查 ELB弹性负载均衡支持定期向后端服务器发送请求以测试其运行状态。当判断后端服务器健康检查异常后,就不会将流量分发到异常后端服务器,而是分发到健康检查正常的后端服务器,从而提
主动通知数据主体 主动通知数据主体是指数据控制者主动向数据主体(个人)提供信息,告知其数据处理活动的相关信息,例如数据收集的目的、数据处理的方式、数据使用的范围、数据存储的期限等。这种通知通常以隐私政策、用户协议、提示信息等形式呈现。 风险等级 中 关键策略 主动通知数据主体的重要性在于:
匹配 风险等级 高 关键策略 在成本优化过程中,一个很重要的原则是需要将组织结构,流程和成本管理相匹配。需要建立“责权分明”的体系,否则即使用再好的成本优化工具,也无法将成本优化落到实处。一个比较好的实践是在初始的时候,创建一个团队(云业务办公室、云卓越中心或 FinOps 团队
集群跨AZ部署 应用内所有组件均采用跨AZ容灾部署,以避免单AZ故障时业务中断。 风险等级 高 关键策略 云服务实例具备跨AZ高可用实例时,优先使用云服务实例自身的跨AZ高可用实例。 云服务实例只支持发放单AZ实例,不支持跨AZ高可用实例时,需要借助其他云服务或应用层实现跨AZ容灾;以ECS为例:
COST01-03 明确团队责任,建立和维护成本意识文化 风险等级 中 关键策略 成本优化的流程中落实成本意识、都需要明确团队责任。一种比较好的实践是使用一组明确定义的 KPI 指标,提供团队级别的报告,实现成本透明度和成本问责制,这些指标可以包含收益/成本比率,单位商品成本,核心资源利用率等等。
配置日志服务从日志中提取指定的关键词,便于您使用监控服务对日志中的关键指标进行监控及告警。主要关注:访问日志数量、错误日志数量、日志大小等指标 自定义监控 自定义监控展示用户所有自主定义上报的监控指标。用户可以针对自己关心的业务指标进行监控,将采集的监控数据通过使用简单的 API 请求上报至监控服务进行处理和展示
访问华为云。 多个账号或多个IAM用户间使用不同的密码。 禁止将用户的密码共享给其他人,而是为每个管理或使用华为云资源的人创建一个单独的用户。 修改新用户的默认密码。使用IAM创建新用户时,可通过邮件发送一次性登陆链接给新用户,新用户使用链接进行登陆时需要设置密码,另外在管理员自
部署间隔时间(即部署组之间的时间),以确保来自不同区域的用户或执行不同任务的用户有时间使用工作负载。间隔时间应以小时和天而不是分钟来衡量。每个部署组的间隔时间也应该增加,以便考虑不同的时区和使用模式。 相关云服务和工具 CodeArts Deploy 父主题: OPS04 自动化构建和部署流程
标要求。 风险等级 高 关键策略 定期执行备份数据恢复,以验证备份的完整性。 为了避免备份恢复对生产业务造成影响,可以构建一个测试环境,并使用已有的备份数据进行恢复处理。 华为云云服务提供了手工恢复功能,用户可定期执行恢复操作,以进行恢复测试。 相关云服务和工具 云备份 CBR 云数据库
为云架构的最佳实践保护工作负载免受各种安全威胁,降低安全风险。安全性支柱涉及保护云上系统、资产、数据的机密性、完整性、可用性以及合法、合规使用数据,保护用户隐私的一系列最佳实践。 安全性是现代应用程序的重要维度,需要成体系地考虑工作负载的安全。华为云安全性支柱的设计框架如下图所示:
O/RTO指标要求。比如对于重要数据,通常允许数据丢失的时间会比较少,从而需要更频繁的备份;对于一般的数据,允许数据丢失的时间比较长,可以使用较低的备份频率;对于一些不重要的数据,其数据丢失对业务没有影响,则不需要进行备份。 风险等级 高 关键策略 识别应用系统中的所有数据。数据