检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
检测和判断有所不同。当处于亚健康状态时,系统也需要及时进行隔离或恢复处理,避免对业务造成影响。 风险等级 高 关键策略 亚健康检测通常用于根据亚健康症状来预测系统故障,典型的例子是内存泄漏,内存泄漏往往不会立刻导致系统失效,系统首先会因为Swap Memory不足变得运行缓慢,消
关键策略 面向跨Region/跨云容灾场景,可基于不同的可用性目标要求,采用不用的容灾方案,如远程备份、主备容灾、双活容灾等,其中生产站点根据场景不同可能为其他云或IDC或华为云Region: 远程备份:生产站点内的重要数据,备份到异地华为云灾备Region,当生产站点发生灾难时
现ECS实例的故障检测与负载均衡,并可通过AS监控负载随时添加和移除ECS实例来扩展应用系统的服务能力;针对RDS for MySQL,可根据负载监控情况,自动扩缩规格或增删只读节点。 变更防差错 软件更新采用金丝雀或蓝绿部署,部署过程自动完成,在部署过程中出现问题时自动回滚。 应急恢复处理
WARNING。 屏蔽某些日志:对难以调整日志级别的应用,根据关键字屏蔽某些频繁的日志告警。 预警增强:对于某些影响业务方的操作,提供预警。 增强紧急预警:有些硬件故障会出现反应在 /var/log/messages 中,根据关键字匹配硬件类告警,以便及时处理。 相关云服务和工具 应用运维管理
ELB:支持健康检查,会定期向后端服务器发送请求以测试其运行状态,并根据健康检查来判断后端服务器是否可用,当判断为异常后就不会将流量分发给该异常后端服务器。 云容器引擎 CCE:支持容器健康检查,容器运行过程中,可根据用户需要,定时检查容器健康状况。若不配置健康检查,如果容器内应用程
RES01-02 应用组件多位置部署 应用组件需要部署在多个数据中心,以避免单个数据中心故障而导致业务中断。 风险等级 高 关键策略 可根据不同需求,将应用的数据和资源部署在多个位置: 应用多AZ部署:应用应尽可能部署在多个可用区,避免由于单个可用区故障而导致所有业务中断。 应用
支持按不同维度进行故障检测,如Region、AZ、服务、方法、实例或容器ID等,检测维度与故障恢复方式对齐。 检测到故障后需及时告警或自动恢复。 针对具体故障进行检测时,根据检测的类型通常可以分为资源检测、功能检测和业务检测。 资源检测:云环境中一般指虚拟化后的物理硬件资源及其对应的软件资源,具体包含CPU、内存、网络和磁盘资源等。
SEC01-06 识别并验证安全措施 根据团队制定的安全基线以及威胁建模分析的结果,对工作负载中涉及的安全措施进行验证,以确保它们按照预期方式运行并有效地保护系统,从而缓解或消除安全威胁。 风险等级 高 关键策略 依据系统的安全设计文档,通过验证确保安全措施被正确地集成到系统中,并符合最佳实践和标准。
类型和方法。 风险等级 高 关键策略 使用IAM角色来定义应用程序和组件对资源的访问权限。通过构建最低权限访问模型,确保只授予必要的权限。根据用户的角色和职责分配权限,确保用户只能访问其工作所需的资源。 相关云服务和工具 统一身份认证服务 IAM 父主题: SEC03 权限管理
OPS05-02 进行变更风控 风险等级 高 关键策略 根据不同变更场景构建风险控制能力,通过风险数字化度量分析和评估风险影响程度,并采取风险控制措施削减或规避风险,保障变更成功。变更风险指现网各要素增、删、改及状态改变(如版本迭代、配置改变、节点扩缩容等)时引发的业务中断风险及变更失败可能导致的业务受损风险。
目标。确定各个运营团队的任务以及可能面临的挑战。并明确运营目标的关键绩效指标 (KPI),可能是客户满意度、TTM、平均问题解决时间等等。根据 KPI,识别关键指标和数据源。客户满意度可能是各种指标的组合,例如呼叫等待或响应时间、满意度评分以及提出的问题类型。 父主题: OPS08
常用应用性能监控策略有: APM 工具:可用使用云上APM 工具或者开源的APM工具和分析性能数据(指标、日志、调研链) 使用基于日志调用链框架:这些框架具备日志生成、日志格式化、日志上下文关联分析登能力。 通过框架引入到代码库中,可以在运行时采集相关的性能数据。 自定义检测:仅当平台指标不足时,才建议
确保敏感数据在云侧和客户端之间传输时是加密的状态,即使数据被窃取,也难以解密。 端到端加密:采用端到端加密的方式,确保数据在传输的整个过程中都是加密的,从数据生成端到数据接收端都能保持加密状态。对于Web应用的API,必须使用HTTPS来加密客户端和服务器之间的通信。 数据完整性验证:使用哈希函数、
PERF03-04 选择合适类型的网络云服务 风险等级 中 关键策略 根据网络特征,选择合适类型的网络云服务。 场景 华为云服务 选择策略 云上组网 (云内、云间) VPC 在逻辑隔离的虚拟网络中定义和启动华为资源,方便管理、配置内部网络。 ER 将VPC和本地网络连接到一个网关
可用性需求 根据“常见IT系统SLO示意”中的表格可以得知,不同的IT系统,SLO目标是存在差异的,不是所有的应用系统都需要达到最高可用性要求。 当系统可用性目标要求升高时,所需的成本也通常会增加,因此在可用性目标制定时,需要对韧性与成本进行权衡,确定真正的可用性需求。 在系统的
供针对云硬盘的快照功能,当数据丢失时,可通过快照将数据完整的恢复到快照时间点。详见“快照与备份”。 健康检查 健康检查是指容器运行过程中,根据用户需要,定时检查容器健康状况。若不配置健康检查,如果容器内应用程序异常,Pod将无法感知,也不会自动重启去恢复。最终导致虽然Pod状态显
SEC03-02 按需分配合适的权限 权限管理应遵循按需分配、最小授权、职责分离原则。需要根据工作职责限定人员对于关键业务系统的访问权限,以免非必要人员或非授权人员访问到关键系统和敏感数据。如需要临时权限,应仅向用户授予有限的时间段内执行特定任务的权限,并且在任务完成后,应撤销访问权限。
风险等级 高 关键策略 通过配置安全组和网络访问控制列表(ACL),控制进出云资源的网络流量,确保只有授权的流量能够访问特定的服务和端口。根据业务实际情况优化每个网络区域的ACL,并保证访问控制规则数量最小化。 避免暴露多余的公网IP,同时不应对外开放或未最小化开放高危端口、远程管理端口。
使用成本中心的成本分析,可以根据客户的历史支出预测未来时间范围的成本。成本分析的成本和使用量预测,会参考不同的计费模式特征,结合机器学习和基于规则的模型来分别预测所有消费模式的成本和使用量。 使用成本分析确定基于趋势的预测之后,您还可以利用华为云的价格计算器,根据新业务上云或区域扩展所
RES01-01 应用组件高可用部署 应用系统内的所有组件均需要高可用部署,避免单点故障。 风险等级 高 关键策略 应用系统内各组件需要根据其具体能力,采用不同的高可用部署方案: 使用原生高可用实例:当云服务既支持单节点资源,又支持主备或集群资源时,应用的关键节点应使用主备或集群