检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
RES04-02 部署容灾系统以满足容灾目标 针对不同应用系统的容灾目标,需要综合考虑中断概率、容灾成本等因素,来决定采用什么样的容灾方案来实现这些目标。 风险等级 高 关键策略 面向跨Region/跨云容灾场景,可基于不同的可用性目标要求,采用不用的容灾方案,如远程备份、主备容
电商类应用典型部署架构(99.99%) 电子商务类应用用于外部客户,需要提供较高的可用性,并能承受组件故障,其可用性目标通常要求达到99.99%,即每年故障时间可以为52.56分钟。 假定故障中断与变更中断的时长分别如下: 故障中断:假定每年故障中断3次,每次应急恢复决策时长为1
访问特定的服务和端口。根据业务实际情况优化每个网络区域的ACL,并保证访问控制规则数量最小化。 避免暴露多余的公网IP,同时不应对外开放或未最小化开放高危端口、远程管理端口。 安全组仅开放业务所需的网段及端口,禁止设置成对所有IP(0.0.0.0/0)都可访问。 相关云服务和工具
、中间件服务等)、安装、配置,实现Infrastructure as a Code;以解决手工部署中易于出错、依赖个人能力,手工配置中变更无法跟踪、难以回滚等难题。 风险等级 高 关键策略 使用配置管理工具进行变更:集中管理配置信息,发现和记录配置变化情况,快速识别变更影响范围。
端侧采集工具不统一,不支持自定义域名上报,问题定位复杂 Web、IOS、安卓、百度小程序、微信小程序等多类端侧日志无法使用同一家厂商工具采集,问题定位分析时,需在多个工具间需来回切换,增加了定位复杂度,且无法自定义日志上报的服务端域名,合规性受到部分用户质疑 端侧日志上报慢且易丢失:上报速度小时级,也
组织,流程和成本管理相匹配 在成本优化过程中,一个很重要的原则是需要将组织结构,流程和成本管理相匹配。需要建立“责权分明”的体系,否则即使用再好的成本优化工具,也无法将成本优化落到实处。 流程上,需要把成本管理作为各个上云流程中必备的一环; 组织上,需要投入适当的时间,资源和人力用于建立云财务管理的能力。
关键策略 在成本优化过程中,一个很重要的原则是需要将组织结构,流程和成本管理相匹配。需要建立“责权分明”的体系,否则即使用再好的成本优化工具,也无法将成本优化落到实处。一个比较好的实践是在初始的时候,创建一个团队(云业务办公室、云卓越中心或 FinOps 团队),负责在整个组织内建立并
应用控制平面与数据平面隔离,避免控制系统故障影响业务。 数据平面所在业务系统的故障恢复可不依赖控制平面,避免由于控制平面故障而导致业务系统无法恢复。 父主题: RES10 故障隔离
SEC05-04 密钥安全管理 密钥的安全管理对于整个工作负载的安全性至关重要。如果使用不恰当的密钥管理方式,强密码算法也无法保证系统的安全。密钥的安全管理包括密钥的生成、传输、使用、存储、更新、备份与恢复、销毁等完整的生命周期流程。 风险等级 高 关键策略 生成密钥: 分层管理
临时AK/SK、通过委托获取的权限等。禁止将长期凭证硬编码到代码中,以免泄露。优先使用临时凭证调用华为云的SDK或API。 如果某些情况下不能选择临时凭证,才使用长期凭证。在此情况下,建议将长期凭证放置到代码之外的文件或由第三方托管,将长期凭证作为变量传入使用。要定期审计和实施凭证轮换,以帮助降低长期凭证相关风险。
障零切换,过程中,客户自建运维平台能力较为欠缺,不足以满足运维需要 无法采集云服务指标信息:客户自建运维体系无法采集到云服务等场景的指标信息,不能满足大屏展示需要 告警通知能力不足:自建运维平台告警通知能力不能完全满足多场景通知的需要,且没有告警降噪能力 解决方案: 业务价值:
RES02-02 自动数据备份 对于需要备份的数据,可根据该数据的RPO指标要求,设置定期备份策略进行自动备份。 风险等级 高 关键策略 使用华为云备份服务或第三方备份软件对数据进行备份,并可根据RPO要求设置自动备份频率。CBR云备份服务可对ECS/BMS/EVS/SFS Tu
变更信息:变更系统、变更场景、变更类型等。 变更方案:变更实施方案、回滚方案、验证方案等。 变更审批:由于变更系统相关的负责人进行审核,确保变更风险级别,若无法控制或无法预测,则建议明确变更方案或禁止变更。变更审批流程可由多人进行组合,包括:业务负责人、团队TL、技术TL等,变更涉及的人员可根据变更的影响程度以及影响范围等因素确定。
保护机制。 用户个人数据转移给第三方前须经过用户同意,符合合法性原则。 转移的目的和范围不能超出收集时所声明的目的和范围。 必须保证个人数据的准确性、完整性和最新状态,保证在任何阶段和环节不能随意篡改、删除、滥用个人数据。 输出者必须获得接收者的明确承诺,保证个人数据的完整性、准确性和安全性,防止滥用及不正当披露。
硬件依赖实例从应用层实现高可用:当ECS使用本地硬盘、直通FPGA、直通IB网卡等物理服务器强相关的硬件资源时,当硬件故障时会导致ECS故障,且无法通过虚拟机HA功能自动恢复;针对此类问题,需要应用系统在设计时就必须要预料到偶发故障,尽可能避免使用,若必须用时需要从应用层来实现高可用,
RES12 应急恢复处理 应用系统无论如何精心设计,仍可能会出现无法恢复的故障,当此类故障发生后,需要进行应急恢复处理。 RES12-01 组建应急恢复团队 RES12-02 制定应急预案 RES12-03 定期应急恢复演练 RES12-04 出现问题后尽快恢复业务 RES12-05
内部工具或公测类应用典型部署架构(99%) 内部工具类应用通常用于内部操作,且在故障时只会对内部员工造成影响,不可用时只会带来不方便,可以承受长时间的恢复时间和恢复点;公测类应用用于面向客户的实验性的工作负载,在必要时可以隐藏其功能;针对这些应用,其可用性目标通常要求不高,可达到99%,即每年中断时间可以为3
选择合适的数据库资源 华为云提供了多款数据库服务,不同服务的优化方式和注意事项均有差异,可以通过以下四个不同考虑因素入手,选择合适的数据库资源: 兼容性:一般原则是平替迁移,选择云上数据库,是为了利用云上服务使得生产工作更聚焦到应用层,上云前系统中数据库的选型已经过业务实践的检验
数据恢复到备份点。 由于容灾通常对数据采用实时复制且没有多备份点,在主数据被误删或误改的情况下,错误数据会同步到备端,从而无法达到数据备份的效果,因此通常不能使用容灾来代替备份。 备份恢复时的RPO指标(即数据丢失量),与最近一个备份时间点相关;不同类型的数据,允许丢失数据量可以
CS所在物理服务器由于硬件原因故障时,ECS重启或在其他物理服务器中自动恢复,恢复过程中与ECS的通信会中断,需要重试。 实例由于过载导致无法及时响应,需要重试。 RES09-01 API及命令调用需要设计为可重试 RES09-02 客户端需要根据综合评估是否要重试 RES09-03