检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SEC02-03 安全管理及使用凭证 在进行身份验证时,首要选择使用临时凭证而非长期或永久性凭证,以减少或消除因凭证意外泄露、共享或被盗而带来的风险。 风险等级 高 关键策略 长期凭证如用户的登录密码、永久AK/SK,短期凭证如临时AK/SK、通过委托获取的权限等。禁止将长期凭证硬
要求较低的测试业务使用。 VPC访问:函数提供了指定VPC访问的能力,但在冷启动时会初始化到该VPC网络的网络链路造成额外的冷启动时延。 如果需要访问公网,且对带宽有要求的生产业务可以通过配置绑定了NAT网关的VPC来访问公网;如果函数没有网络访问场景的,不建议配置VPC。 参考配置网络。
OPS01-03 规划标准化的运维流程和运维工具 风险等级 高 关键策略 流程和工具是经验的承载,通过标准化的流程,可以大幅降低在运维过程中因为个人的因素受到的影响和无序化。 通过标准化的、统一的运维工具,向运维人员提供集中、统一维护界面及清晰易上手的操作手册,方便运维人员的集中维护,提高运维效率。常见的运维流程有:
RES05-03 不同流量模型业务的网络共享带宽隔离 不同流量模型业务共享网络带宽享时,可能会导致流量抢占,相互影响,一个业务流量突然可能会导致其他业务不可用。 风险等级 高 关键策略 相同流量模型的业务,可共享网络带宽,带宽需要满足所有共享业务的需求 不同流量模型的业务,为了避免相互干扰,建议使用各自独立的共享带宽实例
对资源进行监控时,需要先定义资源的关键指标以及对应的阈值,以便快速有效的发现业务表现和系统状态,以便在异常状态下尽早干预恢复,或定位改进系统缺陷。 风险等级 中 关键策略 关键指标需要与系统内工作负载的关键性能指标相关,并能确定为系统性能下降的早期警告信号,如系统处理的API数量及成功率,相比CP
Config 网络运营账号 集中部署和管理企业的网络资源,包括网络边界安全防护资源,实现多账号环境下的统一网络资源管理和多账号下VPC网络的互通,尤其需要集中管理面向互联网的出入口和面向线下IDC机房的网络出入口 网络管理团队 ER、DNS、NATG、EIP、VPC、DC、CC、VPN、CFW、WAF、AAD等
PERF03-07 选择合适的Kafka 风险等级 中 关键策略 根据生产流量、消费流量、老化时间、副本数等指标,计算业务所需的规格,选择合适的Kafka规格。 规格测算: 性能容量维度所需最小节点数 = max((存储带宽需求 / 单节点存储带宽),(网络带宽需求 / 单节点网络基准带宽)) 磁盘容量维度所需最小节点数
由于故障不可避免,如硬件故障、软件错误、网络延迟、突发流量等,因此在设计高可用应用系统时,必须考虑所有的硬件及系统包括的软件都可能会失效,包括IaaS、PaaS、SaaS及应用系统本身。韧性设计的目标不是试图防止这些故障的发生,而是为了在这些故障发生时,能最大程度地减轻故障对系统造成的影响,并持续稳定地运行,建议遵循以下设计原则。
合系统的业务要求,主要的测试分类包括: 负载测试:是指在一定的软件、硬件及网络环境下,运行一种或多种业务,在不同虚拟用户数量的情况下,测试环境的性能指标是否在用户的要求范围内,以此确定系统所能承载的最大用户数、最大有效用户数以及不同用户数下系统响应时间及硬件设备或云服务的资源利用
RES03-04 支持容灾管理 提供容灾管理功能,实现容灾状态及RPO监控,及异常场景下的业务切换。 风险等级 高 关键策略 实时监控容灾状态,了解容灾运行状态。 支持应用级数据校验,比较AZ间数据同步差异,监控及PO指标。 典型确定性故障场景下自动容灾或切换,无需人工接入,业务不受影响,满足RPO/RTO指标。
RES04-03 容灾恢复过程自动化 由于容灾恢复场景涉及容灾站点的业务恢复、数据库的主备切换、业务到容灾站点的流量切换等,恢复过程比较复杂,因此需要提供容灾管理功能,实现容灾状态及RPO监控,以及灾难场景下的一键式自动切换,减少人工干预。 风险等级 高 关键策略 实时监控容灾状态,了解容灾运行状态。
混沌工程度量指标 故障场景的覆盖率:分析故障场景的覆盖率,例如容灾场景覆盖 80%,过载场景覆盖 60%。 故障场景的命中率:分析故障场景中,真实发生的比率。 应急预案的质量:用于度量应急预案有效性和执行效率。 风险发现个数与等级:定期评估分析(季度或年度)主动发现的风险数量和级别。 风
2或更高版本)以确保使用最强的加密标准。 安全传输通道:确保数据传输的通道是安全的,避免使用不安全的网络或公共网络来传输敏感数据。 确保敏感数据在云侧和客户端之间传输时是加密的状态,即使数据被窃取,也难以解密。 端到端加密:采用端到端加密的方式,确保数据在传输的整个过程中都是加密的,从数据生成端
OPS06-07 通过可观测性指标引入自动化措施 风险等级 高 关键策略 可观测与自动化运维工具联动,实现自动化的故障检测、恢复及弹性伸缩等功能,进一步提升运维响应速度和准确性,降低人为干预带来的延误,甚至错误。 父主题: OPS06 可观测性体系
runbook是指运行手册,是用来实现变更的详细操作过程。 变更前需提供标准化runbook用于变更和回退,变更过程中严格按照runbook执行,在变更失败时根据runbook进行回退。 风险等级 高 关键策略 runbook需涵盖变更前检查、变更操作、变更后检查及变更失败回退操作。 父主题:
识别和备份应用中所有需要备份的关键数据 不同数据的重要性不一样,针对应用系统内的所有数据,需要明确其重要性及对应的RPO/RTO指标要求。比如对于重要数据,通常允许数据丢失的时间会比较少,从而需要更频繁的备份;对于一般的数据,允许数据丢失的时间比较长,可以使用较低的备份频率;对于一些不重要的数据,其
增、删、改及状态改变(如版本迭代、配置改变、节点扩缩容等)时引发的业务中断风险及变更失败可能导致的业务受损风险。 设计建议 变更风控衡量指标:变更风控衡量指标为变更导致事件密度和变更引入重大事件数。 变更导致事件密度定义:每月变更导致对客户造成影响的事件数与总变更数的比值。 计算
建立安全事件响应团队,明确各角色与职责。 风险等级 高 关键策略 安全事件响应团队一般包含如下角色及职责: 安全响应专家:主导网络安全事件调查,负责对事件进行定级、通报、攻击溯源以及确定影响范围,制定应急处置措施,推动服务控制风险。 攻击溯源专家:根据攻击的IOC信息进行溯源,追溯攻击者信息,攻击范围(无遗漏),攻击
基于华为在安全、合规、隐私及数据保护领域积累多年的技术和治理能力,华为云为您提供安全、可靠、可信赖的基础设施和服务。华为云提出“七层防线+一个中心”的网络安全建设框架,通过多重、多方面的安全防线来成体系保障云上业务的安全性。 华为云把安全合规作为首要任务,安全是华为云和您之间的共同责任。在云
为了应对紧急故障场景,需要组建应急恢复团队,明确责任人,并进行培训。 风险等级 高 关键策略 组建应急恢复团队:其中包括应急恢复主席及所有组件及关键依赖项的恢复责任人。 应急恢复主席:在出现问题后及时组织应急恢复团队进行快速恢复处理。 组件或关键依赖项运维责任人:负责问题定位和应急恢复处理。