检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
RES09-03 重试需要避免造成流量压力 对于链路闪断等原因导致的临时性故障,客户端进行一定的重试,可取得较好的效果;对于流量过载等原因导致的故障,重试可能会导致情况进一步恶化,因此需要避免这种影响。 风险等级 高 关键策略 客户端进行重试处理时,建议: 增加指数回退和抖动方法
韧性支柱旨在帮助企业构建具有高可用的应用系统架构,提高工作负载的韧性,使之在面对各种异常场景时仍能提供和维持可接受的服务水平。韧性支柱结合了华为公司韧性设计经验和业界最佳实践,总结并提炼出一系列设计原则与最佳实践,用以帮助企业利用华为云平台基础设施达到高可用、面向各种故障场景进行韧性设计,并具备一定的灾备能
例节点、实例主题、实例分区、实例分区的消费组、实例队列的消费组、实例的消费组等进行监控和告警。详见“支持的监控指标”。 RabbitMQ:配合CES服务,支持对RabbitMQ实例、实例节点、实例队列进行监控和告警等进行监控和告警。详见“支持的监控指标”。 RocketMQ:配合
COST08-02 云原生架构改造 风险等级 中 关键策略 基于云原生架构改造,主要是应用容器化和微服务化的改造,从而发挥云原生的优势,如:自动弹性扩缩容等,容器技术可以提高资源利用率,避免闲置资源,从而降低计算成本,应用微服务化可以降低运维复杂度,从而降低运维成本。 广告电商等
次重复执行,需要保证重复执行多次的结果不变。 风险等级 高 关键策略 应用系统在设计时,应使操作具有幂等性,也就是允许一个操作连续执行两次或多次时,应该与单次调用产生的结果相同,从而保证重试安全;若不支持操作的幂等性,会导致客户端难以重试或重试的处理更复杂。 父主题: RES09
成本优化支柱专注于帮助企业高效地使用云服务来构建工作负载,面向工作负载的整个生命周期不断完善和改进,减少不必要的开支并提升运营效率,让云上应用始终最具成本效益。 成本优化实践不意味着只有降本,它是安全合规、韧性等维度的平衡,也是达成业务目标的最优投入。 华为公司结合云业务成本运营经验
SEC05-05 证书安全管理 证书的常见用途包括传输数据的加密和系统间的身份认证场景。集中管理每个证书的用途、有效期等信息,并及时对证书替换。 风险等级 中 关键策略 集中管理证书: 建立中心化的证书管理系统,用于存储、跟踪和管理所有证书。 确保每个证书都有清晰的标识,包括用途、所有者、有效期等信息。
无法采集云服务指标信息:客户自建运维体系无法采集到云服务等场景的指标信息,不能满足大屏展示需要 告警通知能力不足:自建运维平台告警通知能力不能完全满足多场景通知的需要,且没有告警降噪能力 解决方案: 业务价值: 降低了运维成本与难度:降低了运维多套系统的难度,减少了客户运维起步的资源投入,降低了运维成本 运营分
Management,简称APM)帮助运维人员快速发现应用的性能瓶颈,以及故障根源的快速定位,为用户体验保驾护航。 您无需修改代码,只需为应用安装一个APM Agent,就能够对该应用进行全方位监控,帮助您快速定位出错接口和慢接口、重现调用参数、发现系统瓶颈,从而大幅提升线上问题诊断的效率。目前支持JAVA、Python、Node
定期检视和更新权限,以避免权限蔓延,持续清理无用的权限。 风险等级 高 关键策略 使用IAM用户组控制人员的访问权限,并设置权限的到期时间。 如果用户组的职责产生变化,应该及时调整用户组的权限。 当账号委托给另一个账号时,设置到期时间。 通过IAM用户的“最近一次登录时间”,判断该用户是否为长期未登录的用户,及时管理他们的身份凭证及权限。
更多参考文档 华为云零信任能力成熟度模型白皮书 企业上云安全白皮书 华为云安全白皮书 华为云隐私保护白皮书 华为云服务的安全特性 华为云安全配置基线指南 父主题: 安全性支柱
RES03-03 对接容灾仲裁,支持自动切换 针对有状态的主备类型业务,在跨AZ部署并支持自动切换时,需要对接容灾仲裁,以避免出现双主或双备,从而在AZ间链路中断的情况下,业务能自动切换到一个AZ提供服务而不受影响;对于集群类业务不涉及。 风险等级 高 关键策略 面向有状态主备类
明确定义哪些人员或机器应当有权访问哪个组件,选择用于进行身份验证和授权的适当身份类型和方法。 风险等级 高 关键策略 使用IAM角色来定义应用程序和组件对资源的访问权限。通过构建最低权限访问模型,确保只授予必要的权限。根据用户的角色和职责分配权限,确保用户只能访问其工作所需的资源。 相关云服务和工具 统一身份认证服务
事件(incidents)是需要干预的事情。当发生事故(incidents)时,通过流程来处理。如何与团队沟通活动的状态?谁负责响应处置?使用哪些工具来缓解该事件?这些都是流程中需要回答的问题,并需要获得可靠的响应过程。流程必须中心化,并且可供参与工作负载的任何人使用。如果没有wiki
个项目/业务/应用全生命周期的云开销。 企业的项目/业务是随时间变化而变化的,一般而言,新兴业务/项目常有更多云资源扩容的需求,而稳定的业务/项目则可以更多考虑单位收益的云成本是否可以持续优化,而处于生命周期末尾的项目/业务则需要考虑逐步释放不再需要的资源。 企业制定预算时,应该
仅与可信实体共享资源。通过使用服务控制策略(SCP)限制权限,您可以限制组织内账户的权限,确保资源仅在组织内部共享。 创建专门的服务账号用于共享资源的访问。 相关云服务和工具 组织 Organizations 资源访问管理 RAM:使用RAM为用户提供安全的跨账号共享资源的能力。如果您有多个华为云账号,您可以创建一次
成本分配支撑企业将成本分配到各业务团队中,使得各业务团队的成本清晰可见。这也是上文中明确的团队责任的基础。 根据清晰的成本,业务部门可准确定价,并平衡成本、稳定性和性能,经济高效的提供领先方案。企业管理者基于数据决策各业务的云开支,保障核心业务和战略业务方向的支出,不超支,不浪费。 成本分配需匹配业务实质,具体有以下几个原则:
关键策略 通过建立的分层性能模型,判断系统是否会出现性能劣化的情况。当出现劣化事件时,需要通过自动化手段快速定位定界发现根因。可以通过应用模型建设三维的拓扑,把架构-空间-时间数据关联起来。这里面的关键是架构模型的建立及分层指标的聚合可视化能力,需要依赖持续的资源治理和数据治理。
银行,投资,金融,政府,电信,关键企业应用 系统的可用度依赖于系统内各业务单元的可用度。各业务单元之间典型的可靠性模型有两类: 串联模型:组成系统的所有单元中任一单元的故障都会导致整个系统故障的称为串联系统。 可靠性数学模型: 举例:假定系统存在2个串联单元,每个单元的可用度均为99.9%,则系统可用度为
识别标签缺失和错误:在确定需要进行标签治理后,需要首先识别所有未打标签的资源和标签key&value错误的资源,然后从费用最高的资源开始逐步治理。建议利用云厂商提供的工具或者自建工具,通过自动化规则的方式,在资源创建的时候,就判断标签是否规范。另外一个更好的方式通过权限管理,识别资源创建人和组织,自动为资源打上标签。