检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
确的团队责任的基础。 根据清晰的成本,业务部门可准确定价,并平衡成本、稳定性和性能,经济高效的提供领先方案。企业管理者基于数据决策各业务的云开支,保障核心业务和战略业务方向的支出,不超支,不浪费。 成本分配需匹配业务实质,具体有以下几个原则: 按实际使用者进行分配。即谁使用产生的成本分配给谁,而不是谁购买分配给谁。
覆盖全国339个主要城市,覆盖线路数量超过11万条,实现了全国多中心运营的架构。 客户痛点: 多云双活场景运维难保障:大规模集群场景,单个云厂商灾备不足以保障业务,需引入双活并行,故障零切换,过程中,客户自建运维平台能力较为欠缺,不足以满足运维需要 无法采集云服务指标信息:客户自
RES10-04 健康检查与自动隔离 对应用组件进行健康检查,当发现故障后进行主动隔离,避免故障扩散。 风险等级 高 关键策略 对系统内组件需要定期进行健康检查,以判断其状态是否正常。 对于异常组件,需要能支持自动隔离,避免对整体业务造成影响。 相关云服务和工具 弹性负载均衡器
可靠性功能 数据备份和恢复 使用CBR云备份服务可对ECS的备份保护服务,支持基于多云硬盘一致性快照技术的备份服务,并支持利用备份数据恢复ECS数据。详见“云备份概述”。 故障自愈 当ECS支持自动恢复时,可以开启自动恢复能力,当物理服务器损坏时以冷迁移方式重启ECS实例,使弹性
可靠性功能 集群HA DCS服务提供主备、Proxy集群、Cluster集群实例,通过节点冗余方式实现实例容灾,当检测到主节点故障后,快速切换到备节点并自动恢复,在异常检测和恢复期间,可能会影响业务,时间在半分钟内。 数据备份和恢复 DCS支持将当前时间点的实例缓存数据备份并存储
SEC03-03 定期审视权限 定期检视和更新权限,以避免权限蔓延,持续清理无用的权限。 风险等级 高 关键策略 使用IAM用户组控制人员的访问权限,并设置权限的到期时间。 如果用户组的职责产生变化,应该及时调整用户组的权限。 当账号委托给另一个账号时,设置到期时间。 通过IAM
RES09-03 重试需要避免造成流量压力 对于链路闪断等原因导致的临时性故障,客户端进行一定的重试,可取得较好的效果;对于流量过载等原因导致的故障,重试可能会导致情况进一步恶化,因此需要避免这种影响。 风险等级 高 关键策略 客户端进行重试处理时,建议: 增加指数回退和抖动方法
建立事件响应计划,包括定义事件级别、响应流程和恢复策略。对服务可用性有影响或者租户可感知的安全事件划分为5个等级,S1/S2/S3/S4/S5。 实施持续的监控,包括云环境的日志、网络流量和异常行为。当检测到潜在事件时,进行初步分析以确定事件的性质和严重性。 实施快速安全响应动作,隔离受影响的系统或账户、断
量能力,有的针对平台网站具有Web应用、移动应用和API测试能力,所以性能压测工具是要依据业务测试场景来选择。 相关云服务和工具 参考华为云CodeArts PerfTest工具 父主题: OPS03 完备的测试验证体系
可观测指标可以通过监控工具来实现,并允许在发生异常时发送警报。有很多监控工具可以使用,例如Prometheus、Grafana、Zabbix等,以及华为云提供的云监控服务CES。这些工具可以定期收集指标,提供可视化的指标报告,并且可以发送警报,以帮助组织及时发现问题。 可参考CES的最佳实践,https://support
SEC03-01 定义权限访问要求 明确定义哪些人员或机器应当有权访问哪个组件,选择用于进行身份验证和授权的适当身份类型和方法。 风险等级 高 关键策略 使用IAM角色来定义应用程序和组件对资源的访问权限。通过构建最低权限访问模型,确保只授予必要的权限。根据用户的角色和职责分配权限,确保用户只能访问其工作所需的资源。
SEC06-05 执行渗透测试 渗透测试是一种安全评估方法,模拟攻击者的行为,通过模拟真实的攻击场景来评估系统、应用程序或网络的安全性。渗透测试旨在发现系统中的安全漏洞、弱点和潜在的安全风险,以帮助组织改进其安全措施、加固防御,并保护系统免受真实攻击的威胁。 风险等级 高 关键策略
务,并将当前租户的所有操作记录在该追踪器中。CTS服务具备对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 云堡垒机 CBH 数据库审计 DBSS 安全云脑 SecMaster 消息通知服务 SMN 父主题: SEC09
比如一个快速增长的业务组织更多地可能会偏向于提升业务的速度,而设计一个比较宽松的云成本优化策略,而稳定的业务组织则可以以成本效率为主要考量,设计比较严格的云成本优化策略。如果应用服务于特定的地理位置或市场领域,并且您已预测出该领域会出现的对云业务使用量的降低,则提高优化频率可能会更有利于节省成本。 父主题:
PERF05-03 WEB场景资源优化 风险等级 中 关键策略 对于已经配置好的资源,可以通过优化来提高性能。例如,优化操作系统的设置、调整网络带宽、优化数据库查询等。 云服务资源性能优化步骤包括: 识别性能瓶颈: 通过监控和分析云服务资源使用情况,找出性能瓶颈。 优化资源配置:
最后,优化的目标是使企业或者组织每一块钱的花费都能产生最大的效益。不能只专注于降低成本而忽略业务价值。设定一个明确的可量化的优化目标,有助于成本优化团队(上文中提到的云业务办公室、云卓越中心或 FinOps 团队)和决策层,利益相关方取得一致。 父主题: COST05 优化指定策略和目标
COST07-01 持续监控资源利用率指标 风险等级 高 关键策略 持续地在组织中定义资源的核心利用率指标(如CPU利用率,内存,CDN服务的流量,数据库的TPS),按(天、周、月)等时间周期发现规律,对低利用率资源的应用/项目进行审查。 父主题: COST07 管理和优化资源
OPS04-02 采用持续部署模型 当部署出问题时,通过使用持续部署模型来实现尽早发现问题,减少对最终用户的影响。 金丝雀部署是持续部署的常见模型,通过一小群内部或外部用户首先部署新功能,当新版本没有问题后,陆续部署到更大的组,直到所有用户群体都运行新版本。 另一种常见的部署模型
增强紧急预警:有些硬件故障会出现反应在 /var/log/messages 中,根据关键字匹配硬件类告警,以便及时处理。 相关云服务和工具 应用运维管理 AOM 云运维中心 COC 云监控服务 CES 父主题: OPS07 进行故障分析和管理
RES03-03 对接容灾仲裁,支持自动切换 针对有状态的主备类型业务,在跨AZ部署并支持自动切换时,需要对接容灾仲裁,以避免出现双主或双备,从而在AZ间链路中断的情况下,业务能自动切换到一个AZ提供服务而不受影响;对于集群类业务不涉及。 风险等级 高 关键策略 面向有状态主备类