检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
RES06-02 面向所有故障进行检测 针对所有故障场景,都需要能自动检测,以便及时发现和恢复故障。 风险等级 高 关键策略 所有故障都必须有检测。 支持按不同维度进行故障检测,如Region、AZ、服务、方法、实例或容器ID等,检测维度与故障恢复方式对齐。 检测到故障后需及时告警或自动恢复。
RES11-04 灾难演练 通过容灾演练,可以验证灾备系统是否可用,且数据丢失时间以及恢复时间符合数据的RPO与RTO指标要求。 风险等级 高 关键策略 灾难演练着重测试服务跨AZ或跨Region故障转移能力,验证系统的容灾能力以及面对灾难时的应对能力,涉及到多个团队间配合,通常
OPS03-02 使用多个环境进行集成测试,构建和生产环境相同的预生产环境 风险等级 高 关键策略 开发者测试虽然成本低,但是缺乏对生产环境配置以及不同服务和应用之间实际交互的验证。为此,您的组织可以在云上提供多个环境,典型的环境包含测试环境,预生产环境和生产环境。在生产环境部署
COST04-02 主动监控成本 风险等级 中 关键策略 不要只在出账后或收到异常通知时再查看成本和用量,应使用工具定期检查成本。定期监控和主动分析成本,有助于您及时识别成本趋势,避免异常发生。 相关服务和工具 创建预算提醒,将预算设置为提醒阈值,在预测或实际成本超出预算时,及时获取超预算通知,防止潜在成本超支。
RES07-05 端到端跟踪请求消息 端到端跟踪请求消息的处理流程,便于分析和调试问题,并提高处理性能。 风险等级 低 关键策略 消息跟踪需要包含消息处理流程中所有组件,以便跟踪结果完整,从而进行准确分析和定位。 相关云服务和工具 应用性能管理 APM:支持调用链追踪,能够针对应
RES08-02 依赖松耦合 系统内组件之间直接访问时,会产生紧耦合关系一个组件的状态变化会对其他组件产生直接影响,从而会导致所有组件的可用性均下降。而采用松耦合架构时,各个组件之间的依赖关系非常弱,它们可以独立地进行修改和扩展,而不影响其他组件;系统更加灵活,易于维护和升级,并且稳定性和可靠性也更强。
OPS08-01 使用度量指标衡量运营目标 风险等级 高 关键策略 定义清晰的运营成功的目标和 KPI,设置基线作为参考点并定期重新评估。与业务领导者和利益相关者确定服务的总体目标。确定各个运营团队的任务以及可能面临的挑战。并明确运营目标的关键绩效指标 (KPI),可能是客户满意度、TTM、平均问题解决时间等等。根据
LTS助力某公司高效完成日常业务运维与等保合规 某公司是一家拥有IT,汽车及新能源三大产业群的新技术民营企业。2022年8月,公司入选2022年《财富》世界500强排行榜。 客户痛点: 业务部门较多,日志量较大,项目管理较为困难 云服务资源种类数量较多,监控指标和运维日志不熟悉,运维难度大
SEC03-02 按需分配合适的权限 权限管理应遵循按需分配、最小授权、职责分离原则。需要根据工作职责限定人员对于关键业务系统的访问权限,以免非必要人员或非授权人员访问到关键系统和敏感数据。如需要临时权限,应仅向用户授予有限的时间段内执行特定任务的权限,并且在任务完成后,应撤销访问权限。
RES02-03 定期进行备份数据恢复 通过定期恢复测试,可以验证备份数据的完整性与恢复处理过程是否可用,且数据丢失时间以及恢复时间符合数据的RPO与RTO指标要求。 风险等级 高 关键策略 定期执行备份数据恢复,以验证备份的完整性。 为了避免备份恢复对生产业务造成影响,可以构建
RES09-01 API及命令调用需要设计为可重试 在进行重试处理时,API及命令调用会重复发送,服务方会多次重复执行,需要保证重复执行多次的结果不变。 风险等级 高 关键策略 应用系统在设计时,应使操作具有幂等性,也就是允许一个操作连续执行两次或多次时,应该与单次调用产生的结果
RES09-03 重试需要避免造成流量压力 对于链路闪断等原因导致的临时性故障,客户端进行一定的重试,可取得较好的效果;对于流量过载等原因导致的故障,重试可能会导致情况进一步恶化,因此需要避免这种影响。 风险等级 高 关键策略 客户端进行重试处理时,建议: 增加指数回退和抖动方法
SEC01-02 建立安全基线 建立符合合规性要求、行业标准和平台建议的安全基线,安全基线是团队内对安全的底线要求。根据基线定期衡量您的工作负载架构和运行情况,持续保持或改善工作负载的安全状况。 风险等级 高 关键策略 确定合规性要求:了解您的工作负载必须符合的组织、法律和合规性要求。
OPS01-03 规划标准化的运维流程和运维工具 风险等级 高 关键策略 流程和工具是经验的承载,通过标准化的流程,可以大幅降低在运维过程中因为个人的因素受到的影响和无序化。 通过标准化的、统一的运维工具,向运维人员提供集中、统一维护界面及清晰易上手的操作手册,方便运维人员的集中维护,提高运维效率。常见的运维流程有:
PERF06-01 分层看护 风险等级 高 关键策略 基于业务的部署架构,一般可以从最底层的硬件基础设施到最上层的应用分成5层资源,云上服务可以只需要关注虚拟网络、实例、应用三层。结合每一层资源的特征指标进行分层建模,分别设置不同梯度的性能看护指标。通常按照指标劣化程度可以设计成
COST08-01 按地域规划应用架构 风险等级 中 关键策略 国家已启动“东数西算”工程,将东部发达地区的数据,传输到西部算力资源丰富的地区进行运算、存储。西部数据中心综合成本有明显优势,低PUE低能耗,如贵阳资源价格比广州上海等区域低10%左右。企业可将灾备、离线分析、转码、
设计原则 国际标准化组织(ISO)对计算机系统安全的定义为:确保信息资产(包括硬件、软件、网络、数据等)受到保护,以确保其机密性、完整性和可用性。计算机系统安全的目标是保护信息系统免受未经授权的访问、使用、披露、破坏、修改、中断或不可用的威胁,同时确保信息系统能够持续地提供服务。
SEC06-04 应用安全配置 对应用运行时的各项配置进行加固,以避免因安全配置错误而产生的安全漏洞和风险。 风险等级 高 关键策略 根据安全配置规范,对您工作负载中的应用,如Nginx、Tomcat、Apache、Jetty、JBoss、PHP、Redis等完成安全配置加固和Web攻击防护。
成本优化支柱简介 成本优化支柱专注于帮助企业高效地使用云服务来构建工作负载,面向工作负载的整个生命周期不断完善和改进,减少不必要的开支并提升运营效率,让云上应用始终最具成本效益。 成本优化实践不意味着只有降本,它是安全合规、韧性等维度的平衡,也是达成业务目标的最优投入。 华为公司
COST06-01 了解云上不同计费模式的特点 风险等级 高 关键策略 云服务存在按需、包年包月、资源包、竞价实例等多种计费模式,不同的计费模式有着不同的适用场景。企业或者组织需要根据自己的需要,了解不同计费模式的特点,合理选择各种计费模式来适配不同的业务形态和降低费率,实现成本节省。