检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
相关云服务和工具 华为云提供了一些内嵌流控保护的云服务,用户可直接配置使用: API网关 APIG:支持配置流控策略,用户可指定单位时间内的单个API、单个用户或单个APP的请求次数上限。 微服务引擎 CSE:支持限流,用户可指定一定时间内可接受的请求次数上限。 父主题: RES13 过载保护
(Resilience) 系统从故障中保持在已知运行状态(甚至降级)的能力。在遭遇故障后快速恢复核心功能和数据,且在业务需要的时间窗内恢复到有效运行状态。 可靠性 (Reliability) 产品在规定的条件下和规定的时间内完成规定功能的能力。它的概率度量称为可靠度。 可用性 (Availability)
合系统的业务要求,主要的测试分类包括: 负载测试:是指在一定的软件、硬件及网络环境下,运行一种或多种业务,在不同虚拟用户数量的情况下,测试环境的性能指标是否在用户的要求范围内,以此确定系统所能承载的最大用户数、最大有效用户数以及不同用户数下系统响应时间及硬件设备或云服务的资源利用
漏洞管理有助于及时发现并修复系统中存在的安全漏洞,防范潜在的安全威胁和攻击。安全漏洞可能使他人非法获得系统访问特权,应通过可信渠道获取最新的安全情报。 风险等级 高 关键策略 安全漏洞可通过及时安装安全补丁的方式修复漏洞,以防恶意个人或软件非法利用从而破坏业务系统和数据。通过及时了解最新的华为云和业界的安全公告
识别和备份应用中所有需要备份的关键数据 不同数据的重要性不一样,针对应用系统内的所有数据,需要明确其重要性及对应的RPO/RTO指标要求。比如对于重要数据,通常允许数据丢失的时间会比较少,从而需要更频繁的备份;对于一般的数据,允许数据丢失的时间比较长,可以使用较低的备份频率;对于一些不重要的数据,其
成本优化支柱专注于帮助企业高效地使用云服务来构建工作负载,面向工作负载的整个生命周期不断完善和改进,减少不必要的开支并提升运营效率,让云上应用始终最具成本效益。 成本优化实践不意味着只有降本,它是安全合规、韧性等维度的平衡,也是达成业务目标的最优投入。 华为公司结合云业务成本运营经验
的监控,可视化地还原业务的执行路线和状态,协助性能及故障快速定位。 在查询后的调用链列表中,单击待查看的调用链的链接,查看该调用链基本信息。 调用链详情页面可以查看调用链的完整链路信息,包含本地方法堆栈和相关远程调用的调用关系。 调用链与日志关联,提高用户体验。用户可以从调用链直接跳转LTS查看日志。
RES07-02 日志统计监控 应用系统需要收集日志,在必要时对日志进行统计分析,设置告警规则触发告警,统计分析的内容可以是统计一定时间段内某些关键字出现的次数。 风险等级 中 关键策略 日志关键字与出现次数阈值需要合理设置,以免监控信息不正确。 日志信息(如关键字或出现频率)发生变化时,需要及时更新告警规则。
关键策略 通过建立的分层性能模型,判断系统是否会出现性能劣化的情况。当出现劣化事件时,需要通过自动化手段快速定位定界发现根因。可以通过应用模型建设三维的拓扑,把架构-空间-时间数据关联起来。这里面的关键是架构模型的建立及分层指标的聚合可视化能力,需要依赖持续的资源治理和数据治理。
RES08-02 依赖松耦合 系统内组件之间直接访问时,会产生紧耦合关系一个组件的状态变化会对其他组件产生直接影响,从而会导致所有组件的可用性均下降。而采用松耦合架构时,各个组件之间的依赖关系非常弱,它们可以独立地进行修改和扩展,而不影响其他组件;系统更加灵活,易于维护和升级,并且稳定性和可靠性也更强。
定期进行容灾演练,以检查恢复能否满足容灾目标 通过定期的容灾演练,可以验证灾备系统是否可用,且数据丢失时间以及恢复时间符合数据的RPO与RTO指标要求。 风险等级 高 关键策略 每年至少进行一次容灾演练;通过演练可提升操作人员的熟练程度。 演练期间需要对恢复过程计时,以确定应用系统的RPO与RTO目标能否满足。
明确定义哪些人员或机器应当有权访问哪个组件,选择用于进行身份验证和授权的适当身份类型和方法。 风险等级 高 关键策略 使用IAM角色来定义应用程序和组件对资源的访问权限。通过构建最低权限访问模型,确保只授予必要的权限。根据用户的角色和职责分配权限,确保用户只能访问其工作所需的资源。 相关云服务和工具 统一身份认证服务
SEC06-04 应用安全配置 对应用运行时的各项配置进行加固,以避免因安全配置错误而产生的安全漏洞和风险。 风险等级 高 关键策略 根据安全配置规范,对您工作负载中的应用,如Nginx、Tomcat、Apache、Jetty、JBoss、PHP、Redis等完成安全配置加固和Web攻击防护。
LTS助力某公司高效完成日常业务运维与等保合规 某公司是一家拥有IT,汽车及新能源三大产业群的新技术民营企业。2022年8月,公司入选2022年《财富》世界500强排行榜。 客户痛点: 业务部门较多,日志量较大,项目管理较为困难 云服务资源种类数量较多,监控指标和运维日志不熟悉,运维难度大
关键策略 基于业务的部署架构,一般可以从最底层的硬件基础设施到最上层的应用分成5层资源,云上服务可以只需要关注虚拟网络、实例、应用三层。结合每一层资源的特征指标进行分层建模,分别设置不同梯度的性能看护指标。通常按照指标劣化程度可以设计成一般、紧急、重要三个梯度,对应每个梯度的指标配套对应
监控到异常后发送消息通知 当对应用系统监控发现应用异常后,需要向相应的人员和系统发送实时通知消息和告警,以便及时处理。 风险等级 中 关键策略 采用实时快捷的消息通知方式,以便相关人员能及时得到消息。 消息发送人员需要涵盖运维人员,以便及时恢复。 运维人员需要有备份,避免单点风险。 SMN消息通知
银行,投资,金融,政府,电信,关键企业应用 系统的可用度依赖于系统内各业务单元的可用度。各业务单元之间典型的可靠性模型有两类: 串联模型:组成系统的所有单元中任一单元的故障都会导致整个系统故障的称为串联系统。 可靠性数学模型: 举例:假定系统存在2个串联单元,每个单元的可用度均为99.9%,则系统可用度为
RES03-04 支持容灾管理 提供容灾管理功能,实现容灾状态及RPO监控,及异常场景下的业务切换。 风险等级 高 关键策略 实时监控容灾状态,了解容灾运行状态。 支持应用级数据校验,比较AZ间数据同步差异,监控及PO指标。 典型确定性故障场景下自动容灾或切换,无需人工接入,业务不受影响,满足RPO/RTO指标。
RES07-04 监控数据存储和分析 监控数据包括统计和日志信息,均需要存储并进行生命周期管理,以满足数据监控的保留要求;并定期对其进行分析,以了解系统运行状态和趋势。 风险等级 中 关键策略 监控数据存储时长需要满足保留要求。 监控数据需要定期分析,以便发现或预测系统故障,减少业务中断。
据丢失时间以及恢复时间符合数据的RPO与RTO指标要求。 风险等级 高 关键策略 灾难演练着重测试服务跨AZ或跨Region故障转移能力,验证系统的容灾能力以及面对灾难时的应对能力,涉及到多个团队间配合,通常作为专项开展。容灾演练可以帮助企业更好的验证RPO、RTO指标,及时发现