检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本章节介绍常用云服务的可靠性功能与故障模式,以便应用系统能充分利用云服务提供的可靠性能力,提升应用系统的可靠性,并能针对云服务的常见故障模式,进行故障恢复处理,以便最大限度减少故障,并能从故障中恢复。 父主题: 云服务可靠性介绍
应用管理与运维平台(ServiceStage) 应用管理与运维平台(ServiceStage)是面向企业的应用管理与运维平台,提供应用发布、部署、监控与运维等一站式解决方案。支持Java、Php、Python、Node.js、Docker、Tomcat技术栈。支持Apache ServiceComb Java
明确个人数据所涉及的角色,包括数据主体、数据控制者、数据处理者、第三方等角色。 明确隐私保护原则,应遵循合法、透明、安全的原则。 合法、正当、透明:个人数据应当以合法、正当、对数据主体透明的方式被处理。 目的限制:个人数据应当基于具体、明确、合法的目的收集,不应以与此目的不相符的方式作进一步处理。 数据最小化:个人
如需要进行大规模的数据传输或者实时的网络通信,可能需要选择高速网络 了解资源限制 容量规划时了解和合理使用资源限制非常重要,常见的资源限制包括进程、线程、CPU使用率、内存使用量、磁盘空间等。资源限制的主要目的是保证系统的稳定性,防止某些进程或应用程序占用过多的系统资源,导致其他
Review(回顾):完整记录故障的发生、发现、根因定位、决策、处理、预案执行、回滚、故障解决等的关键人与关键时间点,保证信息尽可能的客观、准确。 Analyze(分析):分析故障的根本原因及故障处理过程中优化点。 Summary(总结):总结本次故障及处理故障的过程。进行故障定性、故障定责及总结本次故障带来的经验教训并举一反三。
对出站的流量使用NAT网关配置仅出站的单向连接。 流量过滤。使用防火墙、ACL控制内部和外部网络之间的访问流量以及内部网络中敏感区域的输入及输出流量,并对所有网络流量进行检查,阻止与已制定安全标准不相符的流量,以避免系统组件受到来自不可信网络的非授权访问。 使用应用负载均衡时,七层负载均衡更换为安全的证书。
RES07-03 监控到异常后发送消息通知 当对应用系统监控发现应用异常后,需要向相应的人员和系统发送实时通知消息和告警,以便及时处理。 风险等级 中 关键策略 采用实时快捷的消息通知方式,以便相关人员能及时得到消息。 消息发送人员需要涵盖运维人员,以便及时恢复。 运维人员需要有备份,避免单点风险。
选择合适的消息队列 风险等级 中 关键策略 三种不同版分布式消息服务的适用场景如下: Kafka:兼容开源Kafka,适用构建实时数据管道、流式数据处理、第三方解耦、流量削峰去谷等场景,有大规模、高可靠、高并发访问、可扩展且完全托管的特点。 RocketMQ:兼容开源RocketMQ,提供
系统进行检索,查找到相关的知识和解决方案。不仅可以解决一些常见的问题,还可以提供高级的技术支持,帮助用户解决复杂的问题。 快速定位问题:运维知识库系统配备了强大的搜索功能,用户可以根据关键词进行搜索,系统会自动匹配相关的知识,并提供相应的解决方案。用户只需通过简单的操作,就能快速
以设置细粒度的过滤条件,精细化跟踪具体产品、团队、项目的成本。 除了在成本中心查看预算进展外,您还可以为指定预算设置预算提醒,当实际使用或预测使用达到提醒阈值时,及时接收系统发出的短信或邮件预警,从而及时采取下一步措施。 您还可以设置预算报告,定期将指定预算的执行情况以日报、周报
负载均衡分发时需检查后端节点的负载状态,并根据各节点的负载进行业务分发。 在后端节点故障的情况下,需要自动将业务分发给其他健康节点处理,以避免业务失败。 相关云服务和工具 弹性负载均衡 ELB:支持业务负载均衡处理,还支持后端服务器健康状态检测,自动隔离异常状态的ECS。 父主题: RES13 过载保护
靠性保障。其数据持久性高达99.9999999999%(12个9),可用性高达99.995%,远高于传统架构。详见“OBS的持久性和可用性如何?”。 数据备份和恢复 OBS支持多版本控制,可以在一个桶中保留多个版本的对象,以便方便地检索和还原各个版本,在意外操作或应用程序故障时快速恢复数据。
风险等级 高 关键策略 模拟大量接口消息进行压力测试。 模拟各种业务场景进行压力测试。 持续自动测试。 性能发生偏差时自动告警,以便及时定位和处理。 相关云服务和工具 性能测试 CodeArts PerfTest:针对HTTP/HTTPS/TCP/UDP/HLS/RTMP/ WEBS
关键策略 当发现应用系统业务需要更多资源时,可主动扩展资源以满足需求,而避免影响可用性。典型场景如产品促销前预测会有突发大流量,则可手工进行扩容处理。 华为云服务实例支持主动横向或纵向扩容功能;如对于ECS实例可以通过创建多个ECS实例实现横向扩容,也可升级ECS规格实现纵向扩容;对于
难 云服务资源种类数量较多,监控指标和运维日志不熟悉,运维难度大 等保合规要求日志长时间存储,运维部门较多,人员不足,自建ELK成本高 解决方案: 业务价值: 全量日志接入:汽车APP、软件开发、流量平台等170个业务系统接入云日志服务,全面覆盖业务、应用、中间件和基础设施。 分
内建的规范中,将会充份发挥性能优势,提升软件的执行效率,最终提升产品的竞争力。 高性能编码规范构建策略: JAVA语言:结合语言基础能力的使用、并发模型、部署调优、工具链辅助等维度展开。 C/C++语言:结合语言基础能力、编译技术、并发技术、高效数据结构与算法、高性能库及工具链辅助展开。
特征指标进行分层建模,分别设置不同梯度的性能看护指标。通常按照指标劣化程度可以设计成一般、紧急、重要三个梯度,对应每个梯度的指标配套对应的处理措施。对于敏感度或业务重要度的应用架构,可以新增一个提示级别的梯度。 相关云服务和工具: 云监控服务 CES 应用运维管理 AOM 应用性能管理APM
云数据库 TaurusDB支持同区域备份与跨区域备份;跨区域备份是将备份文件存放到另一个区域存储,某一区域的实例故障后,可以在异地区域使用备份文件在异地恢复到新的云数据库 TaurusDB实例,用来恢复业务。 详见“备份原理”。 自动扩缩容 云数据库 TaurusDB服务支持
取得较好的效果;对于流量过载等原因导致的故障,重试可能会导致情况进一步恶化,因此需要避免这种影响。 风险等级 高 关键策略 客户端进行重试处理时,建议: 增加指数回退和抖动方法,以避免对服务端造成流量压力;采用指数回退重试时,每次重试之间的间隔会逐渐延长,并在两次重试之间引入抖动
将性能目标转换为可用于评估工作负载性能的特定验收标准。例如,假设响应时间的性能目标是2秒或更短。接受条件可以是工作负载的平均响应时间应小于2秒。使用这些验收标准来确定工作负载是否满足所需的性能级别。 父主题: 性能测试