检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
RES07-02 日志统计监控 RES07-03 监控到异常后发送消息通知 RES07-04 监控数据存储和分析 RES07-05 端到端跟踪请求消息 父主题: 故障全面检测
多因素。以下提供了一些主要因素: 评估合适网络云服务,主要考虑如下性能指标: 网络流量:评估工作负载的预期网络流量,了解数据传输需求和网络请求的频率。 带宽要求:确定工作负载的带宽要求,考虑通过网络传输和接收的数据量。 网络延迟:评估工作负载所需的延迟,使用专用虚拟网络和主干网络
对云服务资源使用的代码进行优化,提高代码执行效率。 数据库优化: 对云服务资源使用的数据库进行优化,如索引优化、查询优化等。 负载均衡: 使用负载均衡技术,将请求分发到多个云服务资源,提高系统的处理能力。 监控和调整: 持续监控云服务资源的性能,根据实际情况进行调整,以保持最佳性能。 父主题: 资源优化
若要为性能测试建立基线并将其用作未来性能测试的基准,请执行以下步骤: 确定性能指标:确定要度量和约定的性能指标。示例包括: 响应时间,或服务响应请求的速度。 吞吐量,或按单位时间处理的请求数。 资源利用率,例如CPU、内存和磁盘使用率。 记录性能相关的度量值:将测试期间获得的性能指标记录为基线度量值。这些度量与测试前约定的SLA比较值。
云服务指标 SLI Service level Indicator,面向服务的指标,如:请求响应成功率 云服务目标 SLO Service Level Object,面向服务的目标,如:一定时间范围内的请求响应成功率大于XX%,或正常运行时间的百分比 云服务协议等级 SLA Service
对于异常组件,需要能支持自动隔离,避免对整体业务造成影响。 相关云服务和工具 弹性负载均衡器 ELB:支持健康检查,会定期向后端服务器发送请求以测试其运行状态,并根据健康检查来判断后端服务器是否可用,当判断为异常后就不会将流量分发给该异常后端服务器。 云容器引擎 CCE:支持容器
、输出格式化等。 对于在Web应用场景使用的语言如Java、Python,还要考虑安全会话管理、防SQL注入、防跨站脚本攻击XSS、防跨站请求伪造CSRF等编码规范。 对于C/C++语言,要考虑缓冲区溢出漏洞、命令注入、危险函数、内存泄露、指针越界、数组读写越界等安全风险。 对于
不要频繁的开启或关闭连接和通道,否则会造成更高的延迟。 生产者和消费者使用独立的连接,来提高吞吐量。 大量的连接和通道可能会影响管理接口的性能,造成请求超时。 消息确认 消费者使用确认(Acknowledgment)机制避免消息因为连接问题而丢失,客户端可以在收到消息或者处理完消息后回给服务端一个
OBS支持跨区域复制,能够为用户提供跨区域数据容灾的能力,满足用户数据复制到异地进行备份的需求。 监控告警 配合CES服务,支持对OBS桶的请求、流量、时延和错误响应等进行监控和告警。详见“监控对象存储服务”。 父主题: OBS对象存储服务
处理冲突负载,从而分散负载:将资源划分为成一些相对独立的小资源组,不同进程/线程可以独立访问,是“资源”分散的常见方案;将同一时间点的多个请求分散到一个时间区段,是“时间”分散的方案。 父主题: 性能效率支柱
可伸缩性是系统自对齐软件功能的要求增加的情况下,继续实现其响应时间或吞吐量目标的能力。 吞吐量(TPS) 吞吐量反映处理能力,指系统在每单位时间内能处理多少个事务/客户请求/单位数据等。 网络带宽 带宽是指在一定时间内,传输数据的能力或速率。 网络流量 网络流量是指在网络中传输的数据量,它可以是指定时间内通过
某个模块启动完成才能提供服务。这时候程序进程在,但是并不能对外提供服务。这种场景下该检查方式就非常有用。如果容器的就绪检查失败,集群会屏蔽请求访问该容器;若检查成功,则会开放对该容器的访问。 启动探针:startupProbe,用于探测应用程序容器什么时候启动了。 如果配置了这类
之前开展,重点的是明确系统的需求和预期目标,以生成性能目标范围。 结合业务明确性能要求 通过性能目标可以确定系统能够承载的最大用户量、并发请求量等,要保持性能目标与业务目标的一致性,需要在设计性能目标时考虑到业务目标的需求。 明确业务相关的性能指标:性能指标应该与业务目标有关,例
通常在执行业务系统维护、升级等高危操作进行,保存期限无限制。 DCS指定备份集恢复。恢复过程中,实例会有一段时间不能处理客户端的数据操作请求,当前数据将被删除,待恢复完成后存储原有备份数据。 详见“备份与恢复说明”。 跨AZ容灾 DCS提供的主备、Cluster集群、Proxy
max.poll.interval.ms 300000 两次消费拉取请求允许的最大时间间隔,默认为300秒,超过这个时间会认为消费者异常。 fetch.min.bytes 根据业务调整 默认为1,每次FETCH请求最少返回数据量。增加该值可以提高吞吐量,同时也会产生一定延迟。 观测性能指标
恢复:针对每个应用层,配置多个BMS实例,通过ELB弹性负载均衡器进行健康检查,当检测到某个BMS实例不可用时,ELB弹性负载均衡器停止向该实例发送业务请求。 BMS实例或挂载的磁盘或数据被意外删除 检测:NA 恢复:对于无状态业务,使用模板快速发放新实例;对于有状态业务,使用CBR云备份服务
示和时序对齐。 1、业务监控 以下4个黄金指标,是针对大量分布式监控的经验总结,可以作为业务监控的参考,包括: 延迟:注意需要区分请求成功的延迟和请求失败的延迟。 流量:对系统业务负荷的监控。 错误率:注意区分显示失败(如HTTP 500错误)和隐式失败(如HTTP 200中包含了错误内容)。
实现方案设计:影响性能的主要因素,在不改变整体架构的情况下可以修改 编码实现:目前情况下是重要因素,也是可以不断改进的因素 系统或组件的性能问题,对外的表象上反应为: 请求响应延迟时间过长 资源占有量过大 对常见的性能问题进行分析,可以发现对于一个系统或组件来说,性能问题经常发生在以下方面: 实体间通信或者调用处理(包括数据库)
成本。 此外,华为云还提供了一些内嵌伸缩能力的云服务,对用户无感知或仅需简单配置: OBS、SFS、FunctionGraph等服务会根据请求量自动扩展业务处理能力,用户无感知。 RDS服务最多支持5个只读副本,可在线扩展只读负载;一键规格变更实现CPU、内存扩容/缩容;在线存储容量扩容。
恢复:针对每个应用层,配置多个ECS实例,通过ELB弹性负载均衡器进行健康检查,当检测到某个ECS实例不可用时,ELB弹性负载均衡器停止向该实例发送业务请求。 ECS实例或挂载的磁盘或数据被意外删除 检测:NA 恢复:对于无状态业务,使用模板快速发放新实例;对于有状态业务,使用CBR云备份服务