检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
可靠性测试 可靠性测试是为了保证系统在规定的生命周期内,达到预期的可靠性目标;与通常的功能测试不同,可靠性测试需要在业务负荷叠加故障中进行,对测试环境和能力提出了更高要求。 可靠性测试和演练通过主动引入故障来充分验证软件质量的脆弱性,从而提前发现系统风险、提升测试质量、完善风险预案
RES07 监控告警 应用系统需要监控,以便维护人员能快速识别系统运行现状及问题。 RES07-01 定义关键指标与阈值并监控 RES07-02 日志统计监控 RES07-03 监控到异常后发送消息通知 RES07-04 监控数据存储和分析 RES07-05 端到端跟踪请求消息 父主题:
以下章节我们结合一些具体建议和案例来说明如何针对数据库的使用进行性能优化: 1.优化数据库配置实践 数据库的配置参数应从具体业务诉求着手,根据实际需要进行设计;华为云在各个数据库云服务中均提供了默认的配置参数,以满足最普遍的业务需要。 华为云提供了多款数据库服务,不同服务的优化方式和注意
解决方案: 业务价值: 全量日志接入:汽车APP、软件开发、流量平台等170个业务系统接入云日志服务,全面覆盖业务、应用、中间件和基础设施。 分钟级问题定界:秒级日志查询和分钟级日志监控,可配置告警和多渠道通知,90%问题感知与定位分析控制在30分钟。 存储时长满足等保要求:支
注册信息的途径。 用户修改隐私偏好的设置和选项要便于用户发现和使用。 对于收集、处理、存储个人数据的系统,应提供数据主体限制其个人数据处理机制。 对于收集、处理、存储个人数据的系统,应提供数据主体提供的个人数据导出的机制。 父主题: SEC08 数据隐私保护
AS支持后端服务器多AZ部署,当某个AZ出现故障时,AS可自动将云服务器创建到其他AZ,以快速恢复业务。 当选择多AZ部署时,可配置“多可用区扩展策略”为“均衡分布”或“选择优先”: 均衡分布:云服务器扩容时优先保证选择的可用区列表中各可用区下云服务器数量均衡,当无法在目标可用区下完成云服务器扩容时,按照选择优先原则选择其他可用区。
过载控制 系统内组件资源有限,在遇到突发流量时可能会造成资源耗尽,而导致业务受损。 RES13 过载保护 父主题: 韧性支柱
参考案例 通过AOM助力系统运维能力提升,降低运维成本与难度 基于LTS采集多类端侧日志,问题全链路追踪分析和业务运营分析 LTS助力某公司高效完成日常业务运维与等保合规 父主题: 卓越运营支柱
编译构建:基于云端大规模分布式加速,为客户提供高速、低成本、配置简单的混合语言构建能力,帮助客户缩短构建时间,提升构建效率。 部署:支持主机、容器等多种部署形态,部署能力覆盖Tomcat、Springboot等多种语言和技术栈。基于其对部署功能的插件化封装和编排能力,帮助您实现软件的快速、高效发布。
故障全面检测 高可用性系统必须具有完善的故障检测能力,以确保能够快速发现那些可能导致故障的事件、显示正在发展的故障、激活的故障,以及潜在的故障的事件。在几乎所有情况下,故障检测能力都是故障恢复的前提。 RES06 故障检测 RES07 监控告警 父主题: 韧性支柱
esos或者YARN上,能够接入HDFS、HBase、Hive等多种数据源,支持MapReduce程序平滑转接。 集群服务部署规划 服务规模与业务容量参数配置对照表 Spark作为内存计算引擎,需要更多的内存和CPU。用户在规划规格时,应根据当前的业务容量和增长速度,规划合理的内存和CPU资源,特别需要关注以下几点:
RES12 应急恢复处理 应用系统无论如何精心设计,仍可能会出现无法恢复的故障,当此类故障发生后,需要进行应急恢复处理。 RES12-01 组建应急恢复团队 RES12-02 制定应急预案 RES12-03 定期应急恢复演练 RES12-04 出现问题后尽快恢复业务 RES12-05
PERF05 性能优化 性能优化工作中,需警惕“过早优化”的问题。我们的基本指导策略还是首先让系统运行起来,再考虑怎么让它变得更快。一般只有在我们证实某部分代码的确存在一个性能瓶颈的时候,才应进行优化。除非用专门的工具分析瓶颈,否则很有可能是在浪费自己的时间。另外,性能优化的隐含
RabbitMq版:完全兼容开源RabbitMQ,提供即开即用、消息特性丰富、灵活路由、高可用、监控和告警等特性,广泛应用于秒杀、流控、系统解耦等场景。 RocketMQ版:低延迟、弹性高可靠、高吞吐、动态扩展、便捷多样的消息中间件服务。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
尽量使用Map Join减少Shuffle的次数,大幅提升性能 不同SQL语句,完成同一个功能,生成Map Reduce的数量越少越好 Hive系统默认是典型的配置场景,结合业务实际情况,可以做一些参数的调整,如文件块的大小,Map个数与Reduce的个数,压缩算法等。 合理的使用分区,分区数
RES02 备份 对于应用系统中的重要数据,需要提供备份功能,以便在病毒入侵、人为误删除、软硬件故障等场景,能够快速将数据恢复到备份点。 由于容灾通常对数据采用实时复制且没有多备份点,在主数据被误删或误改的情况下,错误数据会同步到备端,从而无法达到数据备份的效果,因此通常不能使用容灾来代替备份。
路造成额外的冷启动时延。 如果需要访问公网,且对带宽有要求的生产业务可以通过配置绑定了NAT网关的VPC来访问公网;如果函数没有网络访问场景的,不建议配置VPC。 参考配置网络。 超时时间 如果函数配置的超时时间比较长的话,且函数代码中发生异常导致阻塞,函数同步调用会等待直到超出
适用电商、金融场景。 RabbitMQ:兼容开源RabbitMQ,支持广播、事务消息、消息路由、死信队列、优先级队列等,适用于秒杀、流控、系统解耦等场景。 详细版本对比可参考官方文档。 相关云服务和工具: 分布式消息服务Kafka版 分布式消息服务RocketMQ版 分布式消息服务RabbitMQ版
性能数据采集 收集性能数据是收集指标和日志的过程,这些指标和日志提供有关工作负载性能的信息。 此数据包括数值,称为指标。 指标描述系统在特定时间点的状态。 它还包括包含组织成记录的不同类型的数据的日志。 通过收集性能数据,可以监视和分析工作负载的性能。 可以使用此信息来识别性能瓶
、安全建模以及核心的安全控制点。企业需尽早规划和思考如何使用云技术和云服务来实现安全治理的现代化,并通过实施合理的云安全策略,实现云上业务系统的安全、合规。 SEC01-01 建立安全管理团队 SEC01-02 建立安全基线 SEC01-03 梳理资产清单 SEC01-04 分隔工作负载