检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
此外也可以使用DevOps模式,由开发工程师直接运维系统,而保留一个小而精干的卓越运营使能团队,用于负责组织整体的卓越运营流程改进和相应的流程工具落地。 无论如何设立组织,应该确保具有一个整体的流程,在流程中的每个团队和成员都有自己明确的责任。 同时可以使用明确的方式(如收集运营/运维数据)分析团队
控制优先级队列的使用 每一个优先级会在Erlang VM中使用一个内部队列,这会消耗一定的资源。大多数场景下,使用最多5个优先级就够了。 如何确定消息大小 如何选择发往RabbitMQ的消息长度是一个常见问题。记住,每秒钟发送的消息数比消息大小更容易达到瓶颈。虽然发送大消息不是一个好的做法
份,在数据被删除时使用备份数据快速恢复。 BMS实例物理服务器或本地盘故障 检测:应用层检测物理服务器和本地盘运行状态 恢复:应用层采用RAID实现BMS内硬盘高可用,并实现跨BMS的数据复制与高可用,以便在物理服务器或本地盘故障时业务可快速恢复。建议非必须使用本地盘场景,尽可能使用EVS云硬盘,以提升硬盘的可靠性。
进行定期备份,在数据被删除时使用备份数据快速恢复。 ECS实例使用本地盘时本地盘故障 检测:应用层检测本地盘运行状态。 恢复:应用层采用RAID实现ECS内硬盘高可用,并实现跨ECS的数据复制与高可用,以便在本地盘故障时业务可快速恢复。建议非必须使用本地盘场景,尽可能使用EVS云硬盘,以提升硬盘的可靠性。
云服务性能优化介绍 缓存性能优化 消息队列性能优化 Serverless性能优化 数据库性能优化 人工智能性能优化 大数据性能优化 父主题: 性能效率支柱
服务器资源就类似一块块资源拼成的木桶,其最多能承载的业务需求取决于哪一块资源最先达到瓶颈。 不同应用对资源需求不同,例如: 功耗密集型业务(如高性能计算、人工智能、深度学习等场景)主要就是消耗计算维度的容量。 内存密集型业务(如大数据处理、图像/视频处理、游戏开发、数据库等场景)主要消耗内存和存储维度的容量。
U过载、内存过载、磁盘使用率过高、数据故障(被误删等)、AZ故障、Region故障等。 提供故障检测和缓解措施 针对每种故障模式,需要分析如何检测和恢复,提出改进建议措施,并在系统复杂度和成本之间进行综合考虑,优先解决严酷度高的故障模式。 相关云服务和工具 云运维中心 COC:支持故障模式管理。
CFW:提供云上互联网边界和VPC边界的防护,包括实时入侵检测与防御、全局统一访问控制、全流量分析可视化、日志审计与溯源分析等,同时支持按需弹性扩容、AI提升智能防御能力、灵活扩展满足云上业务的变化和扩张需求,极简应用让用户快速灵活应对威胁。云防火墙服务是为用户业务上云提供网络安全防护的基础服务。
接入层:主要包括用户的连接性能,如网络速度、认证、连接并发数。 HiveServer:以SQL的优化为主,执行计划是SQL优化的主要手段,通过接口查看Hive对整个SQL语句是如何进行任务的分解和编排,并结合MapReduce/Spark的执行情况针对性的进行任务的优化。 HiveMetaStore:因为Hive的M
存在使用寿命上的限制,长时间使用后出现故障的概率会比较高,需要避免使用,而尽可能使用具有高可用能力的EVS磁盘;若必须使用时,则建议使用RAID提升本地盘的可用性,并从应用层实现高可用,以便在一个实例故障时,应用可以自动故障切换和恢复业务。 相关云服务和工具 弹性云服务器 ECS
统计Kafka节点虚拟机的CPU使用率。 group_msgs 堆积消息数 该指标用于统计Kafka实例中所有消费组中总堆积消息数。 topic_messages_remained 队列可消费消息数 该指标用于统计消费组指定队列可以消费的消息个数。 broker_messages_in_rate 每秒消息生产速率
如果函数配置的超时时间比较长的话,且函数代码中发生异常导致阻塞,函数同步调用会等待直到超出超时时间才返回超时异常,造成业务卡顿,长时间不退出等问题,无法实现failfast,影响业务体验。建议结合业务实际场景配置超时时间,避免超时时间配置过大。 Serverless函数代码最佳实践 如果业务可以异步