检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
连接后端BMS失败 检测:网络连接失败。 恢复: 至少部署2个后端BMS。对于无状态业务,配置ELB弹性负载均衡保障业务可靠性;对于有状态业务,由应用层实现多实例高可用。 应用层进行重试,以应对暂时性故障,如网络过载时;应用故障重试处理可参考“故障重试”。
选择合适类型的计算云服务 选择合适规格的虚拟机和容器节点 使用弹性伸缩 选择合适类型的网络云服务 选择合适类型的存储云服务 选择合适的消息队列 选择合适规格的Kafka 选择合适规格的RocketMQ 选择合适规格的RabbitMQ 选择合适的关系型数据库 选择合适的非关系型数据库
数据零丢失,自动系统故障切换,远程磁盘镜像,备用网络active 数分钟 0 父主题: 可用性目标定义
云运维中心(COC) 云运维中心(Cloud Operations Center,简称COC)为用户提供安全、高效的一站式智能运维平台,满足客户集中运维诉求。承载华为云确定性运维业务场景,提供变更管理、批量运维等核心特性,实现在安全合规的前提下,提升用户运维能力成熟度和云上运维效率
一般通过运维知识库系统承载,运维人员可以轻松地查找和获取各种运维知识,包括网络配置、服务器管理、数据库维护等方面的知识。下面将介绍运维知识库系统的五个主要功能和优势。 丰富的知识资源:运维知识库系统收集整理了大量的运维知识和经验,涵盖了各个领域和层次的内容。
企业可将灾备、离线分析、转码、运维等对网络要求低的系统部署在贵阳、乌兰察布,降低资源成本。 可以关注华为云新推出的云区域以及相关的服务,考虑多Region部署方案。
PERF06-01 分层看护 风险等级 高 关键策略 基于业务的部署架构,一般可以从最底层的硬件基础设施到最上层的应用分成5层资源,云上服务可以只需要关注虚拟网络、实例、应用三层。结合每一层资源的特征指标进行分层建模,分别设置不同梯度的性能看护指标。
管理监控 功能:对客户端 - 网 - 边 - 云全链路网络进行监控,帮助用户及时发现网络故障,全面掌握网络的实时状况。
网络带宽:根据预测的需求,计算所需的网络带宽,例如需要进行大规模的数据传输或者实时的网络通信,可能需要选择高速网络 了解资源限制 容量规划时了解和合理使用资源限制非常重要,常见的资源限制包括进程、线程、CPU使用率、内存使用量、磁盘空间等。
跨云双活方案 当重要应用系统已经在IDC或其他云上部署,并需在华为云上部署一套系统实现双活,以提供高可用的容灾方案。假定应用系统在IDC或其他云上可以达到99.9%的可用性,则在容灾到华为云后,能提供99.99%的可用性。 跨云应用典型架构为前端无状态应用层+后端数据库,其中前端无状态应用可采用虚拟机或容器
访问方式 在ECS/BMS中通过网络协议挂载使用,支持NFS和CIFS的网络协议。需要指定网络地址进行访问,也可以将网络地址映射为本地目录后进行访问。 可以通过互联网或专线访问。需要指定桶地址进行访问,使用的是HTTP和HTTPS等传输协议。
风险等级 高 关键策略 云服务的关键操作包含高危操作(如创建IAM用户、删除IAM用户、重启虚拟机、变更安全配置等)、成本敏感操作(创建、删除高价资源等)、业务敏感操作(网络配置变更等)。 启用关键操作通知功能。
性能监控对象:服务器、操作系统、数据库、应用程序、网络设备、云服务。 常见性能指标:包括资源CPU、内存,硬盘等,及程序的响应时间、吞吐量、并发数等。 父主题: 建立性能可观测性体系
配置netty网络通信:可在客户端的“conf/flink-conf.yaml”配置文件中进行修改适配。 指标观测方法 性能衡量指标包含吞吐量、资源利用率、伸缩性。 吞吐量:在相同资源环境下,执行相同计算任务,查看任务的完成速度。
/重启、使用本地硬盘时硬盘故障/亚健康、网络通信中断/丢包等。
SEC06-05 执行渗透测试 渗透测试是一种安全评估方法,模拟攻击者的行为,通过模拟真实的攻击场景来评估系统、应用程序或网络的安全性。渗透测试旨在发现系统中的安全漏洞、弱点和潜在的安全风险,以帮助组织改进其安全措施、加固防御,并保护系统免受真实攻击的威胁。
设计建议 优化告警阈值:适当提高 内存/CPU/网络 IO 告警阈值。 优化日志级别:优化不合理的日志级别,把部分 ERROR 级别的日志调整为 WARNING。 屏蔽某些日志:对难以调整日志级别的应用,根据关键字屏蔽某些频繁的日志告警。
网络优化:通过优化网络带宽、延迟等参数,以提高数据传输的速度和效率。 数据清洗和预处理:在进行大数据处理之前,对数据进行清洗和预处理,以提高数据的质量和准确性,减少后续计算的错误率和计算量。 父主题: 资源优化
持续监控:利用SIEM(安全信息和事件管理)、UEBA(用户和实体行为分析)等工具,对网络、系统、应用程序和用户活动进行实时监控。 智能警报:当检测到符合预定义触发条件的事件时,自动生成警报,并根据事件的优先级进行分类。 隔离与控制:自动隔离受感染的设备或网络段,防止威胁扩散。
资源检测:云环境中一般指虚拟化后的物理硬件资源及其对应的软件资源,具体包含CPU、内存、网络和磁盘资源等。 功能检测:对组成产品系统的各个内部模块对象进行检测的过程,确定模块功能是否满足设计的需求。当产品系统的功能发生故障时,对外的呈现即为功能输出和预期不一致。