检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
单节点实例通过多实例实现高可用:当云服务只支持单节点发放,则需要应用层来实现多个节点之间的主备或负载均衡,如ECS实例,用户可以通过构建ELB+多ECS实例,来实现无状态业务在多实例之间的负载均衡和自动切换,或从应用层实现两个ECS实例的主备等。 硬件依赖实例从应用层实现高可
持续监控:利用SIEM(安全信息和事件管理)、UEBA(用户和实体行为分析)等工具,对网络、系统、应用程序和用户活动进行实时监控。 智能警报:当检测到符合预定义触发条件的事件时,自动生成警报,并根据事件的优先级进行分类。 隔离与控制:自动隔离受感染的设备或网络段,防止威胁扩散。 自动修复:对于已知的漏洞或问题,自
使用业界可观测的标准。请考虑使用围绕业界标准构建的工具,例如OpenTelemetry。 建议:使用分布式的调用链技术,可以识别多个服务和组件之间请求链路;通过收集调用链数据实现数据流端到端的分析,产品阻塞瓶颈点或者效率低下的请求片段,从而进行针对性的优化。 相关云服务和工具 应用运维管理
PERF03 性能建模 选择合适的计算资源 选择合适网络服务资源 选择合适的存储云服务 选择合适的应用中间件云服务资源 选择合适的数据库资源 父主题: 性能效率支柱
故障而导致整个系统不可用。 RES01 冗余 RES02 备份 RES03 跨AZ容灾 RES04 跨Region/跨云容灾 RES05 网络高可用 父主题: 韧性支柱
实例进行负荷分担。 对于无状态业务,启动AS弹性伸缩,自动扩展资源。 应用层进行过载保护,保障优先业务的运行。 连接后端ECS失败 检测:网络连接失败。 恢复: 至少部署2个后端ECS。对于无状态业务,配置ELB弹性负载均衡保障业务可靠性;对于有状态业务,由应用层实现多实例高可用。
控)的安全要求,实战化攻防演习将成为常态,以攻促防是实现精确防御、精准防护的有效方法。 事件演练为了高度模拟真实攻击场景,其攻击链与实际的网络战一样,包括信息搜集、边界突破、武器投送和横向扩散等,在实际攻击当中,利用率最高的是弱口令(简单口令、重复口令)爆破、流行漏洞利用和钓鱼。
针对具体故障进行检测时,根据检测的类型通常可以分为资源检测、功能检测和业务检测。 资源检测:云环境中一般指虚拟化后的物理硬件资源及其对应的软件资源,具体包含CPU、内存、网络和磁盘资源等。 功能检测:对组成产品系统的各个内部模块对象进行检测的过程,确定模块功能是否满足设计的需求。当产品系统的功能发生故障时,对外
如,帐户类CustAcct可以提供访问函数getName(),getAddress(),getZip(),如果经常用到该类的任务是创建邮件标签,可以使用一个新函数genMailLableInfo(),以便调用一次取得所有信息,减少交互次数。 批处理 把经常性的服务请求合并到一起,
源浪费。参考预留实例管理。 网络配置 公网访问:函数提供了公网访问能力,但是函数提供的公网出口带宽有限,且所有租户共享,只适合对带宽、可靠性要求较低的测试业务使用。 VPC访问:函数提供了指定VPC访问的能力,但在冷启动时会初始化到该VPC网络的网络链路造成额外的冷启动时延。 如
检测:连接失败。 恢复: 应用层进行重试,以应对暂时性故障,如RDS实例正在进行主备切换时;应用故障重试处理可参考“故障重试”。 当RDS实例由于过载导致网络限制时,可参考“RDS的CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高”的处理。 父主题: RDS云数据库
应用层进行重试,以应对暂时性故障;应用故障重试处理可参考“故障重试”。 当多次重试后仍无法写入成功,可将数据写入本地缓存,待服务可用后再写入实例。 当实例由于过载导致网络限制时,可参考“CPU /内存/带宽使用率过高”的处理。 父主题: DMS分布式消息服务
(for MySQL)实例正在进行主备切换时;应用故障重试处理可参考“故障重试”。 当GaussDB(for MySQL)实例由于过载导致网络限制时,可参考“RDS的CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高”的处理。 父主题: GaussDB(for MySQL)云数据库
记录检视结果: 记录检视过程中发现的问题、建议和决定,以便后续跟踪和改进。 确保问题得到适当的跟进和解决。 鼓励合作和讨论: 鼓励团队成员之间进行合作和讨论,分享经验和观点,以提高检视质量。 创建开放的氛围,使团队成员能够提出问题和建议,促进共同学习和成长。 持续改进: 定期评估
者隐藏真正的事故原因,导致后续无法切实改进系统的运维能力和流程。一线的工程师也因为担心处罚,不愿意担责,不愿意做任何系统的改变。部门、组织之间由于担心事故影响部门、组织内部成员,导致了消极应对系统中隐藏的问题或者将问题推给了其他组织,部门。最终,这种文化上的高压导致整个组织和运维
使用率Utilization:覆盖系统资源,包括但不限于CPU、内存、网络、磁盘等。 饱和度Saturation:针对资源的饱和度,如CPU队列长度,注意与业务监控的黄金指标相区分。 错误Errors:资源处理错误,如网络丢包率等。 CES主动监控提供了虚机细粒度的监控能力,其他服务监
aling(以round-robin的形式将元素分区到下游操作的子集中)、广播分区(广播每个元素到所有分区)、自定义分区。 配置netty网络通信:可在客户端的“conf/flink-conf.yaml”配置文件中进行修改适配。 指标观测方法 性能衡量指标包含吞吐量、资源利用率、伸缩性。
修改健康检查配置”。 跨AZ容灾 配合ELB服务,可以实现跨AZ的故障切换。 监控告警 配合CES服务,支持对BMS的CPU、内存、磁盘、网络等进行监控和告警。详见“监控指标说明”。 父主题: BMS裸金属服务
遵循可操作性原则能避免很多误报。并且要定期统计和分析告警频率,识别高频告警,解决告警问题,清除明确的告警误报。 设计建议 优化告警阈值:适当提高 内存/CPU/网络 IO 告警阈值。 优化日志级别:优化不合理的日志级别,把部分 ERROR 级别的日志调整为 WARNING。 屏蔽某些日志:对难以调整日
对私钥进行额外保护,如使用硬件安全模块(HSM)来存储私钥。 加密传输: 在证书的传输过程中使用加密通道,如SSL/TLS,以防止证书被篡改或窃取。 避免在不安全的网络中传输证书,确保传输的安全性。 相关云服务和工具 云证书管理服务 CCM:CCM提供SSL证书的申请、签发、查询、吊销等一站式管理服务。 父主题: