检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
弹性云服务器所在的硬件出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,保障业务受到的影响最小,该过程会导致云服务器重启。详见“物理机故障时,弹性云服务器是否会自动恢复”。 当检测到弹性云服务所在的硬件出现亚健康时,系统会自动化将弹性云服务器热迁移到其他物理服务器上继续运行
可观测性体系 OPS06-01 建立可观测性体系 OPS06-02 定义可观测对象 OPS06-03 制定和实施可观测性指标 OPS06-04 规范化应用日志 OPS06-05 实施依赖项遥测 OPS06-06 实施分布式跟踪 OPS06-07 通过可观测性指标引入自动化措施 父主题: 卓越运营支柱
Kafka版:基于开源社区版Kafka提供的消息队列服务,向用户提供计算、存储和带宽资源独占式的Kafka专享实例。 RabbitMq版:完全兼容开源RabbitMQ,提供即开即用、消息特性丰富、灵活路由、高可用、监控和告警等特性,广泛应用于秒杀、流控、系统解耦等场景。 Rocke
ster)和备节点(Slave)均无法连接时,可将异地灾备实例切换为主实例,在应用端修改数据库链接地址后,即可快速恢复应用的业务访问。数据复制服务提供的实时灾备功能,可实现主实例和跨区域的灾备实例之间的单主灾备(详见“GaussDB(for MySQL)到GaussDB(for MySQL)单主灾备”
Bastion Host,CBH)是华为云的一款统一安全管控平台,为企业提供集中的账号(Account)、授权(Authorization)、认证(Authentication)和审计(Audit)管理服务。 云堡垒机提供云计算安全管控的系统和组件,包含部门、用户、资源、策略、运
行态、高可用架构等场景中得到应用。 可观测指标可以通过监控工具来实现,并允许在发生异常时发送警报。有很多监控工具可以使用,例如Prometheus、Grafana、Zabbix等,以及华为云提供的云监控服务CES。这些工具可以定期收集指标,提供可视化的指标报告,并且可以发送警报,以帮助组织及时发现问题。
性能数据采集 收集性能数据是收集指标和日志的过程,这些指标和日志提供有关工作负载性能的信息。 此数据包括数值,称为指标。 指标描述系统在特定时间点的状态。 它还包括包含组织成记录的不同类型的数据的日志。 通过收集性能数据,可以监视和分析工作负载的性能。 可以使用此信息来识别性能瓶颈、
OBS通过存储介质的慢盘/坏道检测、AZ内设备和数据冗余、AZ之间数据容灾、跨区域复制等技术方案,提供针对介质、服务器、机柜、数据中心和区域的多级可靠性保障。其数据持久性高达99.9999999999%(12个9),可用性高达99.995%,远高于传统架构。详见“OBS的持久性和可用性如何
ELB采用集群化部署,支持多可用区的同城多活容灾,无缝实时切换。 后端服务器健康检查 ELB弹性负载均衡支持定期向后端服务器发送请求以测试其运行状态。当判断后端服务器健康检查异常后,就不会将流量分发到异常后端服务器,而是分发到健康检查正常的后端服务器,从而提高了业务的可靠性。当异常的后端服务器恢复正
最小化身份:尽可能减少非必要的系统管理员,定时清理过期的身份。 最小化权限:给予用户或实体最小必要权限来执行其工作,以降低潜在的安全风险。 最小化暴露面:对不同的访问区域和访问对象,仅暴露最小的服务端点和最少的服务应用接口。 最小化凭证:尽量消除对长期的、静态凭证的依赖。 数据安全保护原则(Data Security)
函数Pod中分配的CPU资源与内存规格成正比,所以更大的内存规格可以获得更高的CPU资源从而提升执行性能。如果业务场景为CPU密集型或者需要大量使用内存的,建议配置更大的内存规格来获取更低的执行时延,可以通过配置不同大小内存进行性能测试,观察时延监控结合业务实际预算选择合适的内存规格。
统一身份管理系统与公司的HR流程结合,当员工入职、调岗和离职时可以触发用户的创建、变更和删除。 针对Landing Zone搭建的云上多账号环境,利用IAM身份中心集中管理多个账号的用户身份,并集中为这些用户配置能够访问多个账号下云资源的权限,无需在每个账号的IAM系统分别创建IA
等保合规要求日志长时间存储,运维部门较多,人员不足,自建ELK成本高 解决方案: 业务价值: 全量日志接入:汽车APP、软件开发、流量平台等170个业务系统接入云日志服务,全面覆盖业务、应用、中间件和基础设施。 分钟级问题定界:秒级日志查询和分钟级日志监控,可配置告警和多渠道通知,90%问题感知与定位分析控制在30分钟。
风险消减个数、等级与类型:风险降级的数量,风险消减的数量,增加预案的数量,改进监控项的数量。 故障恢复时长提升率:对应故障场景经过混沌工程演练,平均恢复速度提升的比率。 故障数量相比上年减少数量:本年度故障数量相比上年度减少多少。 相关云服务和工具 MAS-CAST故障注入服务:针对云应用提供测试工具和注入手
记录攻击和异常行为并对其分析:应在关键网络节点处(例如内外网的交界处、ELB流量转发处等)检测、防止或限制网络攻击行为;应采取技术措施对采集的安全日志进行持续监控和分析,实现对网络攻击特别是新型网络攻击行为和异常行为的识别和分析。 风险等级 高 关键策略 在发生安全事件之前,可以
同步开启审计日志的文件校验,保障审计文件的完整性,防止文件被篡改。 集中管控运维账号访问系统和资源的权限,对系统和资源的访问权限进行细粒度设置。 关于数据的安全审计见:SEC07-03 对数据操作实施监控 相关云服务和工具 云审计服务 CTS:用户开通CTS后,系统会自动创建一个
变更防呆检查 防呆是一种预防矫正的行为约束手段,运用防止错误发生的限制方法,让操作者不需要花费注意力、也不需要经验与专业知识,凭借直觉即可准确无误地完成的操作。 风险等级 高 关键策略 通过以下约束和检查,可减少配置差错: 角色约束:通过权限控制设计预防对不同角色的配置范围进行约束,避免越权配置导致错误。
自动化响应安全事件 自动化的响应工作流是安全自动化的核心组成部分,旨在减少安全事件的响应时间,并提高处理效率。 风险等级 高 关键策略 定义响应触发条件:基于威胁情报、异常行为检测和实时监测的结果,确定哪些情况会触发自动化响应。 制定响应策略:为每种类型的威胁或事件制定具体的响应动作,例如隔离、修复、通知、调查等。
考对应组件的调优。本文档重点讨论上述的1,2,3部分的性能调优的内容,并结合MapReduce/Spark的进行调优说明。 批处理业务 批处理主要特点是耗时时间长,消耗的资源比较多,主要的调优和设计推荐如下: 尽量使用ORC File, 配上合适的压缩算法, 主要可选的压缩算法为
根据某项功能的使用频率来选择。常见的快速通道如,页面快速导航键、DB的索引等。 重要事情优先 把资源优先用于或者集中在重要的任务处理上,确保重要任务的完成;如果不能在可用的时间内完成所有事情,被忽略的是最不重要的任务。主要用于处理瞬时突发负载导致超出系统处理的容量的情况,一般给重