检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
/var/log/messages 中,根据关键字匹配硬件类告警,以便及时处理。 相关云服务和工具 应用运维管理 AOM 云运维中心 COC 云监控服务 CES 父主题: OPS07 进行故障分析和管理
泄露带来的安全风险。 针对敏感数据,采取加密、掩码、匿名化等方式进行保护。这样,即使敏感数据被非法窃取,也可降低这类数据泄露的风险。 应该监控加密和解密密钥的使用,并根据数据用途、类型和分类来选择不同的加密密钥。 相关云服务和工具 数据加密服务 DEW:DEW与OBS、云硬盘(E
等。 设置特定指标 关键指标只是一个参考,在确定关键指标后,需要根据实际情况设定具体的性能目标或阈值。设定这些目标和阈值可以帮助我们更好地监控和管理性能,并采取优化措施。这不仅可以提高系统的性能,还可以提高用户满意度。 比如购物网站,我们可以设定页面加载时间不能超过5秒,如果页面
在本步骤完成前文确认的系统负载、背景数据量与需要请求的用户数据模型等测试设计。 5.执行测试 使用所选的测试工具进行性能测试,测试涉及查看和记录性能指标、监控运行情况以及查看出现的任何性能问题,同时监控和收集性能指标,例如响应时间、吞吐量、CPU和内存利用率以及其他相关指标。 使用定义的测试方案将工作负载置于预期负载
和能力提出了更高要求。 可靠性测试和演练通过主动引入故障来充分验证软件质量的脆弱性,从而提前发现系统风险、提升测试质量、完善风险预案、加强监控告警、提升故障应急效率等方面做到故障发生前有效预防,故障发生时及时应对,故障恢复后回归验证。基于故障本身打造分布式系统韧性,持续提升软件质
通过地址转换的方式,使多个云主机可以共享私网IP访问用户本地数据中心或其他VPC,并支持云主机面向私网提供服务。 应用组网 (用户<->云) ELB 针对HTTP/HTTPS的流量做负载分发,扩展应用系统对外的服务能力,提高应用程序的容错能力。 VPC Endpoint 在 VPC 与华为云服务之间建立连接,
资源投入,降低了运维成本 运营分析能力提升:基于可视化图表和开箱即用的仪表盘等强大功能,快速实现对业务的运营分析 排障能力提升:云端多维度监控实现对业务立体运维,结合自动告警规则达到对故障的快速感知定位处理 父主题: 参考案例
跨Region双活容灾,在出现Region级故障时可以自动切换在异地恢复业务。 监控告警 进行站点运行状态检查,在发生故障时告警;针对CCE、DCS、kafka、RDS、DDS等实例负载状态进行监控,在资源过载时需要告警。 弹性扩缩容 CCE集群支持工作负载的自动弹性伸缩。 变更防差错
优先使用临时凭证并定期轮换凭证:定期更改账号的密码,并定期更新MFA设备。这有助于减少被猜测或盗用的风险。 启用审计日志:启用审计日志功能,以监控账号的活动。审计日志可以帮助检测异常行为并及时采取措施。 多账号管理场景:需指定一个账号作为中央账号(企业主账号),由这个账号再添加成员账
指定网络地址进行访问,也可以将网络地址映射为本地目录后进行访问。 可以通过互联网或专线访问。需要指定桶地址进行访问,使用的是HTTP和HTTPS等传输协议。 只能在ECS/BMS中挂载使用,不能被操作系统应用直接访问,需要格式化成文件系统进行访问。 使用场景 如高性能计算、媒体处理、文件共享和内容管理和Web服务等。
力,防止异常行为。 安全生产 安全生产目的是为了持续保障现网“安全、稳定、高质量”,从人员、工具、产品能力、流程规范等方面在安全预防、过程监控、结果稽查等维度进行端到端管理,减少或防止现网故障的发生,其中如何防止异常行为导致的事件是安全生产的重要目标。 故障快速恢复 故障快恢是以
识别潜在风险和冲突,并采取相应的措施进行风险管理。 自动化测试和验证:验证变更的正确性以及性能、可靠性影响,减少人工测试的错误和延迟。 监控和审计变更过程:追踪和记录变更执行情况,及时发现和解决问题,提供透明度和可追溯性。 相关云服务和工具 云运维中心 COC: 作业管理:提供
建立事件响应计划,包括定义事件级别、响应流程和恢复策略。对服务可用性有影响或者租户可感知的安全事件划分为5个等级,S1/S2/S3/S4/S5。 实施持续的监控,包括云环境的日志、网络流量和异常行为。当检测到潜在事件时,进行初步分析以确定事件的性质和严重性。 实施快速安全响应动作,隔离受影响的系统
改。 集中管控运维账号访问系统和资源的权限,对系统和资源的访问权限进行细粒度设置。 关于数据的安全审计见:SEC07-03 对数据操作实施监控 相关云服务和工具 云审计服务 CTS:用户开通CTS后,系统会自动创建一个追踪器,该追踪器会自动识别并关联当前租户所使用的所有云服务,并
风险发现个数与等级:定期评估分析(季度或年度)主动发现的风险数量和级别。 风险消减个数、等级与类型:风险降级的数量,风险消减的数量,增加预案的数量,改进监控项的数量。 故障恢复时长提升率:对应故障场景经过混沌工程演练,平均恢复速度提升的比率。 故障数量相比上年减少数量:本年度故障数量相比上年度减少多少。
当检查到任何行为更改或错误时,可以将Canary中的流量删除,并将用户发回到以前的版本。如果部署成功,则可以继续以期望的速度进行部署,同时监控更改以便发现错误,直到所有部署完成。 蓝绿部署与金丝雀部署类似,只是会并行部署一整套应用程序,形成两套生产环境:蓝环境和绿环境,蓝色是当前
例如一种运维组织设计是:将运维组织分为一线、二线和三线阶梯型运维支持团队,一线受理客户的服务请求,第一时间将大部分的服务请求闭环。二线处理一线升级的服务请求和监控发现的客户的问题,按照SLA完成闭环,涉及到软件版本缺陷类问题升级到三线进行解决,大部分时间处理告警、事件和故障的恢复,其余时间开展转维验
部署。这两个实例在逻辑上彼此分离,以防止发生故障。 风险等级 高 关键策略 选择这两种模型时,部署的每个阶段之间的时间应该足够长,以便能够监控工作负载的运行状况指标。应该提供充足的部署间隔时间(即部署组之间的时间),以确保来自不同区域的用户或执行不同任务的用户有时间使用工作负载。
计划。这些措施包括人、流程、技术等方面。确保这些措施是可行的、具体的,并且能够有效地解决问题。 实施改进措施:将制定的改进措施付诸实施,并监控其执行情况。确保所有相关人员都了解并遵守这些改进措施。 定期检视和更新:定期检视复盘结果和改进措施的执行情况,并根据需要进行更新和调整。持续改进是一个持久的过程。
实施依赖项遥测 6. 实施分布式跟踪 7. 通过可观测性指标引入自动化措施 OPS07 是否进行故障分析与管理? 1. 创建可操作的告警 2. 创新监控看板 3. 支持事件管理 4. 支持故障恢复流程 OPS08 是否有运营状态度量和持续改进机制? 1. 使用度量指标衡量运营目标 2. 进行事故复盘和改进