检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
力,防止异常行为。 安全生产 安全生产目的是为了持续保障现网“安全、稳定、高质量”,从人员、工具、产品能力、流程规范等方面在安全预防、过程监控、结果稽查等维度进行端到端管理,减少或防止现网故障的发生,其中如何防止异常行为导致的事件是安全生产的重要目标。 故障快速恢复 故障快恢是以
OPS08-03 知识管理 风险等级 高 关键策略 日益庞大的数据量和复杂的业务系统,对运维人员的要求越来越高。为了方便运维人员获取知识,学习和解决问题,运维知识管理能力变得必要。运维知识管理应集成丰富的运维知识,可以帮助运维人员快速解决问题,提高工作效率。一般通过运维知识库系统
根据业务调整 默认为1,每次FETCH请求最少返回数据量。增加该值可以提高吞吐量,同时也会产生一定延迟。 观测性能指标 Kafka提供了以下性能相关监控指标,从这些指标可以帮助分析消息堆积、分区数据倾斜、流量倾斜等问题。 指标ID 指标名称 指标说明 broker_disk_usage 磁盘容量使用率
风险发现个数与等级:定期评估分析(季度或年度)主动发现的风险数量和级别。 风险消减个数、等级与类型:风险降级的数量,风险消减的数量,增加预案的数量,改进监控项的数量。 故障恢复时长提升率:对应故障场景经过混沌工程演练,平均恢复速度提升的比率。 故障数量相比上年减少数量:本年度故障数量相比上年度减少多少。
例如一种运维组织设计是:将运维组织分为一线、二线和三线阶梯型运维支持团队,一线受理客户的服务请求,第一时间将大部分的服务请求闭环。二线处理一线升级的服务请求和监控发现的客户的问题,按照SLA完成闭环,涉及到软件版本缺陷类问题升级到三线进行解决,大部分时间处理告警、事件和故障的恢复,其余时间开展转维验
部署。这两个实例在逻辑上彼此分离,以防止发生故障。 风险等级 高 关键策略 选择这两种模型时,部署的每个阶段之间的时间应该足够长,以便能够监控工作负载的运行状况指标。应该提供充足的部署间隔时间(即部署组之间的时间),以确保来自不同区域的用户或执行不同任务的用户有时间使用工作负载。
当检查到任何行为更改或错误时,可以将Canary中的流量删除,并将用户发回到以前的版本。如果部署成功,则可以继续以期望的速度进行部署,同时监控更改以便发现错误,直到所有部署完成。 蓝绿部署与金丝雀部署类似,只是会并行部署一整套应用程序,形成两套生产环境:蓝环境和绿环境,蓝色是当前
计划。这些措施包括人、流程、技术等方面。确保这些措施是可行的、具体的,并且能够有效地解决问题。 实施改进措施:将制定的改进措施付诸实施,并监控其执行情况。确保所有相关人员都了解并遵守这些改进措施。 定期检视和更新:定期检视复盘结果和改进措施的执行情况,并根据需要进行更新和调整。持续改进是一个持久的过程。
实施依赖项遥测 6. 实施分布式跟踪 7. 通过可观测性指标引入自动化措施 OPS07 是否进行故障分析与管理? 1. 创建可操作的告警 2. 创新监控看板 3. 支持事件管理 4. 支持故障恢复流程 OPS08 是否有运营状态度量和持续改进机制? 1. 使用度量指标衡量运营目标 2. 进行事故复盘和改进
率。 disk_write_rate 磁盘写入速率 统计ModelArts用户服务的磁盘写入速率。 全量指标可参考ModelArts支持的监控指标文档。 父主题: 云服务性能优化介绍
PERF03 性能建模 选择合适的计算资源 选择合适网络服务资源 选择合适的存储云服务 选择合适的应用中间件云服务资源 选择合适的数据库资源 父主题: 性能效率支柱
rabbitmq_cpu_core_load CPU核均负载 统计Rabbitmq节点虚拟机CPU每个核的平均负载。 全量指标可参考RabbitMQ支持的监控指标。 父主题: 消息队列性能优化
SEC05-06 使用托管云服务 将计算、数据库、存储等资源使用华为云云服务进行托管,避免自行构建增加的开发和运维成本。 风险等级 低 关键策略 实施用于托管资源的服务以便在责任共担模式中减少安全维护任务。例如使用华为云的数据库服务而不是自建关系型数据库的实例。 使用Server
RES13-05 资源自动扩容考虑了配额限制 当应用系统在资源不足自动扩容时,需要考虑配额的限制,若配额不足,会导致自动扩容失败。 风险等级 高 关键策略 华为云为防止资源滥用,限定了各服务资源的配额,对用户的资源数量和容量做了限制。如您最多可以创建多少台弹性云服务器、多少块云硬
云堡垒机(CBH) 云堡垒机(Cloud Bastion Host,CBH)是华为云的一款统一安全管控平台,为企业提供集中的账号(Account)、授权(Authorization)、认证(Authentication)和审计(Audit)管理服务。 云堡垒机提供云计算安全管控的
RES09-02 客户端需要根据综合评估是否要重试 当客户端请求超时或收到错误响应时,客户端需要决定是否重试;重试有助于客户端在请求失败时,通过重复消息来获得预期的结果,避免业务失败,但也会消耗更多的服务器时间来获取所需的成功响应。 风险等级 高 关键策略 请求超时,可能是链路闪
PERF03-02 选择合适规格的虚拟机和容器节点 风险等级 中 关键策略 服务器资源就类似一块块资源拼成的木桶,其最多能承载的业务需求取决于哪一块资源最先达到瓶颈。 不同应用对资源需求不同,例如: 功耗密集型业务(如高性能计算、人工智能、深度学习等场景)主要就是消耗计算维度的容量。
SEC07-05 传输数据的加密 对传输中的数据进行加密处理,以确保数据在传输过程中不被未经授权的访问者所窃取、篡改或查看。 风险等级 高 关键策略 使用加密协议:确保在数据传输过程中使用安全的加密协议,以加密数据并保护其在传输过程中不被窃取或篡改。使用最新的TLS版本(如TLS
SEC09-01 实施标准化管理日志 对身份防线、网络防线、应用防线、主机防线、数据防线和运维防线等日志实施标准化管理,以监测系统和用户活动,实现日志的统一管理,并确保透明可追溯。 风险等级 高 关键策略 跟踪并监测对网络资源和关键数据的所有访问。通过系统的活动记录机制和用户活动
HIVE优化 概述 Hive架构 Hive提供了Hadoop的SQL能力,主要参考标准的SQL,Hive进行了部分的修改,形成了自己的特有的SQL语法HQL(Hive SQL),更加适合于Hadoop的分布式体系,该SQL目前是Hadoop体系的事实标准。 Hive调优 用户输入