检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
风险等级 中 关键策略 对于被依赖项本身,为减少由于服务故障或运行缓慢对依赖它的组件的影响,需要考虑使用以下技术和原则: 减少被依赖项本身的外部依赖。 优化性能,减少消息响应时延和负载。 使用优先队列,优先处理高优先级用户的请求,以便在流量过载时不影响应用系统的核心功能。 流量过载时支持功能逐步降级。
预测:维护团队需要根据系统运行现状,通过数据分析、机器学习等方式,预测系统的风险情况,提前进行预防和处理。 在进行应急恢复处理时,通常需要尽快缓解或恢复业务,快速结束业务中断对客户的影响,然后再启动问题定位和修复处理流程,以减少业务中断时间。 组织协调:故障发生后,应急恢复主席需要迅速组织相关人员快速恢复业务。
控服务会自动启动,您可以直接到云监控服务查看该资源运行状态并设置告警规则。 主机监控:通过在弹性云服务或裸金属服务器中安装云监控服务Agent插件,用户可以实时采集ECS或BMS 1分钟级粒度的监控数据。已上线CPU、内存和磁盘等40余种监控指标。有关主机监控的更多信息,请参阅主机监控简介。
件,选择用于进行身份验证和授权的适当身份类型和方法。 风险等级 高 关键策略 使用IAM角色来定义应用程序和组件对资源的访问权限。通过构建最低权限访问模型,确保只授予必要的权限。根据用户的角色和职责分配权限,确保用户只能访问其工作所需的资源。 相关云服务和工具 统一身份认证服务 IAM
在发生安全事件之前,可以考虑构建取证能力来支持安全事件调查工作。记录攻击和异常行为并对其分析:应在关键网络节点处检测、防止或限制网络攻击行为;应采取技术措施对采集的安全日志进行持续监控和分析,实现对网络攻击特别是新型网络攻击行为和异常行为的识别和分析。 基于安全事件进行攻击链分析和攻击溯源, 包含攻击的各个路径,初始
例外操作,帮助服务快速上云。 3)持续提升自动化验证能力,减少手工评估,提升产品的交付与运维效率。 相关云服务和工具 COC PRR评审 父主题: OPS05 运维准备和变更管理
据,应用仍处于可预测和可恢复的状态。 避免启动依赖及循环依赖。若应用系统由于某些原因导致重启时,若依赖于其他依赖项启动或加载关键配置数据,可能会导致应用系统长时间停在启动状态而无法响应外部消息。针对这种情况,应用系统应该先使用缺省配置启动,再检查依赖项的状态或加载最新配置数据,以恢复正常运行。
COST05-01 分析业务趋势和优化收益 风险等级 高 关键策略 云成本是一个综合工程,也是一个定期审核、回顾和执行的流程,除了考虑优化带来的收益以外,还需要考虑相关成本,例如,因为优化带来的人员和时间成本。 为了降低整体成本,优化的工作量必须与潜在的节省额成比例。优化可以从应用占成本的比例考虑。
架构设计(性能、可靠性、多区域部署、安全)约束:设计的约束,本质是业务系统在各个维度的具体需求,决定了对数据库能力规格以及资源量的具体要求;对业务性能和可靠性诉求的把握,以及对云数据库的性能负载能力和负载稳定性的评估,能够更好地帮助您选择符合业务需求的数据库服务;在做所需资源量的评估时,应基于数据库连接数、事务处理
风险等级 高 关键策略 客户可感知的观测对象分类如下: 可观测分层 功能 / 主要指标 IT 资源监控 IT 资源监控对 IT 资源的性能和容量进行监视和报告,确保您的业务稳定可靠运行 应用监控 应用监控基于应用资源管理对资源实行从应用、业务组件、到环境的分层监控,每一层对应的观测指标
定义响应触发条件:基于威胁情报、异常行为检测和实时监测的结果,确定哪些情况会触发自动化响应。 制定响应策略:为每种类型的威胁或事件制定具体的响应动作,例如隔离、修复、通知、调查等。 优先级与分级:根据事件的严重性和紧急程度,定义响应的优先级,确保重要事件得到优先处理。 持续监控:利用SIEM(安全信息和事件管理)
加的开发和运维成本。 风险等级 低 关键策略 实施用于托管资源的服务以便在责任共担模式中减少安全维护任务。例如使用华为云的数据库服务而不是自建关系型数据库的实例。 使用Serverless架构的云服务,将计算资源的安全交给华为云处理,减免了用户自行运维服务器带来的工作量和人为错误
的网络或公共网络来传输敏感数据。 确保敏感数据在云侧和客户端之间传输时是加密的状态,即使数据被窃取,也难以解密。 端到端加密:采用端到端加密的方式,确保数据在传输的整个过程中都是加密的,从数据生成端到数据接收端都能保持加密状态。对于Web应用的API,必须使用HTTPS来加密客户端和服务器之间的通信。
创建可操作的告警 2. 创新监控看板 3. 支持事件管理 4. 支持故障恢复流程 OPS08 是否有运营状态度量和持续改进机制? 1. 使用度量指标衡量运营目标 2. 进行事故复盘和改进 3. 知识管理 父主题: 卓越运营支柱
卓越运营支柱简介 基础概念 设计原则 问题和检查项 OPS01 建立持续改进的团队文化和标准化的运维体系 OPS02 通过CI/CD实现高效的频繁可逆的小规模变更 OPS03 完备的测试验证体系 OPS04 自动化构建和部署流程 OPS05 运维准备和变更管理 OPS06 可观测性体系 OPS07
资源打上标签。 定期审查和优化规范:变化不可避免,良好的标签管理不是一个一劳永逸的过程。通过定期审查和优化规范,确保成本标签适应环境和诉求变化。管理层&财务等利益相关人诉求变化,他们可能会对更细粒度的提出请求,定期和利益相关人确定并更新规范。 相关服务和工具 企业可在成本中心查看
包)。相反,通道则允许较为频繁的开启和关闭,但在发布消息时复用通道也是一个好的习惯,不要每发送一条消息都开启一个新的通道。同时需要注意如下几点: 多线程不要共享通道,因为你很难实现线程安全。 不要频繁的开启或关闭连接和通道,否则会造成更高的延迟。 生产者和消费者使用独立的连接,来提高吞吐量。
处理、离线批处理、SQL查询、数据挖掘等,用户可以在同一个应用中无缝结合使用这些能力。 Spark的特点如下: 通过分布式内存计算和DAG(无回路有向图)执行引擎提升数据处理能力,比MapReduce性能高10倍到100倍。 提供多种语言开发接口(Scala/Java/Pytho
RES14-03 变更前数据备份 通过配置数据事前备份与恢复设计,确保在出现配置错误时能够快速恢复到正确的配置数据状态。 风险等级 高 关键策略 进行全量数据备份,以防变更过程中数据被破坏,影响业务。 异常回滚时,可使用备份数据进行恢复。 父主题: RES14 配置防差错
应用程序环境都需要许多基础设施组件,例如操作系统、数据库连接和存储。 开发人员必须定期设置、更新和维护基础设施,以开发、测试和部署应用程序。 手动管理基础设施既耗时又容易出错,尤其是在大规模管理应用程序时。 风险等级 高 关键策略 使用声明式工具:与命令式工具相比,声明式工具是部署和管理 IaC 的更好的整体选