检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
OPS01-03 规划标准化的运维流程和运维工具 风险等级 高 关键策略 流程和工具是经验的承载,通过标准化的流程,可以大幅降低在运维过程中因为个人的因素受到的影响和无序化。 通过标准化的、统一的运维工具,向运维人员提供集中、统一维护界面及清晰易上手的操作手册,方便运维人员的集中维护,提高运维效率。常见的运维流程有:
OPS01-02 规划标准化的运维组织 风险等级 高 关键策略 承载卓越运营,应该建立适应您实际的运维组织。运维组织的团队之间具有明确的流程,规定了团队之间的协作方式,例如规定不同团队的响应时间、服务级别目标(SLO) 或服务等级协议(SLA),同时应该记录团队间沟通信息,确保有足够的数据用于后续的改进。
PERF04-01 定义验收标准 风险等级 高 关键策略 验收标准是用于评估指定工作负载是否满足性能要求的指标,需要在性能测试前期定义合理的验收标准。 查看性能目标 性能目标定义了工作负载所需的性能级别。查看为工作负载建立的性能目标。性能目标是可能涉及响应时间、吞吐量、资源利用率
通过框架引入到代码库中,可以在运行时采集相关的性能数据。 自定义检测:仅当平台指标不足时,才建议开发人员可以添加自定义代码采集独有的性能指标。 使用业界可观测的标准。请考虑使用围绕业界标准构建的工具,例如OpenTelemetry。 建议:使用分布式的调用链技术,可以识别多个服务和组件之间请求链路;通过收集调用链
OPS01 建立持续改进的团队文化和标准化的运维体系 OPS01-01 建立持续学习和改进的文化 OPS01-02 规划标准化的运维组织 OPS01-03 规划标准化的运维流程和运维工具 父主题: 卓越运营支柱
RES14-04 提供runbook进行标准化变更 runbook是指运行手册,是用来实现变更的详细操作过程。 变更前需提供标准化runbook用于变更和回退,变更过程中严格按照runbook执行,在变更失败时根据runbook进行回退。 风险等级 高 关键策略 runbook需
危害,包括经济损失、声誉损害、法律责任等。 参考相关的法律法规、行业标准和企业内部的合规政策。不同行业和地区对于敏感数据的定义和要求可能不同,例如医疗行业的患者数据、金融行业的客户交易数据等,都有特定的法规和标准来规范其保护。 结合组织的业务战略和风险承受能力。对于关键业务相关的
SEC09-01 实施标准化管理日志 对身份防线、网络防线、应用防线、主机防线、数据防线和运维防线等日志实施标准化管理,以监测系统和用户活动,实现日志的统一管理,并确保透明可追溯。 风险等级 高 关键策略 跟踪并监测对网络资源和关键数据的所有访问。通过系统的活动记录机制和用户活动
系统,从而缓解或消除安全威胁。 风险等级 高 关键策略 依据系统的安全设计文档,通过验证确保安全措施被正确地集成到系统中,并符合最佳实践和标准。 尽早检视系统的代码(此过程称为代码白盒安全检视),确保代码符合安全最佳实践,避免在后续阶段发现严重的安全漏洞。 利用安全测试工具进行静
使用代码检视工具来辅助检视过程,例如静态代码分析工具,以帮助发现潜在的问题。 确保团队熟悉并能有效使用这些工具。 设定清晰的标准和准则: 制定明确的代码检视标准和准则,以便检视者能够一致地评估代码质量。 着重关注安全性方面。 分配角色和责任: 确定谁将参与代码检视,例如开发人员、架构师、安全专家等。
Turbo),生成按需转包年包月的优化建议和节省评估。 资源包购买建议:自动分析客户按需资源消耗和华为云在售资源包商品(比如OBS标准存储单AZ存储包、OBS标准存储多AZ存储包、OBS公网流出流量包、SFS存储资源包)的覆盖情况,生成相应的资源包购买建议和节省评估。 父主题: COST06
依赖导致的变更风险。 实施保障:按预定方案执行变更,变更步骤标准化、可观测,变更异常及时介入处理,实现变更实施全过程可控、可视、可管。 确定性故障管理 统一事件中心:提供事件发现、事件处理、恢复验证及持续改进的全流程标准化机制。 承载Warroom和故障回溯能力:现网事件智能启动
记录,确保相关根因都得到充分理解,尤其重要的是制定有效的标准化流程/自动化工具来降低事故再次发生的可能性和影响,这些流程和自动化工具,也需要广而告之,以向团队解释清楚缘由。 父主题: OPS01 建立持续改进的团队文化和标准化的运维体系
RES12-02 制定应急预案 针对常见问题现象,提供标准化的应急恢复指导,以便在出现问题后,可以有序的完成恢复操作,避免操作失误。 风险等级 高 关键策略 需要覆盖常用典型场景。 应急恢复需要有标准的操作流程和动作,确保在事件发生时,相关干系人都能够明确自身职责和所需要采取的措施。
流量过滤。使用防火墙、ACL控制内部和外部网络之间的访问流量以及内部网络中敏感区域的输入及输出流量,并对所有网络流量进行检查,阻止与已制定安全标准不相符的流量,以避免系统组件受到来自不可信网络的非授权访问。 使用应用负载均衡时,七层负载均衡更换为安全的证书。 启用VPC流量日志。VP
数据收集合规性 数据使用、留存和处置合规性 向第三方披露个人数据合规性 数据主体有权访问其个人隐私数据 SEC09 如何进行安全感知及威胁检测? 实施标准化管理日志 安全事件记录及分析 实施安全审计 安全态势感知 SEC10 如何进行安全事件的响应? 建立安全响应团队 制定事件响应计划 自动化响应安全事件
客户可通过Config服务预设的资源合规策略,识别资源标签为空等不合规场景。 客户可通过Organization服务,设置标签策略,帮助您在组织账号中对资源添加的标签进行标准化管理。 父主题: COST04 持续进行成本治理
Hive架构 Hive提供了Hadoop的SQL能力,主要参考标准的SQL,Hive进行了部分的修改,形成了自己的特有的SQL语法HQL(Hive SQL),更加适合于Hadoop的分布式体系,该SQL目前是Hadoop体系的事实标准。 Hive调优 用户输入HQL,Hive将HQL进行
资源自动扩容考虑了配额限制 压力负载测试 RES14 您如何进行配置防差错? 变更防呆检查 自动化变更 变更前数据备份 提供runbook进行标准化变更 RES15 您如何进行升级不中断业务? 自动化部署和升级 自动化检查 自动化回滚 灰度部署和升级 父主题: 韧性支柱
服务重启。 生成报告:自动化生成事件处理报告,包括事件详情、响应行动、处理结果和建议措施。 合规性检查:确保整个响应过程符合法律法规和行业标准的要求。 事件回顾:定期回顾已处理的事件,评估自动化响应的效果,识别改进点。 规则与策略更新:根据回顾结果,更新自动化响应规则和策略,增强系统的自适应能力。