检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
组件或关键依赖项运维责任人:负责问题定位和应急恢复处理。 制定应急恢复管理方案:所有应急恢复团队人员都需要进行应急恢复培训,熟悉应急恢复处理流程和恢复方法。 父主题: RES12 应急恢复处理
华为云相关云服务和工具 云监控服务 CES 云运维中心 COC 父主题: OPS07 进行故障分析和管理
相关云服务和工具 统一身份认证服务 IAM 企业项目 EPS 云堡垒机CBH:使用CBH限制对运维账号的使用和访问。CBH可用于集中管控运维账号访问系统和资源的权限,对系统和资源的访问权限进行细粒度设置。
相关云服务和工具 云运维中心 COC: 作业管理:提供用户自定义作业的创建、修改、删除以及在目标虚拟机上执行自定义作业的能力。通过该功能,用户可以通过自定义作业在目标实例(目前支持ECS)上执行操作。
场景 华为云服务 选择策略 云上组网 (云内、云间) VPC 在逻辑隔离的虚拟网络中定义和启动华为资源,方便管理、配置内部网络。 ER 将VPC和本地网络连接到一个网关中,支持路由学习、动态选路以及链路切换,极大的提升网络的可扩展性及运维效率,从而保证业务的连续性。
相关云服务和工具 消息通知服务 SMN 云运维中心 COC:支持人员管理、排班管理和通知管理,可以根据通知规则自动将消息发送给要通知的人员。 父主题: RES07 监控告警
对于大型企业的客户,可能会管理多个账号,这些账号可以被统一管理。客户可通过一个企业主账号结合多个企业子账号来统一管理账号。 主账号与子账号中都可以再创建更小层级的IAM用户,这些IAM用户分别属于对应的账号,可以帮助账号管理资源。
OPS02-02 关联源代码版本和部署的应用版本,使用代码质量最佳实践 风险等级 高 关键策略 在代码开发阶段,需要开展代码协作设计和管理。使用现代化的代码仓管理代码,确保代码合并后,代码将保持一致,并且不会丢失任何更改。
可观测性指标是围绕发现率、定级准确率、定界时长、覆盖率、有效率、 一致率打造可观测能力,将可观测设计规范统一发布,统一设计要求与运维管理要求。
更多参考文档 确定性运维白皮书 父主题: 卓越运营支柱
OPS06-07 通过可观测性指标引入自动化措施 风险等级 高 关键策略 可观测与自动化运维工具联动,实现自动化的故障检测、恢复及弹性伸缩等功能,进一步提升运维响应速度和准确性,降低人为干预带来的延误,甚至错误。 父主题: OPS06 可观测性体系
在最终实际的优化实施阶段,由于成本优化往往需要运营,运维,研发等多个部门的参与,也涉及到平台部门和业务部门的合作,故而需要确定一个各个组织成员都参与的完善流程,如释放空闲资源的流程。
OPS01 建立持续改进的团队文化和标准化的运维体系 OPS01-01 建立持续学习和改进的文化 OPS01-02 规划标准化的运维组织 OPS01-03 规划标准化的运维流程和运维工具 父主题: 卓越运营支柱
父主题: COST07 管理和优化资源
通过IAM用户的“最近一次登录时间”,判断该用户是否为长期未登录的用户,及时管理他们的身份凭证及权限。 相关云服务和工具 统一身份认证服务 IAM 父主题: SEC03 权限管理
父主题: SEC03 权限管理
设计建议 父主题: OPS07 进行故障分析和管理
如在非计算密集型场景,使用华为云的云耀系列服务器取代普通ECS服务器 父主题: COST07 管理和优化资源
其中MapReduce/Spark/HDFS组件有自己独立的调优手册及文档,请参考对应组件的调优。本文档重点讨论上述的1,2,3部分的性能调优的内容,并结合MapReduce/Spark的进行调优说明。
相关云服务和工具 统一身份认证服务 IAM 父主题: SEC03 权限管理