检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
软件开发生产线(CodeArts) 资源编排服务(RFS) 云运维中心(COC) 云监控中心(CES) 云日志服务(LTS) 应用运维管理(AOM2.0) 应用性能管理(APM) 云堡垒机(CBH) 应用管理与运维平台(ServiceStage) 多活高可用(MAS) 父主题: 卓越运营支柱
监控指标集中呈现在一张监控看板里,为您定制一个立体化的监控平台。同时监控看板还支持在一个监控项内对不同服务、不同维度的数据进行对比查看,实现不同云服务间性能数据对比查看。 华为云相关云服务和工具 云监控服务 CES 云运维中心 COC 父主题: OPS07 进行故障分析和管理
先地位。 云架构治理体系不同于传统IT架构治理体系,通过现代化云平台及轻量化治理体系,使能业务安全、强韧性、资源高效、成本最优、敏捷创新。 云架构设计 由于云平台封装了底层软件技术的复杂度,让企业可以更聚焦业务应用设计。云架构设计鼓励以领域驱动设计(DDD)为架构设计起点,结合不
日益庞大的数据量和复杂的业务系统,对运维人员的要求越来越高。为了方便运维人员获取知识,学习和解决问题,运维知识管理能力变得必要。运维知识管理应集成丰富的运维知识,可以帮助运维人员快速解决问题,提高工作效率。一般通过运维知识库系统承载,运维人员可以轻松地查找和获取各种运维知识,包括网络配置、服务
许上线。 2)持续导入服务可服务性、运维需求基线,实现标准化、减少例外操作,帮助服务快速上云。 3)持续提升自动化验证能力,减少手工评估,提升产品的交付与运维效率。 相关云服务和工具 COC PRR评审 父主题: OPS05 运维准备和变更管理
用户可以针对日志内容进行监控统计、设置告警规则等操作,降低用户监控日志的运维成本,简化用户使用监控日志的流程。 事件监控:事件监控提供了事件类型数据上报、查询和告警的功能。方便您将业务中的各类重要事件或对云资源的操作事件收集到云监控服务,并在事件发生时进行告警。 父主题: 卓越运营云服务介绍
债务会随着时间的推移而增加。 使用云平台工具和其他经过行业验证、集成到平台中的工具:云平台提供的工具可以使 IaC 的部署变得简单直接。利用这些工具而不是开发自己的解决方案。云平台包含满足您大多数需求的内置功能,并且由平台提供商不断更新,随着平台的发展而变得更加有用。 标准化模块
次发生的可能性和影响,这些流程和自动化工具,也需要广而告之,以向团队解释清楚缘由。 父主题: OPS01 建立持续改进的团队文化和标准化的运维体系
换到正常路径。 公有云组网场景可通过多EIP 弹性IP及DNS域名解析实现网络连接的高可用;对可用性要求较高的场景,需要支持智能DNS功能,能对EIP进行异常监控和自动切换;此外DNS自身也需要冗余容错,避免由于DNS故障而导致域名解析失败,业务中断。 混合云组网场景链路冗余与倒换方案:
更多参考文档 确定性运维白皮书 父主题: 卓越运营支柱
OPS06-07 通过可观测性指标引入自动化措施 风险等级 高 关键策略 可观测与自动化运维工具联动,实现自动化的故障检测、恢复及弹性伸缩等功能,进一步提升运维响应速度和准确性,降低人为干预带来的延误,甚至错误。 父主题: OPS06 可观测性体系
总结并提炼出一系列设计原则与最佳实践,用以帮助企业利用华为云平台基础设施达到高可用、面向各种故障场景进行韧性设计,并具备一定的灾备能力;同时通过规范化变更、部署及应急恢复等处理流程,减少业务中断时长,提升可用性。 华为云韧性支柱的设计框架如下图所示: 父主题: 韧性支柱
名词解释 确定性运维 确定性运维旨在构建可防、可控、可治的运维管理体系。首先是通过高质量的产品开发,严谨的运维流程和制度来降低故障的概率,要挑战零故障,同时也要有技术手段对可能发生的故障,将间隔、影响范围及故障恢复时间做到可防、可控、可治,要把数字化带来的“不确定性”通过运维变成“确定性”。
以上公共成本,以及其他共享资源&平台服务&服务支持&未及时标记产生的未分配成本,也可以按照一定的比例规则,比如平均分配、按消费比例分配、按约定比例分配等规则,拆分到各个业务部门,从而满足各团队或业务部门公平分配公共成本的需求 相关服务和工具 华为云成本中心的成本单元提供按比例的公共成本分拆方式。
减少人工测试的错误和延迟。 监控和审计变更过程:追踪和记录变更执行情况,及时发现和解决问题,提供透明度和可追溯性。 相关云服务和工具 云运维中心 COC: 作业管理:提供用户自定义作业的创建、修改、删除以及在目标虚拟机上执行自定义作业的能力。通过该功能,用户可以通过自定义作业在目标实例(目前支持ECS)上执行操作。
资源性能数据收集 风险等级 中 关键策略 每个华为云提供的云服务都有一组特定于资源功能的指标,用于呈现有关资源的使用情况。通过收集资源性能数据,可以深入了解工作负载的运行状况和行为。 指标作用: 帮助你了解资源的运行状况和性能, 在云监控平台上配置对应的告警策略和配置指标看板。 通过跟踪分析网络路径上的流量来优化网络性能。
证访问、信息收集、横向移动、数据采集、命令控制、数据窃取和影响破坏等。 可基于流批一体化平台,支持在线、近线和离线的各种异常行为分析模型的构建,包含身份防线,网络防线,应用防线,数据防线,运维防线和主机防线等。也可同时基于AD-HOC实时进行安全事件分析,并聚合成各种报表动态化展示分析。
行构建增加的开发和运维成本。 风险等级 低 关键策略 实施用于托管资源的服务以便在责任共担模式中减少安全维护任务。例如使用华为云的数据库服务而不是自建关系型数据库的实例。 使用Serverless架构的云服务,将计算资源的安全交给华为云处理,减免了用户自行运维服务器带来的工作量和
使用基于日志调用链框架:这些框架具备日志生成、日志格式化、日志上下文关联分析登能力。 通过框架引入到代码库中,可以在运行时采集相关的性能数据。 自定义检测:仅当平台指标不足时,才建议开发人员可以添加自定义代码采集独有的性能指标。 使用业界可观测的标准。请考虑使用围绕业界标准构建的工具,例如OpenTelemetry。
pReduce高10到100倍的计算能力。Spark可以使用HDFS作为底层存储,使用户能够快速地从MapReduce切换到Spark计算平台上去。Spark提供一站式数据分析能力,包括小批量流式处理、离线批处理、SQL查询、数据挖掘等,用户可以在同一个应用中无缝结合使用这些能力。