云服务器内容精选

  • 功能介绍 表1 运维中心功能介绍 服务名称 服务简介 部署服务 基础设施即代码(Infrastructure as code,简称IaC)是一种基于软件开发实践形成的基础设施的自动化方法,它强调一致、可重复的供给和变更系统及其配置。当代码发生变更后,可以进行自动化测试,测试完成后可自动化的应用变更到运行系统中。使用基础设施即代码的方法,可以使用敏捷工程的优秀实践(如测试驱动开发、持续集成、持续发布)可以快速安全的变更基础设施。 部署服务按架构元素(服务)组织资源,软件单元(微服务或函数)作为最小变更单元 ,执行变更的结果围绕服务环境进行资源管理,每个组件可以独立发布版本、独立变更。 监控服务 监控服务(ServiceInsight)是一个面向自有服务和生态开发者的开发和运维SRE(Site Reliability Engineer),围绕故障生命周期,构建开箱即用的,集预防、检测、诊断、恢复、通报和改进于一体的可观测性平台。 弹性资源服务 弹性资源服务(Elastic Resource Service,简称ERS)提供资源池监控、访问安全控制、任务调度、业务负载弹性伸缩、集群联邦、配额管理和多种K8s扩展等能力,通过统一的对外接口提供业务管理能力,上层业务不再感知下层资源。同时提供Portal可视化管理容器,包括工作负载的管理、配置文件管理和容器WebTerminal。 弹性网络服务 弹性网络服务(Elastic Network Service,简称ENS)通过引入“隔离域”这一网络资源概念,将业务使用的底层网络资源进行封装。 主机管理服务 主机管理服务(VMS)是基于云原生的主机资源管理服务,负责各种类型的主机资源发放/回收/操作、OS管理、密码密钥管理。 父主题: 运维中心简介
  • 功能介绍 表1 运维中心功能介绍 服务名称 服务简介 部署服务 基础设施即代码(Infrastructure as code,简称IaC)是一种基于软件开发实践形成的基础设施的自动化方法,它强调一致、可重复的供给和变更系统及其配置。当代码发生变更后,可以进行自动化测试,测试完成后可自动化的应用变更到运行系统中。使用基础设施即代码的方法,可以使用敏捷工程的优秀实践(如测试驱动开发、持续集成、持续发布)可以快速安全的变更基础设施。 部署服务按架构元素(服务)组织资源,软件单元(微服务或函数)作为最小变更单元 ,执行变更的结果围绕服务环境进行资源管理,每个组件可以独立发布版本、独立变更。 监控服务 监控服务(ServiceInsight)是一个面向自有服务和生态开发者的开发和运维SRE(Site Reliability Engineer),围绕故障生命周期,构建开箱即用的,集预防、检测、诊断、恢复、通报和改进于一体的可观测性平台。 弹性资源服务 弹性资源服务(Elastic Resource Service,简称ERS)提供资源池监控、访问安全控制、任务调度、业务负载弹性伸缩、集群联邦、配额管理和多种K8s扩展等能力,通过统一的对外接口提供业务管理能力,上层业务不再感知下层资源。同时提供Portal可视化管理容器,包括工作负载的管理、配置文件管理和容器WebTerminal。 弹性网络服务 弹性网络服务(Elastic Network Service,简称ENS)通过引入“隔离域”这一网络资源概念,将业务使用的底层网络资源进行封装。 主机管理服务 主机管理服务(VMS)是基于云原生的主机资源管理服务,负责各种类型的主机资源发放/回收/操作、OS管理、密码密钥管理。 父主题: 运维中心简介
  • 演练服务 表3 演练服务基本概念 基本概念 说明 BCM 业务连续性管理(Business Continuity Management,BCM),是识别业务潜在威胁,分析威胁一旦发生对业务运营可能带来的影响,通过有效应对措施保护关键利益关系人的利益、信誉、品牌和价值创造活动,建设业务恢复能力的管理过程。 演练 通过向系统的指定位置注入指定故障,观察实验结果,以验证和提高系统可用性的过程。 IMP 应急预案( Incident Management Plan,IMP),是为应对可能发生的突发事件,保护人员安全、降低财产损失、加强应急沟通拟制的应对程序和计划,防止损失扩大。 BCP 业务连续性计划(Business Continuity Plan,BCP),保证关键产品关键活动在预定可接受水平上的业务连续。在业务影响分析 、风险评估和恢复策略选择的基础上,拟制应对方案和计划。 故障场景 是对现实情况中故障的模拟,通过向被测系统注入故障,实现测试、优化系统稳定性的目的。 故障模式 是演练服务中的混沌工程工具根据系统可能发生故障的直接或根本原因,模拟出各种故障场景的能力。 稳态指标 是根据系统稳态的假说,分析给出一组代表系统健康度的指标及度量阈值,这组指标就被称为稳态指标。 演练监控 为了判断系统是否稳定运行以及故障注入是否执行成功,可提前配置系统稳态指标,在演练过程中实时监测,感知系统状态变化。
  • 演练服务 表3 演练服务基本概念 基本概念 说明 BCM 业务连续性管理(Business Continuity Management,BCM),是识别业务潜在威胁,分析威胁一旦发生对业务运营可能带来的影响,通过有效应对措施保护关键利益关系人的利益、信誉、品牌和价值创造活动,建设业务恢复能力的管理过程。 演练 通过向系统的指定位置注入指定故障,观察实验结果,以验证和提高系统可用性的过程。 IMP 应急预案( Incident Management Plan,IMP),是为应对可能发生的突发事件,保护人员安全、降低财产损失、加强应急沟通拟制的应对程序和计划,防止损失扩大。 BCP 业务连续性计划(Business Continuity Plan,BCP),保证关键产品关键活动在预定可接受水平上的业务连续。在业务影响分析 、风险评估和恢复策略选择的基础上,拟制应对方案和计划。 故障场景 是对现实情况中故障的模拟,通过向被测系统注入故障,实现测试、优化系统稳定性的目的。 故障模式 是演练服务中的混沌工程工具根据系统可能发生故障的直接或根本原因,模拟出各种故障场景的能力。 稳态指标 是根据系统稳态的假说,分析给出一组代表系统健康度的指标及度量阈值,这组指标就被称为稳态指标。 演练监控 为了判断系统是否稳定运行以及故障注入是否执行成功,可提前配置系统稳态指标,在演练过程中实时监测,感知系统状态变化。
  • 运维中心的优势 简化运维管理:使用AppStage运维中心可以集中管理和监控所有的IT资源和服务,大大简化了运维管理的复杂性。通过统一的Console,SRE可以轻松地管理服务器、数据库、网络和应用等各个方面,实现应用生命周期 数据可视化 ,避免数据孤岛。 提高运维效率:AppStage运维中心提供了自动化的运维流程和任务调度功能,可以自动执行常见的运维任务,如监控、巡检和故障处理等,节省SRE大量的时间和精力,让运维团队能够更专注于解决重要的问题和提供高价值的服务。 实现故障快速恢复:AppStage运维中心具备强大的故障监测和自动恢复能力,当系统出现故障或异常时,AIOps可以及时发现并采取相应的措施进行修复,最大限度地减少停机时间和业务中断,减轻可能出现的业务损失和客户流失。 提供实时监控和报告:AppStage运维中心集成了丰富的监控和报表功能,可以实时监控系统的性能指标、资源利用率和安全状态等。通过可视化的报表和图表,SRE可以随时了解系统的运行情况,进行及时的决策和调整。同时,这些信息也可以用于向上级管理层的汇报和运维成果展示。 降低运维成本:AppStage运维中心沉淀了华为在运维领域的管理经验,包括集成了简洁高效的运维流程,提高自动化和智能化水平,在各个环节提升效率,减少人力投入。基于人工智能技术提供数据分析,优化资源配置,预测未来需求,以降低IT资源成本。企业将应用迁移至华为云后,通过AppStage运维中心来自主管理和运维,可以自然使用上述能力获得成本优势。 提高运维安全性:AppStage运维中心通过身份验证、访问控制和加密等技术,保护企业应用不受攻击、侵入、干扰和破坏,确保客户数据的安全性和完整性,同时通过自动化变更、操作防呆等减少SRE的误操作风险。
  • 运维面临的问题 快速迭代对稳定性持续冲击,业务上线速度和现网稳定性之间存在冲突,发布周期变短,可能存在每个版本都没有经过充分的现网验证。 各业务基于开源软件或者基于 AOM 、LTS、 APM 等自己构建,运维组织、人员能力及知识体系需要快速发展,无统一的数据接入、监控、诊断、 数据治理 体系,各工具能力参差不齐。 系统整体可用性依赖全栈可用性,运维人员需要利用数据被动变主动,及时发现问题,精准定位问题。 内部运维人员的操作可能带来业务安全的不确定性,外部安全攻击渗透频率日趋增多,攻击技术手段越发高超,数据泄露代价更大。
  • 应用场景 企业数字化转型进入云原生阶段,从以“资源”为中心向以“应用”为中心转变,以云原生应用为运维对象带来了新的要求,这需要SRE在理解业务的基础上,不仅要保证系统持续高可用,而且要重视高效交付,同时要提升用户体验和帮助企业降低成本,这些都需要运维平台具备智能化运维能力。 华为云AppStage智能运维平台是基于华为云赋能产业业务场景打造的一站式运维平台,它将华为内部沉淀多年的构建、管理、使用和维护大规模云原生应用的经验构建到平台上来,通过平台化的开放,让更多的能力、经验共享出来,实现向产业“经验即服务”的能力复制,大大降低了企业用户维护和使用云原生应用的门槛。 华为云AppStage智能运维平台围绕SRE的工作场景,基于内外部成功业务的优秀经验,把配套运维工具的流程、能力在实际产业业务场景中持续打磨,基于AI持续构建运维活动“自动驾驶”能力,打造自动化、数据化、智慧化运维平台,围绕运维的“感知(数字化)、决策(智能化)、执行(自动化)”能力持续提升。 父主题: 运维中心简介