华为云用户手册

  • 新增OLC流控 在配置服务治理项页面,选择“OLC流控”页签,单击“新增”。 在新增OLC流控页面,选择配置不区分微服务接口的全局参数流控、针对微服务/接口的资源流控和节点级动态流控规则。 表10 新增全局资源 参数 说明 资源类型 选择全局资源。 参数名 填写参数名称。 字符长度0~50,可以由字母、数字、下划线、短横线、点组成,不能包含特殊字符。例:Limit_rule-001。 限制流控类型 QPS:每秒速率流控。 配额:特定时间的请求阈值。 阈值 流控阈值,正整数类型或0。 允许的突增量 当限流控制类型为QPS时,显示该参数。 允许的QPS突增值,作为突增增量累加到阈值上。 禁用时间 当限流控制类型为QPS时,显示该参数。 被流控后禁用时间。 时间窗口 填写时间,单位为秒,表示间隔多少秒允许一个请求通过。默认为1秒,取值范围为1~86400。 是否集群限流 选择“是”或“否”。开启后对集群内此资源的调用总量进行限制。 集群限流阈值模式 当流控类别为QPS,开启集群限流时,显示该参数。 单机均摊 总体阈值 本地配额缓存数 当流控类别为配额,开启集群限流时,显示该参数。 防止D CS 热点key的参数,可以减少DCS的访问,默认值为5。 该参数需要合理配置,配置过小容易造成热点key问题,配置过大可能导致部分节点放通部分节点流控的问题。 开启流控规则 选择是否开启流控规则。 表11 新增接口资源 参数 说明 资源类型 选择接口资源。 是否使用别名 选择是否使用别名。 原始服务名 使用别名时,需要填写原始服务名。 Schema All * 微服务方法 - 限流控制类型 QPS:每秒速率流控。 配额:特定时间的请求阈值。 阈值 流控阈值,正整数类型或0。 允许的突增量 当限流控制类型为QPS时,显示该参数。 允许的QPS突增值,作为突增增量累加到阈值上。 禁用时间 当限流控制类型为QPS时,显示该参数。 被流控后禁用时间。 时间窗口 填写时间,单位为秒,表示间隔多少秒允许一个请求通过。默认为1秒,取值范围为1~86400。 是否集群限流 选择“是”或“否”。开启后对集群内此资源的调用总量进行限制。 集群限流阈值模式 当流控类别为QPS,开启集群限流时,显示该参数。 单机均摊 总体阈值 本地配额缓存数 当限流控制类型为配额,开启集群限流时,显示该参数。 防止DCS热点key的参数,可以减少DCS的访问,默认值为5。 该参数需要合理配置,配置过小容易造成热点key问题,配置过大可能导致部分节点放通部分节点流控的问题。 开启流控规则 选择是否开启流控规则。 新增参数 单击“新增参数”,可以根据需要新增流控规则。 表12 新增节点级动态流控 参数 说明 资源类型 选择节点级动态流控。 开启流控规则 选择是否开启流控规则。 CPU过载阈值 CPU利用率超过该值时,接口的放通比例开始降低,直到降低至最低放通比例;CPU利用率越高,接口放通比例下降越快。该阈值要求为小数,范围为0~1,支持精度为小数点后四位。 CPU恢复阈值 CPU利用率小于该值时,接口的放通比例开始恢复,直到恢复至100%;CPU利用率越低,接口放通比例恢复越快。该阈值要求为小数,范围为0~1,支持精度为小数点后四位,并且小于CPU过载阈值。 最低放通比例 配置各个接口等级对应的最低放通比例,在CPU始终处于过载状态时,仍然能放通该比例的请求。 范围为0~1,支持精度为小数点后四位。 单击“确定”保存配置。
  • 治理策略说明 支持负载均衡、限流、故障隔离、容错、降级、熔断、错误注入、超时时间和OLC流控等策略的配置。各治理项说明如表1所示。 表1 治理策略说明 名称 说明 负载均衡 微服务一般会部署多个实例,负载均衡控制微服务消费者访问微服务提供者的多个实例的策略,以达到流量均衡的目的。策略包括轮询、随机、响应时间权值、会话粘滞等。 限流 用于控制访问微服务的请求量大小,避免由于流量冲击对系统造成破坏。 故障隔离 - 降级 用于控制微服务调用其他微服务的时候,强制返回缺省值或者抛出异常,而不将请求发送到目标微服务,以达到屏蔽对目标微服务的访问和降低其压力的目的。 容错 当微服务消费者访问提供者出现异常,比如实例网络不通等,需要将请求转发到其他可用的实例。这里的容错,常被称为重试。 熔断 当微服务消费者访问提供者出现异常,比如实例网络不通、请求超时等,并且异常积累到一定的程度,需要停止访问提供者,返回一个异常或者缺省值,防止雪崩效应。 熔断提供了自动熔断策略。自动熔断需要结合错误率等判断是否熔断。 错误注入 错误注入可以模拟一个调用失败,主要用于功能验证、故障场景演示等场景。 超时时间 - OLC流控 CPU过载控制OLC(Overload Control)是一种CPU过载调控机制。当CPU过载时,OLC能够对受监控协议报文和任务进行调控,通过不同优先级业务的合理规划和限制报文通过等方式,降低对CPU资源的消耗,并确保设备不会因为某种受监控协议或任务冲击CPU导致的CPU过载而影响对其他业务的正常处理
  • 新增容错策略 在配置服务治理项页面,选择“容错”页签,单击“新增”。 在新增容错页面,配置相关参数,参数说明如表6所示。 表6 新增容错参数说明 参数 说明 微服务(服务端) 选择需要降级的微服务。 是否使用别名 选择是否使用别名。 是否开启容错 选择开启或关闭。 容错策略 Failover:尝试新的服务器次数:1,尝试同一个服务器次数:0。 Failfast:尝试新的服务器次数:0,尝试同一个服务器次数:0。 Failback:尝试新的服务器次数:0,尝试同一个服务器次数:1。 Custom:尝试新的服务器次数:0~9,尝试同一个服务器次数:0~9。 尝试同一个服务器次数 服务调用尝试同一个服务器的次数。 尝试新的服务器次数 服务调用尝试新的服务器次数。 单击“确定”保存配置。
  • 新增错误注入 在配置服务治理项页面,选择“错误注入”页签,单击“新增”。 在新增错误注入页面,配置相关参数,参数说明如表8所示。 表8 新增错误注入参数说明 参数 说明 微服务(服务端) 需要测试容错能力的微服务,可以具体到微服务的方法。 是否使用别名 选择是否使用别名。 Schema(服务端) - 微服务方法(服务端) - 类型 测试微服务的容错能力类型: 延时 错误 协议 访问微服务出现延时或错误的协议: Rest Highway 触发概率 访问微服务出现延时或错误的概率。 延迟时间 访问微服务出现延时的时长,“类型”选择为“延迟”时才需要配置。 http错误码 访问微服务出现错误的HTTP错误码,“类型”选择为“错误”时才需要配置。该错误码为HTTP标准的错误码。 单击“确定”保存配置。
  • 新增限流策略 在配置服务治理项页面,选择“限流”页签,单击“新增”。 在新增限流页面,配置相关参数,参数说明如表3所示。 表3 新增限流参数说明 参数 说明 流控类型 服务端 客户端 微服务(客户端) 选择ALL。 是否使用别名 选择是否使用别名。 Schema(服务端) - 微服务方法(服务端) - QPS 每秒的请求数。当限流对象对当前服务实例的每秒请求数量超过设定的值,当前服务实例不再接受该对象的请求。取值范围为1-99999的整数。 单击“确定”保存配置。
  • 新增故障隔离策略 在配置服务治理项页面,选择“故障隔离”页签,单击“新增”。 在新增故障隔离页面,配置相关参数,参数说明如表4所示。 表4 新增故障隔离参数说明 参数 说明 微服务(客户端) 选择需要治理的微服务。 是否使用别名 选择是否使用别名。 是否开启 选择是否开启。 进入隔离逻辑门槛数 当实例的调用总次数达到该值时开始进入隔离逻辑门槛。 触发隔离连续出错数 当请求实例连续出错达到此阈值时触发实例隔离,如果配置了此项则覆盖实例故障百分比的配置,否则按照实例故障百分比触发隔离。 触发隔离错误百分比 实例故障隔离错误百分比。 最短隔离时间 - 故障单点测试时间 - 放通实例 选择是否放通实例。 放通最大锁定时间 为了保证在并发情况下只有一个实例放通,会锁定放通实例。这个时间表示最大锁定时间。 单击“确定”保存配置。
  • 新增熔断策略 在配置服务治理项页面,选择“熔断”页签,单击“新增”。 在新增熔断页面,配置相关参数,参数说明如表7所示。 表7 新增熔断参数说明 参数 说明 微服务(服务端) 选择需要降级的微服务。 是否使用别名 选择是否使用别名。 Schema(服务端) - 微服务方法(服务端) - 触发条件 取消熔断 手动熔断 自动熔断 熔断时间窗 触发条件为自动熔断时,配置此参数。 熔断的持续时间,该时间窗内不再响应请求。 失败率 触发条件为自动熔断时,配置此参数。 触发条件,窗口请求的失败率。 窗口请求数 触发条件为自动熔断时,配置此参数。 触发条件,窗口收到的请求数。“失败率”和“窗口请求数”的条件需同时满足才会触发熔断。 单击“确定”保存配置。
  • 更多操作 表1 相关操作 操作 说明 配置微服务治理项 在微服务列表中,单击操作列的“治理”,可以配置微服务治理,具体介绍请参见配置微服务治理。 删除微服务 在微服务列表中,单击微服务操作列的“删除”,可以删除微服务。 也支持批量删除多条微服务,具体介绍请参见删除微服务。 查看微服务详情 在微服务列表中,单击微服务名,可以查看微服务的版本列表、微服务实例列表、接口契约、依赖关系、SLB后端集群等信息。
  • 更多操作 表2 相关操作 操作 说明 配置流控服务 单击流控服务列表中的服务名称,在流控服务详情页面新增资源、新增流控规则、新增黑白名单及熔断规则,具体介绍请参见配置OLC服务。 发布流控服务 单击流控服务列表操作列的“发布”,将OLC服务应用到SLB,具体介绍请参见发布OLC服务。 编辑流控服务 单击流控服务列表操作列的“编辑”,在弹出的编辑窗口,单击认证密钥后的“重置”,可以重置认证密钥。 删除流控服务 单击流控服务列表操作列的“删除”,在弹出的提示框中单击“确定”,即可删除服务。
  • 完成灰度发布 分流阶段执行完成后,版本即将全网发布,全网发布意味着所有机器都已升级,分流规则在SLB将不生效,消息会在正常机器+灰度机器的整个群组中负载均衡分发。 在灰度服务管理页面,单击灰度服务列表当前状态列的“灰度管理”。 在灰度管理页面,单击“完成灰度发布”。 在分流配置页签,单击“编辑分流规则”,可以编辑分流规则。 在主机群组页签,单击“编辑主机集群”,可以编辑主机群组。 请确认主机集群配置无误并已升级到最新版本。 在弹出框中单击“确定”。 灰度列表当前状态列显示为灰度完成。
  • 执行下一阶段 将N阶段发布的灰度服务,切换到下一阶段的分流规则进行灰度。 在灰度服务管理页面,单击灰度服务列表当前状态列的“灰度管理”。 在灰度管理页面,单击“进入下一阶段”。 您也可以单击“查看所有灰度阶段”,单击其他阶段分流配置项右上角的“设为当前阶段”,直接切换到相应阶段的分流规则进行灰度。 在分流配置页签,单击“编辑分流规则”,可以编辑分流规则。 在主机群组页签,单击“编辑主机集群”,可以编辑主机群组。 在弹出框中单击“确定”。 灰度列表当前状态列显示灰度执行阶段。
  • 重启灰度 完成灰度发布后,当前处于全网发布阶段,上一轮灰度已经到全网发布阶段,如果想要进行新的一轮灰度,可以重启灰度。重启灰度后分流规则将在SLB生效,满足分流规则条件的消息分发到灰度机器群组,不满足分流规则条件的消息分发到正常机器群组。 请在确认服务有新版本的情况下进行重启灰度。 在灰度服务管理页面,单击灰度服务列表当前状态列的“重启灰度”。 在重启灰度页面,单击“重启灰度”。 在分流配置页签,单击“编辑分流规则”,可以编辑分流规则。 在主机群组页签,单击“编辑主机集群”,可以编辑主机群组。 在弹出框中单击“确定”。 灰度列表当前状态列显示灰度执行的阶段。
  • 恢复灰度发布 恢复灰度发布,用于将暂停状态的服务恢复到正常进行状态,版本将依据当前的分流规则和主机集群设置发布。 在灰度服务管理页面,单击待恢复灰度服务当前状态列的“灰度管理”。 在灰度管理页面,单击“恢复灰度发布”。 在分流配置页签,单击“编辑分流规则”,可以编辑分流规则。 在主机群组页签,单击“编辑主机集群”,可以编辑主机群组。 请确认分流配置和主机集群配置无误,否则可能发生负载不均衡等状况。 在弹出框中单击“确定”。 灰度列表当前状态列显示灰度执行的阶段。
  • 流控类型介绍 支持的流控类型有节点级流控,服务级流控,接口级流控,IP流控,自定义参数流控,多参数组合流控,配额流控及并发连接流控,流控类型介绍如表1所示。每种类型的流控只能添加一次,SLB流控的顺序按照页面从上往下匹配,页面支持上下移动流控的顺序。 表1 流控类型说明 类型 流控维度 窗口类型 限制 节点级流控 所有请求 漏桶 请求速率 服务级流控 以请求的Host字段为维度 漏桶 请求速率 接口级流控 以请求的uri路径为维度 漏桶 请求速率 IP流控 以取得的请求IP为维度 漏桶 请求速率 自定义参数流控 以自定义的单个参数为维度 漏桶 请求速率 多参数组合流控 以自定义的多个参数为维度 漏桶 请求速率 配额流控 以自定义的多个参数为维度 固定窗口。 请求量。 并发连接流控 以自定义的多个参数为维度 N/A 并发量。 窗口类型 漏桶:请求被均匀地限制,支持突发量配置。一般情况下,建议业务进行评估,并加上适当突发量,突发量一般不超过1秒的量。 固定窗口:只要在窗口内部超限即可。 例如同为100个/秒的限制,滑动窗口下,第0.1秒只能有10个请求,当然,滑动窗口下有个突发量的配置,在突发量10个的情况,可以在业务瞬间突发时额外再支持10个,突发池用满以后,即不可再用,只有等请求量下滑低于正常流控量时,再慢慢恢复突发池;固定窗口下,第0.1秒也可以允许100个请求。 限制类型 请求量:并不关注请求是否为并发,例如10个请求不论到来和处理的时间是否有并发情况,都记为10个。 并发量:只看某时间点,正在处理的请求的个数。如果请求1的开始时间到响应时间这个时间段,与请求2的开始时间到响应时间的时间段并不相互交叠,则请求1和请求2不是并发。否则存在并发关系。
  • 前提条件 需要具备AppStage服务运维岗位权限,权限申请操作请参见AppStage组织成员申请权限。 创建平台托管模式的实例,需规划隔离域,具体请参见创建隔离域规划。 申请SLB机器需要业务提前规划好隔离域,否则会申请失败。隔离域规划的目的:建立隔离域与产品/自有服务、资源类型的关联关系,指定隔离域下的网络互通规则作用于哪些服务和BaaS实例(同一个隔离域网络默认互通,不同隔离域网络默认不通),通过弹性网络服务(ENS)规划好隔离域后,IaC文件可以不定义隔离域,各BaaS服务根据站点、产品、服务、资源类型找到隔离域。 创建自管理模式的SLB实例,指的是将公有云ECS作为SLB主机,需要先申请ECS并将ECS纳管至运维中心的VMS中。 仅支持EulerOS操作系统ECS作为SLB主机。1.4.18及更新版本的SLB只兼容EulerOS 2.9操作系统。 已设置执行机。
  • 应用场景 使用SLB为高访问量业务进行流量分发 对于业务量访问较大的业务,可以通过SLB设置相应的分配策略,将访问量均匀的分到多个后端服务器处理。例如大型门户网站,移动应用市场等。 使用SLB消除单点故障 对可靠性有较高要求的业务,可以在SLB上添加多个后端服务器。SLB会通过健康检查及时发现并屏蔽有故障的服务器,并将流量转发到其他正常运行的后端服务器,确保业务不中断,例如官网,计费业务,Web业务等。 使用SLB跨可用区特性实现业务容灾部署 对可靠性和容灾有很高要求的业务,SLB可将流量跨可用区进行分发,建立实时的业务容灾部署。即使出现某个可用区网络故障,SLB仍可将流量转发到其他可用区的后端服务器进行处理,例如银行业务,警务业务,大型应用系统等。
  • 运行时引擎微服务平台概述 微服务平台(NUWA Runtime)托管了一个微服务运行的所有基础设施,微服务对基础设施的所有要求都通过基础设施即代码(Infrastructure as Code,简称IaC)来描述。NUWA Runtime根据IaC描述,对接相关的配置服务器,通过弹性伸缩管理平台接口,完成部署。应用托管到NUWA Runtime以后,Runtime提供IaC和管理台两种方式对集群进行变更。业务通过发布IaC版本,在运维中心执行IaC,即可对微服务集群进行变更。Runtime支持通过IaC指定集群配置、Sidecar版本、资源分配等;通过管理台可以对微服务本身及其相关的资源进行管理,如微服务生命周期管理、事件查看、更新配置、回滚、扩缩容等。 NUWA Runtime运行环境支持以下两种场景下微服务托管到容器: 使用NUWA框架开发的微服务,可以最大限度复用NUWA的能力(运行环境、Cloud Map、服务诊断台),实现容器托管、服务注册发现、基于服务诊断台定界定位。 使用非NUWA框架开发的微服务,可以复用NUWA运行环境Sidecar(边车容器,与主应用容器在同一个Pod中运行的辅助容器。 这些容器通过提供额外的服务或功能,如日志记录、监控、安全性或数据同步,来增强或扩展主应用容器的功能, 而无需直接修改主应用代码。)的能力,实现容器托管。 父主题: 微服务平台
  • AppStage运行时引擎基本概念 表1 基本概念说明 基本概念 说明 微服务 微服务是云原生应用的最佳架构, 它提倡将单一应用程序划分成一组小的服务,服务之间互相协调、互相配合,为用户提供最终价值。每个微服务运行在其独立的进程中, 微服务与微服务间采用轻量级的通信机制互相沟通。每个微服务由全功能团队独立构建、独立测试,并且能够被独立地部署到生产环境。微服务的特点:组件化、松耦合、服务自治、去中心化。 应用 完成某项完整业务场景的软件系统。应用一般由多个微服务组成,应用里面的微服务能够相互发现和调用。 NUWA框架 NUWA提供一个完整的微服务开发框架,是一个开箱即用的应用级容器,以插件的形式汇聚云服务平台能力,让开发把时间更多的花在业务代码逻辑上。 Kubernetes Kubernetes是一个开源的,用于管理云平台中多个主机上的容器化的应用,Kubernetes的目标是让部署容器化的应用简单并且高效(powerful),Kubernetes提供了应用部署,规划,更新,维护的一种机制。 Pod Pod是Kubernetes创建或部署的最小单位。一个Pod封装一个或多个容器、存储资源、一个独立的网络IP以及管理控制容器运行方式的策略选项。 Node Node是一个执行具体工作的机器,可以是虚拟机或者物理机。Pod是部署在Node节点上的,如果Node故障,整个Pod会被调度到集群中的另外可用的Node节点上去。 工作负载 工作负载是在Kubernetes上运行的应用程序。无论您的工作负载是单个组件还是协同工作的多个组件,您都可以在Kubernetes上的一组Pod中运行它。在Kubernetes中,工作负载是对一组Pod的抽象模型,用于描述业务的运行载体,包括Deployment、StatefulSet、DaemonSet、Job、CronJob等多种类型。 无状态工作负载:即Kubernetes中的“Deployment”,无状态工作负载支持弹性伸缩与滚动升级,适用于实例完全独立、功能相同的场景,如:nginx、wordpress等。 有状态工作负载:即Kubernetes中的“StatefulSet”,有状态工作负载支持实例有序部署和删除,支持持久化存储,适用于实例间存在互访的场景,如ETCD、mysql-HA等。 创建守护进程集:即Kubernetes中的“DaemonSet”,守护进程集确保全部(或者某些)节点都运行一个Pod实例,支持实例动态添加到新节点,适用于实例在每个节点上都需要运行的场景,如ceph、fluentd、Prometheus Node Exporter等。 普通任务:即Kubernetes中的“Job”,普通任务是一次性运行的短任务,部署完成后即可执行。使用场景为在创建工作负载前,执行普通任务,将镜像上传至镜像仓库。 定时任务:即Kubernetes中的“CronJob”,定时任务是按照指定时间周期运行的短任务。使用场景为在某个固定时间点,为所有运行中的节点做时间同步。 父主题: AppStage运行时引擎简介
  • AppStage运行时引擎功能介绍 表1 运行时引擎主要功能 服务分类 服务名称 服务简介 微服务开发 微服务平台 微服务平台(NUWA Runtime,简称NUWA)是一款全代管式微服务计算平台,可快速、安全地部署和扩缩容器化应用,是一个广义的Serverless平台,提供容器级别的完全托管的能力,目标是让业务看不到云。管理平台标准化业务的部署形式,业务只需要提供软件包,NUWA Runtime借助底层的弹性伸缩平台完成网络配置、双云集群部署、日志自动收集、灰度多阶段升级等。 负载均衡 负载均衡(Software/Server Load Balancer,简称SLB)基于Nginx/OpenResty构建,作为业务前置的流量开关,提供反向代理;负载均衡、路由分发、灰度分流、限流降级、访问控制、监控告警等能力。 服务发现 服务发现(NUWA Cloud Map,简称Cloud Map)是NUWA的重要组成部分,它设计的目的是作为云服务统一的服务注册发现中心,主要是为解决业务依赖环境配置繁琐的难题,具有服务注册和发现、业务故障隔离、服务路由、服务间调用关系正向设计和治理、微服务配置中心等特性。 数据库治理 数据库治理(WiseDBA)是一站式数据库管理平台与数据库专家服务,为用户提供数据库台账、自动化SQL变更、数据查询、自动化数据提取、性能分析、负载分析、数据库风险诊断等功能。 安全 访问凭据管理服务 访问凭据管理服务(Access Credential Management Service,简称ACMS)提供了微服务之间请求认证、敏感配置的托管和分发功能。 父主题: AppStage运行时引擎简介
  • AppStage运行时引擎应用场景 AppStage运行时引擎基于NUWA Runtime(微服务平台),提供全代管式微服务计算平台,可快速、安全地部署和扩缩容器化应用,是一个广义的Serverless平台,提供容器级别的完全托管的能力,目标是让业务看不到云。管理平台标准化业务的部署形式,业务只需要提供软件包,NUWA Runtime借助底层的弹性伸缩平台完成网络的配置、双云集群部署、日志的自动收集、灰度多阶段升级等。通过SLB负载均衡服务,提供丰富的扩展功能,可以对HTTP请求定制丰富的控制策略,同时提供负载均衡,灰度,动态路由,流控,健康检查。 父主题: AppStage运行时引擎简介
  • 为什么使用AppStage运行时引擎 AppStage运行时引擎提供了NUWA微服务框架,NUWA是一个开箱即用的应用级容器,兼容开源Spring Cloud微服务,预集成构建云服务业务分布式架构所需的各个组件(微服务框架、数据库、通用中间件、安全中间件、公共服务等)及DFX(Design for X,“X”代表产品生命周期的某一环节或特性,意味着面向产品生命周期中各个环节的设计)能力,让业务开发人员可以专心撰写业务代码,屏蔽全球多个站点环境的复杂差异,开箱即用,缩短开发时间,提升交付效率。 父主题: AppStage运行时引擎简介
  • 功能特性 功能 功能描述 运维事件管理 由SRE通报的所有现网发生的可能造成或者已经造成服务的中断和业务质量下降的系统告警等问题,由运维团队负责管理。 通知组管理 组内人员通常包括运维代表、开发代表、相关领域专家等,使用场景为运维事件发送通知、WarRoom基于通知组方式发送通知。 快速通报 运维事件系统DB及 CSS 不可用时需发送通知的逃生通道。 WarRoom 由运维代表决策,Oncall团队负责操作创建,针对重大故障的一种应急处置的协同机制,创建WarRoom,并选择相关人员进行通知。
  • 日志接入场景 表1 日志接入场景说明 场景 说明 日志接入方式 虚拟机日志 日志存储在虚拟机下的文件路径中。 虚拟机日志接入 容器hostPath日志 主机文件系统上的文件或目录挂载到容器上,使用主机文件系统存储容器日志。 容器日志接入 容器标准输出日志 标准输出是k8s社区推荐的日志输出方式。 虚拟机日志接入同时开启软连接 容器共享存储日志 容器日志挂载在共享存储上。 容器归属的虚拟机没有挂载此共享存储,则无法采集对应的容器日志,需要将共享存储挂载在虚拟机上。 将共享存储挂载在虚拟机上,然后使用虚拟机日志接入方式
  • 功能特性 功能 功能描述 告警列表 告警的控制台,提供对于告警的一系列处理操作和生命周期查询。 告警通知 告警的通知在所有的告警处理的链路结束以后才会发生。告警处理模块会根据上报告警的上下文获取告警的值班配置,值班配置由业务预置。 告警屏蔽 为您提供短时间的屏蔽功能,可以通过设置告警屏蔽的规则,告警将在屏蔽的时间内不再触发任何通知,规则结束后,将会被再次唤醒,屏蔽期间告警被清除后,将不再触发任何通知,减少您的处理频度。 告警过滤 告警过滤是直接在接入的阶段就将告警屏蔽,告警仍然会进入Bypass的数据库但不会再向下发送给告警处理模块。 告警收敛 多个维度的告警,通过特定的条件将它们变为一条告警,只需要配置自定义的收敛规则,就可以将重复告警收敛到一起,还有默认的规则帮助你维护告警。 告警标记 告警标记的作用是为一段时间内的告警打上标签,例如现网变更或者现网演练时,由于要模拟大量异常请求和其他操作会造成大量无用告警上报,标记的作用就是为这一段时间的告警打上标签与正常告警进行区分。 告警定义 如果您对于繁琐复杂的告警上报字段感到困惑,可以使用统一告警定义,该功能会自动下发到业务对应的agent,使用更加人性化的界面设计,让告警上报更加统一、准确。 告警修复 设置特定的命中条件,告警在发送通知之前将会进行预置的修复脚本,修复操作,自动帮助您修复简单的告警。 语音值班配置 配置对应的责任人,当告警生成时,通过短信、电话等形式,快速通知责任人。
  • 概览页介绍 监控服务概览页如图1所示,展示近7天各级别告警数量、告警列表及关键事件列表等信息。 图1 监控服务概览 告警 - 近7天:展示近7天各级别告警数量。 告警列表 - 近7天:展示近7天严重和紧急级别的告警,可单击“更多”查看对应告警详情。 关键事件列表 - 近7天:展示近7天关键事件,可单击“更多”跳转至“事件列表”页面查看事件详情。 关键体验指标/黄金指标:展示关键体验指标/黄金指标,可以设置查询时间及查询粒度。 XXXX标准指标:展示各标准指标的监控数据,如负载均衡(SLB)标准指标、数据库治理(WiseDBA)标准指标、主机管理服务(VMS)标准指标等,如图2所示。 图2 VMS指标 父主题: 监控服务
  • 功能说明 下表介绍了监控服务具体的功能,您可以根据需要选择。 功能 功能描述 故障预防 构建开箱即用标准化巡检,增强构建场景可编排、任务可定义的自动化巡检能力,帮助SRE快速分析和发现业务在现网运行的风险,可视化度量支撑业务纵横治理,驱动业务改进,从而提升业务可靠性、可运维能力、用户体验等。 提供运维共性问题分享能力,避免同类问题重复出现。 故障检测 提供基于指标监控、告警、日志、事件管理的服务运行状态检测能力。 指标,提供出厂标准的BaaS服务指标和自有服务纵向指标,支持业务自定义指标能力。 告警,提供静态阈值和异常检测生成告警的能力,提供告警抑制、告警收敛、告警自动化分析和恢复能力。 日志,构建统一的日志模型,提供兼具开箱即用和自助的日志接入能力,支持存算分离,提高日志检索效率;提供虚机、容器统一的日志采集Agent;通过采集侧清晰和汇聚指标提取等能力降低日志成本,提高日志的可靠性。 Events,围绕故障快速诊断,构建以服务运行状态检测为目标的运维Events中心;构建全景化的、基于运维Events的故障诊断能力;定义标准Events模型,对接不同的Events源;提供规则匹配能力和Events跟踪管理能力;支持运营事件的接入,支持生成知识库和标签管理能力。 运行状况,提供基于指标、告警、事件管理和日志的服务运行状况监控能力;定义标准的服务运行状态。 故障诊断 专家诊断工具,聚合Nuwa Trace、WiseDB、XPMS和WiseWAN水晶球等专业诊断能力。 AI辅助诊断服务,提供自适应异常检测能力和全链路智能根因诊断能力;整合专家诊断能力,持续构建ELB、SLB、基础设施侧根因诊断能力;异常检测支持5分钟快速检测,故障诊断提供一键式配置能力;支持完成告警聚合、调用链根因诊断,多维下钻分析,日志根因诊断,流量溯源诊断,事件总结算法的整合。 故障通报 以运维事件为中心,提供事件的管理、通报、War Room和自动派生工单的能力;运维通报遵从运维事件通报机制和流程,工单派生可跟踪流程和历史处理情况。 故障恢复 基于运维知识经验及自动化决策能力, 构建标准化故障场景自恢复能力,提供标准故障场景的恢复预案。 故障改进 提供故障恢复后事后分析能力。 运维数仓 构建高可靠、高性能、开放高效、全流程开放的运维数仓能力,主要包括: 数据开发,构建从数据接入、聚合、清洗、分发、到存储计算的全流程开放的数据开发能力,支撑业务自助完成指标定义。 构建统一运维数仓,承载指标库、日志库、链路库和事件库数据资产。 数据治理 ,提供针对运维数仓的数据价值洞察分析能力,助力业务聚焦价值,降低成本。 运维RPA 提供运维场景化可编排能力的技术支持平台,满足运维巡检场景化、监控场景化、运维流程的技术支撑。 运维可视化 提供可定义的监控报表能力,提供移动办公能力。
  • 创建变更电子流 进入运维中心工作台。 将鼠标悬停在右上角的账号,选择下拉列表中的“工单管理”,默认显示“变更单管理”页面。 单击“新建”。 配置电子流参数,参数说明如表1所示,配置完成后,单击“提交”。 页面带“*”标志的参数为必填参数,如需保存草稿,需要将必填参数填写完整。 表1 新建变更电子流 参数类型 参数名称 参数说明 基本信息 部署站点 默认为当前站点。 变更类型 选择变更类型。 服务部署:服务版本升级部署。 服务优化:修复业务自身集成设施或组件相关安全漏洞;业务发展变化引发的容量变化、服务迁移、资源调整、可用性优化;服务配置修改。 运营支撑:营销活动支撑,包括营销活动支持、用户服务支持。 运维优化:包括服务运维优化、基础运维优化、运维安全优化、运维工具优化。 产品 选择需要变更的产品。 服务 选择需要变更的服务。 服务环境 选择需要变更的服务环境。 版本号 变更类型是“服务部署”时,需要选择服务部署的版本号。 变更标题 输入变更标题,默认前缀为“部署站点-服务-变更类型”。 变更内容 输入变更内容说明。 涉及安全评审 选择是否涉及安全评审。 网络配置 如果涉及安全评审,需要选择网络配置,需要安全运维审核。 涉及隐私 如果变更类型为“服务优化”、“运营支撑”和“运维优化”,需要选择是否涉及隐私。 隐私类型 如果涉及隐私,需要增加隐私评审。 变更时间 调测部署计划时间 选择调测部署的计划开始时间和计划结束时间。 可选,如果选择了其他计划时间,可不填写。 众测部署计划时间 选择众测部署的计划开始时间和计划结束时间。 可选,如果选择了其他计划时间,可不填写。 灰度部署计划时间 选择灰度部署的计划开始时间和计划结束时间。 可选,如果选择了其他计划时间,可不填写。 容灾部署计划时间 选择容灾部署的计划开始时间和计划结束时间。 可选,如果选择了其他计划时间,可不填写。 审批人 技术审核人(运维代表) 选择技术审核人,即运维代表。 变更电子流提交后会走给运维代表审核变更方案的合理性。 变更实施人 填写变更实施人。 运维代表审核后的电子流会走给变更实施人做变更实施。 变更验证人 填写变更验证人。 变更实施后电子流会走给变更验证人。 其他附件 - 变更方案以及其他指导性文档可以通过附件上传word文档。
  • 更多操作 变更电子流创建后,您还可以对电子流进行以下操作。 表2 相关操作 操作名称 操作步骤 撤回变更电子流 在我的申请列表,单击待撤回变更电子流所在行“操作”列的。 撤回后记录依然存在,可以编辑、取消或克隆该电子流。 说明: 仅运维代表审批中的电子流可以撤回,已审批并处于变更状态的电子流无法撤回。 克隆变更电子流 在我的申请列表,单击待克隆变更电子流所在行“操作”列的。 可以修改信息后,单击“提交”。 转发变更电子流 我的申请列表,单击待转发变更电子流所在行“操作”列的。 配置转发任务信息,单击“确定”。
  • 软件仓库概述 AppStage运维中心支持对软件包、部署包、镜像包、SQL包等进行集中管理,用于升级变更服务的虚拟机。软件仓库不同软件包的说明如表1所示。 同时支持将镜像仓SWR(SoftWare Repository for Container)进行统一管理,可以绑定使用镜像仓中的镜像用于服务的容器升级变更,具体操作请参见管理SWR。 如果使用houp的操作系统镜像发布文件,具体的发布信息可以在“发布管理”页面查看。 表1 包类型说明 包类型 说明 传包方式 使用方式 打包规范 软件包 应用软件包,可使用虚拟机部署和容器部署,一般用于虚拟机部署,包括软件包(虚拟机部署使用)、测试用例包、函数包(函数部署使用)。 使用开发中心推包/上传软件包 在IaC代码中定义需要使用的软件包,通过IaC变更完成应用部署。 软件包 部署包 用户部署虚拟机时使用的脚本包(playbook文件)。 运维中心发布/使用开发中心推包/上传部署包 使用部署包创建模板,根据模板创建虚拟机部署的变更任务,实现使用部署脚本完成软件的自动化部署。 部署包 镜像包 用户容器部署时使用的Docker的容器镜像包。 使用开发中心推包 在IaC代码中定义需要使用的镜像包,通过IaC变更完成容器化部署。 镜像包 SQL包 执行SQL变更的DDL、DML数据库脚本。 使用开发中心推包/上传SQL包 在WiseDBA中使用SQL包进行SQL变更,对数据库或数据库数据进行增删改查的操作。 SQL包 IaC 3.0包 描述IaC 3.0变更的执行过程及资源配置信息。 使用开发中心推包/上传IaC 3.0包 在变更环境时选择IaC包,完成资源配置及环境变更。 IaC 3.0包 Terraform包 描述Terraform引擎变更的执行过程及资源配置信息。 使用开发中心推包 在Terraform引擎的实例列表中使用代码包创建变更计划,完成资源配置及环境变更。 Terraform包 OS镜像包 操作系统镜像发布,普通用户一般不需要使用。 - - - 父主题: 软件仓库
  • 服务优势 统一变更的管控入口,变更管理除支持IaC变更外增加对手工运维变更和ITR紧急变更的统一管控和变更记录。 统一运行时托管平台,将可靠性、韧性、可运维、安全等能力built-in,实现服务部署即可信。 基于IaC3.0声明式,实现资源创建、服务部署、配置变更自动化对接运行时,实现服务可靠运行。 具有丰富的变更评估因素和评估算法,具有高评估召回率和准确率。 支持根据评估结果对变更进行干预(暂停、回滚等),实现系统自动决策。
共100000条