华为云用户手册

  • 步骤四:创建任务 在“日志接入”页面,选择左侧导航栏的“任务管理”。 单击页面右上角的“新建任务”。 配置任务参数,如图1所示,参数说明如表5所示,配置完成后,单击“确定”。 图1 新建配置 表5 任务参数说明 参数名称 参数说明 日志项目 选择已创建的日志项目。 任务名称 自定义任务名称。 任务类型 选择任务类型。 配置类型 选择日志采集配置类型。 配置列表 选择需要下发的配置。 用户名称 选择已规划并拥有日志读取权限的业务账号。 选择主机 选择需要下发配置的主机。 已选主机 显示已选主机。 在任务列表中查看已创建的任务,单击任务所在行“操作”列的“执行”,如图2所示。 图2 执行任务 执行完成后,状态为成功即表示日志配置内容已下发成功,filebeat已成功安装,监控服务会按照配置将日志接入AppStage。 如需卸载filebeat,请参考如何卸载虚拟机上安装的filebeat。
  • 步骤二:创建日志空间 在“日志接入”页面,选择左侧导航栏的“日志空间”。 单击“申请实时日志空间”。 根据界面提示填写日志空间参数。 配置实时日志空间信息,参数说明如表2所示,配置完成后,单击“下一步”。 表2 实时日志空间信息参数说明 参数名称 参数说明 空间名称 自定义日志空间名称,建议包含日志类型语义。 空间描述 输入日志空间描述,非必填项。 日志类型 选择需接入的日志类型,该日志空间中接入的日志数据“logType”字段会根据选择的日志类型生成。不同日志类型所对应的“logType”字段如下: 访问日志:AC CES S_ LOG 接口日志:INTERFACE_LOG 错误日志:ERROR_LOG 异常日志:EXCEPTION_LOG 安全日志:SAFE_LOG 资源日志:RESOURCE_LOG 运行日志:RUN_LOG 话单日志:CDR_LOG 指标日志:METRI CS _LOG GC日志:GC_LOG HCW日志:HCW_LOG 日志大小 预计一天的日志量,默认为1GB。 开启日志检索 如果需要使用日志检索功能,可以打开该开关,并创建导流任务,创建导流任务后可以在“日志检索”页面查看日志。 如果创建时没有打开日志检索开关,后续编辑打开该开关,需要手动创建或绑定检索空间表。 单击该空间所在行“操作”列的,选择“日志空间表管理”并切换至“检索空间表”页签,单击右上角的“创建新空间表”或“选择已有空间表”,手动为该日志空间创建或绑定检索空间表,然后单击列表“操作”列的“上线”。 检索空间类型 选择ClickHouse。 原索引名称(ClickHouse) 可选择现有的ClickHouse,如果不填会自动生成。 配置实时日志字段信息,参数说明如表3所示,配置完成后,单击“下一步”。 表3 实时日志字段信息参数说明 参数名称 参数说明 自定义字段 必须接入的日志字段已默认勾选,可以勾选其他需要接入的日志字段,包括通用字段、容器字段和虚机字段。 新增自定义环境变量 如需添加自定义环境变量,请选择环境变量名,然后单击“添加”。虚机暂无可选自定义环境变量。 清洗规则 选择日志清洗规则。 请优先使用算子清洗模式采样,通过配置解析脚本将原始日志清洗为业务需要的日志字段,算子清洗功能及使用样例请参见算子清洗功能介绍。原始日志采样清洗只适用于单纯采样,不需要清洗的场景。 如果创建时选择“无清洗”,后续编辑选择对日志进行清洗,需要手动创建或绑定异常存储空间表。 单击该空间所在行“操作”列的,选择“日志空间表管理”并切换至“异常存储空间表”页签,单击右上角的“创建新空间表”或“选择已有空间表”,手动为该日志空间创建或绑定异常存储空间表,然后单击列表“操作”列的“上线”。 日志样例 输入日志样例。 解析脚本 配置解析脚本,将日志样例清洗为字段显示,具体算子功能及使用样例请参见算子清洗功能介绍。 配置解析脚本时字段命名不支持使用中划线“-”,支持使用下划线“_”。 清洗字段 配置解析脚本后单击“配置解析脚本”,自动生成清洗字段,查看字段是否符合预期。 开启汇聚 选择是否开启日志汇集,如果日志量较大且不需要关注原始日志时可以进行日志汇集。 开启后会自动创建用于存储汇聚数据的Topic,同时需要配置汇集相关参数。 汇聚粒度 开启汇聚后,需要设置汇集粒度。支持分钟级和秒级数据汇聚。选择分钟级,每一分钟会生成一个统计点,选择秒级,每一秒会生成一个统计点。 汇聚时间戳 仅支持时间戳格式字段timestamp,获取当前计算的日志的时间。 时间戳格式 选择时间戳格式。支持秒、毫秒、纳秒级时间戳,获取当前计算的日志的时间格式。 汇聚维度 结合业务场景需要,选择日志是以哪些日志字段进行日志汇聚,支持多选。 汇聚度量 设置对日志字段以COUNT、SUM、MAX、MIN进行度量。 原始字段是日志中的字段,用来获取原始值;度量字段是用户自定义字段名,计算后,度量的值会赋值给该字段。 输出原始日志 选择是否需要输出原始日志。如果打开输出原始日志,原始日志也会上报。 日志字段确认,确认日志字段配置是否达到预期,达到预期后可单击“下一步”。 其中字段来源COMMON表示通用字段、CONTAINER表示容器字段、VM表示虚机字段。 申请日志空间共享,如果需要其他服务共用这个空间进行日志下发和日志检索,可以添加共享服务。配置完成后,单击“保存”。
  • 录入企业项目 进入AppStage运维中心。 将鼠标悬停在右上角的账号,选择下拉列表中的“服务环境配置”,选择左侧导航栏的“服务关联”。 在项目配置区域,单击“新增”。 新增项目配置,具体参数如表1所示。 表1 项目配置参数 参数名称 参数说明 部门 选择已录入的部门。 产品 选择已录入的产品。 服务 选择已录入的服务。 华为公有云账号名 选择用户的华为账号名。 类型 关联项目:关联已有的公有云EPS。 关联且新增项目:在公有云EPS创建一个新项目,同时进行关联。 企业项目名称 关联项目时,选择已有的公有云EPS。 关联且新增时,填写创建的企业项目名称。 单击“确定”。
  • 事件单处理说明 事件单不同处理方式说明如表1所示。 表1 事件单处理类型说明 处理类型 说明 标记处理 标记事件单,标记处理后事件单状态会变为“待验证”,并走给提单人进行验证,验证操作如下: 验证通过:验证通过后事件单处理完成,事件单关闭。 验证不通过:重新走给处理人进行处理。 移交处理 将事件单移交给其他人处理。 退回申请 将事件单退回给提单人,提交人可以处理后重新提交。 暂停申请 将事件单暂停,暂停申请后事件单状态会变为“待暂停”,并走给提单人确认,确认操作如下: 同意暂停:事件单暂停。暂停后可以取消暂停,重新走给处理人进行处理。 不同意暂停:重新走给处理人进行处理。 关闭 关闭事件单。
  • 运维中心使用前准备 使用AppStage运维中心前,需要先准备如表1所示内容。 表1 准备事项 准备事项 说明 购买AppStage运维中心 首次使用需要先购买运维中心专业版,具体操作请参见购买AppStage。 配置服务授权 购买运维中心后,系统将自动识别并弹框提示进行服务授权,同意服务授权后,AppStage将在 统一身份认证 服务 IAM 中为账号创建名称为appstage_admin_agency的委托。 关联组织 首次购买AppStage后,其账号需创建并关联使用AppStage的组织(仅可关联一个组织),才能使用AppStage服务及后续购买AppStage相关产品套餐或增量包等,具体操作请参见关联组织。关联组织完成后,该华为账号会自动成为组织管理员,拥有该组织的所有管理权限,同时可以审批其他用户的组织管理员角色权限申请。 添加部门/成员信息 为已关联的组织添加部门及成员,完善组织架构,具体操作请参见管理已关联组织的部门及成员。 录入产品/服务/微服务信息 企业资源接入AppStage前,需要先将企业产品/服务/微服务信息录入AppStage系统中,信息录入成功后,AppStage将同步产品/服务/微服务信息至运维中心,具体操作请参见管理产品与服务。 申请权限 已添加成员在使用运维中心前需要先申请运维中心权限,具体操作请参见申请权限。 说明: 运维中心操作指导基于已获取服务研发岗位权限进行介绍,如果部分具体功能需要其他权限会单独说明。
  • 更多操作 表2 相关操作 操作 说明 修改环境信息 单击环境信息管理3.0列表操作列的“修改”,在弹出的窗口中重新选择环境,单击“确定”,修改环境信息。 删除环境信息 单击环境信息管理3.0列表操作列的“删除”,在弹出的提示框中单击“确定”,删除环境信息。 同步 单击环境信息管理3.0列表操作列的“同步”,在弹出的提示框中单击“确定”,将部署服务下服务环境管理中的环境信息同步至微服务平台。 撤销同步 单击环境信息管理3.0列表操作列的“撤销同步”,在弹出的提示框中单击“确定”,撤销同步的环境信息。
  • 新增黑白名单 黑名单规则会直接流控满足规则的请求,白名单规则会放通满足规则的请求。 在流控服务详情页面,选择“黑白名单”页签,单击“新增黑白名单”。 配置黑白名单相关参数,参数说明如表6所示。配置完成后单击“保存”。 表6 新增黑白名单参数说明 参数 说明 资源名称 选择全局黑白名单或具体资源,全局黑白名单不限制微服务/接口,资源黑白名单则限制特定的微服务/接口。 参数名称 参数级规则的参数名。 字符长度0~50,可以由字母、数字、下划线、短横线、点组成,不能包含特殊字符,例:black_rule-001。 名单类型 白名单 黑名单 每个资源或全局黑白名单下,同一参数名称只支持添加黑白名单各一条。 开启黑白名单 选择是否开启黑白名单。 名单列表 黑白名单列表。如果存在多个,使用英文逗号分隔,不允许存在空格。 在弹出框中单击“确认”。
  • 新增流控规则 流控规则支持针对微服务/接口的资源流控、不区分微服务接口的全局参数流控和节点级动态流控规则。 在流控服务详情页面,选择“流控规则”页签,单击“新增流控规则”。 配置流控规则相关参数,配置完成后单击“保存”。 资源流控 表3 资源流控参数说明 参数 说明 限流控制类型 选择资源流控,针对微服务/接口资源进行流控。 资源名称 选择新增资源中创建的资源名称,与微服务/接口绑定,每个资源最多创建4条规则,规则的限流控制类型和是否集群流控不能重复。 流控类别 QPS:每秒速率流控。 配额:特定时间的请求阈值。 限流阈值 流控阈值,整个微服务/接口调用总量的阈值,如果请求总量超过该阈值,后续请求会被流控;0表示不流控。 禁用时间 当限流控制类型为QPS时,显示该参数。 流控后禁用时间内的所有请求不再判断请求量,直接全部流控。 允许的突增量 当限流控制类型为QPS时,显示该参数。 流控突发量,该参数可以调整令牌桶的大小,令牌桶大小为(阈值+突增量)/时间窗口,时间窗口单位为s。 是否集群限流 选择“是”或“否”。开启后对集群内此资源的调用总量进行限制。 集群限流阈值模式 当流控类别为QPS,开启集群限流时,显示该参数。 单机均摊 总体阈值 本地配额缓存数 当流控类别为配额,开启集群限流时,显示该参数。 防止DCS热点key的参数,可以减少DCS的访问,默认值为5。 该参数需要合理配置,配置过小容易造成热点key问题,配置过大可能导致部分节点放通部分节点流控的问题。 时间窗口 填写时间,单位为秒,表示间隔多少秒允许一个请求通过。默认为1秒,取值范围为1~86400。 是否开启流控规则 选择是否开启流控规则。 新增参数 单击“新增参数”,可以根据需要新增多条流控规则。 参数名称:参数级规则的参数名。 限流阈值:默认的参数阈值,如果没有指定参数值,都按该阈值进行流控。 单击新增参数列表前的,单击“新增参数值”,可以为参数配置多条参数值。 参数值:参数级规则的参数值。 参数阈值:指定的参数值按该阈值进行流控。 全局参数流控 全局参数流控规则与资源流控的参数级规则含义类似,仅不对微服务/接口做限制。 表4 全局参数流控参数说明 参数 说明 限流控制类型 选择全局参数 参数名称 填写参数名称。 流控类别 QPS:每秒速率流控。 配额:特定时间的请求阈值。 限流阈值 流控阈值,默认的参数阈值,如果没有指定参数值,都按该阈值进行流控。 禁用时间 当限流控制类型为QPS时,显示该参数。 流控后禁用时间内的所有请求不再判断请求量,直接全部流控。 允许的突增量 当限流控制类型为QPS时,显示该参数。 流控突发量,该参数可以调整令牌桶的大小,令牌桶大小为(阈值+突增量)/时间窗口,时间窗口单位为s。 是否集群限流 选择“是”或“否”。开启后对集群内此资源的调用总量进行限制。 集群限流阈值模式 当流控类别为QPS,开启集群限流时,显示该参数。 单机均摊 总体阈值 本地配额缓存数 当流控类别为配额,开启集群限流时,显示该参数。 防止DCS热点key的参数,可以减少DCS的访问,默认值为5。 该参数需要合理配置,配置过小容易造成热点key问题,配置过大可能导致部分节点放通部分节点流控的问题。 时间窗口 填写时间,单位为秒,表示间隔多少秒允许一个请求通过。默认为1秒,取值范围为1~86400。 是否开启流控规则 选择是否开启流控规则。 新增参数 单击“新增参数值”,配置多条参数值。 参数值:参数级规则的参数值。 参数阈值:指定的参数值按该阈值进行流控。 节点级动态流控 表5 节点级动态流控参数说明 参数 说明 限流控制类型 选择节点级动态流控。 是否开启流控规则 选择是否开启流控规则。 CPU过载阈值 CPU利用率超过该值时,接口的放通比例开始降低,直到降低至最低放通比例;CPU利用率越高,接口放通比例下降越快。该阈值要求为小数,范围为0~1,支持精度为小数点后四位。 CPU恢复阈值 CPU利用率小于该值时,接口的放通比例开始恢复,直到恢复至100%;CPU利用率越低,接口放通比例恢复越快。该阈值要求为小数,范围为0~1,支持精度为小数点后四位,并且小于CPU过载阈值。 最低放通比例 配置各个接口等级对应的最低放通比例,在CPU始终处于过载状态时,仍然能放通该比例的请求。 范围为0~1,支持精度为小数点后四位。 在弹出框中单击“确认”。
  • 步骤二:创建日志空间 在“日志接入”页面,选择左侧导航栏的“日志空间”。 单击“申请实时日志空间”。 根据界面提示填写日志空间参数。 配置实时日志空间信息,参数说明如表2所示,配置完成后,单击“下一步”。 表2 实时日志空间信息参数说明 参数名称 参数说明 空间名称 自定义日志空间名称,建议包含日志类型语义。 空间描述 输入日志空间描述,非必填项。 日志类型 选择需接入的日志类型,该日志空间中接入的日志数据“logType”字段会根据选择的日志类型生成。不同日志类型所对应的“logType”字段如下: 访问日志:ACCESS_LOG 接口日志:INTERFACE_LOG 错误日志:ERROR_LOG 异常日志:EXCEPTION_LOG 安全日志:SAFE_LOG 资源日志:RESOURCE_LOG 运行日志:RUN_LOG 话单日志:CDR_LOG 指标日志:METRICS_LOG GC日志:GC_LOG HCW日志:HCW_LOG 日志大小 预计一天的日志量,默认为1GB。 开启日志检索 如果需要使用日志检索功能,可以打开该开关,并创建导流任务,创建导流任务后可以在“日志检索”页面查看日志。 如果创建时没有打开日志检索开关,后续编辑打开该开关,需要手动创建或绑定检索空间表。 单击该空间所在行“操作”列的,选择“日志空间表管理”并切换至“检索空间表”页签,单击右上角的“创建新空间表”或“选择已有空间表”,手动为该日志空间创建或绑定检索空间表,然后单击列表“操作”列的“上线”。 检索空间类型 选择ClickHouse。 原索引名称(ClickHouse) 可选择现有的ClickHouse,如果不填会自动生成。 配置实时日志字段信息,参数说明如表3所示,配置完成后,单击“下一步”。 表3 实时日志字段信息参数说明 参数名称 参数说明 自定义字段 必须接入的日志字段已默认勾选,可以勾选其他需要接入的日志字段,包括通用字段、容器字段和虚机字段。 新增自定义环境变量 如需添加自定义环境变量,请选择环境变量名,然后单击“添加”。虚机暂无可选自定义环境变量。 清洗规则 选择日志清洗规则。 请优先使用算子清洗模式采样,通过配置解析脚本将原始日志清洗为业务需要的日志字段,算子清洗功能及使用样例请参见算子清洗功能介绍。原始日志采样清洗只适用于单纯采样,不需要清洗的场景。 如果创建时选择“无清洗”,后续编辑选择对日志进行清洗,需要手动创建或绑定异常存储空间表。 单击该空间所在行“操作”列的,选择“日志空间表管理”并切换至“异常存储空间表”页签,单击右上角的“创建新空间表”或“选择已有空间表”,手动为该日志空间创建或绑定异常存储空间表,然后单击列表“操作”列的“上线”。 日志样例 输入日志样例。 解析脚本 配置解析脚本,将日志样例清洗为字段显示,具体算子功能及使用样例请参见算子清洗功能介绍。 配置解析脚本时字段命名不支持使用中划线“-”,支持使用下划线“_”。 清洗字段 配置解析脚本后单击“配置解析脚本”,自动生成清洗字段,查看字段是否符合预期。 开启汇聚 选择是否开启日志汇集,如果日志量较大且不需要关注原始日志时可以进行日志汇集。 开启后会自动创建用于存储汇聚数据的Topic,同时需要配置汇集相关参数。 汇聚粒度 开启汇聚后,需要设置汇集粒度。支持分钟级和秒级数据汇聚。选择分钟级,每一分钟会生成一个统计点,选择秒级,每一秒会生成一个统计点。 汇聚时间戳 仅支持时间戳格式字段timestamp,获取当前计算的日志的时间。 时间戳格式 选择时间戳格式。支持秒、毫秒、纳秒级时间戳,获取当前计算的日志的时间格式。 汇聚维度 结合业务场景需要,选择日志是以哪些日志字段进行日志汇聚,支持多选。 汇聚度量 设置对日志字段以COUNT、SUM、MAX、MIN进行度量。 原始字段是日志中的字段,用来获取原始值;度量字段是用户自定义字段名,计算后,度量的值会赋值给该字段。 输出原始日志 选择是否需要输出原始日志。如果打开输出原始日志,原始日志也会上报。 日志字段确认,确认日志字段配置是否达到预期,已达到预期,单击“下一步”。 其中字段来源COMMON表示通用字段、CONTAINER表示容器字段、VM表示虚机字段。 申请日志空间共享,如果需要其他服务共用这个空间进行日志下发和日志检索,可以添加共享服务。配置完成后,单击“保存”。
  • 步骤三:创建日志采集配置 在“日志接入”页面,选择左侧导航栏的“日志采集配置”。 单击“创建日志采集配置”。 配置日志采集参数,配置完成后,单击“确定”。 新创建的采集配置默认为草稿状态,展示在“草稿”页签下,当配置被微服务使用后,状态会更新为“已下发”,并展示到“已下发”页签下。 表4 日志采集配置参数说明 参数名称 参数说明 日志项目 选择已创建的日志项目,相同服务的不同日志使用同一个日志项目 日志空间 选择已创建的日志空间。选择日志空间时日志提取规则会展示日志空间定义的日志格式,采集的日志须满足对应格式。 配置名称 自定义日志采集配置名称。 配置类型 选择日志采集配置类型,建议选择“FILEBEAT”。 日志类型 输入采集日志类型。 日志路径 宿主机上的日志文件的绝对路径(业务容器通过hostpath挂载到宿主机上的路径)。 可使用通配符进行匹配。 注意避免同一台主机上下发的多个采集任务重复采集相同的日志文件,会导致filebeat进程异常。 日志TPS TPS表示单实例每秒日志条数,请准确填写,用于推荐资源自动计算。 日志模式 选择日志采集模式,是单行模式还是多行模式。 是否支持软连接 当填写的日志路径为链接路径时,需要开启支持软连接。 首行正则表达式 日志模式选择多行模式时,需要输入首行正则表达式。 日志提取规则 根据填写的配置参数会自动生成提取规则。
  • 步骤四:创建日志配置组 在“日志接入”页面,选择左侧导航栏的“日志配置组”。 单击“创建日志配置组”。 设置日志配置组参数,参数说明如表5所示,配置完成后,单击“确定”。 表5 日志配置组参数说明 参数名称 参数说明 日志配置组名称 自定义日志配置组名称。 安装方式 选择安装方式,推荐使用“DAEMONSET”。 命名空间 当安装方式为“DAEMONSET”时,需要配置服务日志命名空间。 命名空间为hostpath的下一级目录名称,该目录下48小时内有日志文件更新,才会拉取日志采集配置,必须为英文名。 日志项目 选择已创建的日志项目。 配置类型 选择配置类型,即创建日志采集配置时选择的配置类型,根据配置类型会过滤采集配置列表中的数据。 采集配置列表 选择需要下发的配置。
  • 步骤五:安装日志采集插件 在“日志接入”页面,选择左侧导航栏的“集群插件管理”。 在集群列表中单击待安装插件的集群所在行“操作”列的“安装插件”。 在“插件安装”页面配置安装参数,具体内容如下所示,配置完成后,单击“确定”。 插件安装会占用集群资源,可以根据业务日志量,调整container的requests大小,来控制集群的资源占用量,具体操作请参见如何调整纳管集群的资源占用量。 输入日志挂载路径:挂载到容器指定挂载点中的容器所在宿主机的文件目录,通常为宿主机上日志文件的hostpath目录。需要设置为单独的文件路径,不能设置为类似于/root、/home等包含有其他文件的目录,并且一个集群只能设置一个挂载路径。 需要对日志挂载路径执行chmod o+rx命令,确保日志采集容器的启动用户拥有该路径的访问权限。 选择主机:选择待安装插件的主机,默认全部勾选进行安装,可以去掉勾选不需要安装插件的主机,且当主机状态为“Active”时才可以正常安装插件。 选择日志配置组:选择日志配置组,安装插件并下发配置。
  • 其他报表开发功能介绍 功能 功能介绍 添加告警数据图表 可以对告警数据生成图表并添加在报表中。 在“告警配置”,单击“保存”,系统会自动生成告警图表“_alertlist-_alert”。 在报表编辑页面,单击“配置图表”选择该图表,将告警数据展示在报表中。 配置报表查询条件 在报表编辑页面,单击“配置查询条件”可以配置页面的查询条件,目前每个页面最多支持配3个查询框,查询字段可以从数据源自动获取,也可以自定义输入。 新增辅助图形 在报表编辑页面,单击“新增辅助图形”,可以对图表进行组合,也可以为报表新增标题框、背景框和时钟。 切换至预览模式 进入报表编辑页面,默认为编辑模式,单击“切换至预览模式”,可以切换至预览模式,查看编辑效果。 画辅助线 在报表编辑页面,单击“画辅助线”,可以选择多种辅助线,便于编辑页面时对页面报表布局。 保存业务报表 在报表编辑页面,单击“保存”,保存已开发的业务报表。 发布业务报表 在报表编辑页面,单击“发布”,发布业务报表,发布后服务下所有用户可以在“业务报表”页面查看该报表。 下线业务报表 在报表编辑页面,单击“下线”,下线业务报表后将不会展示在“业务报表”页面。 复制业务报表 在报表编辑页面,单击“复制”,可以复制已开发的业务报表。
  • 步骤五:配置告警 在异常检测任务列表,单击任务所在行“操作”列的“告警”,默认显示“告警配置”页签。 告警基础配置。 表9 动态阈值算法配置参数说明 参数名称 参数说明 推送状态 设置告警推送状态,将异常检测生成的告警推送到告警模块,会展示在告警列表中。 INACTIVE:不推送,单击“Start”,可以设置为推送。 ACTIVE:推送,单击“Stop”,可以设置为不推送。 告警级别 设置该异常检测任务生成的告警的级别,对应告警模块。 critical:紧急 major:严重 minor:一般 notice:提示 告警名称 告警信息发送时展示的名称,可以设置告警名称或告警中文名称。 告警中文名称 告警信息发送时展示的名称,可以设置告警名称或告警中文名称。 阈值类型 设置判断阈值类型。 upper:数据高于模型预测上限值时产生告警。 lower:数据低于模型预测下限值时产生告警。 both:数据介于模型预测值之间时产生告警。 阈值类型配置需根据模型配置中的“metric_type(指标类型)”进行选择,如下所示: 成功率(success_rate)、速率(speed)、请求量下限(count_lowerlimit)配置下限(lower)。 时延(delay)、失败率(fail_rate)、请求量上限(count_upperlimit)配置上限(upper)。 请求量(count)可任意配置both/upper/lower。 自定义告警消息列 配置生成的告警字段,下拉列表可选字段为训练结果表中存在的字段,一般选择维度字段、指标测量值、上下限阈值(带有origin的字段)和告警类型(alert_type:长时间超过阈值线告警、毛刺告警、波动性告警、突变告警、掉零告警、小样本告警等)。选择后可以单击“Json Demo”或者“Text Demo”自动生成告警消息模板,如图2所示。 也可根据用户需要自定义。需要注意的是,模板中的变量写法为${字段名},最终生成的消息内容是将结果表中对应字段内容直接替换得到,如果某个字段值获取失败,请检查字段名称是否一致或结果表中数据是否异常。 图2 自定义告警消息列设置 自定义警报消息模板 根据自定义告警消息列设置的数据生成。 指定告警领域 如果本服务下不需要接收该告警信息,但其他某个服务需要接收,可以在这里指定对方的告警领域,将告警通知到对应服务中。 (可选)默认为不降级,可以开启降级配置按钮,并设置告警降级的生效时间段、请求量、指标量和持续时间,会按照设置降低生成告警的级别。 (可选)可以按服务ID设置告警路由,或自定义告警路由规则,如需配置请联系技术支持工程师。
  • 步骤二:配置数据来源 在异常检测任务列表,单击任务所在行“操作”列的“数据”。 在数据配置页面,选择异常检测数据类型,然后配置对应的参数,配置完成后,单击“保存”。 数据类型选择Warehouse,即选择指标仓库中的视图作为异常检测数据,如果是小时级、天级任务可使用该数据类型。选择Warehouse数据类型后,需要配置如所示参数。 表2 Warehouse类型参数说明 参数名称 参数说明 视图 选择指标仓库中已创建的异常检测视图,具体操作请参考为指标创建视图。 指标 选择指标仓库中已创建的指标,具体操作请参考在指标仓库创建指标。 调度集群 选择异常检测任务调度集群,初始化监控服务时会自动分配两个调度集群, scheduleCluster-ops:数据汇聚任务使用。 scheduleCluster-ops-ad:异常检测任务使用。 Mppdb集群 选择Mppdb集群。 Mppdb数据库 选择Mppdb数据库。 Mppdb数据表 选择已创建的Mppdb数据表,具体操作请参考创建数据表。 数据类型选择Indicator,即选择指标仓库中的指标作为异常检测数据。选择Indicator数据类型后,需要配置如所示参数。 表3 Indicator类型参数说明 参数名称 参数说明 调度集群 选择异常检测任务调度集群,初始化监控服务时会自动分配两个调度集群, scheduleCluster-ops:数据汇聚任务使用。 scheduleCluster-ops-ad:异常检测任务使用。 指标 选择指标仓库中已创建的指标,具体操作请参考在指标仓库创建指标。 维度列表 选择维度列,可多选。 Mppdb集群 选择Mppdb集群。 Mppdb数据库 选择Mppdb数据库。 Mppdb数据表 选择已创建的Mppdb数据表,具体操作请参考创建数据表。 数据类型选择Other,即选择Mppdb表作为异常检测数据。选择Other数据类型后,需要配置如所示参数。 表4 Other类型参数说明 参数名称 参数说明 调度集群 选择异常检测任务调度集群,初始化监控服务时会自动分配两个调度集群, scheduleCluster-ops:数据汇聚任务使用。 scheduleCluster-ops-ad:异常检测任务使用。 Mppdb集群 选择Mppdb集群。 Mppdb数据库 选择Mppdb数据库。 Mppdb数据表 选择已创建的Mppdb数据表,具体操作请参考创建数据表。
  • 步骤三:配置基础数据 在异常检测任务列表,单击任务所在行“操作”列的“基础”。 在基础配置页面,默认显示新增任务时配置的信息,单击“字段配置”,切换至“字段配置”页签。 配置对应的参数,配置完成后,单击“确认”。 表5 基础数据参数说明 参数名称 参数说明 时间列 指定异常检测哪个列的数据是时间。 指标列 指定异常检测哪个列的数据是指标,即异常检测需要监控的指标。 计数列 指定异常检测哪个列的数据是请求量。 补充列 可以选择补充异常检测数据列。 维度 指定对哪些维度进行检测。 列名:指定维度列名,如需新增维度,可单击“+”号。 维度值:提供两种输入方式。 单击“获取动态值”,在“维度名-值筛选器”页面单击“保存”,动态获取维度值。如需手动修改,单击“打开编辑器”进行修改,可以手动过滤不需要的维度值。 单击“打开编辑器”,在“维度值-编辑”页面输入指定的维度值,并单击“Save”。 输入的维度值数量需要与定义的维度列数一致,否则无法保存该基础配置。 自动更新:如需动态更新维度,可以打开该按钮,并选择自动更新间隔周期。 维度筛选器 可以指定对某些维度组合对应的指标进行告警,或过滤某些维度。
  • 步骤二:配置环境 在“服务环境配置”页面,选择左侧导航栏的“服务关联”。 在环境配置区域,选择待配置环境的环境名称。 单击“新增”,新增环境配置,具体参数如表2所示。 表2 环境配置参数 参数名称 参数说明 部门 选择已录入的部门。 产品 选择已录入的产品。 服务 选择已录入的服务。 华为公有云账号名 选择用户的华为账号名。 区域 选择使用的区域。 如果选择不到对应区域,需要将鼠标悬停在右上角的账号,在下拉列表选择“服务环境配置”,在“账号列表”页面单击对应账号后的“编辑”,然后单击“确定”,自动刷新该账号下的区域信息。 容灾区域 选择使用的容灾区域。 模式 环境中资源实例的部署模式,单云指部署一个AZ,双云指部署两个AZ。 单击“确定”,完成环境配置。 配置的环境会显示在环境配置列表中。
  • 支持采集的Windows主机监控指标 当前支持采集的监控指标如表2所示。 表2 Windows主机监控指标说明 指标名称 指标含义 取值范围 单位 ops_node_cpu_usage 该指标用于统计测量对象的CPU使用率。 0~100% 百分比(Percent) ops_node_cpu_limit_core 该指标用于统计测量对象申请的CPU核总量。 ≥1 核(Core) ops_node_cpu_used_core 该指标用于统计测量对象已经使用的CPU核个数。 ≥0 核(Core) ops_node_disk_capacity_megabytes 总的磁盘空间容量。 ≥0 兆字节(Megabytes) ops_node_disk_available_capacity_megabytes 还未经使用的磁盘空间。 ≥0 兆字节(Megabytes) ops_node_disk_usage 已使用的磁盘空间占总的磁盘空间容量百分比。 ≥0 百分比(Percent) ops_node_virtual_memory_total_megabytes 该指标用于统计测量对象上的虚拟内存总量。 ≥0 兆字节(Megabytes) ops_node_virtual_memory_usage 该指标用于统计测量对象已使用虚拟内存占虚拟内存总量的百分比。 0~100% 百分比(Percent) ops_node_memory_total_megabytes 该指标用于统计测量申请的物理内存总量。 ≥0 兆字节(Megabytes) ops_node_virtual_memory_free_megabytes 该指标用于统计测量对象上的尚未被使用的虚拟内存。 ≥0 兆字节(Megabytes) ops_node_memory_free_megabytes 该指标用于统计测量对象上的尚未被使用的物理内存。 ≥0 兆字节(Megabytes) ops_node_memory_usage 该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。 0~100% 百分比(Percent) ops_node_process_number 该指标用于统计测量对象上的进程数量。 ≥0 无 ops_node_network_receive_bytes 该指标用于统计测试对象的入方向网络流速。 ≥0 字节/秒(Bytes/Second) ops_node_network_receive_packets 每秒网卡接收的数据包个数。 ≥0 个/秒(Packets/Second) ops_node_network_receive_error_packets 每秒网卡接收的错误包个数。 ≥0 个/秒(Packets/Second) ops_node_network_transmit_bytes 该指标用于统计测试对象的出方向网络流速。 ≥0 字节/秒(Bytes/Second) ops_node_network_transmit_packets 每秒网卡发送的数据包个数。 ≥0 个/秒(Packets/Second) ops_node_network_transmit_error_packets 每秒网卡发送的错误包个数。 ≥0 个/秒(Packets/Second) ops_node_network_total_bytes 该指标用于统计测试对象出方向和入方向的网络流速之和。 ≥0 字节/秒(Bytes/Second) ops_node_network_total_packets 每秒网卡处理的数据包个数。 ≥0 个/秒(Packets/Second) ops_node_disk_read_kilobytes 该指标用于统计每秒从磁盘读出的数据量。 ≥0 千字节/秒(Kilobytes/Second) ops_node_disk_write_kilobytes 该指标用于统计每秒写入磁盘的数据量。 ≥0 千字节/秒(Kilobytes/Second) ops_node_disk_read_io_num 该指标用于统计每秒从磁盘读的次数。 ≥0 个/秒(Packets/Second) ops_node_disk_write_io_num 该指标用于统计每秒向磁盘写的次数。 ≥0 个/秒(Packets/Second) ops_node_disk_kilobytes 该指标用于统计每秒磁盘的IO数据量。 ≥0 千字节/秒(Kilobytes/Second) ops_node_disk_util 该指标用于统计磁盘使用时间。 ≥0 百分比(Percent)
  • 更多操作 表1 相关操作 操作 说明 删除CCE集群 在CCE集群管理页面,选择“纳管集群”页签,单击集群列表操作列的“删除”,在弹出的提示框中单击“确定”,删除微服务平台纳管的集群。 将集群共享给其他服务 在CCE集群管理页面,选择“纳管集群”页签,单击集群列表操作列的“集群共享”,在弹出的窗口中选择应用,选择被共享的服务,单击“确定”。 取消集群共享 在CCE集群管理页面,选择“纳管集群”页签,单击集群列表共享数量列,在弹出的窗口中单击操作列的“取消共享”。 在弹出的提示框中单击“确定”,即可取消集群共享。 查看共享给当前服务的集群 在CCE集群管理页面,选择“共享集群”页签,查看共享给当前服务的集群。
  • 步骤一:创建环境 进入AppStage运维中心。 将鼠标悬停在右上角的账号,选择下拉列表中的“服务环境配置”,选择左侧导航栏的“环境管理”。 单击“创建”,配置环境参数,具体参数如表1所示。 表1 创建环境参数 参数名称 参数说明 名称 填写环境名称,名称全局唯一,只能包含小写字母、数字以及下划线,不能以下划线开头。 用途 选择环境的用途。可选用途包括开发、测试、生产、安全和性能。 描述 环境的描述信息。 单击“确定”。
  • 更多操作 隔离域创建后,您还可以对隔离域进行以下操作。 表2 相关操作 操作名称 操作步骤 编辑隔离域 在隔离域列表,单击待编辑隔离域所在行“操作”列的“编辑”。 导出隔离域 单击隔离域列表上方的“导出”。 勾选需要导出的数据,单击“确认”。 选择需要保存的路径,单击“保存”,导出隔离域信息。 删除隔离域 在隔离域列表,单击待删除隔离域所在行“操作”列的“删除”。 批量删除隔离域 在隔离域列表,勾选待删除隔离域,然后单击列表左上方的“删除”。
  • 业务报表开发流程 使用业务报表进行业务监控的流程如图2所示。 图2 业务报表开发流程图 服务运维岗位或运维管理员权限人员开发业务报表 新增业务报表数据源:首次使用数据源进行报表开发,需要先新增数据源后才能使用。 新增业务报表页面:业务报表以页面来呈现,开发报表需要先新增报表页面。如需对页面进行管理,请参见管理业务报表页面。 开发业务报表:为报表新增数据图表,以图表来体现业务数据的动态变化。 基于数仓配置图表:新增warehouse类型数据源后,可以基于数仓中创建的指标或视图配置图表。 基于SQL配置图表:新增其他类型数据源后,可以基于SQL配置图表。 服务所有人员可以查看已开发业务报表 查看业务报表:查看已开发业务报表进行业务监控。
  • 设置事件单 进入AppStage运维中心。 将鼠标悬停在右上角的账号,选择下拉列表中的“工单管理”,默认显示“变更单管理”页面。 单击左侧导航栏的“设置”,进入“设置”页面。 设置事件单。 设置解决时限:单击“编辑”,设置解决时限后单击“确定”,如图1所示。 图1 设置解决时限 设置通知方式:勾选事件通知方式,支持Welink和手机短信。 如需使用Welink通知,需要先配置对接华为云 WeLink ,配置后显示该选项。 设置排班表:选择需要配置的服务,双击排班表的具体时间表格,显示“编辑排班表”页面,如图2所示,默认为双击的时间,设置值班人,也可以值班时间,然后单击“确定”。将排班表设置完成后单击“保存”。 图2 设置排班表
  • 更多操作 隔离域规划创建后,您还可以对隔离域规划进行以下操作。 表2 相关操作 操作名称 操作步骤 导出全量隔离域规划信息 在隔离域规划列表,单击“导出”,导出隔离域规划信息。 导出指定隔离域规划信息 在“隔离域规划”页签,输入筛选条件,并单击“查询”。 单击“导出”,导出隔离域规划信息。 删除隔离域规划 在隔离域规划列表,单击待删除隔离域规划所在行“操作”列的“删除”。 批量删除隔离域规划 在隔离域规划列表,勾选待删除隔离域规划,然后单击列表左上方的“删除”。
  • 运维中心的优势 简化运维管理:使用AppStage运维中心可以集中管理和监控IT资源及服务,大大简化了运维管理的复杂性。通过统一的Console,SRE可以轻松地管理服务器、数据库、网络和应用等各个方面,实现应用生命周期运行 数据可视化 ,避免数据孤岛。 提高运维效率:AppStage运维中心提供了自动化的运维流程和任务调度功能,可以自动执行常见的运维任务,如监控、故障处理等,节省SRE大量的时间和精力,让运维团队能够更专注于解决重要的问题和提供高价值的服务。 实现故障快速恢复:AppStage运维中心具备强大的故障监测和自动恢复能力,当系统出现故障或异常时,AIOps可以及时发现并采取相应的措施进行修复,最大限度地减少停机时间和业务中断,减轻可能出现的业务损失和客户流失。 提供实时监控和报告:AppStage运维中心集成了丰富的监控和报表功能,可以实时监控系统的性能指标、资源利用率和安全状态等。通过可视化的报表和图表,SRE可以随时了解系统的运行情况,进行及时的决策和调整。同时,这些信息也可以用于向上级管理层的汇报和运维成果展示。 降低运维成本:AppStage运维中心沉淀了华为在运维领域的管理经验,基于人工智能技术提供数据分析,优化资源配置,预测未来需求,以降低IT资源成本。企业将应用迁移至华为云后,通过AppStage运维中心来自主管理和运维,可以自然使用上述能力获得成本优势。 提高运维安全性:AppStage运维中心通过身份验证、访问控制和加密等技术,保护企业应用不受攻击、侵入、干扰和破坏,确保客户数据的安全性和完整性,同时通过自动化变更、操作防呆等减少SRE的误操作风险。
  • 运维面临的问题 应用的快速迭代与现网业务稳定性之间存在冲突,应用发布周期短,版本可能未经过充分的现网验证。 运维平台基于开源软件或者各类分散工具构建,各工具能力参差不齐,缺乏统一的数据接入、监控、诊断、 数据治理 体系。 系统可用性依赖全栈可观测,运维人员需要被动变主动,利用数据实时监控分析系统的性能、可靠性和运行状态,及时发现问题,精准定位问题。 外部安全攻击渗透频率日趋增多,攻击技术手段越发高超,数据泄露风险大。
  • 软件仓库包类型介绍 AppStage运维中心支持对软件包、部署包、镜像包、SQL包等进行集中管理,用于升级变更服务的虚拟机。软件仓库不同软件包的说明如表1所示。 同时支持将镜像仓SWR(SoftWare Repository for Container)进行统一管理,可以绑定使用镜像仓中的镜像用于服务的容器升级变更,具体操作请参见录入并绑定华为云镜像仓SWR。 表1 包类型说明 包类型 说明 传包方式 使用方式 打包规范 软件包 应用软件包,一般用于虚拟机部署,包括软件包(虚拟机部署使用)、测试用例包、函数包(函数部署使用)。 使用开发中心推包/上传软件包 在IaC代码中定义需要使用的软件包,通过IaC变更完成应用部署。 软件包 部署包 用户部署虚拟机时使用的脚本包(playbook文件)。 运维中心发布/使用开发中心推包/上传部署包 使用部署包创建模板,根据模板创建虚拟机部署的变更任务,实现使用部署脚本完成软件的自动化部署。 部署包 镜像包 用户容器部署时使用的Docker的容器镜像包。 使用开发中心推包 在IaC代码中定义需要使用的镜像包,通过IaC变更完成容器化部署。 镜像包 SQL包 执行SQL变更的DDL、DML数据库脚本。 使用开发中心推包/上传SQL包 在WiseDBA中使用SQL包进行SQL变更,对数据库或数据库数据进行增删改查的操作。 SQL包 IaC 3.0包 描述IaC 3.0变更的执行过程及资源配置信息。 使用开发中心推包/上传IaC 3.0包 在变更环境部署应用时选择IaC包,完成资源配置及环境变更。 IaC 3.0包 Terraform包 描述Terraform引擎变更的执行过程及资源配置信息。 使用开发中心推包 在Terraform引擎的实例列表中使用代码包创建变更计划,完成资源配置及环境变更。 Terraform包 TF模板包 对接华为云 RFS 的模板包,包含package.json、main.tf、variables.tf,其中main.tf文件是一个HCL语法文本描述文件,用于定义需要创建的云服务资源。 上传TF模板包 使用TF模板包创建资源栈,并使用资源栈完成资源部署,具体操作请参见使用TF模板包批量创建资源。 TF模板包 父主题: 软件仓库管理
  • 使用流程 参考图1可帮助您快速上手运维中心的主流程和核心功能。 图1 运维中心使用流程 表1 运维中心使用流程介绍 主流程 子任务 说明 操作指导 接入资源 - 将华为云已购买的资源接入至运维中心。 一站式接入资源 单点接入资源 部署应用 容器部署 支持使用纳管的容器集群进行应用部署。 容器部署 虚拟机部署 支持使用纳管的虚拟机进行应用部署。 虚拟机部署 监控资源及应用 - 监控服务提供采集日志、开发并查看监控报表和异常告警等功能。 监控资源和应用 管理资源 管理网络资源 运维中心弹性网络服务(ENS)可以纳管网络资源并对已纳管的资源进行管理。 管理网络 管理主机 运维中心主机管理服务(VMS)可以纳管主机并对已纳管的主机进行管理。 管理主机 管理数据库 运维中心数据库治理(WiseDBA)可以纳管数据库并对已纳管的数据库进行管理。 管理数据库 管理容器集群 运维中心主机管理服务(VMS)可以纳管容器并对已纳管的容器进行管理。 管理容器集群 管理微服务 微服务平台(NUWA Runtime)可以对微服务本身及其相关的资源进行管理。 通过微服务平台管理微服务 配置负载均衡 负载均衡(SLB)提供反向代理、负载均衡、路由分发、灰度分流、限流降级、访问控制、监控告警等能力。 配置运维中心负载均衡 管理Cloud Map中的服务资源 服务发现(Cloud Map)是云服务统一的服务注册发现中心,主要解决业务依赖环境配置繁琐的难题。 管理Cloud Map中的服务资源 配置访问凭据管理服务 访问凭据管理服务(ACMS)为云服务业务提供了微服务之间请求认证和敏感配置托管功能。 配置访问凭据管理服务
  • 运维中心首页介绍 运维中心首页如图2所示。 图2 运维中心首页 运维中心首页各模块功能如表1所示。 表1 首页功能说明 编号 功能区域 说明 1 顶部导航栏 :服务列表按钮,在服务列表可切换运维中心提供的服务。 AppStage:单击可访问AppStage首页。 运维中心:单击可切换至运维中心首页。 服务:可切换服务,即在AppStage页面创建的产品及服务。 EN/简体:可切换语言。 2 个人账号信息管理 审计日志:可查看登录账号在运维中心的所有操作日志,产品管理员可查看对应产品的所有操作日志。 我的信息:可以查看个人信息和已拥有的权限,也可以进行权限申请。 文档中心:可进入查看运维中心文档帮助。 工单管理:支持变更单与事件单的管理,具体介绍请参见管理工单。 服务环境配置:可以录入公有云账号、配置企业项目以及进行环境管理,具体介绍请参见配置服务环境。 租户管理:“我的租户”页面可以查看在业务控制台创建的组织(租户)、产品、服务和微服务信息。“订阅信息”页面可以查看已订阅的服务信息。“WeLink对接”页面可以配置对接的华为云Welink信息,对接后可以使用WeLink公众号收取监控服务的告警及事件通知,具体操作请参见对接华为云WeLink。 退出登录:退出当前登录账号。 3 运维接入一站式地图 按照指引完成运维接入,将华为云VPC、ECS、CCE等接入运维中心进行运维管理,具体操作请参见一站式接入资源。 4 运维常用功能 提供运维常用功能入口,可单击快速访问。 5 最近访问 展示最近访问的服务,可单击快速访问。 6 帮助文档 查看运维中心帮助文档。
  • 更多操作 变更电子流创建后,您还可以对电子流进行以下操作。 表2 相关操作 操作名称 操作步骤 撤回变更电子流 在我的申请列表,单击待撤回变更电子流所在行“操作”列的。 撤回后记录依然存在,可以编辑、取消或克隆该电子流。 仅审批中的电子流可以撤回,已审批并处于变更状态的电子流无法撤回。 克隆变更电子流 在我的申请列表,单击待克隆变更电子流所在行“操作”列的。 可以修改信息后,单击“提交”。 转发变更电子流 我的申请列表,单击待转发变更电子流所在行“操作”列的。 配置转发任务信息,单击“确定”。 被转发人需要与转发人有相同权限,如同为一级审批人、同为二级审批人或同为三级审批人。 不能转发给变更单申请人。
共99269条