云服务器内容精选

  • 虚拟机部署流程 准备Terraform包和软件包:部署前需要准备Terraform包和软件包。如果使用开发中心进行代码开发,可通过开发中心将包直接推送至运维中心,具体操作请参见开发中心用户指南;如果使用本地工具进行代码开发,需要手动上传Terraform包和软件包,具体操作请参见上传Terraform包和软件包。 准备变更电子流:部署前需要准备已审批的变更电子流,具体操作请参见创建变更电子流和处理变更电子流,且仅变更电子流中设置的变更实施人可以使用该电子流进行变更部署。 使用虚拟机部署应用:通过创建并执行变更计划完成虚拟机部署应用,具体操作请参见使用虚拟机部署应用。
  • 容器部署流程 准备镜像包和IaC3.0包:部署前需要准备镜像包和IaC3.0包。如果使用开发中心进行代码开发,可通过开发中心将包直接推送至运维中心,具体操作请参见开发中心用户指南;如果使用本地工具进行代码开发,需要手动上传镜像包和IaC3.0包,具体操作请参见上传镜像包和IaC3.0包。 准备变更电子流:部署前需要准备已审批的变更电子流,具体操作请参见创建变更电子流和处理变更电子流,且仅变更电子流中设置的变更实施人可以使用该电子流进行变更部署。 创建容器部署环境:部署前需要在微服务平台准备容器部署环境。 在微服务平台新增环境信息。 将CCE集群同步至微服务平台。 在微服务平台配置部署环境。 使用容器部署应用:通过变更环境完成容器部署应用,具体操作请参见使用容器部署应用。
  • 支持采集的Windows主机监控指标 当前支持采集的监控指标如表2所示。 表2 Windows主机监控指标说明 指标名称 指标含义 取值范围 单位 ops_node_cpu_usage 该指标用于统计测量对象的CPU使用率。 0~100% 百分比(Percent) ops_node_cpu_limit_core 该指标用于统计测量对象申请的CPU核总量。 ≥1 核(Core) ops_node_cpu_used_core 该指标用于统计测量对象已经使用的CPU核个数。 ≥0 核(Core) ops_node_disk_capacity_megabytes 总的磁盘空间容量。 ≥0 兆字节(Megabytes) ops_node_disk_available_capacity_megabytes 还未经使用的磁盘空间。 ≥0 兆字节(Megabytes) ops_node_disk_usage 已使用的磁盘空间占总的磁盘空间容量百分比。 ≥0 百分比(Percent) ops_node_virtual_memory_total_megabytes 该指标用于统计测量对象上的虚拟内存总量。 ≥0 兆字节(Megabytes) ops_node_virtual_memory_usage 该指标用于统计测量对象已使用虚拟内存占虚拟内存总量的百分比。 0~100% 百分比(Percent) ops_node_memory_total_megabytes 该指标用于统计测量申请的物理内存总量。 ≥0 兆字节(Megabytes) ops_node_virtual_memory_free_megabytes 该指标用于统计测量对象上的尚未被使用的虚拟内存。 ≥0 兆字节(Megabytes) ops_node_memory_free_megabytes 该指标用于统计测量对象上的尚未被使用的物理内存。 ≥0 兆字节(Megabytes) ops_node_memory_usage 该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。 0~100% 百分比(Percent) ops_node_process_number 该指标用于统计测量对象上的进程数量。 ≥0 无 ops_node_network_receive_bytes 该指标用于统计测试对象的入方向网络流速。 ≥0 字节/秒(Bytes/Second) ops_node_network_receive_packets 每秒网卡接收的数据包个数。 ≥0 个/秒(Packets/Second) ops_node_network_receive_error_packets 每秒网卡接收的错误包个数。 ≥0 个/秒(Packets/Second) ops_node_network_transmit_bytes 该指标用于统计测试对象的出方向网络流速。 ≥0 字节/秒(Bytes/Second) ops_node_network_transmit_packets 每秒网卡发送的数据包个数。 ≥0 个/秒(Packets/Second) ops_node_network_transmit_error_packets 每秒网卡发送的错误包个数。 ≥0 个/秒(Packets/Second) ops_node_network_total_bytes 该指标用于统计测试对象出方向和入方向的网络流速之和。 ≥0 字节/秒(Bytes/Second) ops_node_network_total_packets 每秒网卡处理的数据包个数。 ≥0 个/秒(Packets/Second) ops_node_disk_read_kilobytes 该指标用于统计每秒从磁盘读出的数据量。 ≥0 千字节/秒(Kilobytes/Second) ops_node_disk_write_kilobytes 该指标用于统计每秒写入磁盘的数据量。 ≥0 千字节/秒(Kilobytes/Second) ops_node_disk_read_io_num 该指标用于统计每秒从磁盘读的次数。 ≥0 个/秒(Packets/Second) ops_node_disk_write_io_num 该指标用于统计每秒向磁盘写的次数。 ≥0 个/秒(Packets/Second) ops_node_disk_kilobytes 该指标用于统计每秒磁盘的IO数据量。 ≥0 千字节/秒(Kilobytes/Second) ops_node_disk_util 该指标用于统计磁盘使用时间。 ≥0 百分比(Percent)
  • 其他报表开发功能介绍 功能 功能介绍 添加告警数据图表 可以对告警数据生成图表并添加在报表中。 在“告警配置”,单击“保存”,系统会自动生成告警图表“_alertlist-_alert”。 在报表编辑页面,单击“配置图表”选择该图表,将告警数据展示在报表中。 配置报表查询条件 在报表编辑页面,单击“配置查询条件”可以配置页面的查询条件,目前每个页面最多支持配3个查询框,查询字段可以从数据源自动获取,也可以自定义输入。 新增辅助图形 在报表编辑页面,单击“新增辅助图形”,可以对图表进行组合,也可以为报表新增标题框、背景框和时钟。 切换至预览模式 进入报表编辑页面,默认为编辑模式,单击“切换至预览模式”,可以切换至预览模式,查看编辑效果。 画辅助线 在报表编辑页面,单击“画辅助线”,可以选择多种辅助线,便于编辑页面时对页面报表布局。 保存业务报表 在报表编辑页面,单击“保存”,保存已开发的业务报表。 发布业务报表 在报表编辑页面,单击“发布”,发布业务报表,发布后服务下所有用户可以在“业务报表”页面查看该报表。 下线业务报表 在报表编辑页面,单击“下线”,下线业务报表后将不会展示在“业务报表”页面。 复制业务报表 在报表编辑页面,单击“复制”,可以复制已开发的业务报表。
  • 事件单处理说明 事件单不同处理方式说明如表1所示。 表1 事件单处理类型说明 处理类型 说明 标记处理 标记事件单,标记处理后事件单状态会变为“待验证”,并走给提单人进行验证,验证操作如下: 验证通过:验证通过后事件单处理完成,事件单关闭。 验证不通过:重新走给处理人进行处理。 移交处理 将事件单移交给其他人处理。 退回申请 将事件单退回给提单人,提交人可以处理后重新提交。 暂停申请 将事件单暂停,暂停申请后事件单状态会变为“待暂停”,并走给提单人确认,确认操作如下: 同意暂停:事件单暂停。暂停后可以取消暂停,重新走给处理人进行处理。 不同意暂停:重新走给处理人进行处理。 关闭 关闭事件单。
  • 创建事件单 进入AppStage运维中心。 将鼠标悬停在右上角的账号,选择下拉列表中的“工单管理”,默认显示“变更单管理”页面。 单击左侧导航栏的“事件单管理”,进入“事件单管理”页面。 单击“新建”。 配置事件单参数,参数说明如表1所示。 表1 事件单参数说明 参数名称 参数说明 产品 选择产生事件的产品。 服务 选择产生事件的服务。 服务环境 选择产生事件的服务环境。 事件来源 选择事件来源,支持选择配置问题、版本问题、第三方问题、客户报障、告警、变更引入、其他。 事件级别 选择事件所属级别,级别分为P1~P5。 事件名称 输入事件名称。 处理人 选择事件的处理人。 可以参考事件排班表的值班人进行处理。 描述 输入事件的详细描述。 单击“提交”,提交事件单。 提交后事件会进入处理人的待处理事件列表中,并且会根据设置的通知方式通知处理人进行处理。
  • 设置事件单 进入AppStage运维中心。 将鼠标悬停在右上角的账号,选择下拉列表中的“工单管理”,默认显示“变更单管理”页面。 单击左侧导航栏的“设置”,进入“设置”页面。 设置事件单。 设置解决时限:单击“编辑”,设置解决时限后单击“确定”,如图1所示。 图1 设置解决时限 设置通知方式:勾选事件通知方式,支持Welink和手机短信。 如需使用Welink通知,需要先配置对接华为云 WeLink ,配置后显示该选项。 设置排班表:选择需要配置的服务,双击排班表的具体时间表格,显示“编辑排班表”页面,如图2所示,默认为双击的时间,设置值班人,也可以值班时间,然后单击“确定”。将排班表设置完成后单击“保存”。 图2 设置排班表
  • 新增黑白名单 黑名单规则会直接流控满足规则的请求,白名单规则会放通满足规则的请求。 在流控服务详情页面,选择“黑白名单”页签,单击“新增黑白名单”。 配置黑白名单相关参数,参数说明如表6所示。配置完成后单击“保存”。 表6 新增黑白名单参数说明 参数 说明 资源名称 选择全局黑白名单或具体资源,全局黑白名单不限制微服务/接口,资源黑白名单则限制特定的微服务/接口。 参数名称 参数级规则的参数名。 字符长度0~50,可以由字母、数字、下划线、短横线、点组成,不能包含特殊字符,例:black_rule-001。 名单类型 白名单 黑名单 每个资源或全局黑白名单下,同一参数名称只支持添加黑白名单各一条。 开启黑白名单 选择是否开启黑白名单。 名单列表 黑白名单列表。如果存在多个,使用英文逗号分隔,不允许存在空格。 在弹出框中单击“确认”。
  • 新增流控规则 流控规则支持针对微服务/接口的资源流控、不区分微服务接口的全局参数流控和节点级动态流控规则。 在流控服务详情页面,选择“流控规则”页签,单击“新增流控规则”。 配置流控规则相关参数,配置完成后单击“保存”。 资源流控 表3 资源流控参数说明 参数 说明 限流控制类型 选择资源流控,针对微服务/接口资源进行流控。 资源名称 选择新增资源中创建的资源名称,与微服务/接口绑定,每个资源最多创建4条规则,规则的限流控制类型和是否集群流控不能重复。 流控类别 QPS:每秒速率流控。 配额:特定时间的请求阈值。 限流阈值 流控阈值,整个微服务/接口调用总量的阈值,如果请求总量超过该阈值,后续请求会被流控;0表示不流控。 禁用时间 当限流控制类型为QPS时,显示该参数。 流控后禁用时间内的所有请求不再判断请求量,直接全部流控。 允许的突增量 当限流控制类型为QPS时,显示该参数。 流控突发量,该参数可以调整令牌桶的大小,令牌桶大小为(阈值+突增量)/时间窗口,时间窗口单位为s。 是否集群限流 选择“是”或“否”。开启后对集群内此资源的调用总量进行限制。 集群限流阈值模式 当流控类别为QPS,开启集群限流时,显示该参数。 单机均摊 总体阈值 本地配额缓存数 当流控类别为配额,开启集群限流时,显示该参数。 防止D CS 热点key的参数,可以减少DCS的访问,默认值为5。 该参数需要合理配置,配置过小容易造成热点key问题,配置过大可能导致部分节点放通部分节点流控的问题。 时间窗口 填写时间,单位为秒,表示间隔多少秒允许一个请求通过。默认为1秒,取值范围为1~86400。 是否开启流控规则 选择是否开启流控规则。 新增参数 单击“新增参数”,可以根据需要新增多条流控规则。 参数名称:参数级规则的参数名。 限流阈值:默认的参数阈值,如果没有指定参数值,都按该阈值进行流控。 单击新增参数列表前的,单击“新增参数值”,可以为参数配置多条参数值。 参数值:参数级规则的参数值。 参数阈值:指定的参数值按该阈值进行流控。 全局参数流控 全局参数流控规则与资源流控的参数级规则含义类似,仅不对微服务/接口做限制。 表4 全局参数流控参数说明 参数 说明 限流控制类型 选择全局参数 参数名称 填写参数名称。 流控类别 QPS:每秒速率流控。 配额:特定时间的请求阈值。 限流阈值 流控阈值,默认的参数阈值,如果没有指定参数值,都按该阈值进行流控。 禁用时间 当限流控制类型为QPS时,显示该参数。 流控后禁用时间内的所有请求不再判断请求量,直接全部流控。 允许的突增量 当限流控制类型为QPS时,显示该参数。 流控突发量,该参数可以调整令牌桶的大小,令牌桶大小为(阈值+突增量)/时间窗口,时间窗口单位为s。 是否集群限流 选择“是”或“否”。开启后对集群内此资源的调用总量进行限制。 集群限流阈值模式 当流控类别为QPS,开启集群限流时,显示该参数。 单机均摊 总体阈值 本地配额缓存数 当流控类别为配额,开启集群限流时,显示该参数。 防止DCS热点key的参数,可以减少DCS的访问,默认值为5。 该参数需要合理配置,配置过小容易造成热点key问题,配置过大可能导致部分节点放通部分节点流控的问题。 时间窗口 填写时间,单位为秒,表示间隔多少秒允许一个请求通过。默认为1秒,取值范围为1~86400。 是否开启流控规则 选择是否开启流控规则。 新增参数 单击“新增参数值”,配置多条参数值。 参数值:参数级规则的参数值。 参数阈值:指定的参数值按该阈值进行流控。 节点级动态流控 表5 节点级动态流控参数说明 参数 说明 限流控制类型 选择节点级动态流控。 是否开启流控规则 选择是否开启流控规则。 CPU过载阈值 CPU利用率超过该值时,接口的放通比例开始降低,直到降低至最低放通比例;CPU利用率越高,接口放通比例下降越快。该阈值要求为小数,范围为0~1,支持精度为小数点后四位。 CPU恢复阈值 CPU利用率小于该值时,接口的放通比例开始恢复,直到恢复至100%;CPU利用率越低,接口放通比例恢复越快。该阈值要求为小数,范围为0~1,支持精度为小数点后四位,并且小于CPU过载阈值。 最低放通比例 配置各个接口等级对应的最低放通比例,在CPU始终处于过载状态时,仍然能放通该比例的请求。 范围为0~1,支持精度为小数点后四位。 在弹出框中单击“确认”。
  • 调优配置方法 在“异常检测”页面,单击异常检测任务所在行“操作”列的“模型”,默认显示“算法配置”页签,参考表1配置参数。 表1 算法配置参数说明 算法类型 参数名称 参数含义 取值范围 参数说明 配置建议 boxplot_ad动态阈值算法 sensitivity 敏感度 0-10 默认值5 敏感度参数越高,阈值线越紧;敏感度参数越低,阈值线越松。 敏感度参数最高不超过5.5,最低不低于3.5;一般配置4.5或者5。 请求量指标因为使用了新的算法,敏感度可以在0.5—5之间调节。 时延、请求量、速率类指标敏感度每降低0.5,阈值线相对浮动3%,绝对浮动3。 成功率、失败率指标敏感度每降低0.5,阈值线相对浮动0.3%,绝对浮动0.3%。 low_count_threshold 小请求量 0- 100000000 默认值0 请求量低于此参数值时毛刺告警、波动性不生效;其他类型的告警依然生效。 如果毛刺告警较多,可以配置该参数。 count_threshold 请求量保护 0-100000000 默认值100000000 请求量低于此参数值时,完全不告警。 一般情况下不建议配置,请谨慎配置,且对请求量类指标不生效。 no_model_threshold_upper 无模型阈值上限 0-100000000 默认值100000000 无模型时配置的阈值上限(固定阈值线)。 对于新增的接口,因为没有历史数据,无法训练出该接口的模型,此时可以配置合适的值用来监控此类接口。 no_model_threshold_lower 无模型阈值下限 0-100000000 默认值0 无模型时配置的阈值下限(固定阈值线)。 对于新增的接口,因为没有历史数据,无法训练出该接口的模型,此时可以配置合适的值用来监控此类接口。 alert_by_std 波动性告警 True/False 默认为True 非请求量类指标参数,通过该参数设置是否引入波动性告警。 - alert_by_chain 突变告警 True/False 默认为True 请求量类指标参数,通过该参数设置是否引入突变告警。 - alert_by_drop_to_0 长时间掉0告警 True/False 默认为True 请求量类指标参数,通过该参数设置是否引入长时间掉0告警。 - alert_by_spikes 毛刺告警 True/False 默认为True 所有指标参数,通过该参数设置是否引入毛刺告警。 - small_sample_threshold brand算法阈值 0-1000000 默认值100 brand算法阈值,小于该阈值, 则使用brand算法,否则使用boxplot算法。 - fixed_threshold固定阈值算法 filled_value 补充值 0-100000000 默认值1 缺值时补值,补值不会产生告警,只用于前端展示。(必填值,与指标类型同等重要) 成功率指标填1;失败率填0;时延填合适的值(比上阈值线小即可);速率填合适的值(比下阈值线大即可);请求量类型保持默认值即可。 threshold_upper 阈值上限 0-100000000 默认值100000000 配置的固定阈值上限。 - threshold_lower 阈值下限 0-100000000 默认值100000000 配置的固定阈值下限。 - annomaly_in_mins 告警进入时间 0-30 默认10分钟 告警进入时间,单位分钟。 - annomaly_out_mins 告警退出时间 0-30 默认10分钟 告警退出时间,单位分钟。 - count_threshold 请求量保护参数 0-100000000 默认值0 请求量保护参数,低于这个值不告警;对请求量类型指标不生效。 -
  • 调优策略 最常见告警 长时间低(高)于阈值线告警,如图1所示。 图1 常见告警 告警进入条件:一般8分钟内有7个点异常告警进入。 告警退出条件:20分钟内有18个点正常则告警退出。 调优方法: 调节sensitivity敏感度参数,可以使小幅度下降的异常不告警,针对阈值线过紧的情况,图1的异常通过敏感度调节不了,因为阈值线相对是合理的 配置count_threshold参数,如果不关注请求量很少的异常,可以配置该参数,建议非必要情况下不要配置该参数,可能会出现遗漏告警的情况。 毛刺告警 两三个显著的毛刺点异常,如图2所示。 图2 毛刺告警 告警进入条件:穿过阈值线的毛刺异常程度,最快在第2个毛刺点告警。 告警退出条件:20分钟内有18个点正常则告警退出。 调优方法: 如果对请求量很少的接口,毛刺异常不关注,可以配置low_count_threshold参数,如图2中告警的曲线请求量不超过30,可以配置改参数为30。 如果不管请求量多少,都不需要毛刺类告警,则可以配置alert_by_spikes参数。毛刺类告警最快可以将告警时间缩短为2分钟,如果屏蔽掉这类告警,则按照其他的告警类型会有一定的延迟(一般7分钟)。 突变告警 突变告警只针对请求量类指标,特点是请求量曲线发生突变(突增或者突降)同时指标曲线没有触及阈值线,如图3所示。 图3 突变告警 告警进入条件:局部看曲线发生突变(默认突变20%),或者长期看相比历史降低或升高。 告警退出条件:数据平稳后告警退出,一般会持续18分钟。 调优方法: 通过配置alert_by_chain参数可以控制是否加入突变检测。突变告警可以防止阈值线学习宽松条件下指标突变的漏告警,但对于不关注阈值线之上数据突变的指标会产生一些不必要的告警。 波动性告警 波动性告警只针对非请求量类指标,这类告警的特点是指标曲线没有触及阈值线,如图4所示。 图4 波动性告警 告警进入条件:局部看曲线波动变大,或者长期看相比历史数据持续降低或升高。 告警退出条件:数据恢复到历史同期水平,持续18分钟则告警退出。 调优方法: 对于小幅度的波动和下降(上升)告警可以通过调节sensitivity敏感度来减少部分告警。 如果不关注这类异常,可以通过配置alert_by_std参数来实现。波动性告警可以防止阈值线学习宽松条件下指标小幅波动的漏告警,但对于不关注阈值线之上数据波动的指标会产生一些不必要的告警。 长时间掉0告警 长时间掉0告警只针对请求量类指标,特点是阈值线为0,测量值长时间掉0,如图5所示。 图5 长时间掉0告警 告警进入条件:历史同时期没有掉0,或者掉0时间持续28分钟。 告警退出条件:数据恢复到正常水平则告警退出。 调优方法: 如果这类告警频繁出现,可以通过配置alert_by_drop_to_0参数屏蔽。长时间掉0告警可以防止阈值线为零的情况下指标长时间掉零的漏告警。
  • 步骤五:配置告警 在异常检测任务列表,单击任务所在行“操作”列的“告警”,默认显示“告警配置”页签。 告警基础配置。 表9 动态阈值算法配置参数说明 参数名称 参数说明 推送状态 设置告警推送状态,将异常检测生成的告警推送到告警模块,会展示在告警列表中。 INACTIVE:不推送,单击“Start”,可以设置为推送。 ACTIVE:推送,单击“Stop”,可以设置为不推送。 告警级别 设置该异常检测任务生成的告警的级别,对应告警模块。 critical:紧急 major:严重 minor:一般 notice:提示 告警名称 告警信息发送时展示的名称,可以设置告警名称或告警中文名称。 告警中文名称 告警信息发送时展示的名称,可以设置告警名称或告警中文名称。 阈值类型 设置判断阈值类型。 upper:数据高于模型预测上限值时产生告警。 lower:数据低于模型预测下限值时产生告警。 both:数据介于模型预测值之间时产生告警。 阈值类型配置需根据模型配置中的“metric_type(指标类型)”进行选择,如下所示: 成功率(success_rate)、速率(speed)、请求量下限(count_lowerlimit)配置下限(lower)。 时延(delay)、失败率(fail_rate)、请求量上限(count_upperlimit)配置上限(upper)。 请求量(count)可任意配置both/upper/lower。 自定义告警消息列 配置生成的告警字段,下拉列表可选字段为训练结果表中存在的字段,一般选择维度字段、指标测量值、上下限阈值(带有origin的字段)和告警类型(alert_type:长时间超过阈值线告警、毛刺告警、波动性告警、突变告警、掉零告警、小样本告警等)。选择后可以单击“Json Demo”或者“Text Demo”自动生成告警消息模板,如图2所示。 也可根据用户需要自定义。需要注意的是,模板中的变量写法为${字段名},最终生成的消息内容是将结果表中对应字段内容直接替换得到,如果某个字段值获取失败,请检查字段名称是否一致或结果表中数据是否异常。 图2 自定义告警消息列设置 自定义警报消息模板 根据自定义告警消息列设置的数据生成。 指定告警领域 如果本服务下不需要接收该告警信息,但其他某个服务需要接收,可以在这里指定对方的告警领域,将告警通知到对应服务中。 (可选)默认为不降级,可以开启降级配置按钮,并设置告警降级的生效时间段、请求量、指标量和持续时间,会按照设置降低生成告警的级别。 (可选)可以按服务ID设置告警路由,或自定义告警路由规则,如需配置请联系技术支持工程师。
  • 步骤二:配置数据来源 在异常检测任务列表,单击任务所在行“操作”列的“数据”。 在数据配置页面,选择异常检测数据类型,然后配置对应的参数,配置完成后,单击“保存”。 数据类型选择Warehouse,即选择指标仓库中的视图作为异常检测数据,如果是小时级、天级任务可使用该数据类型。选择Warehouse数据类型后,需要配置如所示参数。 表2 Warehouse类型参数说明 参数名称 参数说明 视图 选择指标仓库中已创建的异常检测视图,具体操作请参考为指标创建视图。 指标 选择指标仓库中已创建的指标,具体操作请参考在指标仓库创建指标。 调度集群 选择异常检测任务调度集群,初始化监控服务时会自动分配两个调度集群, scheduleCluster-ops:数据汇聚任务使用。 scheduleCluster-ops-ad:异常检测任务使用。 Mppdb集群 选择Mppdb集群。 Mppdb数据库 选择Mppdb数据库。 Mppdb数据表 选择已创建的Mppdb数据表,具体操作请参考创建数据表。 数据类型选择Indicator,即选择指标仓库中的指标作为异常检测数据。选择Indicator数据类型后,需要配置如所示参数。 表3 Indicator类型参数说明 参数名称 参数说明 调度集群 选择异常检测任务调度集群,初始化监控服务时会自动分配两个调度集群, scheduleCluster-ops:数据汇聚任务使用。 scheduleCluster-ops-ad:异常检测任务使用。 指标 选择指标仓库中已创建的指标,具体操作请参考在指标仓库创建指标。 维度列表 选择维度列,可多选。 Mppdb集群 选择Mppdb集群。 Mppdb数据库 选择Mppdb数据库。 Mppdb数据表 选择已创建的Mppdb数据表,具体操作请参考创建数据表。 数据类型选择Other,即选择Mppdb表作为异常检测数据。选择Other数据类型后,需要配置如所示参数。 表4 Other类型参数说明 参数名称 参数说明 调度集群 选择异常检测任务调度集群,初始化监控服务时会自动分配两个调度集群, scheduleCluster-ops:数据汇聚任务使用。 scheduleCluster-ops-ad:异常检测任务使用。 Mppdb集群 选择Mppdb集群。 Mppdb数据库 选择Mppdb数据库。 Mppdb数据表 选择已创建的Mppdb数据表,具体操作请参考创建数据表。
  • 步骤三:配置基础数据 在异常检测任务列表,单击任务所在行“操作”列的“基础”。 在基础配置页面,默认显示新增任务时配置的信息,单击“字段配置”,切换至“字段配置”页签。 配置对应的参数,配置完成后,单击“确认”。 表5 基础数据参数说明 参数名称 参数说明 时间列 指定异常检测哪个列的数据是时间。 指标列 指定异常检测哪个列的数据是指标,即异常检测需要监控的指标。 计数列 指定异常检测哪个列的数据是请求量。 补充列 可以选择补充异常检测数据列。 维度 指定对哪些维度进行检测。 列名:指定维度列名,如需新增维度,可单击“+”号。 维度值:提供两种输入方式。 单击“获取动态值”,在“维度名-值筛选器”页面单击“保存”,动态获取维度值。如需手动修改,单击“打开编辑器”进行修改,可以手动过滤不需要的维度值。 单击“打开编辑器”,在“维度值-编辑”页面输入指定的维度值,并单击“Save”。 输入的维度值数量需要与定义的维度列数一致,否则无法保存该基础配置。 自动更新:如需动态更新维度,可以打开该按钮,并选择自动更新间隔周期。 维度筛选器 可以指定对某些维度组合对应的指标进行告警,或过滤某些维度。
  • 步骤二:创建日志空间 在“日志接入”页面,选择左侧导航栏的“日志空间”。 单击“申请实时日志空间”。 根据界面提示填写日志空间参数。 配置实时日志空间信息,参数说明如表2所示,配置完成后,单击“下一步”。 表2 实时日志空间信息参数说明 参数名称 参数说明 空间名称 自定义日志空间名称,建议包含日志类型语义。 空间描述 输入日志空间描述,非必填项。 日志类型 选择需接入的日志类型,该日志空间中接入的日志数据“logType”字段会根据选择的日志类型生成。不同日志类型所对应的“logType”字段如下: 访问日志:AC CES S_ LOG 接口日志:INTERFACE_LOG 错误日志:ERROR_LOG 异常日志:EXCEPTION_LOG 安全日志:SAFE_LOG 资源日志:RESOURCE_LOG 运行日志:RUN_LOG 话单日志:CDR_LOG 指标日志:METRICS_LOG GC日志:GC_LOG HCW日志:HCW_LOG 日志大小 预计一天的日志量,默认为1GB。 开启日志检索 如果需要使用日志检索功能,可以打开该开关,并创建导流任务,创建导流任务后可以在“日志检索”页面查看日志。 如果创建时没有打开日志检索开关,后续编辑打开该开关,需要手动创建或绑定检索空间表。 单击该空间所在行“操作”列的,选择“日志空间表管理”并切换至“检索空间表”页签,单击右上角的“创建新空间表”或“选择已有空间表”,手动为该日志空间创建或绑定检索空间表,然后单击列表“操作”列的“上线”。 检索空间类型 选择ClickHouse。 原索引名称(ClickHouse) 可选择现有的ClickHouse,如果不填会自动生成。 配置实时日志字段信息,参数说明如表3所示,配置完成后,单击“下一步”。 表3 实时日志字段信息参数说明 参数名称 参数说明 自定义字段 必须接入的日志字段已默认勾选,可以勾选其他需要接入的日志字段,包括通用字段、容器字段和虚机字段。 新增自定义环境变量 如需添加自定义环境变量,请选择环境变量名,然后单击“添加”。虚机暂无可选自定义环境变量。 清洗规则 选择日志清洗规则。 请优先使用算子清洗模式采样,通过配置解析脚本将原始日志清洗为业务需要的日志字段,算子清洗功能及使用样例请参见算子清洗功能介绍。原始日志采样清洗只适用于单纯采样,不需要清洗的场景。 如果创建时选择“无清洗”,后续编辑选择对日志进行清洗,需要手动创建或绑定异常存储空间表。 单击该空间所在行“操作”列的,选择“日志空间表管理”并切换至“异常存储空间表”页签,单击右上角的“创建新空间表”或“选择已有空间表”,手动为该日志空间创建或绑定异常存储空间表,然后单击列表“操作”列的“上线”。 日志样例 输入日志样例。 解析脚本 配置解析脚本,将日志样例清洗为字段显示,具体算子功能及使用样例请参见算子清洗功能介绍。 配置解析脚本时字段命名不支持使用中划线“-”,支持使用下划线“_”。 清洗字段 配置解析脚本后单击“配置解析脚本”,自动生成清洗字段,查看字段是否符合预期。 开启汇聚 选择是否开启日志汇集,如果日志量较大且不需要关注原始日志时可以进行日志汇集。 开启后会自动创建用于存储汇聚数据的Topic,同时需要配置汇集相关参数。 汇聚粒度 开启汇聚后,需要设置汇集粒度。支持分钟级和秒级数据汇聚。选择分钟级,每一分钟会生成一个统计点,选择秒级,每一秒会生成一个统计点。 汇聚时间戳 仅支持时间戳格式字段timestamp,获取当前计算的日志的时间。 时间戳格式 选择时间戳格式。支持秒、毫秒、纳秒级时间戳,获取当前计算的日志的时间格式。 汇聚维度 结合业务场景需要,选择日志是以哪些日志字段进行日志汇聚,支持多选。 汇聚度量 设置对日志字段以COUNT、SUM、MAX、MIN进行度量。 原始字段是日志中的字段,用来获取原始值;度量字段是用户自定义字段名,计算后,度量的值会赋值给该字段。 输出原始日志 选择是否需要输出原始日志。如果打开输出原始日志,原始日志也会上报。 日志字段确认,确认日志字段配置是否达到预期,已达到预期,单击“下一步”。 其中字段来源COMMON表示通用字段、CONTAINER表示容器字段、VM表示虚机字段。 申请日志空间共享,如果需要其他服务共用这个空间进行日志下发和日志检索,可以添加共享服务。配置完成后,单击“保存”。