云服务器内容精选

  • 支持采集的Windows主机监控指标 当前支持采集的监控指标如表2所示。 表2 Windows主机监控指标说明 指标名称 指标含义 取值范围 单位 ops_node_cpu_usage 该指标用于统计测量对象的CPU使用率。 0~100% 百分比(Percent) ops_node_cpu_limit_core 该指标用于统计测量对象申请的CPU核总量。 ≥1 核(Core) ops_node_cpu_used_core 该指标用于统计测量对象已经使用的CPU核个数。 ≥0 核(Core) ops_node_disk_capacity_megabytes 总的磁盘空间容量。 ≥0 兆字节(Megabytes) ops_node_disk_available_capacity_megabytes 还未经使用的磁盘空间。 ≥0 兆字节(Megabytes) ops_node_disk_usage 已使用的磁盘空间占总的磁盘空间容量百分比。 ≥0 百分比(Percent) ops_node_virtual_memory_total_megabytes 该指标用于统计测量对象上的虚拟内存总量。 ≥0 兆字节(Megabytes) ops_node_virtual_memory_usage 该指标用于统计测量对象已使用虚拟内存占虚拟内存总量的百分比。 0~100% 百分比(Percent) ops_node_memory_total_megabytes 该指标用于统计测量申请的物理内存总量。 ≥0 兆字节(Megabytes) ops_node_virtual_memory_free_megabytes 该指标用于统计测量对象上的尚未被使用的虚拟内存。 ≥0 兆字节(Megabytes) ops_node_memory_free_megabytes 该指标用于统计测量对象上的尚未被使用的物理内存。 ≥0 兆字节(Megabytes) ops_node_memory_usage 该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。 0~100% 百分比(Percent) ops_node_process_number 该指标用于统计测量对象上的进程数量。 ≥0 无 ops_node_network_receive_bytes 该指标用于统计测试对象的入方向网络流速。 ≥0 字节/秒(Bytes/Second) ops_node_network_receive_packets 每秒网卡接收的数据包个数。 ≥0 个/秒(Packets/Second) ops_node_network_receive_error_packets 每秒网卡接收的错误包个数。 ≥0 个/秒(Packets/Second) ops_node_network_transmit_bytes 该指标用于统计测试对象的出方向网络流速。 ≥0 字节/秒(Bytes/Second) ops_node_network_transmit_packets 每秒网卡发送的数据包个数。 ≥0 个/秒(Packets/Second) ops_node_network_transmit_error_packets 每秒网卡发送的错误包个数。 ≥0 个/秒(Packets/Second) ops_node_network_total_bytes 该指标用于统计测试对象出方向和入方向的网络流速之和。 ≥0 字节/秒(Bytes/Second) ops_node_network_total_packets 每秒网卡处理的数据包个数。 ≥0 个/秒(Packets/Second) ops_node_disk_read_kilobytes 该指标用于统计每秒从磁盘读出的数据量。 ≥0 千字节/秒(Kilobytes/Second) ops_node_disk_write_kilobytes 该指标用于统计每秒写入磁盘的数据量。 ≥0 千字节/秒(Kilobytes/Second) ops_node_disk_read_io_num 该指标用于统计每秒从磁盘读的次数。 ≥0 个/秒(Packets/Second) ops_node_disk_write_io_num 该指标用于统计每秒向磁盘写的次数。 ≥0 个/秒(Packets/Second) ops_node_disk_kilobytes 该指标用于统计每秒磁盘的IO数据量。 ≥0 千字节/秒(Kilobytes/Second) ops_node_disk_util 该指标用于统计磁盘使用时间。 ≥0 百分比(Percent)
  • 前提条件 已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 已准备环境并启用,服务环境管理列表显示已启用环境,具体操作请参见为资源接入准备环境。 已纳管主机,具体操作请参见将资源接入AppStage运维中心。 已创建虚拟机集群,具体操作请参见创建虚拟机集群。 已使用开发中心推包或者手动上传软件包及IaC3.0包。 已准备变更电子流,具体操作请参见创建运维中心变更电子流,仅电子流中设置的变更实施人可使用该电子流进行变更部署。
  • 其他报表开发功能介绍 功能 功能介绍 添加告警数据图表 可以对告警数据生成图表并添加在报表中。 在“告警配置”,单击“保存”,系统会自动生成告警图表“_alertlist-_alert”。 在报表编辑页面,单击“配置图表”选择该图表,将告警数据展示在报表中。 配置报表查询条件 在报表编辑页面,单击“配置查询条件”可以配置页面的查询条件,目前每个页面最多支持配3个查询框,查询字段可以从数据源自动获取,也可以自定义输入。 新增辅助图形 在报表编辑页面,单击“新增辅助图形”,可以对图表进行组合,也可以为报表新增标题框、背景框和时钟。 切换至预览模式 进入报表编辑页面,默认为编辑模式,单击“切换至预览模式”,可以切换至预览模式,查看编辑效果。 画辅助线 在报表编辑页面,单击“画辅助线”,可以选择多种辅助线,便于编辑页面时对页面报表布局。 保存业务报表 在报表编辑页面,单击“保存”,保存已开发的业务报表。 发布业务报表 在报表编辑页面,单击“发布”,发布业务报表,发布后服务下所有用户可以在“业务报表”页面查看该报表。 下线业务报表 在报表编辑页面,单击“下线”,下线业务报表后将不会展示在“业务报表”页面。 复制业务报表 在报表编辑页面,单击“复制”,可以复制已开发的业务报表。
  • 事件单处理说明 事件单不同处理方式说明如表1所示。 表1 事件单处理类型说明 处理类型 说明 标记处理 标记事件单,标记处理后事件单状态会变为“待验证”,并走给提单人进行验证,验证操作如下: 验证通过:验证通过后事件单处理完成,事件单关闭。 验证不通过:重新走给处理人进行处理。 移交处理 将事件单移交给其他人处理。 退回申请 将事件单退回给提单人,提交人可以处理后重新提交。 暂停申请 将事件单暂停,暂停申请后事件单状态会变为“待暂停”,并走给提单人确认,确认操作如下: 同意暂停:事件单暂停。暂停后可以取消暂停,重新走给处理人进行处理。 不同意暂停:重新走给处理人进行处理。 关闭 关闭事件单。
  • 创建事件单 进入AppStage运维中心。 将鼠标悬停在右上角的账号,选择下拉列表中的“工单管理”,默认显示“变更单管理”页面。 单击左侧导航栏的“事件单管理”,进入“事件单管理”页面。 单击“新建”。 配置事件单参数,参数说明如表1所示。 表1 事件单参数说明 参数名称 参数说明 产品 选择产生事件的产品。 服务 选择产生事件的服务。 服务环境 选择产生事件的服务环境。 事件来源 选择事件来源,支持选择配置问题、版本问题、第三方问题、客户报障、告警、变更引入、其他。 事件级别 选择事件所属级别,级别分为P1~P5。 事件名称 输入事件名称。 处理人 选择事件的处理人。 可以参考事件排班表的值班人进行处理。 描述 输入事件的详细描述。 单击“提交”,提交事件单。 提交后事件会进入处理人的待处理事件列表中,并且会根据设置的通知方式通知处理人进行处理。
  • 设置事件单 进入AppStage运维中心。 将鼠标悬停在右上角的账号,选择下拉列表中的“工单管理”,默认显示“变更单管理”页面。 单击左侧导航栏的“设置”,进入“设置”页面。 设置事件单。 设置解决时限:单击“编辑”,设置解决时限后单击“确定”,如图1所示。 图1 设置解决时限 设置通知方式:勾选事件通知方式,支持Welink和手机短信。 如需使用Welink通知,需要先配置运维中心对接华为云 WeLink ,配置后显示该选项。 设置排班表:选择需要配置的服务,双击排班表的具体时间表格,显示“编辑排班表”页面,如图2所示,默认为双击的时间,设置值班人,也可以值班时间,然后单击“确定”。将排班表设置完成后单击“保存”。 图2 设置排班表
  • 新增黑白名单 黑名单规则会直接流控满足规则的请求,白名单规则会放通满足规则的请求。 在流控服务详情页面,选择“黑白名单”页签,单击“新增黑白名单”。 配置黑白名单相关参数,参数说明如表6所示。配置完成后单击“保存”。 表6 新增黑白名单参数说明 参数 说明 资源名称 选择全局黑白名单或具体资源,全局黑白名单不限制微服务/接口,资源黑白名单则限制特定的微服务/接口。 参数名称 参数级规则的参数名。 字符长度0~50,可以由字母、数字、下划线、短横线、点组成,不能包含特殊字符,例:black_rule-001。 名单类型 白名单 黑名单 每个资源或全局黑白名单下,同一参数名称只支持添加黑白名单各一条。 开启黑白名单 选择是否开启黑白名单。 名单列表 黑白名单列表。如果存在多个,使用英文逗号分隔,不允许存在空格。 在弹出框中单击“确认”。
  • 新增流控规则 流控规则支持针对微服务/接口的资源流控、不区分微服务接口的全局参数流控和节点级动态流控规则。 在流控服务详情页面,选择“流控规则”页签,单击“新增流控规则”。 配置流控规则相关参数,配置完成后单击“保存”。 资源流控 表3 资源流控参数说明 参数 说明 限流控制类型 选择资源流控,针对微服务/接口资源进行流控。 资源名称 选择新增资源中创建的资源名称,与微服务/接口绑定,每个资源最多创建4条规则,规则的限流控制类型和是否集群流控不能重复。 流控类别 QPS:每秒速率流控。 配额:特定时间的请求阈值。 限流阈值 流控阈值,整个微服务/接口调用总量的阈值,如果请求总量超过该阈值,后续请求会被流控;0表示不流控。 禁用时间 当限流控制类型为QPS时,显示该参数。 流控后禁用时间内的所有请求不再判断请求量,直接全部流控。 允许的突增量 当限流控制类型为QPS时,显示该参数。 流控突发量,该参数可以调整令牌桶的大小,令牌桶大小为(阈值+突增量)/时间窗口,时间窗口单位为s。 是否集群限流 选择“是”或“否”。开启后对集群内此资源的调用总量进行限制。 集群限流阈值模式 当流控类别为QPS,开启集群限流时,显示该参数。 单机均摊 总体阈值 本地配额缓存数 当流控类别为配额,开启集群限流时,显示该参数。 防止D CS 热点key的参数,可以减少DCS的访问,默认值为5。 该参数需要合理配置,配置过小容易造成热点key问题,配置过大可能导致部分节点放通部分节点流控的问题。 时间窗口 填写时间,单位为秒,表示间隔多少秒允许一个请求通过。默认为1秒,取值范围为1~86400。 是否开启流控规则 选择是否开启流控规则。 新增参数 单击“新增参数”,可以根据需要新增多条流控规则。 参数名称:参数级规则的参数名。 限流阈值:默认的参数阈值,如果没有指定参数值,都按该阈值进行流控。 单击新增参数列表前的,单击“新增参数值”,可以为参数配置多条参数值。 参数值:参数级规则的参数值。 参数阈值:指定的参数值按该阈值进行流控。 全局参数流控 全局参数流控规则与资源流控的参数级规则含义类似,仅不对微服务/接口做限制。 表4 全局参数流控参数说明 参数 说明 限流控制类型 选择全局参数 参数名称 填写参数名称。 流控类别 QPS:每秒速率流控。 配额:特定时间的请求阈值。 限流阈值 流控阈值,默认的参数阈值,如果没有指定参数值,都按该阈值进行流控。 禁用时间 当限流控制类型为QPS时,显示该参数。 流控后禁用时间内的所有请求不再判断请求量,直接全部流控。 允许的突增量 当限流控制类型为QPS时,显示该参数。 流控突发量,该参数可以调整令牌桶的大小,令牌桶大小为(阈值+突增量)/时间窗口,时间窗口单位为s。 是否集群限流 选择“是”或“否”。开启后对集群内此资源的调用总量进行限制。 集群限流阈值模式 当流控类别为QPS,开启集群限流时,显示该参数。 单机均摊 总体阈值 本地配额缓存数 当流控类别为配额,开启集群限流时,显示该参数。 防止DCS热点key的参数,可以减少DCS的访问,默认值为5。 该参数需要合理配置,配置过小容易造成热点key问题,配置过大可能导致部分节点放通部分节点流控的问题。 时间窗口 填写时间,单位为秒,表示间隔多少秒允许一个请求通过。默认为1秒,取值范围为1~86400。 是否开启流控规则 选择是否开启流控规则。 新增参数 单击“新增参数值”,配置多条参数值。 参数值:参数级规则的参数值。 参数阈值:指定的参数值按该阈值进行流控。 节点级动态流控 表5 节点级动态流控参数说明 参数 说明 限流控制类型 选择节点级动态流控。 是否开启流控规则 选择是否开启流控规则。 CPU过载阈值 CPU利用率超过该值时,接口的放通比例开始降低,直到降低至最低放通比例;CPU利用率越高,接口放通比例下降越快。该阈值要求为小数,范围为0~1,支持精度为小数点后四位。 CPU恢复阈值 CPU利用率小于该值时,接口的放通比例开始恢复,直到恢复至100%;CPU利用率越低,接口放通比例恢复越快。该阈值要求为小数,范围为0~1,支持精度为小数点后四位,并且小于CPU过载阈值。 最低放通比例 配置各个接口等级对应的最低放通比例,在CPU始终处于过载状态时,仍然能放通该比例的请求。 范围为0~1,支持精度为小数点后四位。 在弹出框中单击“确认”。
  • 调优配置方法 在“异常检测”页面,单击异常检测任务所在行“操作”列的“模型”,默认显示“算法配置”页签,参考表1配置参数。 表1 算法配置参数说明 算法类型 参数名称 参数含义 取值范围 参数说明 配置建议 boxplot_ad动态阈值算法 sensitivity 敏感度 0-10 默认值5 敏感度参数越高,阈值线越紧;敏感度参数越低,阈值线越松。 敏感度参数最高不超过5.5,最低不低于3.5;一般配置4.5或者5。 请求量指标因为使用了新的算法,敏感度可以在0.5—5之间调节。 时延、请求量、速率类指标敏感度每降低0.5,阈值线相对浮动3%,绝对浮动3。 成功率、失败率指标敏感度每降低0.5,阈值线相对浮动0.3%,绝对浮动0.3%。 low_count_threshold 小请求量 0- 100000000 默认值0 请求量低于此参数值时毛刺告警、波动性不生效;其他类型的告警依然生效。 如果毛刺告警较多,可以配置该参数。 count_threshold 请求量保护 0-100000000 默认值100000000 请求量低于此参数值时,完全不告警。 一般情况下不建议配置,请谨慎配置,且对请求量类指标不生效。 no_model_threshold_upper 无模型阈值上限 0-100000000 默认值100000000 无模型时配置的阈值上限(固定阈值线)。 对于新增的接口,因为没有历史数据,无法训练出该接口的模型,此时可以配置合适的值用来监控此类接口。 no_model_threshold_lower 无模型阈值下限 0-100000000 默认值0 无模型时配置的阈值下限(固定阈值线)。 对于新增的接口,因为没有历史数据,无法训练出该接口的模型,此时可以配置合适的值用来监控此类接口。 alert_by_std 波动性告警 True/False 默认为True 非请求量类指标参数,通过该参数设置是否引入波动性告警。 - alert_by_chain 突变告警 True/False 默认为True 请求量类指标参数,通过该参数设置是否引入突变告警。 - alert_by_drop_to_0 长时间掉0告警 True/False 默认为True 请求量类指标参数,通过该参数设置是否引入长时间掉0告警。 - alert_by_spikes 毛刺告警 True/False 默认为True 所有指标参数,通过该参数设置是否引入毛刺告警。 - small_sample_threshold brand算法阈值 0-1000000 默认值100 brand算法阈值,小于该阈值, 则使用brand算法,否则使用boxplot算法。 - fixed_threshold固定阈值算法 filled_value 补充值 0-100000000 默认值1 缺值时补值,补值不会产生告警,只用于前端展示。(必填值,与指标类型同等重要) 成功率指标填1;失败率填0;时延填合适的值(比上阈值线小即可);速率填合适的值(比下阈值线大即可);请求量类型保持默认值即可。 threshold_upper 阈值上限 0-100000000 默认值100000000 配置的固定阈值上限。 - threshold_lower 阈值下限 0-100000000 默认值100000000 配置的固定阈值下限。 - annomaly_in_mins 告警进入时间 0-30 默认10分钟 告警进入时间,单位分钟。 - annomaly_out_mins 告警退出时间 0-30 默认10分钟 告警退出时间,单位分钟。 - count_threshold 请求量保护参数 0-100000000 默认值0 请求量保护参数,低于这个值不告警;对请求量类型指标不生效。 -
  • 调优策略 最常见告警 长时间低(高)于阈值线告警,如图1所示。 图1 常见告警 告警进入条件:一般8分钟内有7个点异常告警进入。 告警退出条件:20分钟内有18个点正常则告警退出。 调优方法: 调节sensitivity敏感度参数,可以使小幅度下降的异常不告警,针对阈值线过紧的情况,图1的异常通过敏感度调节不了,因为阈值线相对是合理的 配置count_threshold参数,如果不关注请求量很少的异常,可以配置该参数,建议非必要情况下不要配置该参数,可能会出现遗漏告警的情况。 毛刺告警 两三个显著的毛刺点异常,如图2所示。 图2 毛刺告警 告警进入条件:穿过阈值线的毛刺异常程度,最快在第2个毛刺点告警。 告警退出条件:20分钟内有18个点正常则告警退出。 调优方法: 如果对请求量很少的接口,毛刺异常不关注,可以配置low_count_threshold参数,如图2中告警的曲线请求量不超过30,可以配置改参数为30。 如果不管请求量多少,都不需要毛刺类告警,则可以配置alert_by_spikes参数。毛刺类告警最快可以将告警时间缩短为2分钟,如果屏蔽掉这类告警,则按照其他的告警类型会有一定的延迟(一般7分钟)。 突变告警 突变告警只针对请求量类指标,特点是请求量曲线发生突变(突增或者突降)同时指标曲线没有触及阈值线,如图3所示。 图3 突变告警 告警进入条件:局部看曲线发生突变(默认突变20%),或者长期看相比历史降低或升高。 告警退出条件:数据平稳后告警退出,一般会持续18分钟。 调优方法: 通过配置alert_by_chain参数可以控制是否加入突变检测。突变告警可以防止阈值线学习宽松条件下指标突变的漏告警,但对于不关注阈值线之上数据突变的指标会产生一些不必要的告警。 波动性告警 波动性告警只针对非请求量类指标,这类告警的特点是指标曲线没有触及阈值线,如图4所示。 图4 波动性告警 告警进入条件:局部看曲线波动变大,或者长期看相比历史数据持续降低或升高。 告警退出条件:数据恢复到历史同期水平,持续18分钟则告警退出。 调优方法: 对于小幅度的波动和下降(上升)告警可以通过调节sensitivity敏感度来减少部分告警。 如果不关注这类异常,可以通过配置alert_by_std参数来实现。波动性告警可以防止阈值线学习宽松条件下指标小幅波动的漏告警,但对于不关注阈值线之上数据波动的指标会产生一些不必要的告警。 长时间掉0告警 长时间掉0告警只针对请求量类指标,特点是阈值线为0,测量值长时间掉0,如图5所示。 图5 长时间掉0告警 告警进入条件:历史同时期没有掉0,或者掉0时间持续28分钟。 告警退出条件:数据恢复到正常水平则告警退出。 调优方法: 如果这类告警频繁出现,可以通过配置alert_by_drop_to_0参数屏蔽。长时间掉0告警可以防止阈值线为零的情况下指标长时间掉零的漏告警。
  • 步骤五:配置告警 在异常检测任务列表,单击任务所在行“操作”列的“告警”,默认显示“告警配置”页签。 告警基础配置。 表9 动态阈值算法配置参数说明 参数名称 参数说明 推送状态 设置告警推送状态,将异常检测生成的告警推送到告警模块,会展示在告警列表中。 INACTIVE:不推送,单击“Start”,可以设置为推送。 ACTIVE:推送,单击“Stop”,可以设置为不推送。 告警级别 设置该异常检测任务生成的告警的级别,对应告警模块。 critical:紧急 major:严重 minor:一般 notice:提示 告警名称 告警信息发送时展示的名称,可以设置告警名称或告警中文名称。 告警中文名称 告警信息发送时展示的名称,可以设置告警名称或告警中文名称。 阈值类型 设置判断阈值类型。 upper:数据高于模型预测上限值时产生告警。 lower:数据低于模型预测下限值时产生告警。 both:数据介于模型预测值之间时产生告警。 阈值类型配置需根据模型配置中的“metric_type(指标类型)”进行选择,如下所示: 成功率(success_rate)、速率(speed)、请求量下限(count_lowerlimit)配置下限(lower)。 时延(delay)、失败率(fail_rate)、请求量上限(count_upperlimit)配置上限(upper)。 请求量(count)可任意配置both/upper/lower。 自定义告警消息列 配置生成的告警字段,下拉列表可选字段为训练结果表中存在的字段,一般选择维度字段、指标测量值、上下限阈值(带有origin的字段)和告警类型(alert_type:长时间超过阈值线告警、毛刺告警、波动性告警、突变告警、掉零告警、小样本告警等)。选择后可以单击“Json Demo”或者“Text Demo”自动生成告警消息模板,如图2所示。 也可根据用户需要自定义。需要注意的是,模板中的变量写法为${字段名},最终生成的消息内容是将结果表中对应字段内容直接替换得到,如果某个字段值获取失败,请检查字段名称是否一致或结果表中数据是否异常。 图2 自定义告警消息列设置 自定义警报消息模板 根据自定义告警消息列设置的数据生成。 指定告警领域 如果本服务下不需要接收该告警信息,但其他某个服务需要接收,可以在这里指定对方的告警领域,将告警通知到对应服务中。 (可选)默认为不降级,可以开启降级配置按钮,并设置告警降级的生效时间段、请求量、指标量和持续时间,会按照设置降低生成告警的级别。 (可选)可以按服务ID设置告警路由,或自定义告警路由规则,如需配置请联系技术支持工程师。
  • 步骤二:配置数据来源 在异常检测任务列表,单击任务所在行“操作”列的“数据”。 在数据配置页面,选择异常检测数据类型,然后配置对应的参数,配置完成后,单击“保存”。 数据类型选择Warehouse,即选择指标仓库中的视图作为异常检测数据,如果是小时级、天级任务可使用该数据类型。选择Warehouse数据类型后,需要配置如所示参数。 表2 Warehouse类型参数说明 参数名称 参数说明 视图 选择指标仓库中已创建的异常检测视图,具体操作请参考为指标创建不同类型的视图。 指标 选择指标仓库中已创建的指标,具体操作请参考在运维中心指标仓库创建指标。 调度集群 选择异常检测任务调度集群,初始化监控服务时会自动分配两个调度集群, scheduleCluster-ops:数据汇聚任务使用。 scheduleCluster-ops-ad:异常检测任务使用。 Mppdb集群 选择Mppdb集群。 Mppdb数据库 选择Mppdb数据库。 Mppdb数据表 选择已创建的Mppdb数据表,具体操作请参考在监控服务创建数据表。 数据类型选择Indicator,即选择指标仓库中的指标作为异常检测数据。选择Indicator数据类型后,需要配置如所示参数。 表3 Indicator类型参数说明 参数名称 参数说明 调度集群 选择异常检测任务调度集群,初始化监控服务时会自动分配两个调度集群, scheduleCluster-ops:数据汇聚任务使用。 scheduleCluster-ops-ad:异常检测任务使用。 指标 选择指标仓库中已创建的指标,具体操作请参考在运维中心指标仓库创建指标。 维度列表 选择维度列,可多选。 Mppdb集群 选择Mppdb集群。 Mppdb数据库 选择Mppdb数据库。 Mppdb数据表 选择已创建的Mppdb数据表,具体操作请参考在监控服务创建数据表。 数据类型选择Other,即选择Mppdb表作为异常检测数据。选择Other数据类型后,需要配置如所示参数。 表4 Other类型参数说明 参数名称 参数说明 调度集群 选择异常检测任务调度集群,初始化监控服务时会自动分配两个调度集群, scheduleCluster-ops:数据汇聚任务使用。 scheduleCluster-ops-ad:异常检测任务使用。 Mppdb集群 选择Mppdb集群。 Mppdb数据库 选择Mppdb数据库。 Mppdb数据表 选择已创建的Mppdb数据表,具体操作请参考在监控服务创建数据表。
  • 步骤三:配置基础数据 在异常检测任务列表,单击任务所在行“操作”列的“基础”。 在基础配置页面,默认显示新增任务时配置的信息,单击“字段配置”,切换至“字段配置”页签。 配置对应的参数,配置完成后,单击“确认”。 表5 基础数据参数说明 参数名称 参数说明 时间列 指定异常检测哪个列的数据是时间。 指标列 指定异常检测哪个列的数据是指标,即异常检测需要监控的指标。 计数列 指定异常检测哪个列的数据是请求量。 补充列 可以选择补充异常检测数据列。 维度 指定对哪些维度进行检测。 列名:指定维度列名,如需新增维度,可单击“+”号。 维度值:提供两种输入方式。 单击“获取动态值”,在“维度名-值筛选器”页面单击“保存”,动态获取维度值。如需手动修改,单击“打开编辑器”进行修改,可以手动过滤不需要的维度值。 单击“打开编辑器”,在“维度值-编辑”页面输入指定的维度值,并单击“Save”。 说明: 输入的维度值数量需要与定义的维度列数一致,否则无法保存该基础配置。 自动更新:如需动态更新维度,可以打开该按钮,并选择自动更新间隔周期。 维度筛选器 可以指定对某些维度组合对应的指标进行告警,或过滤某些维度。
  • 步骤四:创建日志配置组 在“日志接入”页面,选择左侧导航栏的“日志配置组”。 单击“创建日志配置组”。 设置日志配置组参数,参数说明如表5所示,配置完成后,单击“确定”。 表5 日志配置组参数说明 参数名称 参数说明 日志配置组名称 自定义日志配置组名称。 安装方式 选择安装方式,推荐使用“DAEMONSET”。 命名空间 当安装方式为“DAEMONSET”时,需要配置服务日志命名空间。 命名空间为hostpath的下一级目录名称,该目录下48小时内有日志文件更新,才会拉取日志采集配置,必须为英文名。 日志项目 选择已创建的日志项目。 配置类型 选择配置类型,即创建日志采集配置时选择的配置类型,根据配置类型会过滤采集配置列表中的数据。 采集配置列表 选择需要下发的配置。
  • 步骤五:安装日志采集插件 在“日志接入”页面,选择左侧导航栏的“集群插件管理”。 在集群列表中单击待安装插件的集群所在行“操作”列的“安装插件”。 在“插件安装”页面配置安装参数,具体内容如下所示,配置完成后,单击“确定”。 输入日志挂载路径:挂载到容器指定挂载点中的容器所在宿主机的文件目录,通常为宿主机上日志文件的hostpath目录。需要设置为单独的文件路径,不能设置为类似于/root、/home等包含有其他文件的目录,并且一个集群只能设置一个挂载路径。 需要对日志挂载路径执行chmod o+rx命令,确保日志采集容器的启动用户拥有该路径的访问权限。 选择主机:选择待安装插件的主机,默认全部勾选进行安装,可以去掉勾选不需要安装插件的主机,且当主机状态为“Active”时才可以正常安装插件。 选择日志配置组:选择日志配置组,安装插件并下发配置。