华为云用户手册

  • 提供现场服务吗? 提供现场及远程交叉服务方式,具体服务方式如下表: L4 L4.5 L6 交付模式 华为云成长型企业数字化转型包集成实施服务 数字化转型包企业ERP集成实施服务 项目管理规划服务-基础版 现场&远程 项目管理规划服务-专业版 现场&远程 集成交付实施服务-基础版 现场&远程 集成交付实施服务-专业版 现场&远程 上线支持服务-基础版 现场&远程 上线支持服务-专业版 现场&远程 父主题: 关于服务交付
  • 使用华为云成长型企业数字化转型包集成实施服务获得的最终交付件是什么? 服务规格 交付件 验收报告 项目管理规划服务-基础版 《SparkPack项目启动会》 《SparkPack项目实施主计划》 《SparkPack项目业务流程设计报告》 《SparkPack项目业务流程设计确认报告》 项目管理规划服务-专业版 《SparkPack项目启动会》 《SparkPack项目实施主计划》 《SparkPack项目业务流程设计报告》 《SparkPack项目业务流程设计确认报告》 集成交付实施服务-基础版 以系统实现为准 《SparkPack项目原型设计确认报告》 集成交付实施服务-专业版 以系统实现为准 《SparkPack项目原型设计确认报告》 上线支持服务-基础版 《SparkPack项目动态数据模板》 《SparkPack项目上线计划》 《SparkPack项目问题清单》 《SparkPack项目系统上线确认报告》 上线支持服务-专业版 《SparkPack项目动态数据模板》 《SparkPack项目上线计划》 《SparkPack项目问题清单》 《SparkPack项目系统上线确认报告》 父主题: 关于服务交付
  • 注意事项 流量计费或峰值带宽计费变更为其他计费方式,新的计费方式将在次日00:00:00生效。 95峰值计费或日峰值月平均计费变更为其他计费方式,新的计费方式将在次月1日00:00:00生效。 您可以在控制台将“95峰值计费或日峰值月平均计费”变更为“流量计费或带宽计费”,如果想要将“流量计费或带宽计费”变更为“95峰值计费或日峰值月平均计费”,请联系华为云大客户经理进行商务洽谈及业务变更。 V0、V1的用户默认只能使用“流量计费”,如需变更为“峰值带宽计费”,请提交工单申请。 在新的计费方式生效前,变更次数不限,系统以最后一次修改为准。
  • 步骤三:创建日志采集配置 在“容器日志接入”页面,选择左侧导航栏的“日志采集配置”。 单击“创建日志采集配置”。 配置日志采集参数,配置完成后,单击“确定”。 新创建的采集配置默认为草稿状态,展示在“草稿”页签下,当配置被微服务使用后,状态会更新为“已下发”,并展示到“已下发”页签下。 表4 日志采集配置参数说明 参数名称 参数说明 日志项目 选择已创建的日志项目,相同服务的不同日志使用同一个日志项目 日志空间 选择已创建的日志空间。选择日志空间时日志提取规则会展示日志空间定义的日志格式,采集的日志须满足对应格式。 配置名称 自定义日志采集配置名称。 配置类型 选择日志采集配置类型,建议选择“FILEBEAT”。 日志类型 输入采集日志类型。 日志路径 填写实际日志路径,可使用通配符进行匹配。 说明: 注意避免同一台主机上下发的多个采集任务重复采集相同的日志文件,会导致filebeat进程异常。 日志TPS TPS表示单实例每秒日志条数,请准确填写,用于推荐资源自动计算。 日志模式 选择日志采集模式,是单行模式还是多行模式。 是否支持软连接 当填写的日志路径为链接路径时,需要开启支持软连接。 首行正则表达式 日志模式选择多行模式时,需要输入首行正则表达式。 日志提取规则 根据填写的配置参数会自动生成提取规则。
  • 步骤二:创建日志空间 在“容器日志接入”页面,选择左侧导航栏的“日志空间”。 单击“申请实时日志空间”。 根据界面提示填写日志空间参数。 配置实时日志空间信息,参数说明如表2所示,配置完成后,单击“下一步”。 表2 实时日志空间信息参数说明 参数名称 参数说明 空间名称 自定义日志空间名称,建议包含日志类型语义。 空间描述 输入日志空间描述,非必填项。 日志类型 选择需接入的日志类型。 日志大小 预计一天的日志量,默认为1GB。 开启日志检索 如果需要使用日志检索功能,可以打开该开关。 检索空间类型 选择ClickHouse。 原索引名称(ClickHouse) 可选择现有的ClickHouse,如果不填会自动生成。 TTL 日志索引的生命周期,即可以检索的日志时间范围。 配置实时日志字段信息,参数说明如表3所示,配置完成后,单击“下一步”。 表3 实时日志字段信息参数说明 参数名称 参数说明 自定义字段 勾选需要接入的日志字段,包括通用字段、容器字段和虚机字段。 新增自定义环境变量 如需添加自定义环境变量,请选择环境变量名,然后单击“添加”。虚机暂无可选自定义环境变量。 清洗规则 选择日志清洗规则。 请优先使用算子清洗模式采样,原始日志采样清洗只适用于单纯采样,不需要清洗的场景。 日志样例 输入日志样例。 解析脚本 配置解析脚本,将日志样例清洗为字段显示。 解析脚本中不支持使用中划线“-”,支持使用下划线“_”。 清洗字段 配置解析脚本后单击“配置解析脚本”,自动生成清洗字段,查看字段是否符合预期。 开启汇聚 选择是否开启日志汇集,如果日志量较大且不需要关注原始日志时可以进行日志汇集。 开启后需要配置汇集相关参数。 汇聚粒度 开启汇聚后,需要设置汇集粒度。支持分钟级和秒级数据汇聚。选择分钟级,每一分钟会生成一个统计点,选择秒级,每一秒会生成一个统计点。 汇聚时间戳 仅支持时间戳格式字段timestamp,获取当前计算的日志的时间。 时间戳格式 选择时间戳格式。支持秒、毫秒、纳秒级时间戳,获取当前计算的日志的时间格式。 汇聚维度 结合业务场景需要,选择日志是以哪些日志字段进行日志汇聚,支持多选。 汇聚度量 设置对日志字段以COUNT、SUM、MAX、MIN进行度量。 原始字段是日志中的字段,用来获取原始值;度量字段是用户自定义字段名,计算后,度量的值会赋值给该字段。 输出原始日志 选择是否需要输出原始日志。如果打开输出原始日志,原始日志也会上报。 日志字段确认,确认日志字段配置是否达到预期,已达到预期,单击“下一步”。 其中字段来源COMMON表示通用字段、CONTAINER表示容器字段、VM表示虚机字段。 申请日志空间共享,如果需要其他自有服务共用这个空间进行日志下发和日志检索,可以添加共享服务。配置完成后,单击“保存”。
  • 步骤三:创建日志采集配置 在“虚拟机日志接入”页面,选择左侧导航栏的“日志采集配置”。 单击“创建日志采集配置”。 配置日志采集参数,配置完成后,单击“确定”。 新创建的采集配置默认为草稿状态,展示在“草稿”页签下,当配置被微服务使用后,状态会更新为“已下发”,并展示到“已下发”页签下。 表4 日志采集配置参数说明 参数名称 参数说明 日志项目 选择已创建的日志项目,相同服务的不同日志使用同一个日志项目 日志空间 选择已创建的日志空间。选择日志空间时日志提取规则会展示日志空间定义的日志格式,采集的日志须满足对应格式。 配置名称 自定义日志采集配置名称。 配置类型 选择日志采集配置类型,建议选择“FILEBEAT”。 日志类型 输入采集日志类型。 日志路径 填写实际日志路径,可使用通配符进行匹配。 说明: 接入容器日志需要根据通配符匹配完成。 注意避免同一台主机上下发的多个采集任务重复采集相同的日志文件,会导致filebeat进程异常。 日志TPS TPS表示单实例每秒日志条数,请准确填写,用于推荐资源自动计算。 如果采集路径是单个日志,则按照单个日志单台机器(pod)的TPS值填写,且按照高峰期计算。 如果采集路径配置了通配符,则将采集的日志TPS累加,累加计算高峰期单台机器(pod)的TPS,建议按近期业务增长预期填写。 日志模式 选择日志采集模式,是单行模式还是多行模式。 是否支持软连接 当填写的日志路径为链接路径时,需要开启支持软连接。 首行正则表达式 日志模式选择多行模式时,需要输入首行正则表达式。 日志提取规则 根据填写的配置参数会自动生成提取规则。
  • 步骤四:创建日志配置下发任务 在“虚拟机日志接入”页面,选择左侧导航栏的“任务管理”。 单击页面右上角的“新建任务”。 配置任务参数,参数说明如表5所示,配置完成后,单击“确定”。 表5 日志配置下发任务参数说明 参数名称 参数说明 日志项目 选择已创建的日志项目。 任务名称 自定义任务名称。 任务类型 选择任务类型。 配置类型 选择日志采集配置类型。 配置列表 选择需要下发的配置。 用户名称 选择已规划并拥有日志读取权限的业务账号。 选择主机 选择需要下发配置的主机。 已选主机 显示已选主机。 在任务列表中查看已创建的任务,单击任务所在行“操作”列的“执行”。 执行完成后,状态为成功即表示日志配置内容已下发成功,即会按照配置将日志接入AppStage。
  • 步骤二:创建日志空间 在“虚拟机日志接入”页面,选择左侧导航栏的“日志空间”。 单击“申请实时日志空间”。 根据界面提示填写日志空间参数。 配置实时日志空间信息,参数说明如表2所示,配置完成后,单击“下一步”。 表2 实时日志空间信息参数说明 参数名称 参数说明 空间名称 自定义日志空间名称,建议包含日志类型语义。 空间描述 输入日志空间描述,非必填项。 日志类型 选择需接入的日志类型。 日志大小 预计一天的日志量,默认为1GB。 开启日志检索 如果需要使用日志检索功能,可以打开该开关。 检索空间类型 选择ClickHouse。 原索引名称(ClickHouse) 可选择现有的ClickHouse,如果不填会自动生成。 TTL 日志索引的生命周期,即可以检索的日志时间范围。 配置实时日志字段信息,参数说明如表3所示,配置完成后,单击“下一步”。 表3 实时日志字段信息参数说明 参数名称 参数说明 自定义字段 勾选需要接入的日志字段,包括通用字段、容器字段和虚机字段。 新增自定义环境变量 如需添加自定义环境变量,请选择环境变量名,然后单击“添加”。虚机暂无可选自定义环境变量。 清洗规则 选择日志清洗规则。 请优先使用算子清洗模式采样,原始日志采样清洗只适用于单纯采样,不需要清洗的场景。 日志样例 输入日志样例。 解析脚本 配置解析脚本,将日志样例清洗为字段显示。 说明: 配置解析脚本时字段命名不支持使用中划线“-”,支持使用下划线“_”。 清洗字段 配置解析脚本后单击“配置解析脚本”,自动生成清洗字段,查看字段是否符合预期。 开启汇聚 选择是否开启日志汇集,如果日志量较大且不需要关注原始日志时可以进行日志汇集。 开启后需要配置汇集相关参数。 汇聚粒度 开启汇聚后,需要设置汇集粒度。支持分钟级和秒级数据汇聚。选择分钟级,每一分钟会生成一个统计点,选择秒级,每一秒会生成一个统计点。 汇聚时间戳 仅支持时间戳格式字段timestamp,获取当前计算的日志的时间。 时间戳格式 选择时间戳格式。支持秒、毫秒、纳秒级时间戳,获取当前计算的日志的时间格式。 汇聚维度 结合业务场景需要,选择日志是以哪些日志字段进行日志汇聚,支持多选。 汇聚度量 设置对日志字段以COUNT、SUM、MAX、MIN进行度量。 原始字段是日志中的字段,用来获取原始值;度量字段是用户自定义字段名,计算后,度量的值会赋值给该字段。 输出原始日志 选择是否需要输出原始日志。如果打开输出原始日志,原始日志也会上报。 日志字段确认,确认日志字段配置是否达到预期,达到预期后可单击单击“下一步”。 其中字段来源COMMON表示通用字段、CONTAINER表示容器字段、VM表示虚机字段。 申请日志空间共享,如果需要其他自有服务共用这个空间进行日志下发和日志检索,可以添加共享服务。配置完成后,单击“保存”。
  • file_regexp 功能说明 逐行读取指定路径文件,将内容按分界符分解为指标名称和指标值,并按照过滤条件过滤,将过滤后的指标数据上报给HCW。 参数配置 配置样例: path:/tmp/sds_zabbix.result # 采集文件路径。 delimiter # 分隔符。 _filter_key_word:.*_cassandra # 指标值关键字, 支持正则, 为空则直接上报所有指标信息,非空则只上报匹配关键字的指标数据。 _filter_value_word:ok* # 指标值匹配关键字,支持正则,为空则不进行二次匹配,直接上报指标数据,非空则 匹配成功为1,匹配失败为0。 file_regexp为多实例插件,即file_regexp插件可以配置多组参数,但需要每组参数均不相同。 消息样例及含义说明 { "plugin_id":"file_regexp", #单位: | 类型:string | 说明:插件名 "metric":[{ "node": " host-10-22-0-170", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "name_id":"zj23_cassandra", #单位: | 类型:string | 说明:分隔后的指标名称(标签数据) "value_id":"ok", #单位: | 类型:string | 说明:分割后的指标值(标签数据) "value":"1", #单位: | 类型:string | 说明:指标上报值 }] }
  • tomcat 功能说明 针对机器上运行性的多个Tomcat进程,周期采集其运行数据。 插件运行后,将首先在“agent框架lib/tomcat/”路径下生成TomcatJmx_fat.jar,后续每次执行时,都会通过该jar包使用JMX接口采集tomcat进程相关信息。每次采集结束,每个tomcat进程分别生成一条消息,http_port可作为区分标志。 参数配置 用户在使用该插件进行采集之前,需要先手动修改tomcat安装目录下bin/catalina.sh,在文件中添加以下字段以支持JMX采集功能: CATALINA_OPTS="$CATALINA_OPTS -Djava.rmi.server.hostname=127.0.0.1 -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=58880 -Dcom.sun.management.jmxremote.ssl=false -Dcom.sun.management.jmxremote.authenticate=false" 用户还需要为插件配置当前本机运行中的Tomcat对应的安装路径,可配置单个或多个,以”,”做分隔符。 tomcat_install_path #可以识别绝对路径以及环境变量。 如果采用环境变量来传递Tomcat安装路径,要求在~/.bashrc中添加export命令进行配置,如下图: 在配置生效后,可通过source ~/.bashrc或重启机器,再启动agent进行数据采集。 消息样例及含义说明 {      "plugin_id":"tomcat",     "metric":{ "node": " host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": 1482161028000, #单位: | 类型:long long | 说明:UTC时间戳 "request_count":"0", #单位: | 类型:double | 说明:采集间隔内新增请求数 "request_errors_count":"0", #单位: | 类型:double | 说明:采集间隔内新增错误请求数 "thread_total":"47", #单位: | 类型:double | 说明:累计线程数 "http_port_id":"8080", #单位: | 类型:double | 说明:tomcat对外提供服务的端口号         } }
  • file_check 功能说明 查看文件是否存在以及查看文件的大小,以Byte为单位,将结果上报到HCW。 参数配置 配置样例: path:/tmp/error_*.log #路径为绝对路径,支持通配符。 消息样例及含义说明 { "plugin_id":"file_check", #单位: | 类型:string | 说明:插件名 "metric":[{ "node": " host-10-22-0-170", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "exists":"1", #单位: | 类型:string | 说明:文件是否存在,1表示存在,0表示不存在 "size":"80", #单位:Byte | 类型:string | 说明:表示文件大小 }] }
  • redis 功能说明 检测redis数据库信息,并将检测结果上报至HCW。 参数配置 配置样例: _filter_port_id:6379 # redis 端口 password:123456,123457 # redis 密码,可配置多个密码。redis插件会先从/opt/zabbix/bin/redis_stats.sh中获取redis密码,若获取或校验失败,会去读取配置参数中的password中的密码列表。 redis为多实例插件,即redis插件可以配置多组参数,但需要每组参数均不相同。 消息样例及含义说明 { "plugin_id": "redis", #单位: | 类型:string | 说明:插件名 "metric": [ { "node": " host-10-22-0-170", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "port_id": "80", #单位: | 类型:string | 说明:redis端口 "port_status": "1", #单位: | 类型:string | 说明:端口状态,端口可达值为1,不可达值为0 "cpuload": "10", #单位: | 类型:string | 说明:redis进程CPU占用率 "used_memory": "2403776 ", #单位: | 类型:string | 说明:Redis分配器分配的内存总量 "mem_fragmentation_ratio": "5.60", #单位: | 类型:string | 说明:used_memory_rss和used_memory之间的比率 "used_memory_peak": "4352360", #单位: | 类型:string | 说明:Redis内存消耗峰值 "keyspace_hits": "47343", #单位: | 类型:string | 说明:命中key的次数 "keyspace_misses": "1437", #单位: | 类型:string | 说明:未命中key的次数 "connected_clients": "1", #单位: | 类型:string | 说明:连接的客户端数量 "evicted_keys": "0", #单位: | 类型:string | 说明:运行以来删除过的key的数量 "blocked_clients": "0", #单位: | 类型:string | 说明:正在等待阻塞命令(BLPOP、BRPOP、BRPOPLPUSH)的客户端的数量 "rejected_connections": "0", #单位: | 类型:string | 说明:因为最大客户端数量限制而被拒绝的连接请求数量 "used_memory_rss": "13471744", #单位: | 类型:string | 说明:Redis分配的内存总量(包括内存碎片) "loading": "0", #单位: | 类型:string | 说明:是否正在载入持久化文件,0为否,1为是 "rdb_bgsave_in_progress": "0", #单位: | 类型:string | 说明:后台进行中的 save 操作的数量 "rdb_last_bgsave_status": "1", #单位: | 类型:string | 说明:最后一次创建RDB文件的结果,0为失败,1为成功 "rdb_last_bgsave_time_sec": "1", #单位: | 类型:string | 说明:最后一次创建RDB文件耗费的秒数 "instantaneous_ops_per_sec": "0", #单位: | 类型:string | 说明:服务器每秒中执行的命令数量 "expired_keys": "1281", #单位: | 类型:string | 说明:过期而被自动删除的数据库键数量 "latest_fork_usec": "0", #单位: | 类型:string | 说明:最近一次fork()操作耗费的时间 "client_biggest_input_buf": "0", #单位: | 类型:string | 说明:当前连接的客户端中,最大的输入缓存 "client_longest_output_list": "0", #单位: | 类型:string | 说明:当前的客户端连接中,最长的输出列表 "keyspace_hits_ratio": "80" #单位: | 类型:string | 说明:keyspace_hits与keyspace_hits + keyspace_misses的比率 } ] }
  • tcp 功能说明 检测本机或者指定主机端口是否可连通,并将结果返回HCW。 参数配置 配置样例: _filter_ip_id:xxx.0.0.1 # 检测IP,检测本机指定端口是否可达,配置值为127.0.0.1,检测指定主机端口是否可达,配置值为指定主机IP;当检测本机端口是否可达时,会检测127.0.0.1+端口和本机公网IP+端口是否可达,若有一项可达则表明本机端口可达。 _filter_port_id:80 # 检测端口。 TCP为多实例插件,即TCP插件可以配置多组参数,但需要每组参数均不相同。 消息样例及含义说明 {    "plugin_id":"tcp", #单位: | 类型:string | 说明:插件名    "metric":[{ "node": " host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "port_status":"1", #单位: | 类型:string | 说明:端口状态,端口可达值为1,不可达值为0 "ip_id":"xxx.0.0.1", #单位: | 类型:string | 说明:检测IP "port_id":"80", #单位: | 类型:string | 说明:检测端口 }] }
  • scriptcollet 功能说明 执行脚本命令或者读取指定文件内容,并将结果上报给HCW。 参数配置 配置样例: type:script # 采集方式,可选填 script(采集脚本)或者 path(采集文件)。 ex_path:/opt/huawei/monitor/disk.sh # 脚本执行路径或者采集文件路径。 _filter_key_id:/opt/huawei/monitor/disk.sh # 多实例插件的key,此参数是为了支持多实例插件上报使用,只需要保证多个实例中该值均不同,建议与ex_path值保持一致。 scriptcollect为多实例插件,即scriptcollect插件可以配置多组参数,但需要每组参数均不相同。 消息样例及含义说明 { "plugin_id":"scriptcollect", #单位: | 类型:string | 说明:插件名 "metric":[{ "node": " host-10-22-0-170", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "key_id":"/opt/huawei/monitor/disk.sh", #单位: | 类型:string | 说明:对应模板配置的key值 "collect_value":"80", #单位: | 类型:string | 说明:执行脚本命令或者读取指定文件内容上报的值 }] }
  • 操作指导 缺陷管理功能操作的详细介绍如表1所示。 表1 缺陷管理功能说明 项目类型 缺陷功能导航 说明 参考文档的链接 IPD系统设备类项目 IPD系统设备类项目功能介绍 IPD系统设备类项目是面向系统设备类产品开发场景的IPD需求管理方法,通过结构化流程、强大的跨项目协作能力来对大型产品开发进行高质高效的管理,主要包含原始需求、系统特性、研发需求、任务、缺陷等内容,任务和缺陷是在需求实现过程中产生的活动和发现的问题。 IPD系统设备类项目功能介绍 缺陷(Bug) 缺陷的全生命周期共有分析、修复、测试、验收、关闭五个状态,通过新建、分析、修复、测试、验收、关闭缺陷完成完成生命周期的状态流转。 请参见“IPD系统设备类项目”中的缺陷(Bug)。 IPD独立软件类项目 IPD独立软件类项目功能介绍 IPD独立软件类项目是面向独立软件类开发场景的IPD需求管理方法,通过结构化流程、强大的跨项目协作能力来对大型软件开发进行高质高效的管理,主要包含原始需求、系统特性、研发需求、任务、缺陷等内容,任务和缺陷是在需求实现过程中产生的活动和发现的问题。 请参见IPD独立软件类项目功能介绍。 缺陷(Bug) 缺陷的全生命周期共有分析、修复、测试、验收、关闭五个状态,通过新建、分析、修复、测试、验收、关闭缺陷完成完成生命周期的状态流转。 请参见“IPD独立软件类项目”中的缺陷(Bug)。 Scrum项目 Scrum项目开发流程 Scrum项目的开发流程如下: 通过需求的分层和分解,多角色协作,确保需求范围可调整 按迭代持续交付,实现闭环反馈 Scrum项目典型迭代操作流程 请参见Scrum项目开发流程。 新建缺陷(Bug) 产品特性和功能在测试验证阶段发现的问题,可以创建缺陷进行跟踪,设置缺陷的描述、处理人、优先级、严重程度等信息。 请参见新建工作项(Epic/Feature/Story/Task或Bug)中的“Bug”。 管理缺陷(Bug) 新建完缺陷后,可以查看缺陷详情,新建子缺陷,复制缺陷,对缺陷批量导入导出、进行修改或删除,进行批量复制、批量编辑和批量删除操作等。 请参见管理工作项中的“Bug”。 缺陷(Bug)详情 在缺陷详情页面,除了可以修改缺陷的处理人、状态等,还可以查看关联缺陷、查看工作代码提交记录、查看缺陷操作历史、添加附件等。 请参见工作项详情中的“Bug”。
  • verify_os 功能说明 检测主机名是否有变更,并将检测结果返回HCW。 插件在HCW_Agent启动时,会将主机名存入HCW_Agent/temp/hostname.cache中,插件每个采集周期,会获取当前的主机名并与HCW_Agent/temp/hostname.cache中的主机名对比,若一致,返回0;不一致,返回1。 参数配置 不需要配置。 消息样例及含义说明 {    "plugin_id":"verify_os", #单位: | 类型:string | 说明:插件名    "metric":{ "node": " host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "hostname":"1", #单位: | 类型:string | 说明:主机名对比结果,相同为0,不同为1 } }
  • snmp 功能说明 周期采集机器上TCP及UDP连接相关数据,每次采集发送一条消息。 原始数据来自:/proc/net/snmp 参数配置 不需配置。 消息样例及含义说明 { "plugin_id": "snmp", "metric": { "node": "host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": 1482161028000, #单位: | 类型:long long | 说明:UTC时间戳 "tcp_curr_estab": "19", #单位: | 类型: double | 说明:当前处于ESTABLISHED/CLOSE_WAIT状态的TCP连接数 "tcp_in_segs_ps": "327.6371", #单位:包/s| 类型:double | 说明:tcp收包速率 "tcp_out_segs_ps": "672.2037", #单位:包/s| 类型:double | 说明:tcp发包速率 "tcp_retrans_rate_ps": "15.0", #单位:% | 类型: double | 说明:tcp重传率 "udp_in_datagrams_ps": "0.0000", #单位:包/s| 类型:double | 说明:udp收包速率 "udp_out_datagrams_ps": "0.0000", #单位:包/s| 类型:double | 说明:udp发包速率 "active_conn": "0.0000", #单位:次/s| 类型:double | 说明:单位时间tcp连接主动连接发起次数 "passive_conn": "0.0000" #单位:次/s| 类型:double | 说明:单位时间tcp被动建立连接次数 } }
  • gpu 功能说明 采集GPU信息,每次采集都为每个GPU,以及总GPU维度分别生成消息,并上报给HCW。 执行nvidia-smi命令,分别获取每个GPU的GPU-Util、Bus-Id、mem_used、mem_total、mem_util信息,并整合总GPU信息上报给HCW。 参数配置 不需要配置。 消息样例及含义说明 {    "plugin_id":"gpu", #单位: | 类型:string | 说明:插件名    "metric":{ "node": "bj-xen-pdc-241-202", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "_id":"GPU-0", #单位: | 类型:string | 说明:GPU编号,总GPU编号为GPU-ALL "_name":"Tesla P100-PCIE", #单位: | 类型:string | 说明:GPU型号 "bus_id":"0000:04:00.0", #单位: | 类型:string | 说明:GPU的Bus-Id "util":"61", #单位: | 类型:string | 说明:GPU使用率 "mem_used":"1385", #单位: | 类型:string | 说明:GPU已使用显存 "mem_total":"16276", #单位: | 类型:string | 说明:GPU显存总量 "mem_util":"8.50" #单位: | 类型:string | 说明:GPU显存使用率     } }
  • net 功能说明 采集网络IO信息,默认采集的目标网卡与本机ifconfig命令显示的网卡列表一致,仅采集ifconfig显示UP状态的网卡。 原始数据来源:/proc/net/dev 参数配置 通过_filter_nic_name配置,根据nic_name指标,对消息进行筛选,决定最终生成的哪些网卡的消息。 _filter_nic_name的配置比较特殊,只有当nic_name值以配置关键字串开头时,才会保留这条消息,而其他插件的消息筛选机制为包含即保留。如某台机器ifconfig列出的网卡名有eth0、eth1、veth1、lo。如果配置“_filter_nic_name:eth”,则剔除veth1和lo的消息,保留eth0、eth1的消息。 消息样例及含义说明 { "plugin_id": "net", "metric": { "node": "host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": 1482161028000, #单位: | 类型:long long | 说明:UTC时间戳 "collps": "0.0000", #单位:次/s | 类型:double | 说明:检测到发送冲突频率 "nic_name": "enp2s0f0", #单位: | 类型:string | 说明:网卡名,与ifconfig列表一致 "rxcmpps": "0.0000", #单位:包/s | 类型:double | 说明:接收压缩报速率 "rxdropps": "0.0000", #单位:包/s | 类型:double | 说明:接收丢报速率 "rxdroprate": "0.0", #单位:% | 类型:double | 说明:接收丢报率 "rxerrps": "0.0000", #单位:次/s | 类型:double | 说明:接收错误频率 "rxfifops": "0.0000", #单位:次/s | 类型:double | 说明:接收FIFO缓存错误频率 "rxframps": "0.0000", #单位:次/s | 类型:double | 说明:接收帧错误频率 "rxkbps": "0.0000", #单位:kB/s | 类型:double | 说明:接收的kbps数,单位为KByte/s, 转换为kbps需乘以8 "rxmcstps": "0.0000", #单位:次/s | 类型:double | 说明:接收多播频率 "rxpckps": "0.0000", #单位:包/s | 类型:double | 说明:接收报文速率 "rxutil": "0.0", #单位:% | 类型:double | 说明:接收带宽利用率 "txcarrps": "0.0000", #单位:次/s | 类型:double | 说明:传输介质故障频率 "txcmpps": "0.0000", #单位:包/s | 类型:double | 说明:发送压缩报速率 "txdropps": "0.0000", #单位:包/s | 类型:double | 说明:发送丢报数速率 "txdroprate": "0.0", #单位:% | 类型:double | 说明:发送丢报率 "txerrps": "0.0000", #单位:次/s | 类型:double | 说明:发送错频率 "txfifops": "0.0000", #单位:次/s | 类型:double | 说明:发送FIFO缓存错误频率 "txkbps": "0.0000", #单位:kB/s | 类型:double | 说明:发送的kbps数,单位为KByte/s, 转换为kbps需乘以8 "txpckps": "0.0000", #单位:包/s | 类型:double | 说明:发送报文速率 "txutil": "0.0", #单位:% | 类型:double | 说明:发送带宽利用率 "running": "1" #单位:% | 类型:double | 说明:网卡运行状态监测,如果为1表示ifconfig该网卡状态RUNNING,如果为-1表示ifconfig该网卡状态非RUNNING }
  • osinfo 功能说明 osinfo插件采集操作系统相关信息。 使用该插件要求/etc/nsswitch.conf文件有读权限,且其中hosts的解释项不能使用dns,即cat /etc/nsswitch.conf | grep "^hosts:" | grep dns命令返回应为空。"running"/"sleeping"/"stopped"/"zombie",全部进程数 total与top命令输出的结果一致;最大文件打开数max_opens、最大进程数max_procs与ulimit -u、ulimit -n命令输出一致;本机当前打开的句柄数open_files与lsof|wc –l命令输出一致。open_files的获取每180秒只采集并上报一次,对于那些没有采集open_files的周期,该指标不出现在消息中。 原始数据来源:/proc/stat 参数配置 不需配置。 消息样例及含义说明 { "plugin_id": "osinfo", "metric": { "node": " host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": 1482161028000, #单位: | 类型:long | 说明:UTC时间戳 "ctx": "245480", #单位: | 类型:int | 说明:本周期上下文切换次数 "procs": "1032", #单位: | 类型:int | 说明:采集周期内新增的任务总数 "blocked": "0", #单位: | 类型:int | 说明:当前被阻塞的任务数 "running": "0", #单位: | 类型:int | 说明:当前R状态的进程数(top: running) "sleeping": "882", #单位: | 类型:int | 说明:当前D状态的进程数(top: sleeping) "stopped": "1", #单位: | 类型:int | 说明:当前T状态的进程数(top: stopped) "zombie": "1" #单位: | 类型:int | 说明:当前Z状态的进程数(top: zombie) "procs_total": "884", #单位: | 类型:int | 说明:当前总进程数(top: Tasks) "max_opens": "1024", #单位: | 类型:int | 说明:执行ulimit -n结果 "max_procs": "2059087", #单位: | 类型:int | 说明:执行ulimit -u结果 "open_files": "2059087", #单位: | 类型:int | 说明:本机当前打开的句柄数 } }
  • fs 功能说明 统计文件系统使用情况,采集数据内容和df -lh命令一致。 参数配置 配置样例:“_filter_mounted_name:^/shm,/dev,/opt”,其中带"^"前缀的为反向筛选关键字(/shm),其余为正向筛选关键字(/dev、/opt),每条消息在最终生成之前,插件会先执行一次正向筛选(若mounted_name的值包含/dev或/opt任一字段,则保留这条消息;反之则删掉。若没有配置正向筛选关键字,则跳过这步筛选,保留消息。)若该条消息得以保留,插件会继续执行一次反向筛选(若mounted_name的值包含/shm字段,则删掉这条消息;反之则保留。若没有配置反向筛选关键字,则跳过这步筛选,保留消息。) 假设某台服务器执行df -lh命令结果如图2所示,共4行数据,按照_filter_mounted_name:^/shm,/dev,/opt”配置正反向过滤后,仅生成第2、4行对应的消息。/dev/shm由于包含/shm,对应的消息将被剔除。 图2 示例2 消息样例及含义说明 { "plugin_id": "fs", "metric": { "node": "host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": 1482161028000, #单位: | 类型:long long | 说明:UTC时间戳 "fs_name": "/dev/mapper/vg1-lv1", #单位: | 类型:string | 说明:文件系统(= df命令的Filesystem列) "free": " 8707.9", #单位:mb | 类型:double | 说明:分区可用空间大小(= df命令的Avail列) "total": " 90710.0", #单位:mb | 类型:double | 说明:分区总大小(= df命令的Size列) "usage": "90.0", #单位:% | 类型:double | 说明:分区使用率(= df命令的Use%列) "used": " 80988.4", #单位:mb | 类型:double | 说明:分区已使用大小(= df命令的Used列) "mounted_name":"/opt", #单位: | 类型:string | 说明:分区挂载点(= df命令的Mounted on列) "index_node_use_util": " 3.00000 " #单位:% | 类型:double | 说明:inode使用率(= df -i命令的IUse%列) }
  • diskio 功能说明 统计磁盘IO信息,每次采集将针对每个磁盘分别生成一条消息。 插件先从/proc/partitions获取全部物理磁盘及逻辑分区的名字、主次设备号。然后根据得到的磁盘名单,从/proc/diskstats提取每个物理磁盘或逻辑分区的读写数据,并进一步进行计算得到IO数据。 参数配置 配置样例: _filter_disk_id:xvda,^1,^2 #筛选关键字 show_extra:true #是否按照磁盘分区生成多条消息 其中带“^”前缀的为反向筛选关键字(1、2),其余为正向筛选关键字(xvda),每条消息在最终生成之前,插件会先执行一次正向筛选(若disk_id的值包含xvda,则保留这条消息;反之则删掉。若没有配置正向筛选关键字,则跳过这步筛选,保留消息。)若该条消息得以保留,插件会继续执行一次反向筛选(若disk_id的值包含1或2当中的任一字段,则删掉这条消息;反之则保留。若没有配置反向筛选关键字,则跳过这步筛选,保留消息。) show_extra为true时表示按照磁盘分区生成多条消息。 假设某台服务器执行cat /proc/partitions命令结果如图1所示,共7行数据,按照“_filter_disk_id:xvda,^1,^2”配置正反向过滤后,仅生成第1行xvda对应的消息。 图1 示例1 消息样例及含义说明 { "plugin_id": "diskio", "metric": { "node": "host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": 1482161028000, #单位: | 类型:long long | 说明:UTC时间戳 "avgqu_sz": "0.0000", #单位: | 类型:double | 说明:平均I/O队列长度 "avgrq_sz": "0.0000", #单位:扇区| 类型:double | 说明:平均每次设备I/O操作的数据大小 "await": "0.0000", #单位:ms | 类型:double | 说明:平均每次设备I/O操作的等待时间 "disk_id": "xvda", #单位: | 类型:string | 说明:物理磁盘号/逻辑分区号 "r_await": "0.0000", #单位:ms | 类型:double | 说明:平均每次读请求等待时间 "rkbps": "0.0000", #单位:kB/s | 类型:double | 说明:读操作的kbps数, 单位为KByte/s "rps": "0.0000", #单位:次/s | 类型:double | 说明:每秒完成的读I/O设备次数 "rrqmps": "0.0000", #单位:次/s | 类型:double | 说明:每秒进行merge的读操作数目 "svctm": "0.0000", #单位:ms | 类型:double | 说明:平均每次设备I/O操作的服务时间 "tps": "0.0000", #单位:次/s | 类型:double | 说明:每秒完成的读写I/O设备总次数 "util": "0.0", #单位:% | 类型:double | 说明:磁盘IO利用率 "w_await": "0.0000", #单位:ms | 类型:double | 说明:平均每次写请求等待时间 "wkbps": "0.0000", #单位:kB/s | 类型:double | 说明:写操作的kbps数, 单位为KByte/s "wps": "0.0000", #单位:次/s | 类型:double | 说明:每秒完成的写I/O设备次数 "wrqmps": "0.0000" #单位:次/s | 类型:double | 说明:每秒进行merge的写操作数目 } }
  • cpu 功能说明 统计cpu信息,每次采集都为每个vcpu,以及总cpu维度分别生成消息。 原始数据来源:/proc/loadavg、/proc/stat等。 参数配置 插件默认为CPU0、CPU1、...、CPU-ALL分别生成消息。用户可根据需要配置_filter_cpu_id项,进行消息筛选。如果用户只需要总维度的CPU统计信息,则可配置参数_filter_cpu_id为CPU-ALL。 消息样例及含义说明 { "plugin_id": "cpu", "metric": { "node": "host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": 1482161028000, #单位: | 类型:long long | 说明:UTC时间戳 "cpu_id": "CPU1", #单位: | 类型:string | 说明:cpu编号(CPU-ALL:系统整体维度) "guest": "0.0", #单位:% | 类型:double | 说明:访客控制cpu时间占有率 "guest_nice": "0.0", #单位:% | 类型:double | 说明:低优先级访客控制cpu时间占有率 "idle": "100.0", #单位:% | 类型:double | 说明:空闲(不包含IO等待)时间占有率 "iowait": "0.0", #单位:% | 类型:double | 说明:等待IO响应的时间占有率 "irq": "0.0", #单位:% | 类型:double | 说明:处理硬件中断的时间占有率 "ldavg15m": "0.05", #单位: | 类型:double | 说明:近15分钟内平均负载 "ldavg1m": "0.01", #单位: | 类型:double | 说明:近1分钟内平均负载 "ldavg5m": "0.03", #单位: | 类型:double | 说明:近5分钟内平均负载 "nice": "0.0", #单位:% | 类型:double | 说明:低优先级用户态时间占有率 "softirq": "0.0", #单位:% | 类型:double | 说明:处理软件中断的时间占有率 "steal": "0.0", #单位:% | 类型:double | 说明:花在虚拟系统上的时间占有率 "system": "0.0", #单位:% | 类型:double | 说明:系统态时间占有率 "user": "0.0", #单位:% | 类型:double | 说明:用户态时间占有率 "util": "0.0", #单位:% | 类型:double | 说明:cpu占有率(1-idle) "vcpu_num": "48" #单位: | 类型:double | 说明:vcpu数量 } }
  • mem 功能说明 采集全系统有关的内存信息。 原始数据来源:/proc/meminfo、/proc/vmstat 参数配置 不需配置。 消息样例及含义说明 { "plugin_id": "mem", "metric": { "node": "host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": 1482161028000, #单位: | 类型:long | 说明:UTC时间戳 "active": "6476724", #单位:kB | 类型:int | 说明:活跃内存 "buffers": "1776864", #单位:kB | 类型:int | 说明:buffers缓存 "cached": "8662036", #单位:kB | 类型:int | 说明:cached缓存 "dirty": "152", #单位:kB | 类型:int | 说明:等待写回磁盘的内存 "inactive": "4966164", #单位:kB | 类型:int | 说明:不活跃内存 "mem_free": "3964160", #单位:kB | 类型:int | 说明:可用内存 "mem_free_in_buf_cache": "14403060", #单位:kB | 类型:int | 说明:实际可用内存(+buffers+cached) "mem_free_size": "15072556", #单位:kB | 类型:int | 说明:"MemFree + Cached + Buffers + SReclaimable + Swapcached + Nfs_unstable - Shmem" "mem_total": "16311792", #单位:kB | 类型:int | 说明:全部内存 "mem_used": "12347632", #单位:kB | 类型:int | 说明:已用内存 "mem_used_ex_buf_cache": "1908732", #单位:kB | 类型:int | 说明:实际内存占用(-buffers-cached) "mem_used_size": "1239236", #单位:kB | 类型:int | 说明:mem_total - mem_free_size "mem_util": "7.6", #单位:% | 类型:double | 说明:mem_used_size / mem_total "swap_cached": "2632", #单位:kB | 类型:int | 说明:交换内存被缓存的大小 "swap_free": "4151180", #单位:kB | 类型:int | 说明:当前未使用的交换空间数 "swap_total": "4192252", #单位:kB | 类型:int | 说明:可用的交换空间总数 "swap_util": "3", #单位:% | 类型:double | 说明:交换空间占用率 "writeback": "0", #单位:kB | 类型:int | 说明:正在写回磁盘的内存 "pgfault": "4123", #单位: | 类型:int | 说明:本周期page fault数 "pgin": "0", #单位: | 类型:int | 说明:本周期page in数 "pgmajfault": "0", #单位: | 类型:int | 说明:本周期major page fault数 "pgout": "0" #单位: | 类型:int | 说明:本周期page out数 }}
  • 新增节点 在创建后端服务器集群页面,单击“新增节点”。 在节点列表中配置相关参数,参数说明如表2所示。 勾选多条节点,单击“批量删除”,可以批量删除节点。 单击“全部勾选”,可以快速勾选当前集群下的所有节点。 单击“清除多选”,取消选择选中的多条节点。 表2 新增节点参数说明 参数 说明 IP 节点IP地址。取值范围为0.0.0.0~255.255.255.255,例:127.10.12.10。 端口 节点端口号。由数字组成,大小在0-65535之间,例:8000。 权重 大于0且小于等于100的正整数,例:1。 最大尝试失败次数 对应nginx upstream配置中的max_fails字段。如果后端节点fail_timeout秒内出现max_fails次不可用情况,判定节点不可用。判定不可用后fail_timeout秒内请求不会转发到此节点,直到fail_timeout秒后重新检测节点健康情况;范围为0-1000,默认为3,如果不填,使用默认值。 失效持续时间 对应nginx upstream配置中的fail_timeout字段。如果后端节点fail_timeout秒内出现max_fails次不可用情况,判定节点不可用。判定不可用后fail_timeout秒内请求不会转发到此节点,直到fail_timeout秒后重新检测节点健康情况;范围是0-300秒,默认为2,如果不填,使用默认值。 灰度状态 生产 灰度 节点状态 在线 热备 下线 主机名 字符长度0~100,可以由字母、数字、下划线、短横线、点组成,不能包含特殊字符,例:host-10-23-0-133。 AZ 字符长度0~100,可以由字母、数字、下划线、短横线、点组成,不能包含特殊字符,例:az_01。 自定义分组 字符长度0~50,可以由字母、数字、下划线、短横线、点组成,不能包含特殊字符,例:group_01。 操作 :删除节点。
  • 新增后端服务器集群 参考创建监听,进入创建后端服务器集群页面。 在创建后端服务器集群页面,单击“新增集群”,配置相关参数,参数说明如表1所示。 单击集群信息区域右上角的,可以编辑集群配置。 单击集群信息区域右上角的,删除当前集群。 表1 新增集群参数说明 参数 说明 基本信息 集群名称 后端服务器集群名称。 字符长度0~150,可以由字母、数字、下划线、短横线、点组成,不能包含特殊字符,不能包含-in-字符,后端服务器为tomcat时,建议不要包含下划线,转发可能返回400,例:Cluster_home-001。 后端协议 后端服务器协议,支持HTTP、HTTPS。 负载均衡策略 加权轮询算法:可配权重,根据权重进行轮询,默认权重相同。 自定义参数哈希:可以配置nginx变量进行哈希,nginx变量,例如:$http_x_forwarded_for。 IP哈希:根据发送给SLB请求的IP进行哈希。 说明: 如前面有ELB或者F5,此IP通常为ELB的IP或者F5的IP,因此请慎用。 最小连接数:根据服务器的连接数,向连接数最少的服务器优先转发。 自定义参数哈希 负载均衡策略选择为“自定义参数哈希”时,配置此参数。 字符长度0~50,以$符开头,可以由字母、数字、点、下划线、短横线组成,不能包含其他特殊字符,例:$http_x_forwarded_for。 预热参数(当负载均衡策略为“加权轮询算法”时,配置此参数) 预热周期 配置新节点启动后在多长时间范围内进行预热,范围0-30,0表示不开启预热。 预热因子 配置预热增长速率,值越大预热增长速率越快,范围1-100,默认为10,表示匀速增长。 预热延迟 新节点启动后延迟多长时间才进行预热,范围0-30,延迟时间中,节点被选中的概率为0。 自定义参数 自定义参数配置 配置自定义参数。 单击“确定”。
  • 步骤三:创建视图 单指标查询视图/多指标组合查询视图 如果需要在大盘监控单个指标的报表(如折线型报表),可以创建单指标查询视图。 如果需要在大盘同时监控多个指标(如表格型报表),可以创建多指标组合查询视图。 在“指标仓库”页面,选择需创建视图的逻辑主体,然后单击“新建查询视图”,如图1所示。 图1 新建查询视图 配置查询视图参数,如表3所示,配置完成后,单击“保存”。 表3 新建查询视图参数说明 参数名称 参数说明 类型 视图类型默认为“QUERY”,不可修改。 数据源 选择视图使用的数据表。 英文名称 视图英文名,尽量使用英文简写,不超过50个字符,单词之间使用下划线分隔。 中文名称 视图中文名,不超过20个字符。 描述 输入视图描述内容。 指标 选择需要计算的指标,可选择单指标或者多个指标。 projection 选择是否开启projection。 持久化视图/长期存储视图 持久化视图(自定义汇聚粒度)、长期存储视图(依次执行5分钟、1小时、1天汇聚粒度)可以持久化查询结果。这两种视图需要在查询视图的基础上进行创建。 在“指标仓库”页面,选择需创建视图的逻辑主体,默认显示“关系图模式”,可以单击页面已创建的指标或视图,弹出“指标”页面或“视图”页面。 也可以单击“列表模式”,切换至“列表模式”,在指标列表单击对应指标所在行的“查看详情”,弹出“指标”页面;或者单击“视图”,在视图列表单击对应视图所在行的“查看详情”,弹出“视图”页面。 在“指标”页面,选择已创建的单指标视图或多指标视图,单击视图的“操作”,在下拉列表中选择“创建持久化视图”或者“创建长期存储视图”,如图2所示。 或者在“视图”页面,单击“创建视图”,在下拉列表中选择“创建持久化视图”或者“创建长期存储视图”,如图3所示。 图2 指标详情页 图3 视图详情页 配置如下视图参数,配置完成后,单击“创建”。 配置Basic参数,具体参数如表4所示。 表4 Basic参数说明 参数名称 参数说明 英文名称 视图英文名,尽量使用英文简写,不超过50个字符,单词之间使用下划线分隔。 中文名称 视图中文名,不超过20个字符。 任务名称 汇聚的任务名,默认与视图名一致。 描述 输入描述信息。 类型 根据选择创建的视图类型显示,持久化视图为PERSISTENT,长期存储视图为LONG_TERM。 任务类型 根据视图数据来源显示,不可修改。 调度集群 选择定时调度集群。 执行集群 选择执行汇聚的执行集群。 MPPDB执行集群 (长期存储视图包含该参数)选择执行分钟级、小时级、天级MPPDB汇聚的执行集群。 查询范围 设定任务查询时间范围,不填则默认每分钟执行一次。 例如设置为1小时,则查询时间区间为当前时间减1小时到当前时间(前闭后开)。 Auto Round 设置任务执行时间是否舍去分和秒,默认为“是”。 例如汇聚周期是1小时,那么不管是2:10,还是2:40触发任务,汇聚周期都会自动变为1:00~2:00;如果选否,那么汇聚周期就是1:10~2:10,以及1:40~2:40。 调度(固定时间) 让任务在固定时间执行,一般天级任务会修改此值,例如修改为每天2点执行,不涉及无须选择。 例如设置3小时40分钟,则每天3点40执行任务;设置24小时40分钟,则每天0点40执行任务。 调度(固定间隔) 设置执行任务的时间间隔,一般是小时任务和分钟任务会修改此值,不涉及无须选择。 例如设置6小时,则每6小时执行一次,即0点、6点、12点、18点执行;配合固定时间调度,间隔时间配置为6小时,固定时间配置为10分钟,则每天的0:10、6:10、12:10、18:10执行。 汇聚时间提前 设置汇聚任务执行时选择之前的时间段。 例如汇聚时间提前1小时,每次查询的时间范围自动往前偏移1小时;当查询范围是小时、天的时候,一般不需要配置;分钟汇聚任务,由于延迟原因,一般都需配置。 结果时间偏移 设置汇聚出的结果存入输出表的时间值。 例如结果时间偏移1小时,每次查询的数据存入MPPDB数据库的timestamp自动增加1小时。 配置Rule参数,具体参数如表5所示,配置完成后,单击“Build Statement”。 表5 Rule参数说明 参数名称 参数说明 表类型 默认显示视图数据表类型。 数据源 选择需要汇聚的数据表。 从数据源列表 分表场景时使用,如果选中了数据源A和从数据源列表B,会优先从B表匹配维度。 Indicators 选择汇聚任务需要计算的指标列表。 Order By 选择需要排序的维度。 limit 设置查询返回值个数,上限为200000。 分组维度 选择需要Groupby的维度。 配置Output参数,具体参数如表6所示。 表6 Output参数说明 参数名称 参数说明 输出表类型 选择存放汇聚结果的表(输出表)类型,默认为MPPDB。 集群名 选择输出表所在的集群名。 数据库名 选择输出表所在的数据库名。 表名 选择输出表的表名,选择前需要创建MPPDB表。 列名 选择输出表的所有列名。 查询结果列 汇聚结果的列名。 Column Mappings 根据输出表(MPPDB)选择对应的查询结果列。 单击已创建的持久化视图或长期存储视图,在“视图”页面单击“Start Task”,启动第一层任务。保证期望状态和实际状态都为“Running”,如下图图4所示。 图4 启动任务 单击“Create Hourly Task”,会自动创建小时级的MPPDB汇聚任务和表(TTL 默认1年),自动将5分钟级别的数据roll up成小时级的。再单击“Start Hourly Task”启动该任务,保证期望状态和实际状态都为“Running”。 单击“Create Daily Task”,会自动创建天级的MPPDB汇聚任务和表(TTL 默认2年),自动将小时级别的数据roll up成天级的。再单击“Start Daily Task”启动该任务,保证期望状态和实际状态都为“Running”。
  • 步骤二:创建指标 在“指标仓库”页面,单击已创建的逻辑主体。 单击逻辑主体页面的“新建指标”,选择“新建单个指标”。 配置指标参数,参数说明如表2所示,配置完成后,单击“创建”。 表2 配置指标参数说明 参数名称 参数说明 类型 选择指标类型。 英文名称 自定义英文名称。 中文名称 自定义中文名称。 指标等级 选择指标等级。 描述 输入描述信息。 开放名称 - 指标类型 根据指标的类型分为RequestCount、DelayTime、SuccessRate、FailureRate、Speed、Bandwidth。 逻辑主体 选择指标来源的逻辑主体。 标签列表 - 指标责任人 - 开放状态 - 抽象指标 - 是否多聚合字段 - 聚合类型 选择指标的统计方式。 聚合字段 指标的度量对象。 过滤器 依据业务限定条件,给指标设置过滤规则,支持AND、OR多层嵌套过滤条件,节点类型为NODE。 举例:有5个过滤条件ABCDE,过滤条件汇总后为(A AND B)OR (C AND D AND E),ABCDE即为NODE节点。
  • 步骤三:创建视图 单指标查询视图/多指标组合查询视图 如果需要在大盘监控单个指标的报表(如折线型报表),可以创建单指标查询视图。 如果需要在大盘同时监控多个指标(如表格型报表),可以创建多指标组合查询视图。 在“指标仓库”页面,选择需创建视图的逻辑主体,然后单击“新建查询视图”,如图1所示。 图1 新建查询视图 配置查询视图参数,如表3所示,配置完成后,单击“保存”。 表3 新建查询视图参数说明 参数名称 参数说明 类型 视图类型默认为“QUERY”,不可修改。 数据源 选择视图使用的数据表。 英文名称 视图英文名,尽量使用英文简写,不超过50个字符,单词之间使用下划线分隔。 中文名称 视图中文名,不超过20个字符。 描述 输入视图描述内容。 指标 选择需要计算的指标,可选择单指标或者多个指标。 projection 选择是否开启projection。 持久化视图/长期存储视图 持久化视图(自定义汇聚粒度)、长期存储视图(依次执行5分钟、1小时、1天汇聚粒度)可以持久化查询结果。这两种视图需要在查询视图的基础上进行创建。 在“指标仓库”页面,选择需创建视图的逻辑主体,默认显示“关系图模式”,可以单击页面已创建的指标或视图,弹出“指标”页面或“视图”页面。 也可以单击“列表模式”,切换至“列表模式”,在指标列表单击对应指标所在行的“查看详情”,弹出“指标”页面;或者单击“视图”,在视图列表单击对应视图所在行的“查看详情”,弹出“视图”页面。 在“指标”页面,选择已创建的单指标视图或多指标视图,单击视图的“操作”,在下拉列表中选择“创建持久化视图”或者“创建长期存储视图”,如图2所示。 或者在“视图”页面,单击“创建视图”,在下拉列表中选择“创建持久化视图”或者“创建长期存储视图”,如图3所示。 图2 指标详情页 图3 视图详情页 配置如下视图参数,配置完成后,单击“创建”。 配置Basic参数,具体参数如表4所示。 表4 Basic参数说明 参数名称 参数说明 英文名称 视图英文名,尽量使用英文简写,不超过50个字符,单词之间使用下划线分隔。 中文名称 视图中文名,不超过20个字符。 任务名称 汇聚的任务名,默认与视图名一致。 描述 输入描述信息。 类型 根据选择创建的视图类型显示,持久化视图为PERSISTENT,长期存储视图为LONG_TERM。 任务类型 根据视图数据来源显示,不可修改。 调度集群 选择定时调度集群。 执行集群 选择执行汇聚的执行集群。 MPPDB执行集群 (长期存储视图包含该参数)选择执行分钟级、小时级、天级MPPDB汇聚的执行集群。 查询范围 设定任务查询时间范围,不填则默认每分钟执行一次。 例如设置为1小时,则查询时间区间为当前时间减1小时到当前时间(前闭后开)。 Auto Round 设置任务执行时间是否舍去分和秒,默认为“是”。 例如汇聚周期是1小时,那么不管是2:10,还是2:40触发任务,汇聚周期都会自动变为1:00~2:00;如果选否,那么汇聚周期就是1:10~2:10,以及1:40~2:40。 调度(固定时间) 让任务在固定时间执行,一般天级任务会修改此值,例如修改为每天2点执行,不涉及无须选择。 例如设置3小时40分钟,则每天3点40执行任务;设置24小时40分钟,则每天0点40执行任务。 调度(固定间隔) 设置执行任务的时间间隔,一般是小时任务和分钟任务会修改此值,不涉及无须选择。 例如设置6小时,则每6小时执行一次,即0点、6点、12点、18点执行;配合固定时间调度,间隔时间配置为6小时,固定时间配置为10分钟,则每天的0:10、6:10、12:10、18:10执行。 汇聚时间提前 设置汇聚任务执行时选择之前的时间段。 例如汇聚时间提前1小时,每次查询的时间范围自动往前偏移1小时;当查询范围是小时、天的时候,一般不需要配置;分钟汇聚任务,由于延迟原因,一般都需配置。 结果时间偏移 设置汇聚出的结果存入输出表的时间值。 例如结果时间偏移1小时,每次查询的数据存入MPPDB数据库的timestamp自动增加1小时。 配置Rule参数,具体参数如表5所示,配置完成后,单击“Build Statement”。 表5 Rule参数说明 参数名称 参数说明 表类型 默认显示视图数据表类型。 数据源 选择需要汇聚的数据表。 从数据源列表 分表场景时使用,如果选中了数据源A和从数据源列表B,会优先从B表匹配维度。 Indicators 选择汇聚任务需要计算的指标列表。 Order By 选择需要排序的维度。 limit 设置查询返回值个数,上限为200000。 分组维度 选择需要Groupby的维度。 配置Output参数,具体参数如表6所示。 表6 Output参数说明 参数名称 参数说明 输出表类型 选择存放汇聚结果的表(输出表)类型,默认为MPPDB。 集群名 选择输出表所在的集群名。 数据库名 选择输出表所在的数据库名。 表名 选择输出表的表名,选择前需要创建MPPDB表。 列名 选择输出表的所有列名。 查询结果列 汇聚结果的列名。 Column Mappings 根据输出表(MPPDB)选择对应的查询结果列。 单击已创建的持久化视图或长期存储视图,在“视图”页面单击“Start Task”,启动第一层任务。保证期望状态和实际状态都为“Running”,如下图图4所示。 图4 启动任务 单击“Create Hourly Task”,会自动创建小时级的MPPDB汇聚任务和表(TTL 默认1年),自动将5分钟级别的数据roll up成小时级的。再单击“Start Hourly Task”启动该任务,保证期望状态和实际状态都为“Running”。 单击“Create Daily Task”,会自动创建天级的MPPDB汇聚任务和表(TTL 默认2年),自动将小时级别的数据roll up成天级的。再单击“Start Daily Task”启动该任务,保证期望状态和实际状态都为“Running”。
  • 调优策略 最常见告警 长时间低(高)于阈值线告警,如图1所示。 图1 常见告警 告警进入条件:一般8分钟内有7个点异常告警进入。 告警退出条件:20分钟内有18个点正常则告警退出。 调优方法: 调节sensitivity敏感度参数,可以使小幅度下降的异常不告警,针对阈值线过紧的情况,图1的异常通过敏感度调节不了,因为阈值线相对是合理的 配置count_threshold参数,如果不关注请求量很少的异常,可以配置该参数,建议非必要情况下不要配置该参数,可能会出现遗漏告警的情况。 毛刺告警 两三个显著的毛刺点异常,如图2所示。 图2 毛刺告警 告警进入条件:穿过阈值线的毛刺异常程度,最快在第2个毛刺点告警。 告警退出条件:20分钟内有18个点正常则告警退出。 调优方法: 如果对请求量很少的接口,毛刺异常不关注,可以配置low_count_threshold参数,如图2中告警的曲线请求量不超过30,可以配置改参数为30。 如果不管请求量多少,都不需要毛刺类告警,则可以配置alert_by_spikes参数。毛刺类告警最快可以将告警时间缩短为2分钟,如果屏蔽掉这类告警,则按照其他的告警类型会有一定的延迟(一般7分钟)。 突变告警 突变告警只针对请求量类指标,特点是请求量曲线发生突变(突增或者突降)同时指标曲线没有触及阈值线,如图3所示。 图3 突变告警 告警进入条件:局部看曲线发生突变(默认突变20%),或者长期看相比历史降低或升高。 告警退出条件:数据平稳后告警退出,一般会持续18分钟。 调优方法: 通过配置alert_by_chain参数可以控制是否加入突变检测。突变告警可以防止阈值线学习宽松条件下指标突变的漏告警,但对于不关注阈值线之上数据突变的指标会产生一些不必要的告警。 波动性告警 波动性告警只针对非请求量类指标,这类告警的特点是指标曲线没有触及阈值线,如图4所示。 图4 波动性告警 告警进入条件:局部看曲线波动变大,或者长期看相比历史数据持续降低或升高。 告警退出条件:数据恢复到历史同期水平,持续18分钟则告警退出。 调优方法: 对于小幅度的波动和下降(上升)告警可以通过调节sensitivity敏感度来减少部分告警。 如果不关注这类异常,可以通过配置alert_by_std参数来实现。波动性告警可以防止阈值线学习宽松条件下指标小幅波动的漏告警,但对于不关注阈值线之上数据波动的指标会产生一些不必要的告警。 长时间掉0告警 长时间掉0告警只针对请求量类指标,特点是阈值线为0,测量值长时间掉0,如图5所示。 图5 长时间掉0告警 告警进入条件:历史同时期没有掉0,或者掉0时间持续28分钟。 告警退出条件:数据恢复到正常水平则告警退出。 调优方法: 如果这类告警频繁出现,可以通过配置alert_by_drop_to_0参数屏蔽。长时间掉0告警可以防止阈值线为零的情况下指标长时间掉零的漏告警。
共100000条