华为云用户手册

  • 更多操作 变更电子流创建后,您还可以对电子流进行以下操作。 表2 相关操作 操作名称 操作步骤 撤回变更电子流 在我的申请列表,单击待撤回变更电子流所在行“操作”列的。 撤回后记录依然存在,可以编辑、取消或克隆该电子流。 说明: 仅审批中的电子流可以撤回,已审批并处于变更状态的电子流无法撤回。 克隆变更电子流 在我的申请列表,单击待克隆变更电子流所在行“操作”列的。 可以修改信息后,单击“提交”。 转发变更电子流 我的申请列表,单击待转发变更电子流所在行“操作”列的。 配置转发任务信息,单击“确定”。 说明: 被转发人需要与转发人有相同权限,如同为一级审批人、同为二级审批人或同为三级审批人。 不能转发给变更单申请人。
  • 创建变更电子流 进入AppStage运维中心。 将鼠标悬停在右上角的账号,选择下拉列表中的“工单管理”,默认显示“变更单管理”页面。 单击“新建”。 配置电子流参数,参数说明如表1所示,配置完成后,单击“提交”。 页面带“*”标志的参数为必填参数,如需保存草稿,需要将必填参数填写完整。 表1 新建变更电子流 参数类型 参数名称 参数说明 基本信息 变更类型 选择变更类型。 服务部署:服务版本升级部署。 服务优化:修复业务自身集成设施或组件相关安全漏洞;业务发展变化引发的容量变化、服务迁移、资源调整、可用性优化;服务配置修改。 运营支撑:营销活动支撑,包括营销活动支持、用户服务支持。 运维优化:包括服务运维优化、基础运维优化、运维安全优化、运维工具优化。 产品 选择需要变更的产品。 服务 选择需要变更的服务。 服务环境 选择需要变更的服务环境。 版本号 变更类型是“服务部署”时,需要选择服务部署的版本号,支持自定义输入。 变更标题 输入变更标题,默认前缀为“部署站点-服务-变更类型”。 变更内容 输入变更内容说明。 变更等级 选择变更等级,包括A、B、C、D四个等级。 A级:管理面中断5min及以上或业务平面中断5秒及以上的变更。默认变更需要进行一到三级审批,可修改。 B级:管理面中断5min以内或业务平面中断5秒以内的变更。默认变更需要进行一、二级审批,可修改。 C级:业务不中断,客户无感知。默认变更需要进行一级审批,可修改。 D级:业务不中断,客户无感知,低风险变更。默认不需要进行审批。 变更时间 部署计划时间 选择部署的计划开始时间和计划结束时间。 审批人 一级审批人/二级审批人/三级审批人 根据选择的变更等级及设置的审批层级,输入对应的审批人。 说明: 组织管理员可以修改一级审批人、二级审批人、三级审批人的角色名称,可自定义修改,如已修改角色名称,此处显示修改后的角色名称,如“一级审批人(技术评审)”。 变更实施人 填写变更实施人。 审批人审批后的电子流会走给变更实施人做变更实施。 变更验证人 填写变更验证人。 变更实施后电子流会走给变更验证人。 其他附件 - 变更方案以及其他指导性文档可以通过附件上传word文档。
  • file_check 插件类型 APP 功能说明 查看文件是否存在以及查看文件的大小,以Byte为单位,将结果上报到HCW。 参数配置 配置样例: path:/tmp/error_*.log #路径为绝对路径,支持通配符。 消息样例及含义说明 { "plugin_id":"file_check", #单位: | 类型:string | 说明:插件名 "metric":[{ "node": " host-10-22-0-170", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "exists":"1", #单位: | 类型:string | 说明:文件是否存在,1表示存在,0表示不存在 "size":"80", #单位:Byte | 类型:string | 说明:表示文件大小 }] }
  • logalarm 插件类型 ALARM 功能说明 监控指定日志文件,配置日志匹配关键字,并按照配置参数的要求,生成告警并上报到HCW。 参数配置 collect_file_path #定义日志采集配置,按照以下字段,使用json格式数据单行填入。 字段ID 字段名 必填 类型 范围 备注 id 告警定义ID 是 String 1~128 告警ID,由数字、字母、下划线组成。 alarm_name 告警名称 是 String 1~128 支持配置变量{{$log_info}},上报告警时会替换成匹配到的最后一条ERROR日志;支持配置变量{{$all_matching_log}},上报告警时会替换成匹配到的所有ERROR日志,当alarm_name配置了变量{{$all_matching_log}}时,若产生告警且后续周期又匹配到了告警,新匹配到的告警会在原告警ID的基础上,产生一个新的告警,并上报到监控系统,告警清除时会清除当前告警和后续产生的告警;当alarm_name配置为空时,会读取文件中的所有内容,逐行检测并上报告警。 alarm_level 告警级别 是 String 枚举 致命critical、严重major、一般minor、提示notice。 不区分大小写。 key_word 日志匹配关键字 是 String NA 日志匹配关键字,支持正则表达式。 match_file 日志文件绝对路径 是 String NA 支持变量、通配符,配置多个地址时需要使用逗号分隔。 matches 最大匹配次数 是 long NA - number_of_match_period 匹配周期数 是 long NA 与matches和key_word组合使用。 number_of_nodata_period 无数据上报的周期数 否 long NA 单独使用,与matches和key_word无关联。 description 告警详情 是 String NA 进一步丰富告警信息。 参数配置样例 [{"id":"alert20240627","alarm_name":"test20240627","alarm_level":"major","key_word":"usr/bin/sudo","match_file":"/var/log/messages","matches":2,"number_of_match_period":"30","number_of_nodata_period":"10","description":"test20240627"}] # 30个周期内匹配2次以上,则产生告警;30个周期内匹配2次或者2次以下,则清除告警。 # 10个周期内有数据则产生告警,10个周期内无数据上报则清除告警。
  • gpu 插件类型 OS 功能说明 采集GPU信息,每次采集都为每个GPU,以及总GPU维度分别生成消息,并上报给HCW。 执行nvidia-smi命令,分别获取每个GPU的GPU-Util、Bus-Id、mem_used、mem_total、mem_util信息,并整合总GPU信息上报给HCW。 参数配置 不需要配置。 消息样例及含义说明 {    "plugin_id":"gpu", #单位: | 类型:string | 说明:插件名    "metric":{ "node": "bj-xen-pdc-241-202", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "_id":"GPU-0", #单位: | 类型:string | 说明:GPU编号,总GPU编号为GPU-ALL "_name":"Tesla P100-PCIE", #单位: | 类型:string | 说明:GPU型号 "bus_id":"0000:04:00.0", #单位: | 类型:string | 说明:GPU的Bus-Id "util":"61", #单位: | 类型:string | 说明:GPU使用率 "mem_used":"1385", #单位: | 类型:string | 说明:GPU已使用显存 "mem_total":"16276", #单位: | 类型:string | 说明:GPU显存总量 "mem_util":"8.50" #单位: | 类型:string | 说明:GPU显存使用率     } }
  • redis 插件类型 APP 功能说明 检测redis数据库信息,并将检测结果上报至HCW。 参数配置 配置样例: _filter_port_id:6379 # redis端口 password:123456,123457 # redis密码,可配置多个密码。redis插件会先从/opt/zabbix/bin/redis_stats.sh中获取redis密码,若获取或校验失败,会去读取配置参数中的password中的密码列表。 redis为多实例插件,即redis插件可以配置多组参数,但需要每组参数均不相同。 消息样例及含义说明 { "plugin_id": "redis", #单位: | 类型:string | 说明:插件名 "metric": [ { "node": " host-10-22-0-170", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "port_id": "80", #单位: | 类型:string | 说明:redis端口 "port_status": "1", #单位: | 类型:string | 说明:端口状态,端口可达值为1,不可达值为0 "cpuload": "10", #单位: | 类型:string | 说明:redis进程CPU占用率 "used_memory": "2403776 ", #单位: | 类型:string | 说明:Redis分配器分配的内存总量 "mem_fragmentation_ratio": "5.60", #单位: | 类型:string | 说明:used_memory_rss和used_memory之间的比率 "used_memory_peak": "4352360", #单位: | 类型:string | 说明:Redis内存消耗峰值 "keyspace_hits": "47343", #单位: | 类型:string | 说明:命中key的次数 "keyspace_misses": "1437", #单位: | 类型:string | 说明:未命中key的次数 "connected_clients": "1", #单位: | 类型:string | 说明:连接的客户端数量 "evicted_keys": "0", #单位: | 类型:string | 说明:运行以来删除过的key的数量 "blocked_clients": "0", #单位: | 类型:string | 说明:正在等待阻塞命令(BLPOP、BRPOP、BRPOPLPUSH)的客户端的数量 "rejected_connections": "0", #单位: | 类型:string | 说明:因为最大客户端数量限制而被拒绝的连接请求数量 "used_memory_rss": "13471744", #单位: | 类型:string | 说明:Redis分配的内存总量(包括内存碎片) "loading": "0", #单位: | 类型:string | 说明:是否正在载入持久化文件,0为否,1为是 "rdb_bgsave_in_progress": "0", #单位: | 类型:string | 说明:后台进行中的 save 操作的数量 "rdb_last_bgsave_status": "1", #单位: | 类型:string | 说明:最后一次创建RDB文件的结果,0为失败,1为成功 "rdb_last_bgsave_time_sec": "1", #单位: | 类型:string | 说明:最后一次创建RDB文件耗费的秒数 "instantaneous_ops_per_sec": "0", #单位: | 类型:string | 说明:服务器每秒钟执行的命令数量 "expired_keys": "1281", #单位: | 类型:string | 说明:过期而被自动删除的数据库键数量 "latest_fork_usec": "0", #单位: | 类型:string | 说明:最近一次fork()操作耗费的时间 "client_biggest_input_buf": "0", #单位: | 类型:string | 说明:当前连接的客户端中,最大的输入缓存 "client_longest_output_list": "0", #单位: | 类型:string | 说明:当前的客户端连接中,最长的输出列表 "keyspace_hits_ratio": "80" #单位: | 类型:string | 说明:keyspace_hits与keyspace_hits + keyspace_misses的比率 } ] }
  • file_regexp 插件类型 APP 功能说明 逐行读取指定路径文件,将内容按分界符分解为指标名称和指标值,并按照过滤条件过滤,将过滤后的指标数据上报给HCW。 参数配置 配置样例: path:/tmp/sds_zabbix.result # 采集文件路径。 delimiter # 分隔符。 _filter_key_word:.*_cassandra # 指标值关键字, 支持正则, 为空则直接上报所有指标信息,非空则只上报匹配关键字的指标数据。 _filter_value_word:ok* # 指标值匹配关键字,支持正则,为空则不进行二次匹配,直接上报指标数据,非空则 匹配成功为1,匹配失败为0。 file_regexp为多实例插件,即file_regexp插件可以配置多组参数,但需要每组参数均不相同。 消息样例及含义说明 { "plugin_id":"file_regexp", #单位: | 类型:string | 说明:插件名 "metric":[{ "node": " host-10-22-0-170", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "name_id":"zj23_cassandra", #单位: | 类型:string | 说明:分割后的指标名称(标签数据) "value_id":"ok", #单位: | 类型:string | 说明:分割后的指标值(标签数据) "value":"1", #单位: | 类型:string | 说明:指标上报值 }] }
  • tomcat 插件类型 APP 功能说明 针对机器上运行的多个Tomcat进程,周期采集其运行数据。 插件运行后,将首先在“agent框架lib/tomcat/”路径下生成TomcatJmx_fat.jar,后续每次执行时,都会通过该jar包使用JMX接口采集tomcat进程相关信息。每次采集结束,每个tomcat进程分别生成一条消息,http_port可作为区分标志。 参数配置 用户在使用该插件进行采集之前,需要先手动修改tomcat安装目录下bin/catalina.sh,在文件中添加以下字段以支持JMX采集功能: CATALINA_OPTS="$CATALINA_OPTS -Djava.rmi.server.hostname=127.0.0.1 -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=58880 -Dcom.sun.management.jmxremote.ssl=false -Dcom.sun.management.jmxremote.authenticate=false" 用户还需要为插件配置当前本机运行中的Tomcat对应的安装路径,可配置单个或多个,以”,”做分隔符。 tomcat_install_path #可以识别绝对路径以及环境变量。 如果采用环境变量来传递Tomcat安装路径,要求在~/.bashrc中添加export命令进行配置,如下图: 在配置生效后,可通过source ~/.bashrc或重启机器,再启动agent进行数据采集。 消息样例及含义说明 {      "plugin_id":"tomcat",     "metric":{ "node": " host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": 1482161028000, #单位: | 类型:long long | 说明:UTC时间戳 "request_count":"0", #单位: | 类型:double | 说明:采集间隔内新增请求数 "request_errors_count":"0", #单位: | 类型:double | 说明:采集间隔内新增错误请求数 "thread_total":"47", #单位: | 类型:double | 说明:累计线程数 "http_port_id":"8080", #单位: | 类型:double | 说明:tomcat对外提供服务的端口号         } }
  • scriptcollet 插件类型 APP 功能说明 执行脚本命令或者读取指定文件内容,并将结果上报给HCW。 参数配置 配置样例: type:script # 采集方式,可选填 script(采集脚本)或者 path(采集文件)。 ex_path:/opt/huawei/monitor/disk.sh # 脚本执行路径或者采集文件路径。 _filter_key_id:/opt/huawei/monitor/disk.sh # 多实例插件的key,此参数是为了支持多实例插件上报使用,只需要保证多个实例中该值均不同,建议与ex_path值保持一致。 scriptcollect为多实例插件,即scriptcollect插件可以配置多组参数,但需要每组参数均不相同。 消息样例及含义说明 { "plugin_id":"scriptcollect", #单位: | 类型:string | 说明:插件名 "metric":[{ "node": " host-10-22-0-170", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "key_id":"/opt/huawei/monitor/disk.sh", #单位: | 类型:string | 说明:对应模板配置的key值 "collect_value":"80", #单位: | 类型:string | 说明:执行脚本命令或者读取指定文件内容上报的值 }] }
  • osinfo 插件类型 OS 功能说明 osinfo插件采集操作系统相关信息。 使用该插件要求/etc/nsswitch.conf文件有读权限,且其中hosts的解释项不能使用dns,即cat /etc/nsswitch.conf | grep "^hosts:" | grep dns命令返回应为空。"running"/"sleeping"/"stopped"/"zombie",全部进程数total与top命令输出的结果一致;最大文件打开数max_opens、最大进程数max_procs与ulimit -u、ulimit -n命令输出一致;本机当前打开的句柄数open_files与lsof|wc –l命令输出一致。open_files的获取每180秒只采集并上报一次,对于那些没有采集open_files的周期,该指标不出现在消息中。 原始数据来源:/proc/stat 参数配置 不需配置。 消息样例及含义说明 { "plugin_id": "osinfo", "metric": { "node": " host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": 1482161028000, #单位: | 类型:long | 说明:UTC时间戳 "ctx": "245480", #单位: | 类型:int | 说明:本周期上下文切换次数 "procs": "1032", #单位: | 类型:int | 说明:采集周期内新增的任务总数 "blocked": "0", #单位: | 类型:int | 说明:当前被阻塞的任务数 "running": "0", #单位: | 类型:int | 说明:当前R状态的进程数(top: running) "sleeping": "882", #单位: | 类型:int | 说明:当前D状态的进程数(top: sleeping) "stopped": "1", #单位: | 类型:int | 说明:当前T状态的进程数(top: stopped) "zombie": "1" #单位: | 类型:int | 说明:当前Z状态的进程数(top: zombie) "procs_total": "884", #单位: | 类型:int | 说明:当前总进程数(top: Tasks) "max_opens": "2059087", #单位: | 类型:int | 说明:执行ulimit -n结果 "max_procs": "1024", #单位: | 类型:int | 说明:执行ulimit -u结果 "open_files": "2059087", #单位: | 类型:int | 说明:本机当前打开的句柄数 } }
  • tcp 插件类型 APP 功能说明 检测本机或者指定主机端口是否可连通,并将结果返回HCW。 参数配置 配置样例: _filter_ip_id:xxx.0.0.1 # 检测IP,检测本机指定端口是否可达,配置值为127.0.0.1,检测指定主机端口是否可达,配置值为指定主机IP;当检测本机端口是否可达时,会检测127.0.0.1+端口和本机公网IP+端口是否可达,若有一项可达则表明本机端口可达。 _filter_port_id:80 # 检测端口。 TCP为多实例插件,即TCP插件可以配置多组参数,但需要每组参数均不相同。 消息样例及含义说明 {    "plugin_id":"tcp", #单位: | 类型:string | 说明:插件名    "metric":[{ "node": " host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "port_status":"1", #单位: | 类型:string | 说明:端口状态,端口可达值为1,不可达值为0 "ip_id":"xxx.0.0.1", #单位: | 类型:string | 说明:检测IP "port_id":"80", #单位: | 类型:string | 说明:检测端口 }] }
  • snmp 插件类型 OS 功能说明 周期采集机器上TCP及UDP连接相关数据,每次采集发送一条消息。 原始数据来自:/proc/net/snmp 参数配置 不需配置。 消息样例及含义说明 { "plugin_id": "snmp", "metric": { "node": "host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": 1482161028000, #单位: | 类型:long long | 说明:UTC时间戳 "tcp_curr_estab": "19", #单位: | 类型: double | 说明:当前处于ESTABLISHED/CLOSE_WAIT状态的TCP连接数 "tcp_in_segs_ps": "327.6371", #单位:包/s| 类型:double | 说明:tcp收包速率 "tcp_out_segs_ps": "672.2037", #单位:包/s| 类型:double | 说明:tcp发包速率 "tcp_retrans_rate_ps": "15.0", #单位:% | 类型: double | 说明:tcp重传率 "udp_in_datagrams_ps": "0.0000", #单位:包/s| 类型:double | 说明:udp收包速率 "udp_out_datagrams_ps": "0.0000", #单位:包/s| 类型:double | 说明:udp发包速率 "active_conn": "0.0000", #单位:次/s| 类型:double | 说明:单位时间tcp连接主动连接发起次数 "passive_conn": "0.0000" #单位:次/s| 类型:double | 说明:单位时间tcp被动建立连接次数 } }
  • net 插件类型 OS 功能说明 采集网络IO信息,默认采集的目标网卡与本机ifconfig命令显示的网卡列表一致,仅采集ifconfig显示UP状态的网卡。 原始数据来源:/proc/net/dev 参数配置 通过_filter_nic_name配置,根据nic_name指标,对消息进行筛选,决定最终生成的哪些网卡的消息。 _filter_nic_name的配置比较特殊,只有当nic_name值以配置关键字串开头时,才会保留这条消息,而其他插件的消息筛选机制为包含即保留。如某台机器ifconfig列出的网卡名有eth0、eth1、veth1、lo。如果配置“_filter_nic_name:eth”,则剔除veth1和lo的消息,保留eth0、eth1的消息。 消息样例及含义说明 { "plugin_id": "net", "metric": { "node": "host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": 1482161028000, #单位: | 类型:long long | 说明:UTC时间戳 "collps": "0.0000", #单位:次/s | 类型:double | 说明:检测到发送冲突频率 "nic_name": "enp2s0f0", #单位: | 类型:string | 说明:网卡名,与ifconfig列表一致 "rxcmpps": "0.0000", #单位:包/s | 类型:double | 说明:接收压缩包速率 "rxdropps": "0.0000", #单位:包/s | 类型:double | 说明:接收丢包率 "rxdroprate": "0.0", #单位:% | 类型:double | 说明:接收丢包率 "rxerrps": "0.0000", #单位:次/s | 类型:double | 说明:接收错误频率 "rxfifops": "0.0000", #单位:次/s | 类型:double | 说明:接收FIFO缓存错误频率 "rxframps": "0.0000", #单位:次/s | 类型:double | 说明:接收帧错误频率 "rxkbps": "0.0000", #单位:kB/s | 类型:double | 说明:接收的kbps数,单位为KByte/s, 转换为kbps需乘以8 "rxmcstps": "0.0000", #单位:次/s | 类型:double | 说明:接收多播频率 "rxpckps": "0.0000", #单位:包/s | 类型:double | 说明:接收报文速率 "rxutil": "0.0", #单位:% | 类型:double | 说明:接收带宽利用率 "txcarrps": "0.0000", #单位:次/s | 类型:double | 说明:传输介质故障频率 "txcmpps": "0.0000", #单位:包/s | 类型:double | 说明:发送压缩包速率 "txdropps": "0.0000", #单位:包/s | 类型:double | 说明:发送丢包速率 "txdroprate": "0.0", #单位:% | 类型:double | 说明:发送丢包率 "txerrps": "0.0000", #单位:次/s | 类型:double | 说明:发送错频率 "txfifops": "0.0000", #单位:次/s | 类型:double | 说明:发送FIFO缓存错误频率 "txkbps": "0.0000", #单位:kB/s | 类型:double | 说明:发送的kbps数,单位为KByte/s, 转换为kbps需乘以8 "txpckps": "0.0000", #单位:包/s | 类型:double | 说明:发送报文速率 "txutil": "0.0", #单位:% | 类型:double | 说明:发送带宽利用率 "running": "1" #单位:% | 类型:double | 说明:网卡运行状态监测,如果为1表示ifconfig该网卡状态RUNNING,如果为-1表示ifconfig该网卡状态非RUNNING }
  • verify_os 插件类型 OS 功能说明 检测主机名是否有变更,并将检测结果返回HCW。 插件在HCW_Agent启动时,会将主机名存入HCW_Agent/temp/hostname.cache中,插件每个采集周期,会获取当前的主机名并与HCW_Agent/temp/hostname.cache中的主机名对比,若一致,返回0;不一致,返回1。 参数配置 不需要配置。 消息样例及含义说明 {    "plugin_id":"verify_os", #单位: | 类型:string | 说明:插件名    "metric":{ "node": " host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "hostname":"1", #单位: | 类型:string | 说明:主机名对比结果,相同为0,不同为1 } }
  • diskio 插件类型 OS 功能说明 统计磁盘IO信息,每次采集将针对每个磁盘分别生成一条消息。 插件先从/proc/partitions获取全部物理磁盘及逻辑分区的名字、主次设备号。然后根据得到的磁盘名单,从/proc/diskstats提取每个物理磁盘或逻辑分区的读写数据,并进一步进行计算得到IO数据。 参数配置 配置样例: _filter_disk_id:xvda,^1,^2 #筛选关键字 show_extra:true #是否按照磁盘分区生成多条消息 其中带“^”前缀的为反向筛选关键字(1、2),其余为正向筛选关键字(xvda),每条消息在最终生成之前,插件会先执行一次正向筛选(若disk_id的值包含xvda,则保留这条消息;反之则删掉。若没有配置正向筛选关键字,则跳过这步筛选,保留消息。)若该条消息得以保留,插件会继续执行一次反向筛选(若disk_id的值包含1或2当中的任一字段,则删掉这条消息;反之则保留。若没有配置反向筛选关键字,则跳过这步筛选,保留消息。) show_extra为true时表示按照磁盘分区生成多条消息。 假设某台服务器执行cat /proc/partitions命令结果如图1所示,共7行数据,按照“_filter_disk_id:xvda,^1,^2”配置正反向过滤后,仅生成第1行xvda对应的消息。 图1 示例1 消息样例及含义说明 { "plugin_id": "diskio", "metric": { "node": "host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": 1482161028000, #单位: | 类型:long long | 说明:UTC时间戳 "avgqu_sz": "0.0000", #单位: | 类型:double | 说明:平均I/O队列长度 "avgrq_sz": "0.0000", #单位:扇区| 类型:double | 说明:平均每次设备I/O操作的数据大小 "await": "0.0000", #单位:ms | 类型:double | 说明:平均每次设备I/O操作的等待时间 "disk_id": "xvda", #单位: | 类型:string | 说明:物理磁盘号/逻辑分区号 "r_await": "0.0000", #单位:ms | 类型:double | 说明:平均每次读请求等待时间 "rkbps": "0.0000", #单位:kB/s | 类型:double | 说明:读操作的kbps数, 单位为KByte/s "rps": "0.0000", #单位:次/s | 类型:double | 说明:每秒完成的读I/O设备次数 "rrqmps": "0.0000", #单位:次/s | 类型:double | 说明:每秒进行merge的读操作数目 "svctm": "0.0000", #单位:ms | 类型:double | 说明:平均每次设备I/O操作的服务时间 "tps": "0.0000", #单位:次/s | 类型:double | 说明:每秒完成的读写I/O设备总次数 "util": "0.0", #单位:% | 类型:double | 说明:磁盘IO利用率 "w_await": "0.0000", #单位:ms | 类型:double | 说明:平均每次写请求等待时间 "wkbps": "0.0000", #单位:kB/s | 类型:double | 说明:写操作的kbps数, 单位为KByte/s "wps": "0.0000", #单位:次/s | 类型:double | 说明:每秒完成的写I/O设备次数 "wrqmps": "0.0000" #单位:次/s | 类型:double | 说明:每秒进行merge的写操作数目 } }
  • mem 插件类型 OS 功能说明 采集全系统有关的内存信息。 原始数据来源:/proc/meminfo、/proc/vmstat 参数配置 不需配置。 消息样例及含义说明 { "plugin_id": "mem", "metric": { "node": "host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": 1482161028000, #单位: | 类型:long | 说明:UTC时间戳 "active": "6476724", #单位:kB | 类型:int | 说明:活跃内存 "buffers": "1776864", #单位:kB | 类型:int | 说明:buffers缓存 "cached": "8662036", #单位:kB | 类型:int | 说明:cached缓存 "dirty": "152", #单位:kB | 类型:int | 说明:等待写回磁盘的内存 "inactive": "4966164", #单位:kB | 类型:int | 说明:不活跃内存 "mem_free": "3964160", #单位:kB | 类型:int | 说明:可用内存 "mem_free_in_buf_cache": "14403060", #单位:kB | 类型:int | 说明:实际可用内存(+buffers+cached) "mem_free_size": "15072556", #单位:kB | 类型:int | 说明:"MemFree + Cached + Buffers + SReclaimable + Swapcached + Nfs_unstable - Shmem" "mem_total": "16311792", #单位:kB | 类型:int | 说明:全部内存 "mem_used": "12347632", #单位:kB | 类型:int | 说明:已用内存 "mem_used_ex_buf_cache": "1908732", #单位:kB | 类型:int | 说明:实际内存占用(-buffers-cached) "mem_used_size": "1239236", #单位:kB | 类型:int | 说明:mem_total - mem_free_size "mem_util": "7.6", #单位:% | 类型:double | 说明:mem_used_size / mem_total "swap_cached": "2632", #单位:kB | 类型:int | 说明:交换内存被缓存的大小 "swap_free": "4151180", #单位:kB | 类型:int | 说明:当前未使用的交换空间数 "swap_total": "4192252", #单位:kB | 类型:int | 说明:可用的交换空间总数 "swap_util": "3", #单位:% | 类型:double | 说明:交换空间占用率 "writeback": "0", #单位:kB | 类型:int | 说明:正在写回磁盘的内存 "pgfault": "4123", #单位: | 类型:int | 说明:本周期page fault数 "pgin": "0", #单位: | 类型:int | 说明:本周期page in数 "pgmajfault": "0", #单位: | 类型:int | 说明:本周期major page fault数 "pgout": "0" #单位: | 类型:int | 说明:本周期page out数 }}
  • cpu 插件类型 OS 功能说明 统计cpu信息,每次采集都为每个vcpu,以及总cpu维度分别生成消息。 原始数据来源:/proc/loadavg、/proc/stat等。 参数配置 插件默认为CPU0、CPU1、...、CPU-ALL分别生成消息。用户可根据需要配置_filter_cpu_id项,进行消息筛选。如果用户只需要总维度的CPU统计信息,则可配置参数_filter_cpu_id为CPU-ALL。 消息样例及含义说明 { "plugin_id": "cpu", "metric": { "node": "host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": 1482161028000, #单位: | 类型:long long | 说明:UTC时间戳 "cpu_id": "CPU1", #单位: | 类型:string | 说明:cpu编号(CPU-ALL:系统整体维度) "guest": "0.0", #单位:% | 类型:double | 说明:访客控制cpu时间占有率 "guest_nice": "0.0", #单位:% | 类型:double | 说明:低优先级访客控制cpu时间占有率 "idle": "100.0", #单位:% | 类型:double | 说明:空闲(不包含IO等待)时间占有率 "iowait": "0.0", #单位:% | 类型:double | 说明:等待IO响应的时间占有率 "irq": "0.0", #单位:% | 类型:double | 说明:处理硬件中断的时间占有率 "ldavg15m": "0.05", #单位: | 类型:double | 说明:近15分钟内平均负载 "ldavg1m": "0.01", #单位: | 类型:double | 说明:近1分钟内平均负载 "ldavg5m": "0.03", #单位: | 类型:double | 说明:近5分钟内平均负载 "nice": "0.0", #单位:% | 类型:double | 说明:低优先级用户态时间占有率 "softirq": "0.0", #单位:% | 类型:double | 说明:处理软件中断的时间占有率 "steal": "0.0", #单位:% | 类型:double | 说明:花在虚拟系统上的时间占有率 "system": "0.0", #单位:% | 类型:double | 说明:系统态时间占有率 "user": "0.0", #单位:% | 类型:double | 说明:用户态时间占有率 "util": "0.0", #单位:% | 类型:double | 说明:cpu占有率(1-idle) "vcpu_num": "48" #单位: | 类型:double | 说明:vcpu数量 } }
  • fs 插件类型 OS 功能说明 统计主机文件系统使用情况,采集数据内容和df -lh命令一致。 当主机上的分区名称为/dev或/dev/shm时,无法采集该分区的数据。 当主机上的分区名称包含/media/或/mnt/时,无法采集该分区的数据 参数配置 配置样例:“_filter_mounted_name:^/shm,/dev,/opt”,其中带"^"前缀的为反向筛选关键字(/shm),其余为正向筛选关键字(/dev、/opt),每条消息在最终生成之前,插件会先执行一次正向筛选(若mounted_name的值包含/dev或/opt任一字段,则保留这条消息;反之则删掉。若没有配置正向筛选关键字,则跳过这步筛选,保留消息。)若该条消息得以保留,插件会继续执行一次反向筛选(若mounted_name的值包含/shm字段,则删掉这条消息;反之则保留。若没有配置反向筛选关键字,则跳过这步筛选,保留消息。) 假设某台服务器执行df -lh命令结果如图2所示,共4行数据,按照_filter_mounted_name:^/shm,/dev,/opt”配置正反向过滤后,仅生成第2、4行对应的消息。/dev/shm由于包含/shm,对应的消息将被剔除。 图2 示例2 消息样例及含义说明 { "plugin_id": "fs", "metric": { "node": "host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": 1482161028000, #单位: | 类型:long long | 说明:UTC时间戳 "fs_name": "/dev/mapper/vg1-lv1", #单位: | 类型:string | 说明:文件系统(= df命令的Filesystem列) "free": " 8707.9", #单位:mb | 类型:double | 说明:分区可用空间大小(= df命令的Avail列) "total": " 90710.0", #单位:mb | 类型:double | 说明:分区总大小(= df命令的Size列) "usage": "90.0", #单位:% | 类型:double | 说明:分区使用率(= df命令的Use%列) "used": " 80988.4", #单位:mb | 类型:double | 说明:分区已使用大小(= df命令的Used列) "mounted_name":"/opt", #单位: | 类型:string | 说明:分区挂载点(= df命令的Mounted on列) "index_node_use_util": " 3.00000 " #单位:% | 类型:double | 说明:inode使用率(= df -i命令的IUse%列) }
  • 更多操作 隔离域规划创建后,您还可以对隔离域规划进行以下操作。 表2 相关操作 操作名称 操作步骤 导出全量隔离域规划信息 在隔离域规划列表,单击“导出”,导出隔离域规划信息。 导出指定隔离域规划信息 在“隔离域规划”页签,输入筛选条件,并单击“查询”。 单击“导出”,导出隔离域规划信息。 删除隔离域规划 在隔离域规划列表,单击待删除隔离域规划所在行“操作”列的“删除”。 批量删除隔离域规划 在隔离域规划列表,勾选待删除隔离域规划,然后单击列表左上方的“删除”。
  • 更多操作 隔离域创建后,您还可以对隔离域进行以下操作。 表2 相关操作 操作名称 操作步骤 编辑隔离域 在隔离域列表,单击待编辑隔离域所在行“操作”列的“编辑”。 导出隔离域 单击隔离域列表上方的“导出”。 勾选需要导出的数据,单击“确认”。 选择需要保存的路径,单击“保存”,导出隔离域信息。 删除隔离域 在隔离域列表,单击待删除隔离域所在行“操作”列的“删除”。 批量删除隔离域 在隔离域列表,勾选待删除隔离域,然后单击列表左上方的“删除”。
  • 前提条件 已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 已准备环境并启用,服务环境管理列表显示已启用环境,具体操作请参见为资源接入准备环境。 已纳管主机,具体操作请参见将资源接入AppStage运维中心。 已创建虚拟机集群,具体操作请参见创建虚拟机集群。 已使用开发中心推包或者手动上传软件包及IaC3.0包。 已准备变更电子流,具体操作请参见创建运维中心变更电子流,仅电子流中设置的变更实施人可使用该电子流进行变更部署。
  • 步骤五:配置告警 在异常检测任务列表,单击任务所在行“操作”列的“告警”,默认显示“告警配置”页签。 告警基础配置。 表9 动态阈值算法配置参数说明 参数名称 参数说明 推送状态 设置告警推送状态,将异常检测生成的告警推送到告警模块,会展示在告警列表中。 INACTIVE:不推送,单击“Start”,可以设置为推送。 ACTIVE:推送,单击“Stop”,可以设置为不推送。 告警级别 设置该异常检测任务生成的告警的级别,对应告警模块。 critical:紧急 major:严重 minor:一般 notice:提示 告警名称 告警信息发送时展示的名称,可以设置告警名称或告警中文名称。 告警中文名称 告警信息发送时展示的名称,可以设置告警名称或告警中文名称。 阈值类型 设置判断阈值类型。 upper:数据高于模型预测上限值时产生告警。 lower:数据低于模型预测下限值时产生告警。 both:数据介于模型预测值之间时产生告警。 阈值类型配置需根据模型配置中的“metric_type(指标类型)”进行选择,如下所示: 成功率(success_rate)、速率(speed)、请求量下限(count_lowerlimit)配置下限(lower)。 时延(delay)、失败率(fail_rate)、请求量上限(count_upperlimit)配置上限(upper)。 请求量(count)可任意配置both/upper/lower。 自定义告警消息列 配置生成的告警字段,下拉列表可选字段为训练结果表中存在的字段,一般选择维度字段、指标测量值、上下限阈值(带有origin的字段)和告警类型(alert_type:长时间超过阈值线告警、毛刺告警、波动性告警、突变告警、掉零告警、小样本告警等)。选择后可以单击“Json Demo”或者“Text Demo”自动生成告警消息模板,如图2所示。 也可根据用户需要自定义。需要注意的是,模板中的变量写法为${字段名},最终生成的消息内容是将结果表中对应字段内容直接替换得到,如果某个字段值获取失败,请检查字段名称是否一致或结果表中数据是否异常。 图2 自定义告警消息列设置 自定义警报消息模板 根据自定义告警消息列设置的数据生成。 指定告警领域 如果本服务下不需要接收该告警信息,但其他某个服务需要接收,可以在这里指定对方的告警领域,将告警通知到对应服务中。 (可选)默认为不降级,可以开启降级配置按钮,并设置告警降级的生效时间段、请求量、指标量和持续时间,会按照设置降低生成告警的级别。 (可选)可以按服务ID设置告警路由,或自定义告警路由规则,如需配置请联系技术支持工程师。
  • 步骤三:配置基础数据 在异常检测任务列表,单击任务所在行“操作”列的“基础”。 在基础配置页面,默认显示新增任务时配置的信息,单击“字段配置”,切换至“字段配置”页签。 配置对应的参数,配置完成后,单击“确认”。 表5 基础数据参数说明 参数名称 参数说明 时间列 指定异常检测哪个列的数据是时间。 指标列 指定异常检测哪个列的数据是指标,即异常检测需要监控的指标。 计数列 指定异常检测哪个列的数据是请求量。 补充列 可以选择补充异常检测数据列。 维度 指定对哪些维度进行检测。 列名:指定维度列名,如需新增维度,可单击“+”号。 维度值:提供两种输入方式。 单击“获取动态值”,在“维度名-值筛选器”页面单击“保存”,动态获取维度值。如需手动修改,单击“打开编辑器”进行修改,可以手动过滤不需要的维度值。 单击“打开编辑器”,在“维度值-编辑”页面输入指定的维度值,并单击“Save”。 说明: 输入的维度值数量需要与定义的维度列数一致,否则无法保存该基础配置。 自动更新:如需动态更新维度,可以打开该按钮,并选择自动更新间隔周期。 维度筛选器 可以指定对某些维度组合对应的指标进行告警,或过滤某些维度。
  • 步骤二:配置数据来源 在异常检测任务列表,单击任务所在行“操作”列的“数据”。 在数据配置页面,选择异常检测数据类型,然后配置对应的参数,配置完成后,单击“保存”。 数据类型选择Warehouse,即选择指标仓库中的视图作为异常检测数据,如果是小时级、天级任务可使用该数据类型。选择Warehouse数据类型后,需要配置如所示参数。 表2 Warehouse类型参数说明 参数名称 参数说明 视图 选择指标仓库中已创建的异常检测视图,具体操作请参考为指标创建不同类型的视图。 指标 选择指标仓库中已创建的指标,具体操作请参考在运维中心指标仓库创建指标。 调度集群 选择异常检测任务调度集群,初始化监控服务时会自动分配两个调度集群, scheduleCluster-ops:数据汇聚任务使用。 scheduleCluster-ops-ad:异常检测任务使用。 Mppdb集群 选择Mppdb集群。 Mppdb数据库 选择Mppdb数据库。 Mppdb数据表 选择已创建的Mppdb数据表,具体操作请参考在监控服务创建数据表。 数据类型选择Indicator,即选择指标仓库中的指标作为异常检测数据。选择Indicator数据类型后,需要配置如所示参数。 表3 Indicator类型参数说明 参数名称 参数说明 调度集群 选择异常检测任务调度集群,初始化监控服务时会自动分配两个调度集群, scheduleCluster-ops:数据汇聚任务使用。 scheduleCluster-ops-ad:异常检测任务使用。 指标 选择指标仓库中已创建的指标,具体操作请参考在运维中心指标仓库创建指标。 维度列表 选择维度列,可多选。 Mppdb集群 选择Mppdb集群。 Mppdb数据库 选择Mppdb数据库。 Mppdb数据表 选择已创建的Mppdb数据表,具体操作请参考在监控服务创建数据表。 数据类型选择Other,即选择Mppdb表作为异常检测数据。选择Other数据类型后,需要配置如所示参数。 表4 Other类型参数说明 参数名称 参数说明 调度集群 选择异常检测任务调度集群,初始化监控服务时会自动分配两个调度集群, scheduleCluster-ops:数据汇聚任务使用。 scheduleCluster-ops-ad:异常检测任务使用。 Mppdb集群 选择Mppdb集群。 Mppdb数据库 选择Mppdb数据库。 Mppdb数据表 选择已创建的Mppdb数据表,具体操作请参考在监控服务创建数据表。
  • 更多操作 您还可以进行以下操作。 表2 相关操作 操作名称 操作步骤 导出全量ELB信息 单击ELB列表上方的“导出”,即可导出全部ELB信息。 导出指定ELB信息 在“公有云ELB”页面,输入筛选条件,并单击“查询”。 单击列表上方的“导出”,即可导出已查询的指定ELB信息。 删除ELB 在ELB列表中,单击待删除ELB所在行“操作”列的“删除”,删除该ELB。 修改ELB自有服务归属 在ELB列表中,勾选需修改服务归属的ELB,单击列表上方的“修改服务归属”。 在“修改服务归属”页面,可以修改ELB纳管的租户、产品和自有服务,修改完成后单击“确定”。 同步公有云ELB状态 在ELB列表中,单击待同步公有云信息的ELB所在行“操作”列的“同步”。 批量同步公有云ELB状态 在ELB列表中,勾选待同步公有云信息的ELB,单击列表上方的“同步”。
  • 更多操作 您还可以进行以下操作。 表2 相关操作 操作名称 操作步骤 管理扫描规则 VMS默认扫描华为公有云账号下的所有资源,可以禁用或者删除对应账号的扫描规则。 在“未纳管主机”页面,单击列表上方的“扫描规则”。 单击对应账号后的“编辑”,禁用该账号扫描规则;或者单击“删除”,删除该账号规则。 查看未纳管主机详情 在“未纳管主机”页面可以单击资源所在行后“详情”列的内容,查看资源部署参数详情。 导出未纳管主机 在“未纳管主机”页面,单击列表上方的“导出”,即可导出所有未纳管主机。 在“我的导出”页面,单击文件名下载并查看导出信息。 升级OpsAgent 在未纳管主机列表,勾选待升级OpsAgent的主机。 单击列表上方的“升级OpsAgent”。 选择需要升级的OpsAgent的版本。 单击“确定”。 卸载OpsAgent 在未纳管主机列表,勾选待卸载OpsAgent的主机。 单击列表上方的“卸载OpsAgent”。 单击“确定”。
  • 步骤一:创建环境 进入AppStage运维中心。 将鼠标悬停在右上角的账号,选择下拉列表中的“服务环境配置”,选择左侧导航栏的“环境管理”。 单击“创建”,配置环境参数,具体参数如表1所示。 表1 创建环境参数 参数 说明 名称 填写环境名称,名称全局唯一,只能包含小写字母、数字以及下划线,不能以下划线开头。 用途 选择环境的用途。可选用途包括开发、测试、生产、安全和性能。 描述 环境的描述信息。 单击“确定”。
  • 步骤二:配置环境 在“服务环境配置”页面,选择左侧导航栏的“服务关联”。 在环境配置区域,选择待配置环境的环境名称。 单击“新增”,新增环境配置,具体参数如表2所示。 表2 环境配置参数 参数 说明 部门 选择已录入的部门。 产品 选择已录入的产品。 服务 选择已录入的服务。 华为公有云账号名 选择用户的华为账号名。 区域 选择使用的区域。 如果选择不到对应区域,需要将鼠标悬停在右上角的账号,在下拉列表选择“服务环境配置”,在“账号列表”页面单击对应账号后的“编辑”,然后单击“确定”,自动刷新该账号下的区域信息。 容灾区域 选择使用的容灾区域。 模式 环境中资源实例的部署模式,单云指部署一个AZ,双云指部署两个AZ。 单击“确定”,完成环境配置。 配置的环境会显示在环境配置列表中。
  • 步骤二:初始化主机 使用Administrator管理员账号密码登录Windows主机。 使用管理员身份打开powershell,执行如下脚本: Set-ExecutionPolicy RemoteSigned -Force; winrm quickconfig -q -force; winrm set winrm/config/service/auth '@{Basic="true"}'; winrm set winrm/config/service '@{AllowUnencrypted="true"}'; New-NetFirewallRule -Name Ansible -DisplayName Ansible -Enabled True -Action Allow -Protocol TCP -LocalPort 5985 -Direction InBound
  • AppStage运维中心基本概念 基本概念 说明 资源 资源是具备一定功能和作用的实例,是部署服务的管理对象,如WiseCloud::MicloudService::NuwaContainer实例、WiseCloud::Cache::D CS 实例等。 组件 组件是一个具有相同资源的集合,组件具备以下特点: 可以在组件中声明资源以及资源之间的依赖关系。 同一个资源只能属于一个组件。 组件下的所有资源上下文一致。 环境 环境是一个具有相同组件的集合,环境具有以下特点: 部署服务代码中的environment-id是“环境”的唯一索引。 不同环境下的组件和资源可以同名,同一环境下的资源和组件名称需要保证唯一。 一个组件只能属于一个环境,一个环境下会有多个组件。 环境变更的本质是环境下组件的变更。 流水线 流水线是将多个组件的变更组合起来的流程描述,描述各个组件变更的方式和次序。 变更工单 变更工单是实施现网变更的授权许可,业务需要发起现网变更时,通常会由研发人员提交变更电子流,并附上对应的变更文档。该电子流被审批通过后,会在变更工单管理中,创建一条对应的变更工单,运维人员可使用变更工单实施变更。 变更计划 变更计划是部署服务发起具体变更动作前的风险影响评估过程。通过风险影响评估过程可以得到,本次变更可能导致的资源动作和属性差异变化,以及可能的风险项。 变更风险项 变更风险项是某个资源的具体变更的风险认定。其描述了认定为风险变更的属性变化,以及能够审批允许的审批人列表。 变更电子流 变更电子流是用于无人值守变更的高度自动化的变更方式,是在部署服务基础上,尽可能将所有的运维手工选择操作前移到提交电子流之前。 Terraform Terraform是HashiCorp公司开发的基础设施即代码(Infrastructure-as-Code,IaC)软件,它能自动化的进行 资源编排 ,用于安全高效地预览、配置和管理云基础架构和资源,并提供自定义解决方案。 监控 是采集、汇总和分析IT基础设施、服务组件以及程序应用的运行指标,以了解其当前状态和运行状况,判断是否安全可靠的过程,是保证业务持续稳定运行的重要手段。 告警 告警是监控系统的响应组件,它根据指标值的变化按照既定的策略执行响应操作,其主要目的是引起人们对系统当前状态的关注。告警定义包含基于指标的条件或阈值以及当指标值达到或超出定义条件时要执行的操作。 告警通知 告警的通知在所有的告警处理的链路结束以后才会发生。告警处理模块会根据上报告警的上下文获取告警的值班配置,值班配置由业务预置。 告警屏蔽 为您提供短时间的屏蔽功能,可以通过设置告警屏蔽的规则,告警将在屏蔽的时间内不再触发任何通知,规则结束后,将会被再次唤醒,屏蔽期间告警被清除后,将不再触发任何通知,减少您的处理频度。 告警过滤 告警过滤是直接在接入的阶段就将告警屏蔽,告警仍然会进入Bypass的数据库但不会再向下发送给告警处理模块。 告警收敛 多个维度的告警,通过特定的条件将它们变为一条告警,只需要配置自定义的收敛规则,就可以将重复告警收敛到一起,还有默认的规则帮助用户维护告警。 告警标记 告警标记的作用是为一段时间内的告警打上标签,例如现网变更或者现网演练时,由于要模拟大量异常请求和其他操作会造成大量无用告警上报,标记的作用就是为这一段时间的告警打上标签与正常告警进行区分。 告警定义 对于繁琐复杂的告警上报字段感到困惑,使用统一定义,将会自动下发到业务对应的agent,更加人性化的界面设计,使告警上报更加统一、准确。 告警修复 设置特定的命中条件,告警在发送通知之前会执行预置的修复脚本,进行修复操作,自动帮你修复简单的告警。 语音值班配置 当告警生成时,配置对应的责任人,通过 WeLink 、短信、电话等多种形式,快速将异常情况通知到责任人。 日志 日志是指设备、系统或服务程序在运作时都会产生的事件记录,每一行日志都记载着日期、时间、使用者及动作等相关操作的描述。一般系统会有各种各样的日志文件,如应用程序日志,安全日志、系统日志、Scheduler服务日志、WWW日志、DNS服务器日志等。 日志项目 日志项目是一个包含多个日志服务配置的整体,可以看作是一个微服务实例。 同一个微服务实例下的日志服务配置应当包含在一个日志项目中。 不同微服务实例使用完全相同的日志服务配置时,也可以共用同一个日志项目。 日志空间 日志空间是日志服务为微服务的日志分配的使用空间。 业务须在日志接入页面填写日志相关信息并提交申请日志空间,日志空间支持定义空间内日志的结构化格式信息,此时要求所有使用此空间的日志都满足该日志格式。 日志采集配置 日志采集配置是日志服务采集端在采集微服务实例中日志时所需的配置,一种日志对应一项采集配置。 日志采集配置须归属于一个日志项目,并使用一个已分配好的日志空间。 日志采集配置之间可以共用日志空间,此时需要关注日志空间的日志格式要求,未定义日志格式的空间可不用关注。 事件 事件是指IT基础设施、服务组件以及程序应用等运行过程中发生的问题。事件可通过监控系统自动生成、客户报障生成或SRE主动巡检生成等。监控系统生成事件首先要采集和分析运行数据,然后根据预定规则判断是否需要生成事件。 HCW HW Cloud Watch,AppStage运维中心提供的监控系统,也称为云眼,可以提供监控、告警功能。 HCW Agent 监控系统的采集框架,需要在每台主机上部署,部署路径为/opt/huawei/HCW_Agent。 EAP 事件自动化平台(Event & Action Platform,EAP),通过集成各系统动作,解决复杂运维场景的操作编排功能。 流程 可以通过EAP平台所提供的各种动作组合来编排解决具体运维场景的流程。 动作 各服务的操作(例如部署任务、执行作业、确认告警等)封装。 标签 对某一类特定群体或对象的某项特征进行的抽象分类和概括,其值(标签值)具备可分类性。 标签树 标签树负责标签的管理,包括标签的创建,删除,修改。系统标签由系统管理员统一进行管理,业务自定义标签由业务人员进行管理。 逻辑主体 逻辑主体是业务实体的抽象,是基于物理表(MPPDB、ClickHouse、Influxdb)创建。逻辑主体和物理表之间存在映射关系,逻辑主体的字段名称和物理表可以不一样,这也是为了实现业务属性和物理表之间的解耦。 一个逻辑主体可以映射多种物理实体,当底层数据物理表变更,上层的指标逻辑定义可以不用发生变化。 指标 指标是指在被观测系统中观察和收集的资源使用或行为的测量值,可能是原始采集的数据,也可能是后期经过各种计算和统计方法得到的数值。 令牌 令牌是使用数据源的鉴权方式,只有通过对应业务的token的鉴权,才能使用对应的数据源。 视图 指标本身包含了业务计算规则,只有结合数据源才能真正被查询。视图,就是指标 + 物理表的结合,也是监控大盘上直接可被查询的对象。视图可以包含一个或多个指标,例如折线图只需要单指标的视图,但是表格就需要多指标的视图。 查询视图(Query View)。直接作用于物理表的查询视图,大多用在druid实时监控场景。 长期存储视图(Long Term View)。基于查询视图,可以创建长期存储视图。如果觉得某个查询视图值得被长期持久化,就可以使用该能力。长期存储视图会自动创建三个聚合任务,分别是5分钟粒度、小时粒度、天粒度。 持久化视图(Persistent View)。基于查询视图,可以创建持久化视图。部分视图需要出日报,就可以使用该能力。该视图会自动创建一个汇聚任务。 异常检测视图(Anomaly Detect View)。基于查询视图,可以创建异常检测视图,用来为异常检测任务提供数据。 插件 可在机器上执行并采集各项参数的二进制文件或者脚本。 父主题: AppStage运维中心简介
共100000条