华为云用户手册

  • scriptcollet 插件类型 APP 功能说明 执行脚本命令或者读取指定文件内容,并将结果上报给HCW。 参数配置 配置样例: type:script # 采集方式,可选填 script(采集脚本)或者 path(采集文件)。 ex_path:/opt/huawei/monitor/disk.sh # 脚本执行路径或者采集文件路径。 _filter_key_id:/opt/huawei/monitor/disk.sh # 多实例插件的key,此参数是为了支持多实例插件上报使用,只需要保证多个实例中该值均不同,建议与ex_path值保持一致。 scriptcollect为多实例插件,即scriptcollect插件可以配置多组参数,但需要每组参数均不相同。 消息样例及含义说明 { "plugin_id":"scriptcollect", #单位: | 类型:string | 说明:插件名 "metric":[{ "node": " host-10-22-0-170", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "key_id":"/opt/huawei/monitor/disk.sh", #单位: | 类型:string | 说明:对应模板配置的key值 "collect_value":"80", #单位: | 类型:string | 说明:执行脚本命令或者读取指定文件内容上报的值 }] }
  • gpu 插件类型 OS 功能说明 采集GPU信息,每次采集都为每个GPU,以及总GPU维度分别生成消息,并上报给HCW。 执行nvidia-smi命令,分别获取每个GPU的GPU-Util、Bus-Id、mem_used、mem_total、mem_util信息,并整合总GPU信息上报给HCW。 参数配置 不需要配置。 消息样例及含义说明 {    "plugin_id":"gpu", #单位: | 类型:string | 说明:插件名    "metric":{ "node": "bj-xen-pdc-241-202", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "_id":"GPU-0", #单位: | 类型:string | 说明:GPU编号,总GPU编号为GPU-ALL "_name":"Tesla P100-PCIE", #单位: | 类型:string | 说明:GPU型号 "bus_id":"0000:04:00.0", #单位: | 类型:string | 说明:GPU的Bus-Id "util":"61", #单位: | 类型:string | 说明:GPU使用率 "mem_used":"1385", #单位: | 类型:string | 说明:GPU已使用显存 "mem_total":"16276", #单位: | 类型:string | 说明:GPU显存总量 "mem_util":"8.50" #单位: | 类型:string | 说明:GPU显存使用率     } }
  • logalarm 插件类型 ALARM 功能说明 监控指定日志文件,配置日志匹配关键字,并按照配置参数的要求,生成告警并上报到HCW。 参数配置 collect_file_path #定义日志采集配置,按照以下字段,使用json格式数据单行填入。 字段ID 字段名 必填 类型 范围 备注 id 告警定义ID 是 String 1~128 告警ID,由数字、字母、下划线组成。 alarm_name 告警名称 是 String 1~128 支持配置变量{{$log_info}},上报告警时会替换成匹配到的最后一条ERROR日志;支持配置变量{{$all_matching_log}},上报告警时会替换成匹配到的所有ERROR日志,当alarm_name配置了变量{{$all_matching_log}}时,若产生告警且后续周期又匹配到了告警,新匹配到的告警会在原告警ID的基础上,产生一个新的告警,并上报到监控系统,告警清除时会清除当前告警和后续产生的告警;当alarm_name配置为空时,会读取文件中的所有内容,逐行检测并上报告警。 alarm_level 告警级别 是 String 枚举 致命critical、严重major、一般minor、提示notice。 不区分大小写。 key_word 日志匹配关键字 是 String NA 日志匹配关键字,支持正则表达式。 match_file 日志文件绝对路径 是 String NA 支持变量、通配符,配置多个地址时需要使用逗号分隔。 matches 最大匹配次数 是 long NA - number_of_match_period 匹配周期数 是 long NA 与matches和key_word组合使用。 number_of_nodata_period 无数据上报的周期数 否 long NA 单独使用,与matches和key_word无关联。 description 告警详情 是 String NA 进一步丰富告警信息。 参数配置样例 [{"id":"alert20240627","alarm_name":"test20240627","alarm_level":"major","key_word":"usr/bin/sudo","match_file":"/var/log/messages","matches":2,"number_of_match_period":"30","number_of_nodata_period":"10","description":"test20240627"}] # 30个周期内匹配2次以上,则产生告警;30个周期内匹配2次或者2次以下,则清除告警。 # 10个周期内有数据则产生告警,10个周期内无数据上报则清除告警。
  • file_check 插件类型 APP 功能说明 查看文件是否存在以及查看文件的大小,以Byte为单位,将结果上报到HCW。 参数配置 配置样例: path:/tmp/error_*.log #路径为绝对路径,支持通配符。 消息样例及含义说明 { "plugin_id":"file_check", #单位: | 类型:string | 说明:插件名 "metric":[{ "node": " host-10-22-0-170", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "exists":"1", #单位: | 类型:string | 说明:文件是否存在,1表示存在,0表示不存在 "size":"80", #单位:Byte | 类型:string | 说明:表示文件大小 }] }
  • osinfo 插件类型 OS 功能说明 osinfo插件采集操作系统相关信息。 使用该插件要求/etc/nsswitch.conf文件有读权限,且其中hosts的解释项不能使用dns,即cat /etc/nsswitch.conf | grep "^hosts:" | grep dns命令返回应为空。"running"/"sleeping"/"stopped"/"zombie",全部进程数total与top命令输出的结果一致;最大文件打开数max_opens、最大进程数max_procs与ulimit -u、ulimit -n命令输出一致;本机当前打开的句柄数open_files与lsof|wc –l命令输出一致。open_files的获取每180秒只采集并上报一次,对于那些没有采集open_files的周期,该指标不出现在消息中。 原始数据来源:/proc/stat 参数配置 不需配置。 消息样例及含义说明 { "plugin_id": "osinfo", "metric": { "node": " host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": 1482161028000, #单位: | 类型:long | 说明:UTC时间戳 "ctx": "245480", #单位: | 类型:int | 说明:本周期上下文切换次数 "procs": "1032", #单位: | 类型:int | 说明:采集周期内新增的任务总数 "blocked": "0", #单位: | 类型:int | 说明:当前被阻塞的任务数 "running": "0", #单位: | 类型:int | 说明:当前R状态的进程数(top: running) "sleeping": "882", #单位: | 类型:int | 说明:当前D状态的进程数(top: sleeping) "stopped": "1", #单位: | 类型:int | 说明:当前T状态的进程数(top: stopped) "zombie": "1" #单位: | 类型:int | 说明:当前Z状态的进程数(top: zombie) "procs_total": "884", #单位: | 类型:int | 说明:当前总进程数(top: Tasks) "max_opens": "1024", #单位: | 类型:int | 说明:执行ulimit -n结果 "max_procs": "2059087", #单位: | 类型:int | 说明:执行ulimit -u结果 "open_files": "2059087", #单位: | 类型:int | 说明:本机当前打开的句柄数 } }
  • verify_os 插件类型 OS 功能说明 检测主机名是否有变更,并将检测结果返回HCW。 插件在HCW_Agent启动时,会将主机名存入HCW_Agent/temp/hostname.cache中,插件每个采集周期,会获取当前的主机名并与HCW_Agent/temp/hostname.cache中的主机名对比,若一致,返回0;不一致,返回1。 参数配置 不需要配置。 消息样例及含义说明 {    "plugin_id":"verify_os", #单位: | 类型:string | 说明:插件名    "metric":{ "node": " host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "hostname":"1", #单位: | 类型:string | 说明:主机名对比结果,相同为0,不同为1 } }
  • tomcat 插件类型 APP 功能说明 针对机器上运行性的多个Tomcat进程,周期采集其运行数据。 插件运行后,将首先在“agent框架lib/tomcat/”路径下生成TomcatJmx_fat.jar,后续每次执行时,都会通过该jar包使用JMX接口采集tomcat进程相关信息。每次采集结束,每个tomcat进程分别生成一条消息,http_port可作为区分标志。 参数配置 用户在使用该插件进行采集之前,需要先手动修改tomcat安装目录下bin/catalina.sh,在文件中添加以下字段以支持JMX采集功能: CATALINA_OPTS="$CATALINA_OPTS -Djava.rmi.server.hostname=127.0.0.1 -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=58880 -Dcom.sun.management.jmxremote.ssl=false -Dcom.sun.management.jmxremote.authenticate=false" 用户还需要为插件配置当前本机运行中的Tomcat对应的安装路径,可配置单个或多个,以”,”做分隔符。 tomcat_install_path #可以识别绝对路径以及环境变量。 如果采用环境变量来传递Tomcat安装路径,要求在~/.bashrc中添加export命令进行配置,如下图: 在配置生效后,可通过source ~/.bashrc或重启机器,再启动agent进行数据采集。 消息样例及含义说明 {      "plugin_id":"tomcat",     "metric":{ "node": " host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": 1482161028000, #单位: | 类型:long long | 说明:UTC时间戳 "request_count":"0", #单位: | 类型:double | 说明:采集间隔内新增请求数 "request_errors_count":"0", #单位: | 类型:double | 说明:采集间隔内新增错误请求数 "thread_total":"47", #单位: | 类型:double | 说明:累计线程数 "http_port_id":"8080", #单位: | 类型:double | 说明:tomcat对外提供服务的端口号         } }
  • redis 插件类型 APP 功能说明 检测redis数据库信息,并将检测结果上报至HCW。 参数配置 配置样例: _filter_port_id:6379 # redis端口 password:123456,123457 # redis密码,可配置多个密码。redis插件会先从/opt/zabbix/bin/redis_stats.sh中获取redis密码,若获取或校验失败,会去读取配置参数中的password中的密码列表。 redis为多实例插件,即redis插件可以配置多组参数,但需要每组参数均不相同。 消息样例及含义说明 { "plugin_id": "redis", #单位: | 类型:string | 说明:插件名 "metric": [ { "node": " host-10-22-0-170", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "port_id": "80", #单位: | 类型:string | 说明:redis端口 "port_status": "1", #单位: | 类型:string | 说明:端口状态,端口可达值为1,不可达值为0 "cpuload": "10", #单位: | 类型:string | 说明:redis进程CPU占用率 "used_memory": "2403776 ", #单位: | 类型:string | 说明:Redis分配器分配的内存总量 "mem_fragmentation_ratio": "5.60", #单位: | 类型:string | 说明:used_memory_rss和used_memory之间的比率 "used_memory_peak": "4352360", #单位: | 类型:string | 说明:Redis内存消耗峰值 "keyspace_hits": "47343", #单位: | 类型:string | 说明:命中key的次数 "keyspace_misses": "1437", #单位: | 类型:string | 说明:未命中key的次数 "connected_clients": "1", #单位: | 类型:string | 说明:连接的客户端数量 "evicted_keys": "0", #单位: | 类型:string | 说明:运行以来删除过的key的数量 "blocked_clients": "0", #单位: | 类型:string | 说明:正在等待阻塞命令(BLPOP、BRPOP、BRPOPLPUSH)的客户端的数量 "rejected_connections": "0", #单位: | 类型:string | 说明:因为最大客户端数量限制而被拒绝的连接请求数量 "used_memory_rss": "13471744", #单位: | 类型:string | 说明:Redis分配的内存总量(包括内存碎片) "loading": "0", #单位: | 类型:string | 说明:是否正在载入持久化文件,0为否,1为是 "rdb_bgsave_in_progress": "0", #单位: | 类型:string | 说明:后台进行中的 save 操作的数量 "rdb_last_bgsave_status": "1", #单位: | 类型:string | 说明:最后一次创建RDB文件的结果,0为失败,1为成功 "rdb_last_bgsave_time_sec": "1", #单位: | 类型:string | 说明:最后一次创建RDB文件耗费的秒数 "instantaneous_ops_per_sec": "0", #单位: | 类型:string | 说明:服务器每秒中执行的命令数量 "expired_keys": "1281", #单位: | 类型:string | 说明:过期而被自动删除的数据库键数量 "latest_fork_usec": "0", #单位: | 类型:string | 说明:最近一次fork()操作耗费的时间 "client_biggest_input_buf": "0", #单位: | 类型:string | 说明:当前连接的客户端中,最大的输入缓存 "client_longest_output_list": "0", #单位: | 类型:string | 说明:当前的客户端连接中,最长的输出列表 "keyspace_hits_ratio": "80" #单位: | 类型:string | 说明:keyspace_hits与keyspace_hits + keyspace_misses的比率 } ] }
  • file_regexp 插件类型 APP 功能说明 逐行读取指定路径文件,将内容按分界符分解为指标名称和指标值,并按照过滤条件过滤,将过滤后的指标数据上报给HCW。 参数配置 配置样例: path:/tmp/sds_zabbix.result # 采集文件路径。 delimiter # 分隔符。 _filter_key_word:.*_cassandra # 指标值关键字, 支持正则, 为空则直接上报所有指标信息,非空则只上报匹配关键字的指标数据。 _filter_value_word:ok* # 指标值匹配关键字,支持正则,为空则不进行二次匹配,直接上报指标数据,非空则 匹配成功为1,匹配失败为0。 file_regexp为多实例插件,即file_regexp插件可以配置多组参数,但需要每组参数均不相同。 消息样例及含义说明 { "plugin_id":"file_regexp", #单位: | 类型:string | 说明:插件名 "metric":[{ "node": " host-10-22-0-170", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "name_id":"zj23_cassandra", #单位: | 类型:string | 说明:分隔后的指标名称(标签数据) "value_id":"ok", #单位: | 类型:string | 说明:分割后的指标值(标签数据) "value":"1", #单位: | 类型:string | 说明:指标上报值 }] }
  • cpu 插件类型 OS 功能说明 统计cpu信息,每次采集都为每个vcpu,以及总cpu维度分别生成消息。 原始数据来源:/proc/loadavg、/proc/stat等。 参数配置 插件默认为CPU0、CPU1、...、CPU-ALL分别生成消息。用户可根据需要配置_filter_cpu_id项,进行消息筛选。如果用户只需要总维度的CPU统计信息,则可配置参数_filter_cpu_id为CPU-ALL。 消息样例及含义说明 { "plugin_id": "cpu", "metric": { "node": "host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": 1482161028000, #单位: | 类型:long long | 说明:UTC时间戳 "cpu_id": "CPU1", #单位: | 类型:string | 说明:cpu编号(CPU-ALL:系统整体维度) "guest": "0.0", #单位:% | 类型:double | 说明:访客控制cpu时间占有率 "guest_nice": "0.0", #单位:% | 类型:double | 说明:低优先级访客控制cpu时间占有率 "idle": "100.0", #单位:% | 类型:double | 说明:空闲(不包含IO等待)时间占有率 "iowait": "0.0", #单位:% | 类型:double | 说明:等待IO响应的时间占有率 "irq": "0.0", #单位:% | 类型:double | 说明:处理硬件中断的时间占有率 "ldavg15m": "0.05", #单位: | 类型:double | 说明:近15分钟内平均负载 "ldavg1m": "0.01", #单位: | 类型:double | 说明:近1分钟内平均负载 "ldavg5m": "0.03", #单位: | 类型:double | 说明:近5分钟内平均负载 "nice": "0.0", #单位:% | 类型:double | 说明:低优先级用户态时间占有率 "softirq": "0.0", #单位:% | 类型:double | 说明:处理软件中断的时间占有率 "steal": "0.0", #单位:% | 类型:double | 说明:花在虚拟系统上的时间占有率 "system": "0.0", #单位:% | 类型:double | 说明:系统态时间占有率 "user": "0.0", #单位:% | 类型:double | 说明:用户态时间占有率 "util": "0.0", #单位:% | 类型:double | 说明:cpu占有率(1-idle) "vcpu_num": "48" #单位: | 类型:double | 说明:vcpu数量 } }
  • diskio 插件类型 OS 功能说明 统计磁盘IO信息,每次采集将针对每个磁盘分别生成一条消息。 插件先从/proc/partitions获取全部物理磁盘及逻辑分区的名字、主次设备号。然后根据得到的磁盘名单,从/proc/diskstats提取每个物理磁盘或逻辑分区的读写数据,并进一步进行计算得到IO数据。 参数配置 配置样例: _filter_disk_id:xvda,^1,^2 #筛选关键字 show_extra:true #是否按照磁盘分区生成多条消息 其中带“^”前缀的为反向筛选关键字(1、2),其余为正向筛选关键字(xvda),每条消息在最终生成之前,插件会先执行一次正向筛选(若disk_id的值包含xvda,则保留这条消息;反之则删掉。若没有配置正向筛选关键字,则跳过这步筛选,保留消息。)若该条消息得以保留,插件会继续执行一次反向筛选(若disk_id的值包含1或2当中的任一字段,则删掉这条消息;反之则保留。若没有配置反向筛选关键字,则跳过这步筛选,保留消息。) show_extra为true时表示按照磁盘分区生成多条消息。 假设某台服务器执行cat /proc/partitions命令结果如图1所示,共7行数据,按照“_filter_disk_id:xvda,^1,^2”配置正反向过滤后,仅生成第1行xvda对应的消息。 图1 示例1 消息样例及含义说明 { "plugin_id": "diskio", "metric": { "node": "host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": 1482161028000, #单位: | 类型:long long | 说明:UTC时间戳 "avgqu_sz": "0.0000", #单位: | 类型:double | 说明:平均I/O队列长度 "avgrq_sz": "0.0000", #单位:扇区| 类型:double | 说明:平均每次设备I/O操作的数据大小 "await": "0.0000", #单位:ms | 类型:double | 说明:平均每次设备I/O操作的等待时间 "disk_id": "xvda", #单位: | 类型:string | 说明:物理磁盘号/逻辑分区号 "r_await": "0.0000", #单位:ms | 类型:double | 说明:平均每次读请求等待时间 "rkbps": "0.0000", #单位:kB/s | 类型:double | 说明:读操作的kbps数, 单位为KByte/s "rps": "0.0000", #单位:次/s | 类型:double | 说明:每秒完成的读I/O设备次数 "rrqmps": "0.0000", #单位:次/s | 类型:double | 说明:每秒进行merge的读操作数目 "svctm": "0.0000", #单位:ms | 类型:double | 说明:平均每次设备I/O操作的服务时间 "tps": "0.0000", #单位:次/s | 类型:double | 说明:每秒完成的读写I/O设备总次数 "util": "0.0", #单位:% | 类型:double | 说明:磁盘IO利用率 "w_await": "0.0000", #单位:ms | 类型:double | 说明:平均每次写请求等待时间 "wkbps": "0.0000", #单位:kB/s | 类型:double | 说明:写操作的kbps数, 单位为KByte/s "wps": "0.0000", #单位:次/s | 类型:double | 说明:每秒完成的写I/O设备次数 "wrqmps": "0.0000" #单位:次/s | 类型:double | 说明:每秒进行merge的写操作数目 } }
  • 录入华为公有云账号 进入运维中心工作台。 将鼠标悬停在右上角的账号,选择下拉列表中的“服务环境配置”,选择左侧导航栏的“账户列表”。 单击“录入账号”。 录入账号信息,具体参数如表1所示。 表1 账号信息参数 参数名称 参数说明 厂商 选择账号归属的云厂商。 华为公有云账号ID 使用华为云并购买资源时注册的账号的账号ID。 获取方式:在华为云控制台,鼠标悬停在右上角的用户名,选择下拉列表中的“我的凭证”,在“API凭证”页面查看。 华为公有云账号名称 使用华为云并购买资源时注册的账号的账号名。 获取方式:在华为云控制台,鼠标悬停在右上角的用户名,选择下拉列表中的“我的凭证”,在“API凭证”页面查看。 纳管方式 AK-SK:通过AKSK获取管理员 IAM 操作权限,该IAM账号所属用户组需要拥有对应的权限,不同接入资源所需的权限不同,具体如表2所示,授权操作请参见用户组授权。 授权委托:将操作权限委托给AppStage,让AppStage以IAM身份使用其他云服务,代替IAM进行一些资源运维工作,具体操作请参见创建委托,其中委托的账号需要设置为AppStage平台账号“HIS_wiseEyes”。 说明: 在AppStage管理控制台订购页可根据提示完成服务委托授权,如果未授权或者资源管理账号和开通AppStage账号不一致,可以在账号管理中进行授权委托。 IAM用户ID 选择纳管方式为AK-SK时,显示此参数。在IAM中创建的用户的用户ID。 获取方式:在华为云控制台,鼠标悬停在右上角的用户名,选择下拉列表中的“我的凭证”,在“API凭证”页面查看。 IAM用户名 选择纳管方式为AK-SK时,显示此参数。在IAM中创建的用户的用户名。 获取方式:在华为云控制台,鼠标悬停在右上角的用户名,选择下拉列表中的“我的凭证”,在“API凭证”页面查看。 AK 选择纳管方式为AK-SK时,显示此参数。输入用户的华为云访问密钥ID。 获取方式:在华为云控制台,鼠标悬停在右上角的用户名,选择下拉列表中的“我的凭证”,在左侧导航栏单击“访问密钥”,在“访问密钥”页面查看AK。 SK 选择纳管方式为AK-SK时,显示此参数。输入用户的华为云访问密钥。 SK只能在第一次创建的时候下载,之后都不能通过管理台查询。 授权委托名称 选择纳管方式为授权委托时,显示此参数。输入用户在华为云创建委托的名称。 获取方式:在华为云控制台,鼠标悬停在右上角的用户名,选择下拉列表中的“ 统一身份认证 ”,在左侧导航栏单击“委托”,在委托列表查看。 授权委托ID 选择纳管方式为授权委托时,显示此参数。输入用户在华为云创建委托的ID。 获取方式:在华为云控制台,鼠标悬停在右上角的用户名,选择下拉列表中的“统一身份认证”,在左侧导航栏单击“委托”,在委托列表查看。 表2 权限说明 接入资源 服务 所需权限策略类型 所需权限 网络 弹性网络服务(ENS) 系统策略 VPC Administrator 网络管理员 VPCEndpoint Administrator VPC终端节点 服务使您可以将VPC私密的连接到支持的服务 ELB FullAccess 弹性负载均衡服务所有权限 CES Administrator 云监控服务 管理员 NAT FullAccess AT网关服务所有权限 Tenant Guest 云服务只读权限(除IAM权限) NAT Administrator NAT网关服务管理员 ELB ReadOnlyAccess 弹性负载均衡服务只读权限 ELB Administrator 弹性负载均衡服务ELB管理员 虚拟机 主机管理服务(VMS) 自定义策略 策略内容如下所示: { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "bms:*:*", "deh:*:*", "ecs:*:*", "evs:*:*", "ims:*:*", "cce:*:*", "mrs:*:*", "bss:*:*", "vpc:*:*" ] } ] } CCE集群 弹性资源服务(ERS) 系统策略 CCE Administrator CCE集群及集群下所有资源的读写权限 SFS Administrator 弹性文件服务的操作权限 APM FullAccess 应用性能管理 服务的所有执行权限 OBS Administrator 对象存储服务 管理员 SWR Admin 容器镜像服务 的管理员权限 ELB Administrator 弹性负载均衡服务管理员 Server Administrator 服务器管理员 Tenant Guest 云服务只读权限(除IAM权限) 数据库 数据库治理(WiseDBA) 系统策略 不同数据库类型所需权限不同,具有如下: RDS(for MySQL) RDS FullAccess 关系型数据库服务所有权限 GeminiDB Cassandra GeminiDB FullAccess 分布式多模NoSQL数据库服务所有权限 GaussDB (for openGauss)/GaussDB(for MySQL) GaussDB FullAccess 云数据库GaussDB服务的所有执行权限 必选权限,无论使用哪种数据库,在数据库接入时都需要以下权限: DRS FullAccess 数据复制服务 所有权限 VPC ReadOnlyAccess 虚拟私有云的只读权限 CES告警 资源管理( RMS ) 自定义策略 策略内容如下所示: { "Statement": [ { "Action": [ "rms:resources:list", "rms:resources:get" ], "Effect": "Allow" } ], "Version": "1.1" } 单击“确定”。
  • 功能说明 Filebeat是一个轻量级的采集器,用于采集和处理,转发日志数据。Filebeat将作为代理安装在您的服务器上,监控您指定的日志文件或位置,收集日志事件,并将它们转发到kafka,推送到下一个处理点。 processors是filebeat定义了一系列对单条日志操作的方法,目前支持三类操作: 减少导出字段的数量 使用附加元数据增加字段 执行额外的处理或解码 每个processor接受一个事件(单条日志),将用户定义的操作应用于该事件并返回。如果您定义了一个处理器列表,它们将按照在filebeat配置文件中定义的顺序执行。任何一个算子执行失败,都会直接终止执行链条,并将异常事件发送到fail_to_topic,异常信息会记录在事件中的@errMsg中。
  • 算子组合使用样例 日志样例 2022-11-15 19:51:43.735 [20221115T115143]|AI||system|system|inner_ip|ADD|LogRecord|AIOperationLog(id=12d6ffbd-f371-4222-aa69-167bcd7ba3ee, serviceId=null, identityId=1111111111111, userId=test, timestamp=2022-11-15 19:51:43.67, operationType=WELINK_TRIGGER)||Y - serviceId:null 算子功能 对于非json格式的如何转化成json直接解析拿到key、value。例如id=12d6ffbd-f371-4222-aa69-167bcd7ba3ee, serviceId=null, identityId=1111111111111, userId=test, timestamp=2022-11-15 19:51:43.67, operationType=WELINK_TRIGGER。 算子脚本 - dissect: tokenizer: '%{time}|%{thread}|%{logVersion}|%{uid}|%{sign}|%{traceId}|%{cc}|%{operationLog}|%{bb}|%{aa}' field: "message" target_prefix: "" trim_values: "none" ignore_failure: true - replace: fail_on_error: false ignore_missing: true fields: - {field: "bb",pattern: 'AIOperationLog\(',replacement: "{\""} - {field: "bb",pattern: '\)',replacement: "\"}"} - {field: "bb",pattern: ' ,',replacement:"\""} - if: contains: "operationLog": "LogRecord" then: - replace: fail_on_error: false ignore_missing: true fields: - {field: "bb",pattern: '=',replacement: "\":\""} - {field: "bb",pattern: ' ',replacement:""} - {field: "bb",pattern: '\,',replacement: "\",\""} - decode_json: ignore_missing: true ignore_failure: true fields: - field: "bb" filters: - {target_field: "id",type: "string",filter_keys: ["id"]} - {target_field: "serviceId",type: "string",filter_keys: ["serviceId"]} - {target_field: "identityId",type: "string",filter_keys: ["identityId"]} - {target_field: "userId",type: "string",filter_keys: ["userId"]} - {target_field: "timestamp",type: "string",filter_keys: ["timestamp"]} - {target_field: "operationType",type: "string",filter_keys: ["operationType"]} - drop_fields: fields: ["time","thread","logVersion","uid","sign","traceId","cc","aa","bb"] ignore_missing: true - drop_event: when: not: equals: "operationLog": "LogRecord"
  • 更多操作 表2 相关操作 操作 说明 修改环境信息 单击环境信息管理3.0列表操作列的“修改”,在弹出的窗口中重新选择环境,单击“确定”,修改环境信息。 删除环境信息 单击环境信息管理3.0列表操作列的“删除”,在弹出的提示框中单击“确定”,删除环境信息。 同步 单击环境信息管理3.0列表操作列的“同步”,在弹出的提示框中单击“确定”,将部署服务下服务环境管理中的环境信息同步至微服务平台。 撤销同步 单击环境信息管理3.0列表操作列的“撤销同步”,在弹出的提示框中单击“确定”,撤销同步的环境信息。
  • 录入EPS配置 进入运维中心工作台。 将鼠标悬停在右上角的账号,选择下拉列表中的“服务环境配置”,选择左侧导航栏的“服务关联”。 在项目配置区域,单击“新增”。 新增项目配置,具体参数如表1所示。 表1 项目配置参数 名称 说明 部门 选择已录入的部门。 产品 选择已录入的产品。 服务 选择已录入的服务。 华为公有云账号名 选择用户的华为云账号名。 类型 关联项目:关联已有的公有云EPS。 关联且新增项目:在公有云EPS创建一个新项目,同时进行关联。 企业项目名称 关联项目时,选择已有的公有云EPS。 关联且新增时,填写创建的企业项目名称。 单击“确定”。
  • 解密敏感配置 在微服务业务代码的application.yml文件中配置敏感配置项,样例如下: nuwa: security: config: sensitiveWords: spring.redis.password,org.app.protocol-login.oauth.clientSecret,org.app.jwt-key 启动敏感配置项自动解密。 在微服务的启动类中添加@EnableStsEncryptableProperties注解。
  • 步骤二:通过IaC发布敏感配置 业务使用Runtime部署并按照IaC规范配置敏感配置项之后,在部署时Runtime会从STS管理台拉取加密配置项,注入到容器的环境变量中,并通过配置渲染工具将敏感配置渲染到业务的配置文件中。 在IaC脚本中的业务配置项配置文件中指定敏感配置项坐标。 此处以在config_records.yaml文件中增加一个名为spring.redis.password的敏感配置项为例。 spring.redis.password: MicroService/{ServiceName}/{MicroServiceName}/spring.redis.password/default 在IaC脚本中的业务配置项属性定义文件中,声明该配置项为敏感配置项。 此处以在config_schema.yaml中声明微服务的敏感业务配置项为例。 type: object properties: spring.redis.password: format: sensitive
  • 访问凭据管理服务概述 访问凭据管理服务(Access Credential Management Service,简称ACMS,也称为Security Token Service,简称STS)为云服务业务提供了以下两个功能: 微服务之间请求认证 ACMS为每个接入的微服务,颁发了用于通信中进行认证的STS认证凭据,两个微服务之间通信时,可以使用该认证凭据,进行STS认证。 为了让微服务可以安全地获取到STS认证凭据,STS给每个接入的微服务颁发了一张身份证书,该证书中包含了微服务的名称等信息。该证书在微服务部署时,安装到微服务所在的虚拟机或容器里。微服务使用该证书,就可以到STS-Server上获取认证凭据。 两个微服务之间通信时,被调用方(Provider)需要在ACMS管理台上给调用方(Consumer)配置访问权限(Access Control List,简称ACL),开通后,Consumer就可以使用STS下发的认证凭据,用于消息的签名和加密。 敏感配置的托管和分发功能 ACMS为每个接入的微服务都分配了一个用于加密敏感数据的密钥(KEK),对服务也分配了加密敏感数据的密钥(ServiceKEK)。同一个服务下的所有微服务,ServiceKEK是相同的。 利用这两个密钥,微服务可以将一些敏感配置托管到STS,STS会使用KEK或ServiceKEK对数据进行加密,在微服务部署时,由部署平台将敏感数据密文下发到微服务部署的环境上。 微服务启动时,利用微服务身份证书,可以同时获取KEK和ServiceKEK,从而把敏感数据明文解密出来。 父主题: 访问凭据管理服务
  • 更多操作 表5 操作说明 操作 说明 重置实例IP 当实例IP发生变化时,通过重置实例IP功能,可以将变更后的IP同步到Cloud Map中。 单击“重置实例 IP”,在弹出的提示框中单击“确定”,即可重置实例IP。 修改SDK配置 单击SDK列表操作列的“管理”,修改SDK配置。 删除SDK配置 单击SDK列表操作列的“删除”,删除SDK配置。 跳转到Cloud Map 单击SDK列表操作列的“跳转到Cloud Map”,查看SDK配置数据推送到Cloud Map。
  • 前提条件 需要获取待纳管数据库的管理员账号及密码。 需要具备AppStage服务运维岗位权限或数据库DBA角色权限,权限申请操作请参见AppStage组织成员申请权限。 已设置执行机。 同VPC执行机:将待纳管的数据库所在VPC下的主机设置为执行机。 跨VPC执行机:将待纳管数据库的自有服务下所属其他VPC的主机设置为执行机。 数据库纳管时系统会优先使用该数据库同VPC下的执行机,如果同VPC下没有执行机,随机选择服务关联的其他VPC下的执行机。跨VPC时,需保证执行机所在VPC与待接入运维中心的数据库所在VPC网络互通。请参见对等连接和安全组,连通服务关联的所有VPC,放通数据库和服务下所有执行机的安全组。
  • 功能介绍 数据库管理 WiseDBA为用户提供统一的数据库管理平台,支持用户级的管理、监控、可视化的数据库交互等功能,为用户节省50%以上的管理成本,提高数据库运维效率。 数据查询 数据查询工具可以帮助业务简化现网的SQL查询流程,避免SRE直接操作数据库。 SQL变更 SQL自动化变更工具可以帮助业务简化现网的SQL变更流程。 实时诊断 WiseDBA为数据库实例提供运维全生命的智能分析服务,让用户既可以直观地感知数据库实例的实时运行状况,也可以定位实时异常,并根据WiseDBA建议进行系统优化。
  • 新增OLC流控 在配置服务治理项页面,选择“OLC流控”页签,单击“新增”。 在新增OLC流控页面,选择配置不区分微服务接口的全局参数流控、针对微服务/接口的资源流控和节点级动态流控规则。 表10 新增全局资源 参数 说明 资源类型 选择全局资源。 参数名 填写参数名称。 字符长度0~50,可以由字母、数字、下划线、短横线、点组成,不能包含特殊字符。例:Limit_rule-001。 限制流控类型 QPS:每秒速率流控。 配额:特定时间的请求阈值。 阈值 流控阈值,正整数类型或0。 允许的突增量 当限流控制类型为QPS时,显示该参数。 允许的QPS突增值,作为突增增量累加到阈值上。 禁用时间 当限流控制类型为QPS时,显示该参数。 被流控后禁用时间。 时间窗口 填写时间,单位为秒,表示间隔多少秒允许一个请求通过。默认为1秒,取值范围为1~86400。 是否集群限流 选择“是”或“否”。开启后对集群内此资源的调用总量进行限制。 集群限流阈值模式 当流控类别为QPS,开启集群限流时,显示该参数。 单机均摊 总体阈值 本地配额缓存数 当流控类别为配额,开启集群限流时,显示该参数。 防止D CS 热点key的参数,可以减少DCS的访问,默认值为5。 该参数需要合理配置,配置过小容易造成热点key问题,配置过大可能导致部分节点放通部分节点流控的问题。 开启流控规则 选择是否开启流控规则。 表11 新增接口资源 参数 说明 资源类型 选择接口资源。 是否使用别名 选择是否使用别名。 原始服务名 使用别名时,需要填写原始服务名。 Schema All * 微服务方法 - 限流控制类型 QPS:每秒速率流控。 配额:特定时间的请求阈值。 阈值 流控阈值,正整数类型或0。 允许的突增量 当限流控制类型为QPS时,显示该参数。 允许的QPS突增值,作为突增增量累加到阈值上。 禁用时间 当限流控制类型为QPS时,显示该参数。 被流控后禁用时间。 时间窗口 填写时间,单位为秒,表示间隔多少秒允许一个请求通过。默认为1秒,取值范围为1~86400。 是否集群限流 选择“是”或“否”。开启后对集群内此资源的调用总量进行限制。 集群限流阈值模式 当流控类别为QPS,开启集群限流时,显示该参数。 单机均摊 总体阈值 本地配额缓存数 当限流控制类型为配额,开启集群限流时,显示该参数。 防止DCS热点key的参数,可以减少DCS的访问,默认值为5。 该参数需要合理配置,配置过小容易造成热点key问题,配置过大可能导致部分节点放通部分节点流控的问题。 开启流控规则 选择是否开启流控规则。 新增参数 单击“新增参数”,可以根据需要新增流控规则。 表12 新增节点级动态流控 参数 说明 资源类型 选择节点级动态流控。 开启流控规则 选择是否开启流控规则。 CPU过载阈值 CPU利用率超过该值时,接口的放通比例开始降低,直到降低至最低放通比例;CPU利用率越高,接口放通比例下降越快。该阈值要求为小数,范围为0~1,支持精度为小数点后四位。 CPU恢复阈值 CPU利用率小于该值时,接口的放通比例开始恢复,直到恢复至100%;CPU利用率越低,接口放通比例恢复越快。该阈值要求为小数,范围为0~1,支持精度为小数点后四位,并且小于CPU过载阈值。 最低放通比例 配置各个接口等级对应的最低放通比例,在CPU始终处于过载状态时,仍然能放通该比例的请求。 范围为0~1,支持精度为小数点后四位。 单击“确定”保存配置。
  • 治理策略说明 支持负载均衡、限流、故障隔离、容错、降级、熔断、错误注入、超时时间和OLC流控等策略的配置。各治理项说明如表1所示。 表1 治理策略说明 名称 说明 负载均衡 微服务一般会部署多个实例,负载均衡控制微服务消费者访问微服务提供者的多个实例的策略,以达到流量均衡的目的。策略包括轮询、随机、响应时间权值、会话粘滞等。 限流 用于控制访问微服务的请求量大小,避免由于流量冲击对系统造成破坏。 故障隔离 - 降级 用于控制微服务调用其他微服务的时候,强制返回缺省值或者抛出异常,而不将请求发送到目标微服务,以达到屏蔽对目标微服务的访问和降低其压力的目的。 容错 当微服务消费者访问提供者出现异常,比如实例网络不通等,需要将请求转发到其他可用的实例。这里的容错,常被称为重试。 熔断 当微服务消费者访问提供者出现异常,比如实例网络不通、请求超时等,并且异常积累到一定的程度,需要停止访问提供者,返回一个异常或者缺省值,防止雪崩效应。 熔断提供了自动熔断策略。自动熔断需要结合错误率等判断是否熔断。 错误注入 错误注入可以模拟一个调用失败,主要用于功能验证、故障场景演示等场景。 超时时间 - OLC流控 CPU过载控制OLC(Overload Control)是一种CPU过载调控机制。当CPU过载时,OLC能够对受监控协议报文和任务进行调控,通过不同优先级业务的合理规划和限制报文通过等方式,降低对CPU资源的消耗,并确保设备不会因为某种受监控协议或任务冲击CPU导致的CPU过载而影响对其他业务的正常处理
  • 新增容错策略 在配置服务治理项页面,选择“容错”页签,单击“新增”。 在新增容错页面,配置相关参数,参数说明如表6所示。 表6 新增容错参数说明 参数 说明 微服务(服务端) 选择需要降级的微服务。 是否使用别名 选择是否使用别名。 是否开启容错 选择开启或关闭。 容错策略 Failover:尝试新的服务器次数:1,尝试同一个服务器次数:0。 Failfast:尝试新的服务器次数:0,尝试同一个服务器次数:0。 Failback:尝试新的服务器次数:0,尝试同一个服务器次数:1。 Custom:尝试新的服务器次数:0~9,尝试同一个服务器次数:0~9。 尝试同一个服务器次数 服务调用尝试同一个服务器的次数。 尝试新的服务器次数 服务调用尝试新的服务器次数。 单击“确定”保存配置。
  • 新增错误注入 在配置服务治理项页面,选择“错误注入”页签,单击“新增”。 在新增错误注入页面,配置相关参数,参数说明如表8所示。 表8 新增错误注入参数说明 参数 说明 微服务(服务端) 需要测试容错能力的微服务,可以具体到微服务的方法。 是否使用别名 选择是否使用别名。 Schema(服务端) - 微服务方法(服务端) - 类型 测试微服务的容错能力类型: 延时 错误 协议 访问微服务出现延时或错误的协议: Rest Highway 触发概率 访问微服务出现延时或错误的概率。 延迟时间 访问微服务出现延时的时长,“类型”选择为“延迟”时才需要配置。 http错误码 访问微服务出现错误的HTTP错误码,“类型”选择为“错误”时才需要配置。该错误码为HTTP标准的错误码。 单击“确定”保存配置。
  • 新增限流策略 在配置服务治理项页面,选择“限流”页签,单击“新增”。 在新增限流页面,配置相关参数,参数说明如表3所示。 表3 新增限流参数说明 参数 说明 流控类型 服务端 客户端 微服务(客户端) 选择ALL。 是否使用别名 选择是否使用别名。 Schema(服务端) - 微服务方法(服务端) - QPS 每秒的请求数。当限流对象对当前服务实例的每秒请求数量超过设定的值,当前服务实例不再接受该对象的请求。取值范围为1-99999的整数。 单击“确定”保存配置。
  • 新增故障隔离策略 在配置服务治理项页面,选择“故障隔离”页签,单击“新增”。 在新增故障隔离页面,配置相关参数,参数说明如表4所示。 表4 新增故障隔离参数说明 参数 说明 微服务(客户端) 选择需要治理的微服务。 是否使用别名 选择是否使用别名。 是否开启 选择是否开启。 进入隔离逻辑门槛数 当实例的调用总次数达到该值时开始进入隔离逻辑门槛。 触发隔离连续出错数 当请求实例连续出错达到此阈值时触发实例隔离,如果配置了此项则覆盖实例故障百分比的配置,否则按照实例故障百分比触发隔离。 触发隔离错误百分比 实例故障隔离错误百分比。 最短隔离时间 - 故障单点测试时间 - 放通实例 选择是否放通实例。 放通最大锁定时间 为了保证在并发情况下只有一个实例放通,会锁定放通实例。这个时间表示最大锁定时间。 单击“确定”保存配置。
  • 新增熔断策略 在配置服务治理项页面,选择“熔断”页签,单击“新增”。 在新增熔断页面,配置相关参数,参数说明如表7所示。 表7 新增熔断参数说明 参数 说明 微服务(服务端) 选择需要降级的微服务。 是否使用别名 选择是否使用别名。 Schema(服务端) - 微服务方法(服务端) - 触发条件 取消熔断 手动熔断 自动熔断 熔断时间窗 触发条件为自动熔断时,配置此参数。 熔断的持续时间,该时间窗内不再响应请求。 失败率 触发条件为自动熔断时,配置此参数。 触发条件,窗口请求的失败率。 窗口请求数 触发条件为自动熔断时,配置此参数。 触发条件,窗口收到的请求数。“失败率”和“窗口请求数”的条件需同时满足才会触发熔断。 单击“确定”保存配置。
  • 更多操作 表1 相关操作 操作 说明 配置微服务治理项 在微服务列表中,单击操作列的“治理”,可以配置微服务治理,具体介绍请参见配置微服务治理。 删除微服务 在微服务列表中,单击微服务操作列的“删除”,可以删除微服务。 也支持批量删除多条微服务,具体介绍请参见删除微服务。 查看微服务详情 在微服务列表中,单击微服务名,可以查看微服务的版本列表、微服务实例列表、接口契约、依赖关系、SLB后端集群等信息。
共100000条