云服务器内容精选

  • 实例支持的APIG特性 专享版实例支持的APIG特性。 若当前实例中无相关特性,可提交工单申请升级实例解决。 特性名称 特性描述 特性是否可配置 特性配置示例 特性配置参数 参数描述 参数默认值 参数范围 lts 是否支持shubao访问日志上报功能。 是 {"name":"lts","enable":true,"config": "{\"group_id\": ",\"topic_id\":\"\",\"log_group\":\"\",\"log_stream\":\"\"}"} group_id 日志组ID。 - - topic_id 日志流ID。 log_group 日志组名称。 log_stream 日志流名称。 gateway_responses 是否支持网关自定义响应。 否 - - - - - ratelimit 是否支持自定义流控值。 是 {"name":"ratelimit","enable":true,"config": "{\"api_limits\": 500}"} api_limits API全局默认流控值。注意:如果配置过小会导致业务持续被流控,请根据业务谨慎修改。 200 次/秒 1-1000000 次/秒 request_body_size 是否支持设置请求体大小上限。 是 {"name":"request_body_size","enable":true,"config": "104857600"} request_body_size 请求中允许携带的Body大小上限。 12 M 1-9536 M backend_timeout 是否支持配置后端API的最大超时时间。 是 {"name":"backend_timeout","enable":true,"config": "{"max_timeout": 500}"} max_timeout API网关到后端服务的超时时间上限。 60000 ms 1-600000 ms app_token 是否开启app_token认证方式。 是 {"name":"app_token","enable":true,"config": "{\"enable\": \"on\", \"app_token_expire_time\": 3600, \"app_token_uri\": \"/v1/apigw/oauth2/token\", \"refresh_token_expire_time\": 7200}"} enable 是否开启。 off on/off app_token_expire_time access token的有效时间。 3600s 1-72000s refresh_token_expire_time refresh token的有效时间。 7200s 1-72000s app_token_uri 获取token的uri。 /v1/apigw/oauth2/token - app_token_key token的加密key。 - - app_api_key 是否开启app_api_key认证方式。 是 {"name":"app_api_key","enable":true,"config": "on"} - - off on/off app_basic 是否开启app_basic认证方式。 是 {"name":"app_basic","enable":true,"config": "on"} - - off on/off app_secret 是否支持app_secret认证方式。 是 {"name":"app_secret","enable":true,"config": "on"} - - off on/off app_jwt 是否支持app_jwt认证方式。 是 {"name":"app_jwt","enable":true,"config": "{\"enable\": \"on\", \"auth_header\": \"Authorization\"}"} enable 是否开启app_jwt认证方式。 off on/off auth_header app_jwt认证头。 Authorization - public_key 是否支持public_key类型的后端签名。 是 {"name":"public_key","enable":true,"config": "{\"enable\": \"on\", \"public_key_uri_prefix\": \"/apigw/authadv/v2/public-key/\"}"} enable 是否开启public_key认证方式。 off on/off public_key_uri_prefix 获取public key的uri前缀。 /apigw/authadv/v2/public-key/ - backend_token_allow 是否支持普通租户透传token到后端。 是 {"name":"backend_token_allow","enable":true,"config": "{\"backend_token_allow_users\": [\"user_name\"]}"} backend_token_allow_users 透传token到后端普通租户白名单,匹配普通租户domain name正则表达式。 - - sign_basic 签名密钥是否支持basic类型。 否 - - - - - multi_auth API是否支持双重认证方式。 否 - - - - - backend_client_certificate 是否开启后端双向认证。 是 {"name":"backend_client_certificate","enable":true,"config": "{\"enable\": \"on\",\"ca\": \"\",\"content\": \"\",\"key\": \"\"}"} enable 是否开启。 off on/off ca 双向认证信任证书。 - - content 双向认证证书。 - - key 双向认证信任私钥。 - - ssl_ciphers 是否支持https加密套件。 是 {"name":"ssl_ciphers","enable":true,"config": "config": "{\"ssl_ciphers\": [\"ECDHE-ECDSA-AES256-GCM-SHA384\"]}"} ssl_ciphers 支持的加解密套件。ssl_ciphers数组中只允许出现默认值中的字符串,且数组不能为空。 - ECDHE-ECDSA-AES256-GCM-SHA384,ECDHE-RSA-AES256-GCM-SHA384,ECDHE-ECDSA-AES128-GCM-SHA256,ECDHE-RSA-AES128-GCM-SHA256,ECDHE-ECDSA-AES256-SHA384,ECDHE-RSA-AES256-SHA384,ECDHE-ECDSA-AES128-SHA256,ECDHE-RSA-AES128-SHA256 route 是否支持自定义路由。 否 - - - - - cors 是否支持API使用插件功能。 否 - - - - - real_ip_from_xff 是否开启使用X-Forwarded-For头中的ip作为ACL、流控的生效依据。 是 {"name": "real_ip_from_xff","enable": true,"config": {"enable": "on","xff_index": -1}} enable 是否开启。 off on/off xff_index X-Forwarded-For头中IP的排序序号;值允许取正数、负数、0;取0或正数时,获取X-Forwarded-For头中对应索引的IP;取负数时,按倒序方式从X-Forwarded-For头中获取IP。例如到达API网关的X-Forwarded-For头中依次有IP1,IP2,IP3 三个IP地址,xff_index取0时获取IP1,xff_index取1时获取IP2,xff_index取-1时获取IP3。 -1 int32有效值 app_route 是否支持ip访问。 是 {"name":"app_route","enable":true,"config": "on"} - - off on/off vpc_name_modifiable 是否支持修改负载通道名称。 是 {"name":"vpc_name_modifiable","enable":true,"config": "on"} - - on on/off default_group_host_trustlist DEFAULT分组是否支持配置非本实例IP访问。 是 {"name":"default_group_host_trustlist","enable": true,"config": "{\"enable\":\"on\",\"hosts\":[\"123.2.2.2\",\"202.2.2.2\"]}"} enable 是否开启。 - on/off hosts 非本实例IP列表。 - - throttle_strategy 是否启用流控模式。 是 {"name":"throttle_strategy","enable":true,"config": "{\"enable\": \"on\",\"strategy\": \"local\"}"} enable 是否开启。 off on/off strategy 流控模式。 - cluster/local custom_log 是否支持用户自定义API请求中的HEADER、QUERY、COOKIE参数值打印到日志。 是 {"name":"custom_log","enable":true,"config": "{\"custom_logs\":[{\"location\":\"header\",\"name\":\"a1234\"}]}"} custom_logs 自定义日志。 - 数量不超过10个 location 位置。 header/query/cookie name 名称。 - real_ip_header_getter 是否开启通过用户自定义的Header获取用户源IP地址。 是 {"name":"real_ip_header_getter","enable":true,"config": "{\"enable\": \"on\",\"header_getter\": \"header:testIP\"}"} enable 是否开启。 off on/off header_getter 获取用户源IP地址的自定义Header。 - - policy_cookie_param 是否开启策略后端条件支持cookie类型。 是 {"name":"policy_cookie_param","enable":true,"config": "on"} - - off on/off app_quota 是否支持客户端配额策略。 否 - - - - - app_acl 是否支持流控策略。 否 - - - - - set_resp_headers 是否支持响应header插件。 否 - - - - - vpc_backup 是否支持VPC通道的主备配置。 否 - - - - - sign_aes 签名密钥是否支持AES加密方式。 否 - - - - - kafka_log 是否支持增删改查kafka日志插件。 否 - - - - - backend_retry_count 是否支持API配置重试次数。 否 - - - - - policy_sys_param 策略后端条件来源是否支持系统参数。 否 - - - - - breaker 是否支持断路器。 否 - - - - - content_type_configurable 获取API列表的接口返回信息中是否存在API的请求参数类型信息(Content-Type)。 否 - - - - - rate_limit_plugin 是否支持流控插件。 否 - - - - - breakerv2 是否支持断路器,能够实现过载情况下服务能力降级。 否 - - - - - sm_cipher_type 加密本地敏感数据时,是否支持应用商密加密算法。 否 - - - - - rate_limit_algorithm 是否支持切换流控算法。 否 - - - - - gzip 是否对响应请求使用gzip压缩。 是 { "name" : "gzip", "config" : {\"comp_level\":6}, "enable" : true } comp_level gzip压缩级别或压缩水平。值为介于1到9之间的整数,表示压缩的程度,数字越大表示压缩得越好但耗费的时间也越多。 6 1-9 sse_strategy 是否支持sse传输策略开关。 是 { "name": "sse_strategy", "enable": true, "config": "on" } - - off on/off authorizer_context_support_num_bool 自定认证返回的context里键值对的值是否支持number类型和boolean类型。 否 - - - - - custom_auth_header APP认证和签名密钥策略是否支持认证头域自定义配置。 是 1:{ "name": "custom_auth_header", "enable": true, "config": "{\"app_auth_header\":\"app-header\", \"backend_sign_header\":\"back-header\"}" } app_auth_header 请求头中的APP认证的签名信息的头域可以由此处的配置项承载。 - 支持英文、数字、中划线、下划线,以英文开头,3-64个字符,可以为空,不能以x-apig、x-sdk开头,不区分大小写,不能是x-stage、authorization,不区分大小写 backend_sign_header 签名密钥策略(BASIC、AUTH和HMAC)传到后端的签名信息的头域可以由此处的配置项承载。 - request_custom_config 支持自定义配置客户端请求相关参数。 是 { "name": "request_custom_config", "enable": true, "config": "{\"http2\":\"on\",\"client_body_timeout\":10}" } http2 HTTP/2协议的开关。 on on/off client_body_timeout 客户端请求体超时时间。 8s 1-60s gateway_responses_support_header 分组自定义响应支持自定义响应头。 否 - - - - - api_uri_no_escape API中请求path的请求参数是否支持不转义。 是 {"name":"api_uri_no_escape","enable":true,"config":""} enable 是否开启。 false true/false ip_control 是否开启访问控制。 是 {"enable": true,"name":"ip_control","config":"{\"control_type\":\"white\",\"white_ip_list\":\"\",\"black_ip_list\":\"\"}"} control_type 控制类型。 black black/white white_ip_list 白名单IP列表。 - - black_ip_list 黑名单IP列表。 - - 父主题: 附录
  • LP格式的关键字 LP格式中的关键字不区分大小写 关键词(指示词) 可选项 含义 `minimize` `min、minimum` 最小化问题 `maximize` `max、maxmum` 最大化问题 `subject to` `s.t.、such that、st` 约束满足 `bounds` `bound` 表达式的界 `generals` `gen、general` 整数变量 `binaries` `bin、binary` 0-1变量 `inf` `infinity` 无穷 `free` 自由变量 `end` 结束 问题最小(大)化关键词实际上是格式的第一行有效字段有时该行也可以省略,如果省略则默认为最小化问题;End关键词是问题描述的结束,End之后即便还存在字段也不会被解析。
  • OBJECTIVE FUNCTION节 目标函数可采用 `maximize`或 `minimize`关键词开始,关键词后不能再出现其它字符,形式为: minimize -x1 + x2 + -x3 + 0.5 x1 + 100 + x4 + 20 如上形式可以看出: `minmize` 单独一行。 变量可以直接与负号(`-`)连接,如 ` x1,x3`。 变量可以多次出现,我们采用聚合多次系数,本例中为 `x1`的系数终于为 `0.5(-1+0.5)`。 偏移量可以出现在表达式中间或结尾,如 100 和 20。 在实际使用中目标函数可以提供一个名字,并且可以多行书写,但需注意一些细节,如 minimize obj:-x1 + x2 + -x3 + 0.5 x1 100 + x4 + x5 + 1.5 + 2.0 x6
  • GENERALS和BINARIES节(可选) LP 文件的 generals 和 binaries 节用于指示在可行解中必须具有整数值的变量。这两节由于形式相似,我们将其放在同一个部分介绍,实际上他们是否同时存在互不影响。注册在这两节的变量将具有的默认边界的定义。对于在generals 部分注册的变量,默认范围是 0 和$10^{20}$。对于在 binaries 部分注册的变量,默认边界是 0 和 1。 变量注册的方式是通过将变量罗列到对应节,如 Generals x4 x5 x6 x7 x8 x9 Binaries x1 x2 x3 x4 可见,不同变量之间通过空格分割,允许多行书写, 同时我们允许变量注册到不同节,如变量 `x4`,最终的变量类型为其可行区间最小的类型。 注:现阶段我们求解器仅支持线性问题,对于非线性字段和半连续、半整型暂不支持。
  • 调用API获取项目ID 项目ID可以通过调用查询指定条件下的项目列表API获取。 获取项目ID的接口为“GET https://{Endpoint}/v3/projects”,其中{Endpoint}为 IAM 的终端节点。接口的认证鉴权请参见认证鉴权章节。 响应示例如下,其中projects下的“id”即为项目ID。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 { "projects": [ { "domain_id": "65382450e8f64ac0870cd180d14e684b", "is_domain": false, "parent_id": "65382450e8f64ac0870cd180d14e684b", "name": "project_name", "description": "", "links": { "next": null, "previous": null, "self": "https://www.example.com/v3/projects/a4a5d4098fb4474fa22cd05f897d6b99" }, "id": "a4a5d4098fb4474fa22cd05f897d6b99", "enabled": true } ], "links": { "next": null, "previous": null, "self": "https://www.example.com/v3/projects" } }
  • 附录使用说明 本节所附为调优表实践中使用到的SQL测试语句,推荐您将每节的SQL语句拷贝并另存为.sql文件。例如,创建一个包含“初始表创建”SQL语句的create_table_fir.sql文件。创建后使用SQL客户端工具执行.sql文件效率更高,且利于统计用例的总耗费时间。使用gsql运行.sql文件的方法如下: 1 gsql -d database_name -h dws_ip -U username -p port_number -W password -f XXX.sql 示例中的部分信息请替换成您所用 GaussDB (DWS)集群的实际值: 1 gsql -d postgres -h 10.10.0.1 -U dbadmin -p 8000 -W password -f create_table_fir.sql 如示例中涉及的以下信息可根据实际情况替换: postgres:所要连接的数据库名称。 10.10.0.1:集群连接地址。 dbadmin:集群数据库的用户名。默认管理员用户为“dbadmin”。 8000:创建集群时设置的“数据库端口”。 password:创建集群时设置的密码。 父主题: 附录:表创建语法
  • 调用API获取项目ID 项目ID可以通过调用查询指定条件下的项目列表API获取。 获取项目ID的接口为“GET https://{Endpoint}/v3/projects”,其中{Endpoint}为IAM的终端节点,可以从地区和终端节点获取。接口的认证鉴权请参见认证鉴权。 响应示例如下,其中projects下的“id”即为项目ID。 { "projects": [ { "domain_id": "65ewtrgaggshhk1223245sghjlse684b", "is_domain": false, "parent_id": "65ewtrgaggshhk1223245sghjlse684b", "name": "project_name", "description": "", "links": { "next": null, "previous": null, "self": "https://www.example.com/v3/projects/a4adasfjljaaaakla12334jklga9sasfg" }, "id": "a4adasfjljaaaakla12334jklga9sasfg", "enabled": true } ], "links": { "next": null, "previous": null, "self": "https://www.example.com/v3/projects" } }
  • 事件监控支持的事件说明 表1 弹性云服务器 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 E CS 因系统故障触发重部署 startAutoRecovery 重要 弹性云服务器所在的主机出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,迁移过程中系统会自动重启云服务器。 等待虚拟机迁移成功,状态恢复正常。 实例重部署开始。 因系统故障重部署已完成 endAutoRecovery 重要 当自动迁移完成后,弹性云服务器已恢复正常。 确认业务是否恢复。 实例重部署结束。 实例重部署超时 faultAutoRecovery 重要 迁移弹性云服务器至正常的物理机操作超时。 确认应用集群业务是否受损。 实例重部署失败。 删除虚拟机 deleteServer 重要 删除云服务器。包括: 在管理控制台进行删除操作。 通过API接口下发删除指令。 确认虚拟机是否删除成功。 实例资源删除。 重启虚拟机 rebootServer 次要 云服务器重启。包括: 在管理控制台进行重启操作。 通过API接口下发重启指令。 确认业务是否恢复。 虚拟机重启。 关闭虚拟机 stopServer 次要 云服务器关机。包括: 在管理控制台进行关机操作。 通过API接口下发关机指令。 说明: “关闭虚拟机”事件需要开启 云审计 后才生效。 确认是否关机成功。 实例停机。 删除网卡 deleteNic 重要 云服务器删除网卡。包括: 在管理控制台删除网卡。 通过API接口下发删除网卡指令。 确认是网卡否删除成功。 网卡资源删除。 变更规格 resizeServer 次要 云服务器规格变更。包括: 在管理控制台进行变更规格。 通过API接口下发变更规格指令。 确认规格是否变更成功。 实例先停机后开机。 GuestOS系统层重启告警 RestartGuestOS 一般 GuestOS内部重启。 确认虚拟机是否重启成功。 实例重启。 系统故障导致虚拟机故障 VMFaultsByHostProcessExceptions 紧急 云服务器所在宿主机服务进程异常,导致云服务器故障。 确认应用集群业务是否受损。 实例故障。 开机失败 faultPowerOn 重要 云服务器开机失败。 确认应用集群业务是否受损。 实例开机失败。 宿主机存在宕机风险 hostMayCrash 重要 弹性云服务器所在的宿主机存在宕机风险,且由于一些原因,无法通过热迁移手段规避该风险。 确认应用集群业务是否受损。 实例有重启风险。 实例计划迁移已完成 instance_migrate_completed 重要 由于底层硬件、系统运维等影响,实例在计划时间迁移,任务已完成。 等待运行状态恢复正常,确认业务是否自动恢复。 业务存在中断的可能。 实例计划迁移执行中 instance_migrate_executing 重要 由于底层硬件、系统运维等影响,实例在计划时间迁移,任务执行中。 等待自动恢复事件结束,观察业务是否受到影响。 业务存在中断的可能。 实例计划迁移已取消 instance_migrate_canceled 重要 由于底层硬件、系统运维等影响,实例在计划时间迁移,任务已取消。 无 无 实例计划迁移失败 instance_migrate_failed 重要 由于底层硬件、系统运维等影响,实例在计划时间迁移,任务失败。 联系运维人员处理。 业务中断。 实例计划迁移等待执行 instance_migrate_scheduled 重要 由于底层硬件、系统运维等影响,实例在计划时间迁移,任务等待执行。 确认执行窗口对业务的影响。 实例等待执行迁移操作。 实例计划规格变更失败 instance_resize_failed 重要 实例在计划时间规格变更,任务失败。 联系运维人员处理。 业务中断。 实例计划规格变更已完成 instance_resize_completed 重要 实例在计划时间规格变更,任务已完成。 无 无 实例计划规格变更执行中 instance_resize_executing 重要 实例在计划时间规格变更,任务执行中。 等待自动恢复事件结束,观察虚拟机是否正常变更成功。 业务中断 实例计划规格变更已取消 instance_resize_canceled 重要 实例在计划时间规格变更,任务已取消。 无 无 实例计划规格变更等待执行 instance_resize_scheduled 重要 实例在计划时间规格变更,任务等待执行。 确认执行窗口对业务的影响。 实例等待执行规格变更操作。 实例计划重新部署等待执行 instance_redeploy_scheduled 重要 由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机,任务等待执行。 确认执行窗口对业务的影响。 实例等待执行重部署。 实例计划重启等待执行 instance_reboot_scheduled 重要 由于底层硬件、系统运维等影响,实例在计划时间重启,任务等待执行。 确认执行窗口对业务的影响。 实例等待执行重启。 实例计划停止等待执行 instance_stop_scheduled 重要 由于底层硬件、系统运维等影响,实例在计划时间停止,任务等待执行。 确认执行窗口对业务的影响。 实例中止等待。 开始热迁移 liveMigrationStarted 重要 弹性云服务器所在的主机可能出现故障,提前对虚拟机进行热迁移,避免宕机后导致业务中断。 等待虚拟机迁移成功,状态恢复正常。 实例热迁移开始。 热迁移完成 liveMigrationCompleted 重要 热迁移已经结束,弹性云服务器已恢复正常。 确认业务是否受到影响。 实例热迁移结束。 热迁移失败 liveMigrationFailed 重要 弹性云服务器热迁移出现问题,未热迁移成功。 确认应用集群业务是否受损。 实例热迁移失败。 GPU发生double bit ECC告警 doubleBitEccError 重要 GPU硬件存在double bit ECC故障。 如果业务受损停止,建议尝试重启虚拟机恢复业务。 如果业务仍然无法恢复,请提交工单。 可能会造成业务中断,故障页隔离后业务可继续正常使用GPU。 GPU A100 硬件发生ECC告警 gpuA100EccAlarm 重要 GPU卡出现ECC硬件故障。 如果业务受损停止,建议尝试重启虚拟机恢复业务。 如果业务仍然无法恢复,请提交工单。 可能会造成业务中断,故障页隔离后业务可继续正常使用GPU。 GPU ECC内存页隔离失败告警 eccPageRetirementRecordingFailure 重要 GPU硬件存在ECC故障,驱动自动隔离内存页时失败。 如果业务受损,请提交工单。 可能会造成业务中断,故障页隔离隔离失败,可能导致业务无法使用GPU。 GPU ECC页隔离告警 eccPageRetirementRecordingEvent 一般 存在ECC硬件错误,发生内存页自动隔离。 如果业务受损停止,建议尝试重启虚拟机恢复业务。 如果业务仍然无法恢复,请提交工单。 一般随ECC故障告警出现,单独出现不影响业务。 GPU single bit ECC过多告警 highSingleBitEccErrorRate 重要 ECC硬件存在过高ECC single bit错误。 如果业务受损停止,建议尝试重启虚拟机恢复业务。 如果业务仍然无法恢复,请提交工单。 single bit的错误能够自动恢复,一般不影响GPU相关应用程序。 GPU显存页告警 gpuMemoryPageFault 重要 GPU内存页发生故障,故障可能由应用、驱动或硬件引起 如果业务受损,请提交工单。 可能GPU硬件问题导致显存故障,导致业务异常退出。 GPU驱动掉卡告警 gpuDriverLinkFailureAlarm 重要 GPU链路正常,NVIDIA驱动找不到GPU硬件 建议尝试重启虚拟机恢复业务。 如果业务仍然无法恢复,请提交工单。 一般驱动问题导致找不到对应位置的GPU。 GPU图像引擎异常告警 graphicsEngineException 重要 GPU图像引擎发生故障,可能由应用、驱动或硬件引起。 如果业务受损,请提交工单。 可能GPU硬件问题导致图像引擎故障,导致业务异常退出。 GPU NVLINK链路错误告警 nvlinkError 重要 NVLINK的链路出现硬件故障 如果业务受损,请提交工单。 NVLINK链路故障,影响业务使用GPU NVLINK能力。 GPU存在infoROM告警 gpuInfoROMAlarm 重要 GPU可能存在硬件问题,导致驱动读取不到inforom信息。 非敏感业务可以继续使用该GPU卡,敏感业务请提交工单。 对业务暂时没有影响,当GPU硬件出现ECC故障时,可能无法自动完成故障页隔离,导致业务受损。 GPU隔离页过多告警 gpuTooManyRetiredPagesAlarm 重要 GPU硬件存在过多ECC隔离页。 如果业务受损,请提交工单。 GPU硬件存在过多ECC故障,可能频繁影响业务正常运行。 GPU卡链路故障告警 gpuPcieLinkFailureAlarm 重要 GPU链路异常,通过lspci查看GPU硬件出现故障。 如果业务受损,请提交工单。 硬件问题导致GPU链路异常,驱动无法使用GPU。 虚拟机GPU丢卡告警 vmLostGpuAlarm 重要 虚拟机实际有的GPU卡数量比规格里应分配的GPU卡数量少。 如果业务受损,请提交工单。 虚拟机GPU卡丢失。 GPU温度过高告警 highTemperatureEvent 重要 GPU硬件温度过高。 如果业务受损,请提交工单。 GPU温度超过温度阈值,可能会引起GPU卡性能下降。 FPGA链路故障 FPGALinkFault 紧急 弹性云服务器所在的主机上FPGA卡故障。包括: FPGA卡故障。 FPGA卡故障恢复中。 业务应用做成高可用。 FPGA卡故障恢复后,确认业务是否自动恢复。 业务中断。 GPU S RAM 存在Uncorrectable ECC告警 SRAMUncorrectableEccError 重要 GPU卡SRAM出现Uncorrectable ECC Error硬件故障。 如果业务受损,请提交工单。 可能GPU硬件问题导致SRAM故障,导致业务异常退出。 GPU链路故障 GPULinkFault 紧急 弹性云服务器所在的主机上GPU卡故障。包括: GPU卡故障。 GPU卡故障恢复中。 业务应用做成高可用。 GPU卡故障恢复后,确认业务是否自动恢复。 业务中断。 实例计划重新部署问询中 instance_redeploy_inquiring 重要 由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机,任务问询中。 授权重新部署到新主机操作。 无 本地盘换盘取消 localdisk_recovery_canceled 重要 因本地盘故障,更换本地盘任务,任务已取消 无 无 本地盘换盘等待执行 localdisk_recovery_scheduled 重要 因本地盘故障,更换本地盘任务,任务等待执行 确认执行窗口对业务的影响 无 GPU存在通用Xid事件告警 commonXidError 重要 GPU卡出现Xid事件告警 如果业务受损,请提交工单。 gpu硬件、驱动、应用问题导致Xid事件,可能导致业务异常退出。 nvidia-smi命令卡住 nvidiaSmiHangEvent 重要 nvidia-smi命令超时,该命令可能卡住 如果业务受损,请提交工单。 可能是命令执行过程中,触发驱动问题,导致命令卡住,同时可能出现业务使用驱动报错问题。 NPU: 存在不可纠正ECC错误 UncorrectableEccErrorCount 重要 NPU卡出现Uncorrectable ECC Error硬件故障 如果业务受到影响,转硬件换卡 业务可能受到影响终止 实例计划重新部署已取消 instance_redeploy_canceled 重要 由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。 无 无 实例计划重新部署执行中 instance_redeploy_executing 重要 由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。 等待自动恢复事件结束,观察业务是否受到影响。 业务中断 实例计划重新部署已完成 instance_redeploy_completed 重要 由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。 等待运行状态恢复正常,观察业务是否受到影响。 业务恢复正常 实例计划重新部署失败 instance_redeploy_failed 重要 由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。 联系运维人员处理。 业务中断 本地盘换盘问询中 localdisk_recovery_inquiring 重要 本地盘故障 授权本地盘换盘操作。 本地盘不可用 本地盘换盘执行中 localdisk_recovery_executing 重要 本地盘故障 等待本地盘换盘结束,观察本地盘功能是否正常。 本地盘不可用 本地盘换盘已完成 localdisk_recovery_completed 重要 本地盘故障 等待运行状态恢复正常,确认本地盘功能是否自动恢复。 本地盘恢复正常 本地盘换盘失败 localdisk_recovery_failed 重要 本地盘故障 联系运维人员处理。 本地盘不可用 DAVP: vasmi查询缺少die设备节点 DAVPSMICardNotFound 重要 有可能是驱动故障或发生掉卡 重启虚拟机,仍无法加载设备需转硬件处理 DAVP卡无法正常使用 DAVP: lspci查询缺少设备 DAVPLspciCardNotFound 重要 一般是由于DAVP掉卡 转硬件处理 DAVP卡无法正常使用 DAVP: 温度超过85℃阈值 TemperatureOverDfLimit 重要 核心模块温度超过85℃引起降频 暂停业务,转硬件查看散热系统,device复位 会导致DAVP卡降频 DAVP: 温度超过105℃阈值 TemperatureOverSdLimit 重要 核心模块温度超过105℃引起高温告警 暂停业务,转硬件查看散热系统,device复位 触发断电保护,DAVP卡无法正常使用 DAVP: 设备节点核心单元出现异常 DeviceCoreAbnormal 重要 当前故障很可能需要客户对使用的Die设备节点进行重启 在收集必要信息后,重启Die以尝试恢复 重启Die可能中断客户业务 自动恢复:弹性云服务器所在的硬件出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,该过程会导致云服务器重启。 表2 裸金属服务器 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 BMS GPU SRAM存在 Uncorrectable ECC告警 SRAMUncorrectableEccError 重要 GPU卡SRAM出现Uncorrectable ECC Error硬件故障。 如果业务受损,请提交工单。 可能GPU硬件问题导致SRAM故障,导致业务异常退出 主机重启 osReboot 重要 裸金属实例重启。包括: 在管理控制台进行重启操作 通过API接口下发重启指令 业务应用做成高可用。 主机恢复后,确认业务是否自动恢复。 业务中断 异常重启 serverReboot 重要 裸金属实例异常重启。包括: 操作系统异常导致重启 主机硬件故障导致重启 业务应用做成高可用。 主机恢复后,确认业务是否自动恢复。 业务中断 主机关机 osShutdown 重要 裸金属实例关机。包括: 在管理控制台进行关机操作 通过API接口下发关机指令 业务应用做成高可用。 主机恢复后,确认业务是否自动恢复。 业务中断 异常关机 serverShutdown 重要 裸金属实例异常关机。包括: 主机异常下电 主机硬件故障导致关机 业务应用做成高可用。 主机恢复后,确认业务是否自动恢复。 业务中断 网络中断 linkDown 重要 裸金属服务器网络中断。包括: 主机异常关机、重启 交换机故障引起的网络中断 网关节点故障引起的中断 业务应用做成高可用。 主机恢复后,确认业务是否自动恢复。 业务中断 PCIE异常 pcieError 重要 裸金属服务器PCIe设备硬件故障。包括: 主板故障 PCIe设备故障 业务应用做成高可用。 主机恢复后,确认业务是否自动恢复。 影响网络或硬盘读写业务 硬盘故障 diskError 重要 裸金属服务器磁盘故障。包括: 硬盘背板故障 硬盘本身故障 业务应用做成高可用。 主机恢复后,确认业务是否自动恢复。 影响数据读写业务或主机无法启动 云存储 连接异常 storageError 重要 裸金属服务器云硬盘链接异常。包括: SDI卡故障 远端存储故障 业务应用做成高可用。 主机恢复后,确认业务是否自动恢复。 影响数据读写业务或主机无法启动 GPU存在infoROM告警 gpuInfoROMAlarm 重要 GPU可能存在硬件问题,导致驱动读取不到inforom信息。 业务可以继续使用该GPU卡,不敏感业务可以继续使用,敏感业务请提交工单处理。 对业务暂时没有影响,当GPU硬件出现ECC故障时,可能无法自动完成故障页隔离,导致业务受损。 GPU发生double bit ECC告警 doubleBitEccError 重要 GPU硬件存在double bit ECC故障。 如果业务受损停止,则重启业务恢复。 如果业务无法启动,建议尝试重启虚拟机恢复业务。 如果业务仍然无法恢复,请提交工单。 可能会造成业务中断,故障页隔离后业务可继续正常使用GPU。 GPU隔离页过多告警 gpuTooManyRetiredPagesAlarm 重要 GPU硬件存在过多ECC隔离页。 如果业务受损,请提交工单。 GPU硬件存在过多ECC故障,可能频繁影响业务运行。 GPU A100 硬件发生ECC告警 gpuA100EccAlarm 重要 GPU卡出现ECC硬件故障。 如果业务受损停止,则重启业务恢复。 如果业务无法启动,建议尝试重启虚拟机恢复业务。 如果业务仍然无法恢复,请提交工单。 可能会造成业务中断,故障页隔离后业务可继续正常使用GPU。 GPU ECC内存页隔离失败告警 eccPageRetirementRecordingFailure 重要 GPU硬件存在ECC故障,驱动自动隔离这些页时失败。 如果业务受损停止,则重启业务恢复。 如果业务无法启动,建议尝试重启虚拟机恢复业务。 如果业务仍然无法恢复,请提交工单。 可能会造成业务中断,故障页隔离隔离失败,可能导致业务无法使用GPU。 GPU ECC页隔离告警 eccPageRetirementRecordingEvent 一般 存在ECC硬件错误,发生内存页自动隔离。 如果业务受损停止,则重启业务恢复。 如果业务无法启动,建议尝试重启虚拟机恢复业务。 如果业务仍然无法恢复,请提交工单。 一般随ECC故障告警出现,单独出现不影响业务。 GPU single bit ECC过多告警 highSingleBitEccErrorRate 重要 ECC硬件存在过高ECC single bit错误。 如果业务受损停止,则重启业务恢复。 如果业务无法启动,建议尝试重启虚拟机恢复业务。 如果业务仍然无法恢复,请提交工单。 single bit的错误能够自动恢复,一般不影响GPU相关应用程序。 GPU驱动掉卡告警 gpuDriverLinkFailureAlarm 重要 GPU链路正常,NVIDIA驱动找不到GPU硬件。 建议尝试重启虚拟机恢复业务。 如果业务仍然无法恢复,请提交工单。 一般驱动问题导致找不到对应位置的GPU。 GPU卡链路故障告警 gpuPcieLinkFailureAlarm 重要 GPU链路异常,通过lspci无法查看GPU硬件信息。 如果业务受损,请提交工单。 硬件问题导致GPU卡链路异常,驱动无法使用GPU。 虚拟机GPU丢卡告警 vmLostGpuAlarm 重要 虚拟机实际有的GPU卡数量比规格里应分配的GPU卡数量少。 如果业务受损,请提交工单。 虚拟机GPU卡丢失。 GPU显存页告警 gpuMemoryPageFault 重要 GPU显存页发生故障,故障可能由应用、驱动或硬件引起。 如果业务受损,请提交工单。 可能GPU硬件问题导致显存故障,导致业务异常退出 GPU图像引擎异常告警 graphicsEngineException 重要 GPU图像引擎发生故障,可能由应用、驱动或硬件引起。 如果业务受损,请提交工单。 可能GPU硬件问题导致图像引擎故障,导致业务异常退出。 GPU温度过高告警 highTemperatureEvent 重要 GPU硬件温度过高。 如果业务受损,请提交工单。 GPU温度超过温度阈值,可能会引起GPU卡性能下降 GPU NVLINK链路错误告警 nvlinkError 重要 NVLINK的链路出现硬件故障。 如果业务受损,请提交工单。 NVLINK链路故障,影响业务使用GPU nvlink能力。 系统运维问询中 system_maintenance_inquiring 重要 由于底层硬件、系统运维等影响,实例在计划时间维修,任务问询中 授权维修实例操作 无 系统运维等待执行 system_maintenance_scheduled 重要 由于底层硬件、系统运维等影响,实例在计划时间维修,任务等待执行 确认执行窗口对业务的影响 无 系统运维已取消 system_maintenance_canceled 重要 由于底层硬件、系统运维等影响,实例在计划时间维修,任务已取消 无 无 系统运维执行中 system_maintenance_executing 重要 由于底层硬件、系统运维等影响,实例在计划时间维修,任务执行中 等待维修结束,观察业务是否受到影响 业务中断 系统运维已完成 system_maintenance_completed 重要 由于底层硬件、系统运维等影响,实例在计划时间维修,任务已完成 等待运行状态恢复正常,确认业务是否恢复 业务恢复正常 系统运维失败 system_maintenance_failed 重要 由于底层硬件、系统运维等影响,实例在计划时间维修,任务失败 联系运维人员处理 业务中断 GPU存在通用Xid事件告警 commonXidError 重要 GPU卡出现Xid事件告警 如果业务受损,请提交工单。 gpu硬件、驱动、应用问题导致Xid事件,可能导致业务异常退出。 NPU: npu-smi info查询缺少设备 NPUSMICardNotFound 重要 可能是由于昇腾驱动问题或NPU掉卡 转昇腾和硬件处理 NPU卡无法正常使用 NPU: PCIe链路异常 PCIeErrorFound 重要 Lspci查询卡状态为rev ff 重启,转硬件处理 NPU卡无法正常使用 NPU: lspci查询缺少设备 LspciCardNotFound 重要 一般是由于NPU掉卡 转硬件处理 NPU卡无法正常使用 NPU: 温度超过阈值 TemperatureOverUpperLimit 重要 可能是由于DDR颗粒温度过高或过温软件预警 暂停业务,重启系统,查看散热系统,device复位 可能造成过温下电及device丢失 NPU: 存在不可纠正ECC错误 UncorrectableEccErrorCount 重要 NPU卡出现Uncorrectable ECC Error硬件故障 如果业务受到影响,转硬件换卡 业务可能受到影响终止 NPU: 需要重启实例 RebootVirtualMachine 提示 当前故障很可能需要重启进行恢复 在收集必要信息后,重启以尝试恢复 重启可能中断客户业务 NPU: 需要复位SOC ResetSOC 提示 当前故障很可能需要复位SOC进行恢复 在收集必要信息后,复位SOC以尝试恢复 复位SOC可能中断客户业务 NPU: 需要退出AI任务重新执行 RestartAIProcess 提示 当前故障很可能需要客户退出当前的AI任务并尝试重新执行 在收集必要信息后,尝试退出当前AI任务并尝试重新执行 退出当前AI任务以便重新执行 NPU: errorcode告警 NPUErrorCodeWarning 重要 这里涵盖了大量重要及以上的NPU错误码,您可以根据这些错误码进一步定位错误原因 对照《黑匣子错误码信息列表》和《健康管理故障定义》进一步定位错误 NPU当前存在故障,可能导致客户业务终止 nvidia-smi命令卡住 nvidiaSmiHangEvent 重要 nvidia-smi命令超时,该命令可能卡住 如果业务受损,请提交工单。 可能是命令执行过程中,触发驱动问题,导致命令卡住,同时可能出现业务使用驱动报错问题。 NV Peer Memory加载到内核异常 NvPeerMemException 次要 Nvlink加载异常或nv_peer_mem加载异常 nv_peer_mem存在异常,建议尝试恢复或重新安装Nvlink Nv peer mem无法正常使用 Nv-fabricmanager服务运行异常 NvFabricManagerException 次要 机器符合Nvlink使用条件,且安装Nvlink服务,但服务异常 Nvlink存在异常,建议尝试恢复或重新安装Nvlink Nvlink无法正常使用 IB卡使用状态异常 InfinibandStatusException 重要 网卡状态或物理状态异常 转硬件处理 IB卡无法正常工作 表3 弹性公网IP 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 EIP EIP带宽超限事件 EIPBandwidthOverflow 重要 当前使用带宽已超过购买的带宽,可能会导致网络变慢或丢包发生。其中,该事件取值为周期内的最大值,而EIP的出入网带宽指标数据,取值为周期时间点的值。 其中: “egressDropBandwidth”为本周期内出云丢弃带宽值(Byte),“egressAcceptBandwidth”为本周期内出云通过带宽值(Byte),“egressMaxBandwidthPerSec”为本周期内出云带宽峰值(Byte/s),“ingressAcceptBandwidth”为本周期内入云通过带宽值(Byte),“ingressMaxBandwidthPerSec”为本周期内入云带宽峰值(Byte/s),“ingressDropBandwidth”为本周期内入云丢弃带宽值(Byte)。 说明: EIP带宽超限事件当前仅在“华北-北京一”、“华北-北京四”、“华北-乌兰察布一”、“华东-上海一”、“华东-上海二”、“西南-贵阳一”和“华南-广州”区域上线。 检查EIP带宽是否一直增加,业务是否正常,并考虑扩容。 网络变慢或丢包发生 释放EIP deleteEip 次要 EIP资源被删除。 检查是否误操作删除资源。 无法访问公网 EIP封堵 blockEIP 紧急 带宽超过5GB就会封堵,相当于把流量直接丢弃。带宽严重超限或受到攻击,一般是受到了DDoS攻击。 更换EIP,避免业务受到影响。 同时查看事件中的封堵原因,进行相应处理。 业务受影响 EIP解封 unblockEIP 紧急 EIP封堵已被解封。 换回原EIP,将被解封EIP重新使用,避免资源浪费。 无 EIP开始DDoS清洗 ddosCleanEIP 严重 客户购买的EIP发生了DDoS清洗。 查看是否遭受攻击。 客户的业务可能受损。 EIP结束DDoS清洗 ddosEndCleanEip 严重 客户购买的EIP结束了DDoS清洗。 查看是否遭受攻击。 客户的业务可能受损。 企业级Qos带宽超限事件 EIPBandwidthRuleOverflow 重要 当前使用企业级Qos带宽已超过分配的带宽,可能会导致网络变慢或丢包发生。其中,该事件取值为周期内的最大值,而EIP的出入网带宽指标数据,取值为周期时间点的值。 其中:“egressDropBandwidth”为本周期内出云丢弃带宽值(Byte),“egressAcceptBandwidth”为本周期内出云通过带宽值(Byte),“egressMaxBandwidthPerSec”为本周期内出云带宽峰值(Byte/s),“ingressAcceptBandwidth”为本周期内入云通过带宽值(Byte),“ingressMaxBandwidthPerSec”为本周期内入云带宽峰值(Byte/s),“ingressDropBandwidth”为本周期内入云丢弃带宽值(Byte)。 检查EIP带宽是否一直增加,业务是否正常,并考虑扩容。 网络变慢或丢包发生。 表4 DDoS高防 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 DDoS高防 DDoS攻击事件 ddosAttackEvents 严重 客户购买的高防实例线路出现了DDoS攻击。 根据攻击流量和攻击类型判断对业务的影响,如果攻击流量超过客户购买的弹性带宽需要更换线路或提升规格。 客户的业务可能受损。 域名 调度事件 domainNameDispatchEvents 重要 域名对应的高防cname触发了调度,修改了解析记录到其他的高防IP上。 请关注该域名的业务情况。 一般情况下业务不受影响。 黑洞事件 blackHoleEvents 重要 客户的高防实例攻击流量超出购买的防护阈值。 黑洞解封时间默认为30分钟,具体时长与当日黑洞触发次数和攻击峰值相关,最长可达24小时。如需提前解封,需要用户升级 DDoS高防服务 并联系技术支持。 客户的业务可能受损。 黑洞恢复 cancelBlackHole 提示 客户的高防实例从黑洞状态恢复。 仅作提示,无需特殊处理。 客户的业务恢复。 IP调度事件 ipDispatchEvents 重要 IP路由发生变化 请关注该IP的业务情况。 一般情况下业务不受影响。 表5 弹性负载均衡 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 ELB 健康检查异常 healthCheckUnhealthy 重要 一般是由于后端服务器服务离线导致。事件上报一定次数后,不再上报。 检查后端服务器的服务运行状态。 ELB不会往异常的后端转发流量,如果云服务器组下只有一个后端,则业务会中断。 健康检查恢复正常 healthCheckRecovery 次要 后端服务器健康检查恢复正常。 无需处理。 负载均衡器到后端服务器流量恢复正常。 表6 云备份 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 CBR 创建备份失败 backupFailed 紧急 创建备份失败 尝试手动创建备份或者联系技术支持 可能造成数据丢失 使用备份恢复资源失败 restorationFailed 紧急 使用备份恢复资源失败 尝试使用其他备份恢复或者联系技术支持 可能造成数据丢失 备份删除失败 backupDeleteFailed 紧急 备份删除失败 稍后重试删除或者联系技术支持 可能造成计费异常 存储库删除失败 vaultDeleteFailed 紧急 储存库删除失败 稍后重试或联系技术支持 可能造成计费异常 复制失败 replicationFailed 紧急 备份复制失败 稍后重试或联系技术支持 可能造成数据丢失 创建备份成功 backupSucceeded 重要 创建备份成功 无 无 使用备份恢复资源成功 restorationSucceeded 重要 使用备份恢复资源成功 观察数据是否已成功恢复。 无 备份删除成功 backupDeletionSucceeded 重要 备份删除成功 无 无 存储库删除成功 vaultDeletionSucceeded 重要 存储库删除成功 无 无 复制成功 replicationSucceeded 重要 备份复制成功 无 无 客户端离线 agentOffline 紧急 客户端离线 请确保客户端状态正常且能够正常连接华为云。 可能造成备份任务失败。 客户端上线 agentOnline 重要 客户端上线 无。 无。 表7 关系型数据库--资源异常事件 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 RDS 创建实例业务失败 createInstanceFailed 重要 创建实例失败产生的事件,一般是磁盘个数,配额大小不足,底层资源耗尽导致。 所选资源规格不足,请选择其他可用规格重试。 创建实例失败。 实例全量备份失败 fullBackupFailed 重要 单次全量备份失败产生的事件,不影响以前成功备份的文件,但会对“恢复到指定时间点”的功能有一些影响,导致“恢复到指定时间点”时增量备份的恢复时间延长。 全量备份失败,请重新进行操作。 全量备份失败,影响备份恢复。 主备切换异常 activeStandBySwitchFailed 重要 主备切换异常是由于网络、物理机有某种故障导致备机没有接管主机的业务,短时间内会恢复到原主机继续提供服务。 主备切换失败,请在业务低峰期重新进行操作。 主备切换失败。 复制状态异常 abnormalReplicationStatus 重要 出现”复制状态异常“事件通常有两种情况: 1、主机与备机或只读实例之间复制时延太大(一般在写入大量数据或执行大事务的时候出现),在业务高峰期容易出现阻塞。 2、主机与备机或只读实例之间的网络中断,导致主机与备机或只读实例复制异常。 数据库复制状态异常,正在进行修复,修复后会第一时间通知您,谢谢。 复制状态异常。 复制状态异常已恢复 replicationStatusRecovered 重要 即复制时延已回到正常范围内,或者主备之间的网络通信恢复。 数据库复制状态已恢复正常,请确认业务是否正常运行。 复制状态异常恢复。 实例运行状态异常 faultyDBInstance 重要 由于灾难或者物理机故障导致单机或者主实例故障时会上报本事件,属于关键告警事件。 实例状态异常,正在进行修复,修复后会第一时间通知您,谢谢。 实例状态异常。 实例运行状态异常已恢复 DBInstanceRecovered 重要 针对灾难性的故障,RDS有高可用工具会自动进行备机重建,重建完成之后即会上报本事件。 实例状态已恢复正常,请确认业务是否正常运行。 实例状态异常恢复。 单实例转主备实例失败 singleToHaFailed 重要 创建备机时或备机创建完成后主备机之间配置同步发生故障时会产生此事件,一般是由于备节点所在数据中心资源不足导致。 单转主备实例失败,正在进行自动重试。 单实例转主备实例失败。 数据库进程重新启动 DatabaseProcessRestarted 重要 一般是内存不足、负载过高导致数据库进程停止 数据库重启完成,请确认业务是否正常运行。 主节点数据库重启,业务短暂影响。 实例磁盘满 instanceDiskFull 重要 一般是由于数据空间占用过大导致。 实例磁盘满,请进行扩容操作。 实例磁盘空间打满,影响业务继续写入。 实例磁盘满恢复 instanceDiskFullRecovered 重要 实例磁盘状态恢复正常。 磁盘可用空间恢复正常,请确认业务是否正常运行。 实例磁盘空间可用量恢复正常。 kafka连接失败 kafkaConnectionFailed 重要 一般是由于网络波动或kafka服务端出现异常等原因导致。 检查业务是否收到影响。 无。 表8 关系型数据库--操作类事件 事件来源 事件名称 事件ID 事件级别 事件说明 RDS 重置数据库管理员密码 resetPassword 重要 重置数据库管理员密码。 集群扩容等操作 instanceAction 重要 磁盘扩容、规格变更。 删除集群下的实例 deleteInstance 次要 删除集群下的实例。 修改备份策略 setBackupPolicy 次要 修改备份策略。 修改参数组 updateParameterGroup 次要 修改参数组。 删除参数组 deleteParameterGroup 次要 删除参数组。 重置参数组 resetParameterGroup 次要 重置参数组。 修改数据库端口号 changeInstancePort 重要 修改数据库端口号。 实例主备切换 PrimaryStandbySwitched 重要 实例主备切换。 表9 文档数据库服务 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 DDS 创建实例业务失败 DDSCreateInstanceFailed 重要 创建文档数据库实例失败产生的事件,一般是由于磁盘个数、配额不足,底层资源耗尽导致。 检查磁盘个数、配额大小是否满足需求,并考虑释放资源后重新创建实例。 无法创建数据库实例。 复制状态异常 DDSAbnormalReplicationStatus 重要 出现”复制状态异常“事件通常有两种情况: 1、主机与备机或只读实例之间复制时延太大(一般在写入大量数据或执行大事务的时候出现),在业务高峰期容易出现阻塞。 2、主机与备机或只读实例之间的网络中断,导致主机与备机或只读实例复制异常。 提交工单。 不会导致原来实例的读写中断,客户的应用是无感知的。 复制状态异常已恢复 DDSReplicationStatusRecovered 重要 复制时延已回到正常范围内,或者主备之间的网络通信恢复。 不需要处理。 无 实例运行状态异常 DDSFaultyDBInstance 重要 由于灾难或者物理机故障导致实例故障时,会上报该事件,属于关键告警事件。 提交工单。 可能导致数据库服务不可用。 实例运行状态异常已恢复 DDSDBInstanceRecovered 重要 针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 不需要处理。 无 节点运行状态异常 DDSFaultyDBNode 重要 由于灾难或者物理机故障导致数据库节点故障时,会上报该事件,属于关键告警事件。 检查数据库服务是否可以正常使用,并提交工单。 可能导致数据库服务不可用。 节点运行状态异常已恢复 DDSDBNodeRecovered 重要 针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 不需要处理。 无 实例主备切换 DDSPrimaryStandbySwitched 重要 在手动触发的主备倒换或节点故障自动触发的故障倒换场景下,会上报该事件。 不需要处理。 无 数据盘空间不足 DDSRiskyDataDiskUsage 重要 数据盘空间不足,产生此告警。 请参见对应服务用户指南中“扩容磁盘”的内容,进行磁盘扩容。 实例被设为只读模式,数据无法写入。 数据盘空间已扩容并恢复可写 DDSDataDiskUsageRecovered 重要 数据盘空间已扩容并恢复可写,产生此事件。 无需处理。 无影响。 用户计划删除KMS密钥 DDSplanDeleteKmsKey 重要 一般是由于用户计划删除kms的key导致。 计划删除kms的key后,及时恢复kms的key或者及时解密数据。 kms的key被删除后用户无法进行磁盘加密。 表10 云数据库GaussDB NoSQL 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 NoSQL 创建实例业务失败 NoSQLCreateInstanceFailed 重要 一般是由于实例配额不足或底层资源不足等原因导致。 先释放不再使用的实例再尝试重新发放,或者提交工单调整配额上限。 无法创建数据库实例。 变更规格失败 NoSQLResizeInstanceFailed 重要 一般是由于底层资源不足等原因导致。 提交工单让运维在后台协调资源再重试规格变更操作。 业务中断。 添加节点失败 NoSQLAddNodesFailed 重要 一般是由于底层资源不足等原因导致。 提交工单让运维在后台协调资源,删除添加失败的节点,重新尝试添加新节点。 无 删除节点失败 NoSQLDeleteNodesFailed 重要 一般是由于底层释放资源失败导致。 重新尝试删除节点。 无 扩卷失败 NoSQLScaleUpStorageFailed 重要 一般是由于底层资源不足等原因导致。 提交工单让运维在后台协调资源再重试扩卷操作。 如果磁盘满,会导致业务中断。 重置密码失败 NoSQLResetPasswordFailed 重要 一般是由于重置密码命令超时导致。 重新尝试重置密码操作。 无 修改参数组失败 NoSQLUpdateInstanceParamGroupFailed 重要 一般是由于修改参数组命令超时导致。 重新尝试修改参数组操作。 无 设置备份策略失败 NoSQLSetBackupPolicyFailed 重要 一般是由于数据库连接异常导致。 重新重试设置备份策略操作。 无 创建手动备份失败 NoSQLCreateManualBackupFailed 重要 一般是备份文件导出失败或上传失败等原因导致。 提交工单让运维处理。 无法备份数据。 创建自动备份失败 NoSQLCreateAutomatedBackupFailed 重要 一般是备份文件导出失败或上传失败等原因导致。 提交工单让运维处理。 无法备份数据。 实例运行状态异常 NoSQLFaultyDBInstance 重要 由于灾难或者物理机故障导致实例故障时,会上报该事件,属于关键告警事件。 提交工单。 可能导致数据库服务不可用。 实例运行状态异常已恢复 NoSQLDBInstanceRecovered 重要 针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 不需要处理。 无 节点运行状态异常 NoSQLFaultyDBNode 重要 由于灾难或者物理机故障导致数据库节点故障时,会上报该事件,属于关键告警事件。 检查数据库服务是否可以正常使用,并提交工单。 可能导致数据库服务不可用。 节点运行状态异常已恢复 NoSQLDBNodeRecovered 重要 针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 不需要处理。 无 实例主备切换 NoSQLPrimaryStandbySwitched 重要 在手动触发的主备倒换或节点故障自动触发的故障倒换场景下,会上报该事件。 不需要处理。 无 出现热点分区键 HotKeyOccurs 重要 客观上是因为主键设置不合理,使得热点数据集中分布在一个分区。客户端不合理的应用程序设计,造成对某一key的频繁读写。 1. 选择合理的分区键。 2. 业务增加缓存,业务应用先从缓存中读取热点数据。 影响业务请求成功率,存在影响集群性能及稳定性的风险。 出现超大分区键 BigKeyOccurs 重要 主键设计不合理,单个分区的记录数或数据量过大,引起了节点负载不均。 1. 选择合理的分区键 2. 基于现有分区键,增加分区键散列。 随着数据量增长,集群稳定性会下降。 数据盘空间不足 NoSQLRiskyDataDiskUsage 重要 数据盘空间不足,产生此告警。 请参见对应服务用户指南中“扩容磁盘”的内容,进行磁盘扩容。 实例被设为只读模式,数据无法写入。 数据盘空间已扩容并恢复可写 NoSQLDataDiskUsageRecovered 重要 数据盘空间已扩容并恢复可写,产生此事件。 无需处理。 无 创建索引失败 NoSQLCreateIndexFailed 重要 业务负载超过实例规格瓶颈,此时再创建索引会耗费更多实例资源,导致响应变慢甚至卡顿,最终超时,引起索引创建失败。 1、根据业务负载,选择匹配的实例规格 2、在业务低峰期创建索引 3、使用后台方式创建索引 4、索引字段,结合业务进行合理选择。 索引创建失败或不完整,导致索引无效,需要删掉索引重新创建。 发生写入降速 NoSQLStallingOccurs 重要 写入速度快,接近集群规模和实例规格范围允许最大写能力,从而触发数据库自身的限流机制,会发生请求失败情况 1. 根据业务的最大写请求速率,调整集群规模或者节点规格 2. 衡量业务的最大写请求速率,分散业务写峰值速率 影响业务的请求的成功率 发生写入停止 NoSQLStoppingOccurs 重要 写入速度过快,达到集群规模和实例规格范围允许最大写能力,从而触发数据库自身的限流机制,会发生请求失败情况 1. 根据业务的最大写请求速率,调整集群规模或者节点规格 2. 衡量业务的最大写请求速率,分散业务写峰值速率 影响业务的请求的成功率 重启数据库失败 NoSQLRestartDBFailed 重要 一般是由于实例状态异常等原因导致。 提交工单让运维处理。 数据库实例状态可能存在异常。 恢复到新实例失败 NoSQLRestoreToNewInstanceFailed 重要 一般是由于底层资源不足等原因导致。 提交工单让运维在后台协调资源,重新尝试添加新节点。 无法恢复到新的数据库实例。 恢复到已有实例失败 NoSQLRestoreToExistInstanceFailed 重要 一般是由于备份文件下载或恢复失败等原因导致。 提交工单让运维处理。 当前数据库实例可能处于不可用状态。 删除备份文件失败 NoSQLDeleteBackupFailed 重要 一般是由于备份文件从obs删除失败导致。 重新尝试删除备份文件。 无 切换慢日志明文开关失败 NoSQLSwitchSlowlogPlainTextFailed 重要 一般是由于引擎不支持切换等原因导致。 请查阅NoSQL用户指南,确认引擎支持打开慢日志明文开关。提交工单让运维处理。 无 绑定EIP失败 NoSQLBindEipFailed 重要 一般是由于节点状态不正常,节点已经绑定EIP或EIP非法等原因导致。 检查节点是否正常,EIP是否合法。 无法通过公网访问数据库实例。 解绑EIP失败 NoSQLUnbindEipFailed 重要 一般是由于节点状态不正常,节点已经未绑定EIP等原因导致。 检查节点和EIP状态是否正常。 无 修改参数失败 NoSQLModifyParameterFailed 重要 一般是由于参数取值非法等原因导致。 排查参数值是否符合在合法范围内,提交工单让运维处理。 无 参数组应用失败 NoSQLApplyParameterGroupFailed 重要 一般是由于实例状态异常导致参数组无法应用等原因导致。 提交工单让运维处理。 无 开启或关闭SSL失败 NoSQLSwitchSSLFailed 重要 一般是由于修改SSL命令超时导致。 重新提交一次或者提交工单处理,并先保持切换之前使用SSL的连接方式。 是否使用SSL连接。 单行数据量太大 LargeRowOccurs 重要 用户单行数据量过大,可能会导致查询超时,进而节点OOM异常退出等各种故障发生。 1. 对每列和每行的写入长度做限制,遵从规范,使得单行的的key和value长度和不超过阈值。 2. 排查业务是否出现异常写入和异常编码,导致写入大row。 过大的单行记录,随着数据量增长,集群稳定性会下降。 用户计划删除KMS密钥 NoSQLplanDeleteKmsKey 重要 一般是由于用户计划删除kms的key导致。 计划删除kms的key后,及时恢复kms的key或者及时解密数据。 kms的key被删除后用户无法进行磁盘加密。 查询墓碑数过多 TooManyQueryTombstones 重要 查询墓碑数过多,可能会导致查询超时,影响查询性能。 使用合理的查询删除方式,避免大批次的范围查询 可能会导致查询超时,影响查询性能。 超大集合列 TooLargeCollectionColumn 重要 当集合列元素个数太多时,会出现集合列查询失败。 对集合列的元素个数做限制,遵从规范不超过阈值。 排查业务是否出现异常写入和异常编码,导致写入大集合列。 会出现集合列查询失败。 表11 云数据库GaussDB(for MySQL) 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 GaussDB(for MySQL) 实例增量备份业务失败 TaurusIncrementalBackupInstanceFailed 重要 实例增量备份失败产生的事件,一般是管理节点到实例网络或者实例到OBS存储的网络异常,或者实例备份环境异常。 提交工单。 无法完成实例备份业务操作。 添加只读节点失败 addReadonlyNodesFailed 重要 创建实例只读节点失败产生的事件,一般是底层资源耗尽导致。 检查并释放资源后重新创建。 无法创建数据库实例只读节点。 创建实例业务失败 createInstanceFailed 重要 创建实例失败产生的事件,一般是配额大小不足,底层资源耗尽导致。 检查配额大小,释放资源后重新创建。 无法创建数据库实例。 主备切换异常 activeStandBySwitchFailed 重要 主备切换异常主要是由于网络、物理机有某种故障导致只读节点没有接管主节点的业务,短时间内会恢复到原主节点继续提供服务。 提交工单。 无法完成主备切换(只读升主)。 规格变更业务失败 flavorAlterationFailed 重要 规格变更失败产生的事件,一般是配额大小不足,底层资源耗尽导致。 提交工单。 无法完成规格变更。 实例运行状态异常 TaurusInstanceRunningStatusAbnormal 重要 实例运行状态异常产生的事件,可能原因是实例进程故障,或者实例到DFV存储间通信问题。 提交工单。 实例异常,业务可能受损。 实例运行状态异常已恢复 TaurusInstanceRunningStatusRecovered 重要 实例运行状态异常后恢复产生的事件。 观察业务运行情况。 无。 节点运行状态异常 TaurusNodeRunningStatusAbnormal 重要 运行节点状态异常产生的事件,可能原因是节点进程故障,或者节点到DFV存储间通信问题。 观察实例状态和业务运行情况。 节点异常,可能触发只读升主。 节点运行状态异常已恢复 TaurusNodeRunningStatusRecovered 重要 节点运行状态异常后恢复产生的事件。 观察业务情况。 无。 删除只读节点失败 TaurusDeleteReadOnlyNodeFailed 重要 删除只读节点失败产生的事件,可能原因是管理面到实例节点通信异常或者请求IaaS删除虚机失败。 提交工单。 无法完成删除只读节点操作。 实例重置密码失败 TaurusResetInstancePasswordFailed 重要 实例重置密码失败产生的事件,可能原因是管理面到实例通信异常或者实例状态异常件。 检查确认实例状态后重试,未解决则提交工单。 无法完成实例重置密码操作。 实例重启失败 TaurusRestartInstanceFailed 重要 实例重启失败产生的事件,可能原因是管理面到实例通信异常或者实例状态异常件。 检查确认实例状态后重试,未解决则提交工单。 无法完成实例重启操作。 恢复到新实例失败 TaurusRestoreToNewInstanceFailed 重要 恢复到新实例失败产生的事件,一般是新创建实例配额大小不足,底层资源耗尽导致或者数据恢复逻辑出错。 如果是新创建实例失败,检查配额大小,释放资源后重新恢复到新实例,其他情况提交工单。 无法完成恢复到新实例。 实例绑定EIP失败 TaurusBindEIPToInstanceFailed 重要 实例绑定EIP失败产生的事件,绑定任务执行错误。 提交工单。 无法完成绑定EIP操作。 实例解绑EIP失败 TaurusUnbindEIPFromInstanceFailed 重要 实例解绑EIP失败产生的事件,绑定任务执行错误。 提交工单。 无法完成解绑EIP操作。 实例修改参数失败 TaurusUpdateInstanceParameterFailed 重要 实例修改参数失败产生的事件,一般是管理节点到实例网络异常,或者实例状态异常。 检查确认实例状态后重试,未解决则提交工单。 无法完成实例修改参数操作。 实例参数组应用失败 TaurusApplyParameterGroupToInstanceFailed 重要 实例参数组应用失败产生的事件,一般是管理节点到实例网络异常,或者实例状态异常。 检查确认实例状态后重试,未解决则提交工单。 无法完成实例参数组应用操作。 实例全量备份业务失败 TaurusBackupInstanceFailed 重要 实例全量备份失败产生的事件,一般是管理节点到实例网络或者实例到OBS存储的网络异常,或者实例备份环境异常。 提交工单。 无法完成实例备份业务操作。 实例发生主备倒换 TaurusActiveStandbySwitched 重要 实例发生主备倒换,主要是由于主节点的网络,物理机以及数据库运行出现故障时,GaussDB HA系统会按照倒换优先级将1个只读节点升为主机,以持续提供服务。 收到事件后,查看业务运行是否正常。 看是否继续收到“实例只读升主业务失败”告警。 倒换时业务连接会短时间中断,升主完成后可重新连接数据库。 数据库设置为只读模式 NodeReadonlyMode 重要 数据库设置为只读状态,只支持查询类操作。 提交工单。 数据库设置只读状态后,所有写业务返回失败。 数据库设置为读写模式 NodeReadWriteMode 重要 数据库设置为读写状态 提交工单。 无 实例容灾切换 DisasterSwitchOver 重要 实例故障不可用,通过主备切换保证数据库继续对外提供服务。 联系技术支持团队处理。 访问数据库的业务出现闪断,高可用服务通过切换机制保证新机器升主继续对外提供服务。 数据库进程重新启动 TaurusDatabaseProcessRestarted 重要 一般是内存不足、负载过高导致数据库进程停止。 通过 云监控 的数据,查看是否有内存飙升、CPU长期过高等的情况,可以选择提升CPU内存规格或者优化业务逻辑。 数据库进程挂掉的时候,该节点业务中断。高可用服务会自动拉起进程,尝试恢复业务。 表12 云数据库GaussDB 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 GaussDB 进程状态告警 ProcessStatusAlarm 重要 GaussDB关键进程退出,包括:CMS/CMA、ETCD、GTM、CN、DN。 等待进程自动恢复或者自动主备切换,观察业务是否恢复。如果业务未恢复,联系SRE。 主机进程故障,在主机上进行的业务将中断回滚。备机进程故障不影响业务。 组件状态告警 ComponentStatusAlarm 重要 GaussDB关键组件无响应,包括:CMA、ETCD、GTM、CN、DN。 等待进程自动恢复或者自动主备切换,观察业务是否恢复。如果业务未恢复,联系SRE。 主机进程无响应,在主机上进行的业务将无响应。备机进程故障不影响业务。 集群状态告警 ClusterStatusAlarm 重要 集群状态异常,包括: 集群只读、ETCD多数派故障、集群分布不均衡。 联系SRE。 集群只读: 业务只读。 ETCD多数派故障:集群不可用。 集群分布不均衡:集群性能/可靠性降低。 硬件资源告警 HardwareResourceAlarm 重要 集群中出现严重的硬件故障,包括:磁盘损坏、GTM网络通信故障。 联系SRE。 业务部分/全部受损。 状态转换告警 StateTransitionAlarm 重要 集群出现如下重要事件:DN build/build失败、DN强切、DN主备切换/failover、GTM主备切换/failover。 等待自动恢复,观察业务是否恢复。如果业务未恢复,联系SRE。 部分业务受损。 其他异常告警 OtherAbnormalAlarm 重要 磁盘使用阈值告警等。 关注业务变化,及时计划扩容。 超过使用阈值,将无法扩容。 实例运行状态异常 TaurusInstanceRunningStatusAbnormal 重要 由于灾难或者物理机故障导致实例故障时,会上报该事件,属于关键告警事件。 提交工单。 可能导致数据库服务不可用。 实例运行状态异常已恢复 TaurusInstanceRunningStatusRecovered 重要 针对灾难性的故障,GaussDB有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 不需要处理。 无 节点运行状态异常 TaurusNodeRunningStatusAbnormal 重要 由于灾难或者物理机故障导致数据库节点故障时,会上报该事件,属于关键告警事件。 检查数据库服务是否可以正常使用,并提交工单。 可能导致数据库服务不可用。 节点运行状态异常已恢复 TaurusNodeRunningStatusRecovered 重要 针对灾难性的故障,GaussDB有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 不需要处理。 无 创建实例业务失败 GaussDBV5CreateInstanceFailed 重要 创建实例失败产生的事件,一般是配额大小不足,底层资源耗尽导致。 先释放不再使用的实例再尝试重新发放,或者提交工单调整配额上限。 无法创建数据库实例。 添加节点失败 GaussDBV5ExpandClusterFailed 重要 一般是由于底层资源不足等原因导致。 提交工单让运维在后台协调资源,删除添加失败的节点,重新尝试添加新节点。 无 存储扩容失败 GaussDBV5EnlargeVolumeFailed 重要 一般是由于底层资源不足等原因导致。 提交工单让运维在后台协调资源再重试扩容操作。 如果磁盘满,会导致业务中断。 重启失败 GaussDBV5RestartInstanceFailed 重要 一般是由于网络问题等原因导致 重试重启操作或提交工单让运维处理。 可能导致数据库服务不可用。 全量备份失败 GaussDBV5FullBackupFailed 重要 一般是备份文件导出失败或上传失败等原因导致。 提交工单让运维处理。 无法备份数据。 差量备份失败 GaussDBV5DifferentialBackupFailed 重要 一般是备份文件导出失败或上传失败等原因导致。 提交工单让运维处理。 无法备份数据。 删除备份失败 GaussDBV5DeleteBackupFailed 重要 无需实现。 - - 绑定EIP失败 GaussDBV5BindEIPFailed 重要 弹性公网IP已被占用或IP资源等原因导致。 提交工单让运维处理。 导致实例无法使用公网链接或访问 解绑EIP失败 GaussDBV5UnbindEIPFailed 重要 网络故障或公网EIP服务故障等原因导致。 重新解绑Ip或提交工单让运维处理。 可能导致IP资源残留 参数组应用失败 GaussDBV5ApplyParamFailed 重要 一般是由于修改参数组命令超时导致。 重新尝试修改参数组操作。 无 参数修改失败 GaussDBV5UpdateInstanceParamGroupFailed 重要 一般是由于修改参数组命令超时导致。 重新尝试修改参数组操作。 无 备份恢复失败 GaussDBV5RestoreFromBcakupFailed 重要 一般是由底层资源不足或备份文件下载失败等原因导致 提交工单。 可能导致在恢复失败期间数据库服务不可用 升级热补丁失败 GaussDBV5UpgradeHotfixFailed 重要 一般是内核升级时报错导致。 查看工作流报错信息,重做跳过等。 无 表13 分布式数据库 中间件 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 DDM 创建实例失败 createDdmInstanceFailed 重要 一般是由于底层资源不足等原因导致。 释放资源后重新创建。 无法创建DDM实例。 变更规格失败 resizeFlavorFailed 重要 一般是由于底层资源不足等原因导致。 请工单联系运维在后台协调资源再重试规格变更操作。 部分节点业务中断 节点扩容失败 enlargeNodeFailed 重要 一般是由于底层资源不足等原因导致。 请工单联系运维后台协调资源,删除添加失败的节点,重新尝试添加节点 节点扩容失败 节点缩容失败 reduceNodeFailed 重要 一般是由于底层释放资源失败等原因导致。 请工单联系运维后台处理资源。 节点缩容失败 重启实例失败 restartInstanceFailed 重要 一般是由于底层关联数据库实例异常等原因导致。 建议先排查底层数据库实例是否异常,如果无异常请工单联系运维进行排查。 部分节点业务中断 创建逻辑库失败 createLogicDbFailed 重要 一般是由于以下几种原因导致的: 1、数据库实例账号密码错误;2、DDM实例与底层数据库实例安全组设置错误,导致无法通信。 请排查: 1、数据库实例账号密码是否错误;2、DDM实例与底层数据库实例安全组是否设置正确等问题。 业务无法正常运行 绑定弹性公网IP失败 bindEipFailed 重要 一般是由于EIP服务繁忙。 稍后重试,紧急情况下请联系运维排查问题。 无法通过公网访问服务 逻辑库扩容失败 migrateLogicDbFailed 重要 一般是由于底层处理失败。 请工单联系运维处理。 无法实现逻辑库扩容 逻辑库扩容重试失败 retryMigrateLogicDbFailed 重要 一般是由于底层处理失败。 请工单联系运维处理。 无法实现逻辑库扩容 表14 云手机服务器 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 CPH 主机关机 cphServerOsShutdown 重要 云手机服务器关机。包括: 在管理控制台进行关机操作 通过API接口下发关机指令 业务应用做成高可用。 云手机服务器恢复后,确认业务是否自动恢复。 业务中断。 异常关机 cphServerShutdown 重要 云手机服务器异常关机。包括: 云手机服务器异常下电 云手机服务器硬件故障导致关机 业务应用做成高可用。 云手机服务器恢复后,确认业务是否自动恢复。 业务中断。 主机重启 cphServerOsReboot 重要 云手机服务器重启。包括: 在管理控制台进行重启操作 通过API接口下发重启指令 业务应用做成高可用。 云手机服务器恢复后,确认业务是否自动恢复。 业务中断 异常重启 cphServerReboot 重要 云手机服务器异常重启。包括: 操作系统异常导致重启 云手机服务器硬件故障导致重启 业务应用做成高可用。 云手机服务器恢复后,确认业务是否自动恢复。 业务中断。 网络中断 cphServerlinkDown 重要 云手机服务器网络中断。包括: 云手机服务器异常关机、重启 交换机故障引起的网络中断 网关节点故障引起的中断 业务应用做成高可用。 云手机服务器恢复后,确认业务是否自动恢复。 业务中断。 PCIE异常 cphServerPcieError 重要 云手机服务器PCIe设备硬件故障。包括: 主板故障 PCIe设备故障 业务应用做成高可用。 云手机服务器恢复后,确认业务是否自动恢复。 影响网络或硬盘读写业务 硬盘故障 cphServerDiskError 重要 云手机服务器磁盘故障。包括: 硬盘背板故障 硬盘本身故障 业务应用做成高可用。 云手机服务器恢复后,确认业务是否自动恢复。 影响数据读写业务或主机无法启动 云存储连接异常 cphServerStorageError 重要 云手机服务器云硬盘链接异常。包括: SDI卡故障 远端存储故障 业务应用做成高可用。 主机恢复后,确认业务是否自动恢复。 影响数据读写业务或主机无法启动 显卡掉线 cphServerGpuOffline 重要 云手机服务器GPU显卡松动掉线 云手机服务器进行一次关机、开机操作 显卡掉线涉及的云手机出现运行故障,重启重置手机无法恢复 显卡TimeOut cphServerGpuTimeOut 重要 云手机服务器GPU显卡TimeOut 重启云手机服务器 显卡Timeout涉及的云手机出现运行故障,重启重置手机无法恢复 磁盘空间满 cphServerDiskFull 重要 云手机服务器磁盘空间满 客户需要清理云手机里的业务数据,释放空间 云手机亚健康,容易出现故障无法启动 磁盘变只读 cphServerDiskReadOnly 重要 云手机服务器磁盘变成只读 重启云手机服务器 云手机亚健康,容易出现故障无法启动 云手机元数据损坏 cphPhoneMetaDataDamage 重要 云手机的容器元数据损坏 联系运维处理 云手机重启重置无法恢复 GPU故障 gpuAbnormal 致命 GPU发生故障 提交工单转运维处理 业务中断 GPU恢复正常 gpuNormal 提示 GPU从故障中恢复正常 无需处理 无 内核崩溃 kernelCrash 致命 内核崩溃crash 提交工单转运维处理 crash期间业务中断 内核OOM kernelOom 重要 内核日志提示out of memory 提交工单转运维处理 业务中断 硬件故障 hardwareError 致命 内核日志报Hardware Error 提交工单转运维处理 业务中断 PCIE故障 pcieAer 致命 内核日志报PCIE Bus Error 提交工单转运维处理 业务中断 SCSI故障 scsiError 致命 内核日志报SCSI error 提交工单转运维处理 业务中断 镜像存储只读故障 partReadOnly 致命 镜像存储分区挂载属性变为readonly 提交工单转运维处理 业务中断 镜像存储超级块损坏故障 badSuperBlock 致命 镜像存储分区相关文件系统超级块损坏 提交工单转运维处理 业务中断 镜像存储sharedpath只读故障 isuladMasterReadOnly 致命 镜像存储的/.sharedpath/master挂载属性只读 提交工单转运维处理 业务中断 云手机数据盘只读故障 cphDiskReadOnly 致命 云手机数据盘挂载属性变为readonly 提交工单转运维处理 业务中断 云手机数据盘超级块损坏故障 cphDiskBadSuperBlock 致命 云手机数据盘相关文件系统超级块损坏 提交工单转运维处理 业务中断 表15 二层连接网关 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 L2CG IP地址冲突 IPConflict 重要 一般是由于线上(本端子网)与线下(远端网段)存在相关IP地址的主机导致。 通过查看ARP、交换机信息等措施,排查出具体IP冲突的主机,根据业务场景调整IP避免冲突。 可能导致冲突IP相关网络通信异常。 表16 弹性公网IP和带宽 事件来源 事件名称 事件ID 事件级别 弹性公网IP和带宽 删除VPC deleteVpc 重要 修改VPC modifyVpc 次要 删除Subnet deleteSubnet 次要 修改Subnet modifySubnet 次要 修改带宽 modifyBandwidth 次要 删除VPN deleteVpn 重要 修改VPN modifyVpn 次要 表17 云硬盘 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 EVS 更新磁盘 updateVolume 次要 更新一个云硬盘的名称和描述。 无需处理。 无。 扩容磁盘 extendVolume 次要 对云硬盘进行扩容。 无需处理。 无。 删除磁盘 deleteVolume 重要 删除一个云硬盘。 无需处理。 删除的磁盘将不能被恢复。 磁盘性能达到QoS上限 reachQoS 重要 磁盘性能频繁达到该规格的QoS上限,从而触发流控,导致IO访问时延变大。 磁盘性能频繁达到该规格的QoS上限,从而触发流控,导致IO访问时延变大,意味该类型的磁盘可能无法满足当前业务需求,建议提升磁盘规格。 磁盘性能频繁达到该规格的QoS上限,从而触发流控,导致IO访问时延变大,意味该类型的磁盘可能无法满足当前业务需求,建议提升磁盘规格 表18 统一身份认证 服务 事件来源 事件名称 事件ID 事件级别 IAM 用户登录 login 次要 用户登出 logout 次要 登录重置密码 changePassword 重要 创建用户 createUser 次要 删除用户 deleteUser 重要 修改用户 updateUser 次要 创建用户组 createUserGroup 次要 删除用户组 deleteUserGroup 重要 修改用户组 updateUserGroup 次要 创建idp createIdentityProvider 次要 删除idp deleteIdentityProvider 重要 修改idp updateIdentityProvider 次要 更新metadata updateMetadata 次要 更新账号登录策略 updateSecurityPolicies 重要 创建AK/SK addCredential 重要 删除AK/SK deleteCredential 重要 创建project createProject 次要 更新project updateProject 次要 冻结项目 suspendProject 重要 表19 密钥管理服务 事件来源 事件名称 事件ID 事件级别 KMS 禁用密钥 disableKey 重要 计划删除密钥 scheduleKeyDeletion 次要 退役授权 retireGrant 重要 撤销授权 revokeGrant 重要 表20 对象存储服务 事件来源 事件名称 事件ID 事件级别 OBS 删除桶 deleteBucket 重要 删除桶policy配置 deleteBucketPolicy 重要 设置桶的ACL setBucketAcl 次要 设置桶的策略 setBucketPolicy 次要 表21 云监控 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 Cloud Eye 插件故障事件 agentHeartbeatInterrupted 重要 监控插件每1分钟发送1次心跳;当服务端3分钟收不到插件心跳时,“插件状态”显示为“故障”。 查看Agent域名是否无法解析。 查看账号是否欠费。 Agent进程故障,先尝试重启Agent如果重启后状态还是故障,可能Agent相关文件被破坏,请尝试重新安装Agent。 查看服务器内部时间和本地标准时间不一致。 使用的DNS非华为云DNS,请通过执行dig+目标域名获取到agent.ces.myhuaweicloud.com在华为云内网DNS下解析到的IP后再添加对应的hosts。 请将Agent更新为最新版本。 插件已恢复 agentResumed 提示 客户端插件已恢复运行。 不需要处理。 插件已故障 agentFaulty 重要 客户端插件运行故障,上报对应状态。 Agent进程故障,先尝试重启Agent。如果重启后状态还是故障,可能Agent相关文件被破坏,请尝试重新安装Agent。 请将Agent更新为最新版本。 插件已断联 agentDisconnected 重要 监控插件每1分钟发送1次心跳;当服务端3分钟收不到插件心跳时,“插件状态”显示为“故障”。 查看Agent域名是否无法解析。 查看账号是否欠费。 Agent进程故障,先尝试重启Agent。如果重启后状态还是故障,可能Agent相关文件被破坏,请尝试重新安装Agent。 查看服务器内部时间和本地标准时间不一致。 使用的DNS非华为云DNS,请通过执行dig+目标域名获取到agent.ces.myhuaweicloud.com在华为云内网DNS下解析到的IP后再添加对应的hosts。请将Agent更新为最新版本。 表22 数据空间服务 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 Data Space 新增修订版本 newRevision 次要 数据产品发布了新的修订版本。 收到事件通知后根据需要导出新的修订版本数据。 无。 表23 企业交换机 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 ESW IP地址冲突 IPConflict 重要 L2互联场景:一般是由于线上(本端子网)与线下(远端网段)存在相关IP地址的主机导致。 通过查看ARP、交换机信息等措施,排查出具体IP冲突的主机,根据业务场景调整IP避免冲突。 可能导致冲突IP相关网络通信异常。 表24 凭据管理服务 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 C SMS 操作待删除凭据 operateDeletedSecret 重要 用户调用接口操作计划删除状态凭据。 用户可以考虑取消删除该凭据。 到期删除的凭据无法恢复。 表25 分布式缓存服务 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 DCS 在线迁移发生全量重试 migrationFullResync 次要 在线迁移在重试时,因无法进行增量同步,而触发了全量同步。 确认是否发生反复的全量重试,需要检查到源端的网络连接是否正常,是否源端压力过大。如果反复全量重试,联系运维人员处理。 迁移任务与源实例发生中断,重新触发了全量同步,可能导致源实例CPU冲高。 实例主备切换(故障切换) masterStandbyFailover 次要 Redis主节点异常,触发主从倒换机制,备节点升主。 检查业务是否自愈。如果应用未恢复,需要重启应用进行恢复。 实例长连接会中断。 Memcached主从倒换 memcachedMasterStandbyFailover 次要 Memcached主节点异常,触发主从倒换机制,备节点升主。 检查业务是否自愈。如果应用未恢复,需要重启应用进行恢复。 实例长连接会中断。 Redis节点状态异常 redisNodeStatusAbnormal 重要 Redis节点状态异常。 检查业务是否受影响 ,如果影响联系运维人员处理。 节点状态异常,主节点异常会自动主备切换。从节点异常,如果客户端直连从节点进行读写分离,读操作会出现异常。 Redis节点状态恢复正常 redisNodeStatusNormal 重要 Redis节点从异常恢复正常。 检查业务是否恢复。如果应用未重连,需要重启应用进行恢复。 异常恢复事件。 数据迁移同步失败 migrateSyncDataFail 重要 执行在线迁移任务时,迁移任务失败。 重新配置迁移任务重试迁移。如果仍然失败,联系运维人员处理。 数据迁移失败。 Memcached实例状态异常 memcachedInstanceStatusAbnormal 重要 Memcached节点状态异常。 检查业务是否受影响 ,如果影响联系运维人员处理。 Memcached实例状态异常,实例可能无法访问。 Memcached实例状态异常恢复 memcachedInstanceStatusNormal 重要 Memcached节点从异常恢复正常。 检查业务是否恢复。如果应用未重连,需要重启应用进行恢复。 异常恢复事件。 实例备份失败 instanceBackupFailure 重要 DCS实例备份失败,一般可能是由于访问OBS失败等原因导致。 手动备份进行重试。 自动备份失败。 实例节点异常重启 instanceNodeAbnormalRestart 重要 一般是由于DCS实例节点异常后重启导致。 检查业务是否自愈。如果应用未恢复,需要重启应用进行恢复。 实例长连接会中断。 终止超时lua脚本 scriptsStopped 提醒 一般是由于lua脚本运行时间过长,自动终止脚本运行。 优化lua脚本,防止执行超时。 lua脚本执行时间超长,被强制中断。lua脚本执行时间过长,会阻塞整个实例。 节点自动重启 nodeRestarted 提醒 一般是由于lua脚本运行时间过长,并且已执行写操作,自动重启节点终止脚本运行。 检查业务是否自愈。如果应用未恢复,需要重启应用进行恢复。 实例长连接会中断。 表26 智能云接入 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 ICA BGP peer连接中断 BgpPeerDisconnection 重要 BGP peer连接中断 登录网关设备,排查bgp peer断连原因 业务流量有可能会中断 BGP peer连接成功 BgpPeerConnectionSuccess 重要 BGP peer连接成功 无 无 GRE隧道状态异常 AbnormalGreTunnelStatus 重要 GRE隧道状态异常 登录网关设备,排查gre隧道状态异常原因 业务流量有可能会中断 GRE隧道状态正常 NormalGreTunnelStatus 重要 GRE隧道状态正常 无 无 设备wan口上线 EquipmentWanGoingOnline 重要 设备wan口上线 无 无 设备wan口下线 EquipmentWanGoingOffline 重要 设备wan口下线 检查是否为人为操作或设备故障 设备无法正常使用 智能企业网关设备上线 IntelligentEnterpriseGatewayGoingOnline 重要 智能企业网关设备上线 无 无 智能企业网关设备下线 IntelligentEnterpriseGatewayGoingOffline 重要 智能企业网关设备下线 检查是否为人为操作或设备故障 设备无法正常使用 表27 多活高可用服务 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 MAS 数据库状态异常 dbError 重要 一般是由于MAS监控到用户数据库实例状态导致的。 用户登录MAS控制台查看原因及处理异常。 业务中断 数据库状态恢复 dbRecovery 重要 数据库实例状态从异常恢复正常。 无。 业务中断 Redis状态异常 redisError 重要 一般是由于MAS监控到用户Redis实例状态导致的。 用户登录MAS控制台查看原因及处理异常。 业务中断 Redis状态恢复 redisRecovery 重要 Redis实例状态从异常恢复正常。 无。 业务中断 MongoDB状态异常 mongodbError 重要 一般是由于MAS监控到用户MongoDB实例状态导致的。 用户登录MAS控制台查看原因及处理异常。 业务中断 MongoDB状态恢复 mongodbRecovery 重要 API状态从异常恢复正常。 无。 业务中断 Elasticsearch状态异常 esError 重要 一般是由于MAS监控到用户ElasticSearch实例状态导致的。 用户登录MAS控制台查看原因及处理异常。 业务中断 Elasticsearch状态恢复 esRecovery 重要 ElasticSearch实例状态从异常恢复正常。 无。 业务中断 API接口状态异常 apiError 重要 一般是由于MAS监控到用户API状态导致的。 用户登录MAS控制台查看原因及处理异常。 业务中断 API接口状态恢复 apiRecovery 重要 API状态从异常恢复正常。 无。 业务中断 多活分区状态发生变化 netChange 重要 MAS服务多活管理中心探测到多活分区状态发生变化 用户登录MAS控制台查看原因及处理异常。 可能导致多活分区网络的状态改变。 表28 配置审计 服务 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 Config 配置不合规通知 configurationNoncomplianceNotification 重要 审计规则执行结果为不合规。 修改资源不合规的配置项,使其合规。 无。 配置合规通知 configurationComplianceNotification 提示 审计规则执行结果变为合规。 无。 无。 表29 安全云脑 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 SecMaster 独享引擎创建失败 createEngineFailed 重要 一般是由于底层资源不足等原因导致。 提交工单让运维在后台协调资源再重试。 无法创建独享引擎。 独享引擎运行异常 engineException 紧急 一般是由于流量过大或者恶意流程,插件导致。 排查流程,插件执行是否占用资源过多 查看实例监控,短期内是否实例数量暴增。 无法执行实例。 剧本实例执行失败 playbookInstanceExecFailed 一般 一般是由于剧本,流程配置出错导致。 通过实例监控查看失败原因,修改剧本,流程配置。 无。 剧本实例突增 playbookInstanceIncreaseSharply 一般 一般是由于剧本,流程配置出错导致。 通过实例监控查看突增原因,修改剧本,流程配置。 无。 日志消息突增 logIncrease 重要 上游服务产生大量日志,导致消息快速增加。 需要排查上游服务业务是否正常。 无。 日志消息突减 logsDecrease 重要 上游服务产生日志突然变小。 需要排查上游服务业务是否正常 无。 表30 密钥对管理服务 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 KPS 删除密钥对 KPSDeleteKeypair 提示 成功删除密钥对,此操作不可逆。 当短时间内大量触发此事件时,要检查是否出现恶意删除的情况。 被删除密钥对无法恢复。 表31 企业主机安全 服务 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 HSS 企业主机安全服务Agent异常离线 hssAgentAbnormalOffline 重要 一般是由于Agent与服务器通信异常,主机中的Agent进程异常等原因导致。 排查网络故障,待网络恢复正常后,若长时间Agent状态仍为“离线”,可能是Agent进程异常,需要登录主机,重启Agent进程。 业务中断。 企业主机安全服务Agent防护状态异常 hssAgentAbnormalProtection 重要 一般是由于底层资源不足造成Agent工作模式异常等原因导致。 登录主机检查资源,如发现内存或者其他系统资源过高等情况,建议优先扩容处理。如果资源够用,重启Agent进程后还是异常,提交工单让运维处理 业务中断。 表32 镜像服务 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 IMS 创建镜像 createImage 重要 用户创建私有镜像 无 镜像创建完成后,可使用该镜像创建云服务器。 更新镜像 updateImage 重要 用户更新私有镜像元数据 无 更新镜像关键元数据可能导致该镜像创建云服务器失败。 删除镜像 deleteImage 重要 用户删除私有镜像 无 不能使用该镜像创建云服务器。 表33 云存储网关 事件来源 事件名称 事件ID 事件级别 事件说明 CSG 网关进程状态异常 gatewayProcessStatusAbnormal 重要 当云存储网关进程状态异常时,则触发进程状态异常事件。 网关连接状态异常 gatewayToServiceConnectAbnormal 重要 当云存储网关连续5个周期无状态上报时,则触发连接异常事件。 网关与OBS连接状态异常 gatewayToObsConnectAbnormal 重要 当云存储网关无法连接到OBS时,则触发该事件。 文件系统只读 gatewayFileSystemReadOnly 重要 当云存储网关上的分区文件系统只读时,则触发该事件。 文件共享只读 gatewayFileShareReadOnly 重要 当文件共享因缓存盘存储空间不足,文件共享只读时,则触发该事件。 表34 全球加速 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 GA AIP封堵 blockAIP 紧急 带宽超过5GB就会封堵,相当于把流量直接丢弃。带宽严重超限或受到攻击,一般是受到了DDoS攻击。 查看事件中的封堵原因,进行相应处理。 业务受影响。 AIP解封 unblockAIP 紧急 AIP封堵已被解封。 查看加速资源是否可用。 无。 终端节点健康状态异常 healthCheckError 重要 通过健康检查探测终端节点状态异常。 根据终端节点的健康检查结果异常如何排查?文档排查原因,未解决则提交工单。 当健康检查探测到您的终端节点异常时,不再向异常的终端节点转发流量,直到健康检查检测到终端节点恢复正常时,才会继续转发流量。 表35 企业连接 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 EC 设备wan口上线 EquipmentWanGoesOnline 重要 设备wan口上线 无 无 设备wan口下线 EquipmentWanGoesOffline 重要 设备wan口下线 检查是否为人为操作或设备故障 设备无法正常使用 BGP peer连接中断 BgpPeerDisconnection 重要 BGP peer连接中断 检查是否为人为操作或设备故障 设备无法正常使用 BGP peer连接成功 BgpPeerConnectionSuccess 重要 BGP peer连接成功 无 无 GRE隧道状态异常 AbnormalGreTunnelStatus 重要 GRE隧道状态异常 检查是否为人为操作或设备故障 设备无法正常使用 GRE隧道状态正常 NormalGreTunnelStatus 重要 GRE隧道状态正常 无 无 智能企业网关设备上线 IntelligentEnterpriseGatewayGoesOnline 重要 智能企业网关设备上线 无 无 智能企业网关设备下线 IntelligentEnterpriseGatewayGoesOffline 重要 智能企业网关设备下线 检查是否为人为操作或设备故障 设备无法正常使用 表36 MapReduce服务 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 MRS DBServer主备倒换 dbServerSwitchover 次要 DBServer主备倒换 主备倒换需要和运维人员确认是否为正常操作导致。 连续触发主备倒换可能影响Hive服务正常使用,导致Hive服务不可用。 Flume Channel溢出 flumeChannelOverflow 次要 Flume Channel溢出 确认flume的channel配置是否合理,业务量是否有突增。 Flume任务无法正常写入数据到后端。 NameNode主备倒换 namenodeSwitchover 次要 NameNode主备倒换 主备倒换需要和运维人员确认是否为正常操作导致。 连续触发主备倒换可能影响HDFS服务正常使用,读写HDFS文件可能失败。 ResourceManager主备倒换 resourceManagerSwitchover 次要 ResourceManager主备倒换 主备倒换需要和运维人员确认是否为正常操作导致 连续触发主备倒换可能影响Yarn服务正常使用,导致任务出现异常甚至失败 JobHistoryServer主备倒换 jobHistoryServerSwitchover 次要 JobHistoryServer主备倒换 主备倒换需要和运维人员确认是否为正常操作导致 连续触发主备倒换可能影响MapReduce服务正常使用,导致任务日志读取异常 HMaster主备倒换 hmasterFailover 次要 HMaster主备倒换 主备倒换需要和运维人员确认是否为正常操作导致 连续触发主备倒换可能影响HBase服务正常使用 Hue发生主备切换 hueFailover 次要 Hue发生主备切换 主备倒换需要和运维人员确认是否为正常操作导致 主备倒换可能影响HUE服务正常使用,导致页面无法使用等问题 Impala HaProxy服务发生主备切换 impalaHaProxyFailover 次要 Impala HaProxy服务发生主备切换 主备倒换需要和运维人员确认是否为正常操作导致 连续触发主备倒换可能影响Impala服务正常使用 Impala StateStoreCatalog服务发生主备切换 impalaStateStoreCatalogFailover 次要 Impala StateStoreCatalog服务发生主备切换 主备倒换需要和运维人员确认是否为正常操作导致 连续触发主备倒换可能影响Impala服务正常使用 LdapServer主备倒换 ldapServerFailover 次要 LdapServer主备倒换 主备倒换需要和运维人员确认是否为正常操作导致 连续触发主备倒换可能影响LdapServer服务正常使用 Loader主备倒换 loaderSwitchover 次要 Loader主备倒换 主备倒换需要和运维人员确认是否为正常操作导致 主备倒换可能影响Loader服务正常使用 Manager主备倒换 managerSwitchover 提示 Manager主备倒换 主备倒换需要和运维人员确认是否为正常操作导致 Manager主备倒换可能导致Manager页面无法正常访问,部分监控可能出现异常数值 作业执行失败 jobRunningFailed 提示 作业执行失败 查看作业管理页面,确认失败任务是否有异常 作业执行过程出现失败 作业被终止 jobkilled 提示 作业被终止 确认任务是否人为下发终止命令 作业执行过程被终止 Oozie工作流执行失败 oozieWorkflowExecutionFailure 次要 Oozie工作流执行失败 查看Oozie日志,确认任务失败原因 Oozie工作流执行失败 Oozie定时任务执行失败 oozieScheduledJobExecutionFailure 次要 Oozie定时任务执行失败 查看Oozie日志,确认任务失败原因 Oozie定时任务执行失败 ClickHouse服务不可用 clickHouseServiceUnavailable 紧急 ClickHouse服务不可用 请参考《MapReduce服务用户指南》的“ALM-45425 ClickHouse服务不可用”章节。 ClickHouse服务异常,无法通过 FusionInsight Manager对ClickHouse进行集群操作,无法使用ClickHouse服务功能。 DBService服务不可用 dbServiceServiceUnavailable 紧急 DBService服务不可用 请参考《MapReduce服务用户指南》的“ALM-27001 DBService服务不可用”章节。 数据库服务不可用,无法对上层服务提供数据入库、查询等功能,使部分服务异常。 DBService主备节点间心跳中断 dbServiceHeartbeatInterruptionBetweentheActiveAndStandbyNodes 重要 DBService主备节点间心跳中断 请参考《MapReduce服务用户指南》的“ALM-27003 DBService主备节点间心跳中断”章节。 DBService主备间心跳中断时只有一个节点提供服务,一旦该节点故障,再无法切换到备节点,就会服务不可用。 DBService主备数据不同步 dataInconsistencyBetweenActiveAndStandbyDBServices 紧急 DBService主备数据不同步 请参考《MapReduce服务用户指南》的“ALM-27004 DBService主备数据不同步”章节。 主备DBServer数据不同步,如果此时主实例异常,则会出现数据丢失或者数据异常的情况。 数据库进入只读模式 databaseEnterstheReadOnlyMode 紧急 数据库进入只读模式 请参考《MapReduce服务用户指南》的“ALM-27007 数据库进入只读模式”章节。 数据库进入只读模式,业务数据丢失。 Flume服务不可用 flumeServiceUnavailable 紧急 Flume服务不可用 请参考《MapReduce服务用户指南》的“ALM-24000 Flume服务不可用”章节。 当Flume服务不可用时,Flume不能正常工作,数据传输业务中断。 Flume Agent异常 flumeAgentException 重要 Flume Agent异常 请参考《MapReduce服务用户指南》的“ALM-24001 Flume Agent异常”章节。 产生告警的Flume Agent实例无法正常启动,定义在该实例下的数据传输任务暂时中断,对于实时数据传输,会丢失实时数据。 Flume Client连接中断 flumeClientDisconnected 重要 Flume Client连接中断 请参考《MapReduce服务用户指南》的“ALM-24003 Flume Client连接中断”章节。 产生告警的Flume Client无法与Flume Server端进行通信,Flume Client端的数据无法传输到Flume Server端。 Flume读取数据异常 exceptionOccursWhenFlumeReadsData 重要 Flume读取数据异常 请参考《MapReduce服务用户指南》的“ALM-24004 Flume读取数据异常”章节。 如果数据源有数据,Flume Source持续读取不到数据,数据采集会停止。 Flume传输数据异常 exceptionOccursWhenFlumeTransmitsData 重要 Flume传输数据异常 请参考《MapReduce服务用户指南》的“ALM-24005 Flume传输数据异常”章节。 Flume Channel的磁盘空间使用量有继续增长的趋势,将会使数据导入到指定目的地的时间增长,当Flume Channel的磁盘空间使用量达到100%时会导致Flume Agent进程暂停工作。 Flume 证书文件非法或已损坏 flumeCertificateFileIsinvalid 重要 Flume 证书文件非法或已损坏 请参考《MapReduce服务用户指南》的“ALM-24010 Flume证书文件非法或已损坏”章节。 Flume证书文件已经非法或损坏,功能受限,Flume客户端将无法访问Flume服务端。 Flume 证书文件即将过期 flumeCertificateFileIsAboutToExpire 重要 Flume 证书文件即将过期 请参考《MapReduce服务用户指南》的“ALM-24011 Flume证书文件即将过期”章节。 Flume证书文件即将失效,对系统目前运行无影响。 Flume 证书文件已过期 flumeCertificateFileIsExpired 重要 Flume 证书文件已过期 请参考《MapReduce服务用户指南》的“ALM-24012 Flume证书文件已过期”章节。 Flume证书文件已过期,功能受限,Flume客户端将无法访问Flume服务端。 Flume MonitorServer证书文件失效 flumeMonitorServerCertificateFileIsInvalid 重要 Flume MonitorServer证书文件失效 请参考《MapReduce服务用户指南》的“ALM-24013 Flume MonitorServer证书文件非法或已损坏”章节。 MonitorServer证书文件已经非法或损坏,功能受限,Flume客户端将无法访问Flume服务端。 Flume MonitorServer证书文件即将过期 flumeMonitorServerCertificate FileIsAboutToExpire 重要 Flume MonitorServer证书文件即将过期 请参考《MapReduce服务用户指南》的“ALM-24014 Flume MonitorServer证书文件即将过期”章节。 MonitorServer证书文件即将失效,对系统目前运行无影响。 Flume MonitorServer证书文件已过期 flumeMonitorServerCertificateFileIsExpired 重要 Flume MonitorServer证书文件已过期 请参考《MapReduce服务用户指南》的“ALM-24015 Flume MonitorServer证书文件已过期”章节。 MonitorServer证书文件已过期,功能受限,Flume客户端将无法访问Flume服务端。 HDFS服务不可用 hdfsServiceUnavailable 紧急 HDFS服务不可用 请参考《MapReduce服务用户指南》的“ALM-14000 HDFS服务不可用”章节。 无法为基于HDFS服务的HBase和MapReduce等上层部件提供服务。用户无法读写文件。 NameService服务异常 nameServiceServiceUnavailable 重要 NameService服务异常 请参考《MapReduce服务用户指南》的“ALM-14010 NameService服务异常”章节。 无法为基于该NameService服务的HBase和MapReduce等上层部件提供服务。用户无法读写文件。 DataNode数据目录配置不合理 datanodeDataDirectoryIsNotConfiguredProperly 重要 DataNode数据目录配置不合理 请参考《MapReduce服务用户指南》的“ALM-14011 DataNode数据目录配置不合理”章节。 如果将DataNode数据目录挂载在根目录等系统关键目录,长时间运行后会将根目录写满,导致系统故障。 不合理的DataNode数据目录配置,会造成HDFS的性能下降。 Journalnode数据不同步 journalnodeIsOutOfSynchronization 重要 Journalnode数据不同步 请参考《MapReduce服务用户指南》的“ALM-14012 Journalnode数据不同步”章节。 当一个JournalNode节点工作状态异常时,其数据就会与其他JournalNode节点的数据不同步。如果超过一半的JournalNode节点的数据不同步时,NameNode将无法工作,导致HDFS服务不可用。 NameNode FsImage文件更新失败 failedToUpdateTheNameNodeFsImageFile 重要 NameNode FsImage文件更新失败 请参考《MapReduce服务用户指南》的“ALM-14013 NameNode FsImage文件更新失败”章节。 如果主NameNode数据目录的FsImage没有更新,则说明HDFS元数据合并功能异常,需要修复。如不修复,HDFS在运行一段时间后,Editlog会一直增长。此时如果重启HDFS,由于要加载非常多的Editlog,会导致启动非常耗时。另外,该告警的产生也说明备NameNode功能异常,导致NameNode的HA机制失效。一旦主NameNode故障,则整个HDFS服务将不可用。 DataNode磁盘故障 datanodeDiskFault 重要 DataNode磁盘故障 请参考《MapReduce服务用户指南》的“ALM-14027 DataNode磁盘故障”章节。 上报DataNode磁盘故障告警时,表示该DataNode节点上存在故障的磁盘分区,可能会导致已写入的文件丢失。 Yarn服务不可用 yarnServiceUnavailable 紧急 Yarn服务不可用 请参考《MapReduce服务用户指南》的“ALM-18000 Yarn服务不可用”章节。 集群无法提供Yarn服务。用户无法执行新的application。已提交的application无法执行。 NodeManager心跳丢失 nodemanagerHeartbeatLost 重要 NodeManager心跳丢失 请参考《MapReduce服务用户指南》的“ALM-18002 NodeManager心跳丢失”章节。 丢失的NodeManager节点无法提供Yarn服务。 容器减少,集群性能下降。 NodeManager不健康 nodemanagerUnhealthy 重要 NodeManager不健康 请参考《MapReduce服务用户指南》的“ALM-18003 NodeManager不健康”章节。 故障的NodeManager节点无法提供Yarn服务。 容器减少,集群性能下降。 Yarn 任务执行超时 yarnApplicationTimeout 次要 Yarn 任务执行超时 请参考《MapReduce服务用户指南》的“ALM-18020 Yarn任务执行超时”章节。 任务执行超时后的运行时间内,该告警一直存在,但任务仍继续正常执行,没有任何影响。 Mapreduce服务不可用 mapreduceServiceUnavailable 紧急 Mapreduce服务不可用 请参考《MapReduce服务用户指南》的“ALM-18021 Mapreduce服务不可用”章节。 集群无法提供Mapreduce服务,如无法通过Mapreduce查看任务日志,无法提供Mapreduce服务的日志归档功能等。 Yarn队列资源不足 insufficientYarnQueueResources 次要 Yarn队列资源不足 请参考《MapReduce服务用户指南》的“ALM-18022 Yarn队列资源不足”章节。 应用任务结束时间变长。 新应用提交后长时间无法运行。 HBase服务不可用 hbaseServiceUnavailable 紧急 HBase服务不可用 请参考《MapReduce服务用户指南》的“ALM-19000 HBase服务不可用”章节。 无法进行数据读写和创建表等操作。 HBase系统表目录或文件丢失 systemTablePathOrFileOfHBaseIsMissing 紧急 HBase系统表目录或文件丢失 请参考《MapReduce服务用户指南》的“ALM-19012 HBase系统表目录或文件丢失”章节。 HBase服务重启/启动失败。 Hive服务不可用 hiveServiceUnavailable 紧急 Hive服务不可用 请参考《MapReduce服务用户指南》的“ALM-16004 Hive服务不可用”章节。 Hive无法提供数据加载,查询,提取服务。 Hive 数据仓库 被删除 hiveDataWarehouseIsDeleted 紧急 Hive数据仓库被删除 请参考《MapReduce服务用户指南》的“ALM-16045 Hive数据仓库被删除”章节。 Hive默认数据仓库被删除,会导致在默认数据仓库中创建库、创建表失败,影响业务正常使用。 Hive数据仓库权限被修改 hiveDataWarehousePermissionIsModified 紧急 Hive数据仓库权限被修改 请参考《MapReduce服务用户指南》的“ALM-16046 Hive数据仓库权限被修改”章节。 Hive默认数据仓库的权限被修改,会影响当前用户,用户组,其他用户在默认数据仓库中创建库、创建表等操作的操作权限范围。会扩大或缩小权限。 HiveServer已从Zookeeper注销 hiveServerHasBeenDeregisteredFromZookeeper 重要 HiveServer已从Zookeeper注销 请参考《MapReduce服务用户指南》的“ALM-16047 HiveServer已从Zookeeper注销”章节。 当无法在Zookeeper上读取到Hive的配置,将会导致HiveServer不可用。 tez或者spark库路径不存在 tezlibOrSparklibIsNotExist 重要 tez或者spark库路径不存在 请参考《MapReduce服务用户指南》的“ALM-16048 Tez或者Spark库路径不存在”章节。 Tez或者Spark库路径不存在,会影响Hive on Tez,Hive on Spark的功能。 Hue服务不可用 hueServiceUnavailable 紧急 Hue服务不可用 请参考《MapReduce服务用户指南》的“ALM-20002 Hue服务不可用”章节。 系统无法提供数据加载,查询,提取服务。 Impala服务不可用 impalaServiceUnavailable 紧急 Impala服务不可用 请参考《MapReduce服务用户指南》的“ALM-29000 Impala服务不可用”章节。 Impala服务异常,无法通过FusionInsight Manager对Impala进行集群操作,无法使用Impala服务功能。 Kafka服务不可用 kafkaServiceUnavailable 紧急 Kafka服务不可用 请参考《MapReduce服务用户指南》的“ALM-38000 Kafka服务不可用”章节。 集群无法对外提供Kafka服务,用户无法执行新的Kafka任务。 Kafka默认用户状态异常 statusOfKafkaDefaultUserIsAbnormal 紧急 Kafka默认用户状态异常 请参考《MapReduce服务用户指南》的“ALM-38007 Kafka默认用户状态异常”章节。 Kafka默认用户状态异常,会影响Broker之间的元数据同步,以及Kafka与ZooKeeper之间的交互,进而影响业务生产、消费和Topic的创建、删除等操作。 Kafka数据目录状态异常 abnormalKafkaDataDirectoryStatus 重要 Kafka数据目录状态异常 请参考《MapReduce服务用户指南》的“ALM-38008 Kafka数据目录状态异常”章节。 Kafka数据目录状态异常,会导致该数据目录上所有Partition的当前副本下线,多个节点同时出现数据目录状态异常,可能会导致部分Partition不可用。 存在单副本的Topic topicsWithSingleReplica 警告 存在单副本的Topic 请参考《MapReduce服务用户指南》的“ALM-38010 存在单副本的Topic”章节。 单副本的Topic存在单点故障风险,当副本所在节点异常时,会直接导致Partition没有leader,影响该Topic上的业务。 KrbServer服务不可用 krbServerServiceUnavailable 紧急 KrbServer服务不可用 请参考《MapReduce服务用户指南》的“ALM-25500 KrbServer服务不可用”章节。 告警发生时,不能对集群中的组件KrbServer进行任何操作。其它组件的KrbServer认证将受影响。集群中依赖KrbServer的组件运行状态将为故障。 Kudu服务不可用 kuduServiceUnavailable 紧急 Kudu服务不可用 请参考《MapReduce服务用户指南》的“ALM-29100 Kudu服务不可用”章节。 用户无法使用Kudu服务。 LdapServer服务不可用 ldapServerServiceUnavailable 紧急 LdapServer服务不可用 请参考《MapReduce服务用户指南》的“ALM-25000 LdapServer服务不可用”章节。 告警发生时,不能对集群中的KrbServer和LdapServer用户进行任何操作。例如,无法在FusionInsight Manager页面添加、删除或修改任何用户、用户组或角色,也无法修改用户密码。集群中原有的用户验证不受影响。 LdapServer数据同步异常 abnormalLdapServerDataSynchronization 紧急 LdapServer数据同步异常 请参考《MapReduce服务用户指南》的“ALM-25004 LdapServer数据同步异常”章节。 LdapServer数据不一致时,有可能是Manager上的LdapServer数据损坏,也有可能是集群上的LdapServer数据损坏,此时数据损坏的LdapServer进程将无法对外提供服务,影响Manager和集群的认证功能。 Nscd服务异常 nscdServiceIsAbnormal 重要 Nscd服务异常 请参考《MapReduce服务用户指南》的“ALM-25005 Nscd服务异常”章节。 nscd服务异常时,可能会影响该节点从LdapServer上同步数据,此时,使用id命令可能会获取不到Ldap中的数据,影响上层业务。 Sssd服务异常 sssdServiceIsAbnormal 重要 Sssd服务异常 请参考《MapReduce服务用户指南》的“ALM-25006 Sssd服务异常”章节。 sssd服务异常时,可能会影响该节点从LdapServer上同步数据,此时,使用id命令可能会获取不到ldap中的数据,影响上层业务。 Loader服务不可用 loaderServiceUnavailable 紧急 Loader服务不可用 请参考《MapReduce服务用户指南》的“ALM-23001 Loader服务不可用”章节。 如果Loader服务不可用,数据加载,导入,转换的功能也不可用。 Oozie服务不可用 oozieServiceUnavailable 紧急 Oozie服务不可用 请参考《MapReduce服务用户指南》的“ALM-17003 Oozie服务不可用”章节。 无法使用Oozie服务提交作业。 Ranger服务不可用 rangerServiceUnavailable 紧急 Ranger服务不可用 请参考《MapReduce服务用户指南》的“ALM-45275 Ranger服务不可用”章节。 当Ranger服务不可用时,Ranger无法正常工作,Ranger原生UI无法访问。 RangerAdmin状态异常 abnormalRangerAdminStatus 重要 RangerAdmin状态异常 请参考《MapReduce服务用户指南》的“ALM-45276 RangerAdmin状态异常”章节。 当存在单个RangerAdmin状态异常时,不影响Ranger原生UI访问;当两个RangerAdmin状态异常时,Ranger原生UI无法访问,无法执行创建、修改、删除策略等操作。 Spark2x服务不可用 spark2xServiceUnavailable 紧急 Spark2x服务不可用 请参考《MapReduce服务用户指南》的“ALM-43001 Spark2x服务不可用”章节。 用户提交的Spark任务执行失败。 Storm服务不可用 stormServiceUnavailable 紧急 Storm服务不可用 请参考《MapReduce服务用户指南》的“ALM-26051 Storm服务不可用”章节。 集群无法对外提供Storm服务,用户无法执行新的Storm任务。 ZooKeeper服务不可用 zooKeeperServiceUnavailable 紧急 ZooKeeper服务不可用 请参考《MapReduce服务用户指南》的“ALM-13000 ZooKeeper服务不可用”章节。 ZooKeeper无法为上层组件提供协调服务,依赖ZooKeeper的组件可能无法正常运行。 ZooKeeper中组件顶层目录的配额设置失败 failedToSetTheQuotaOfTopDirectoriesOfZooKeeperComponent 次要 ZooKeeper中组件顶层目录的配额设置失败 请参考《MapReduce服务用户指南》的“ALM-13005 ZooKeeper中组件顶层目录的配额设置失败”章节。 组件可以向对应的ZooKeeper顶层目录中写入大量数据,导致Zookeeper服务不可用。 表37 云证书管理服务 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 CCM 吊销证书 CCMRevokeCertificate 重要 证书发起吊销,吊销后证书将不可使用 检查吊销证书是否在预期内,可以终止吊销行为。 证书吊销后,会导致业务中断。 自动部署证书失败 CCMAutoDeploymentFailure 重要 自动部署证书任务发生失败 及时关注并且检查被替换证书的服务资源是否正常。 证书过期后未部署新证书,会导致业务中断。 证书过期 CCMCertificateExpiration 重要 SSL证书过期 及时购买新证书。 证书过期后未部署新证书,会导致业务中断。 证书即将过期 CCMcertificateAboutToExpiration 重要 SSL证书即将过期,与当前时间相隔一周,一个月,两个月的证书定义为即将到期的证书 及时续费或者购买新证书。 证书过期后未部署新证书,会导致业务中断。 表38 云桌面 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 Workspace 桌面心跳异常 desktopStatusAbnormal 重要 一般是由于桌面网络不通、密钥丢失等原因。 重启桌面。 确认桌面时间是否与当前时间一致,否则手动调整桌面时间与当前时间一致。 确认桌面是否有安装特殊的安全软件或网络连通软件,如有安装,请卸载后重启或卸载后重新安装HDCAgent在重启。 桌面无法接入使用。 桌面池分配桌面失败 desktopPoolAssignFailed 重要 一般是由于策略等原因导致。 调整桌面池策略,确保桌面池中有空闲桌面或能自动创建桌面。 Linux桌面与纯数字用户分配失败,则请开启用户名前缀功能。 无法分配新的桌面。 桌面接入失败 desktopAccessFailed 重要 一般是由于关机重启、接入网关异常、网络故障等原因。 如有关机重启等电源操作,请等待一段时间后桌面状态正常时再次尝试接入。 确认网络环境,保证网络畅通的情况下重新接入。 桌面无法接入使用。 桌面开机失败 desktopStartFailed 重要 一般是由于底层资源不足等原因导致。 等待一段时间后尝试重新开机。 桌面无法接入使用。 桌面池自动扩容失败 desktopPoolExpandFailed 重要 一般是由于实例配额不足或底层资源不足等原因导致。 如果是配额不够了,优先申请扩大配额(桌面数,CPU,内存,VPC等)。 如果是底层资源不够了,请等待下一个扩容周期再查看。 如果不需要自动扩容桌面,请及时关闭桌面池自动扩容功能。 无法扩容新的桌面。 专属主机桌面迁移失败 desktopMigrateFailed 重要 一般是由于主机异常导致 请换其他的专属主机进行桌面迁移。 请联系技术人员排查并修复专属主机问题。 桌面可能无可用专属主机调度。 表39 数据库代理 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 DBPROXY 数据库代理与数据库连通性异常 proxy_connection_failure_to_db 重要 数据库代理与主库建立新连接失败,与只读库可能存在建立新连接失败。一般是由于数据库/数据库代理压力过大,或代理与数据库间网络异常 观察数据库与数据库代理压力指标后(连接数、活跃连接数、CPU使用率)调整相应参数,压力指标正常情况下提工单处理 通过代理访问的业务流量中断 数据库代理与数据库只读库连通性异常 proxy_connection_failure_to_replica 一般 数据库代理与只读库建立新连接失败。一般是由于只读库压力过大,或代理与只读库间网络异常 观察只读库压力指标后(连接数、活跃连接数、CPU使用率)调整相应参数,压力指标正常情况下提工单处理 通过代理访问的业务读流量部分中断 数据库安全组未放通数据库代理地址 proxy_connection_failure_cause_security_group 重要 一般是由于数据库安全组未放通代理地址导致 修改数据库所使用安全组规则放通代理地址 通过代理访问的业务流量中断 父主题: 附录
  • 错误码说明 当您调用API时,如果遇到“APIGW”开头的错误码,请参见API网关错误码进行处理。 状态码 错误码 错误信息 描述 处理措施 500 AS.0001 System error. 系统错误 请稍后重试或联系技术支持 500 AS.0049 Call IAM failed. 调用IAM接口失败 请稍后重试或联系技术支持 400 AS.0002 Request body is null. 消息体为空 请传入有效消息体 401 AS.0005 The token of the header in the request is null. 请求消息头未携带token或者token为空 请传入有效token 401 AS.0006 The token of the header in the request is incorrect. 请求消息头携带的token不正确、非法或已过期 请传入有效token 404 AS.0007 The requested resource [%s] could not be found. 请求的资源未找到 请使用正确的参数值 400 AS.0008 Incorrect ProjectID. URL中携带的project id和从token中解析到的project id不一致 检查URL参数或者token是否匹配 403 AS.0011 You do not have the rights to perform the operation. 角色权限错误 检查用户角色是否包含te_admin、as_adm或者其他需要的角色,并检查是否已经实名认证 403 AS.0012 The user role is suspended. 角色权限被冻结 检查用户角色是否包含冻结角色op_suspended 403 AS.0013 Your rights to perform the operation are disabled. 角色权限被停用 检查用户角色是否包含受限角色op_restricted 400 AS.0022 request body error 请求体错误 检查请求体格式是否为标准的JSON格式,或者是否存在不支持的参数字段。 400 AS.0026 Scaling action is not allowed in the cooling duration. 冷却时间内不允许进行伸缩活动 请稍后重试 400 AS.0031 Policy doesn't allow [%s] to be performed. 细粒度鉴权失败,缺少指定的授权项 添加对应的授权项 404 AS.0033 The api version is illegal, only v1,v2. 查询指定版本API信息版本id非法 请输入正确版本id 400 AS.0034 Failed to execute the policy because the AS group is in active state. 伸缩组正在进行活动,策略无法触发 伸缩策略在伸缩组非活动状态才能被自动触发,请稍后重试 400 AS.0050 Scaling action failed. Max. instances reached. 伸缩组当前实例数与最大实例数相等,无法扩容 修改最大实例数 400 AS.1001 The value of parameter Start number is invalid. start number非法 请输入合法的start_number值 400 AS.1002 The value of parameter Limit is invalid. limit非法 请输入合法的limit值 400 AS.1003 The AS configuration ID is null. 伸缩配置ID为空 添加伸缩配置ID 400 AS.1004 The AS configuration does not exist. 伸缩配置不存在 使用正确的伸缩配置ID 400 AS.1006 The AS configuration is in use. 有伸缩组正在使用该伸缩配置,不能删除 为伸缩组更换伸缩配置后,再删除该伸缩配置。 400 AS.1007 The AS configuration name is null. 伸缩配置名称为空 添加伸缩配置名称 400 AS.1008 The AS configuration name is too long. 伸缩配置名称长度过长 使用正确的伸缩配置名称 400 AS.1009 The AS group ID is null. 伸缩组ID为空 添加伸缩组ID 400 AS.1011 The instance configuration information is null. instance_config字段为空 请确保instance_config字段不为空 400 AS.1014 The image ID in the AS configuration is null. 伸缩配置镜像ID为空 添加镜像ID 400 AS.1015 The image in the AS configuration does not exist. 伸缩配置镜像不存在 使用正确的镜像ID 400 AS.1016 The specification ID in the AS configuration cannot be null. 伸缩配置规格ID为空 添加规格ID 400 AS.1017 The specification [%s] in the AS configuration does not exist. 伸缩配置规格不存在 使用正确的规格ID 400 AS.1018 The specification [%s] and image is not match. 伸缩配置规格与镜像不匹配 请检查规格和镜像是否匹配,如果不匹配,请更换相关资源 400 AS.1019 The disk of this type is not applicable to the ECS. 伸缩配置规格与磁盘不匹配 请检查规格和磁盘类型是否匹配,如果不匹配,请更换相关资源 400 AS.1021 The image in the AS configuration is not active. 伸缩配置镜像未激活 使用正确的镜像ID 400 AS.1022 The image in the AS configuration is not available. 伸缩配置镜像不可用 使用正确的镜像ID 400 AS.1023 Invalid AS configuration name. 伸缩配置名称非法 使用正确的伸缩配置名称 400 AS.1024 The number of AS configurations exceeds the upper limit. 伸缩配置数量超过上限 删除不使用的伸缩配置或者申请扩大配额 400 AS.1025 The user login mode in the AS configuration is not unique. 伸缩配置用户登录方式不唯一 账户密码登录方式和密钥对登录方式互斥,且必选一个 400 AS.1026 The user login mode in the AS configuration is null. 伸缩配置用户登录方式为空 账户密码登录方式和密钥对登录方式互斥,且必选一个 400 AS.1027 The scaling config personality is invalid. 伸缩配置用户个人配置错误 请传入正确的personality值 400 AS.1028 The disk in the AS configuration is null. 伸缩配置磁盘为空 添加磁盘相关参数,确保disk字段不为空 400 AS.1029 The number of system disk in the AS configuration is invalid. 伸缩配置系统盘个数非法 系统盘有且只能有一个 400 AS.1030 The size of the system disk in the AS configuration is less than the specification required. 伸缩配置系统盘小于规格 系统盘请使用合适的size值 400 AS.1031 The size of the disk in the AS configuration is not correct. 伸缩配置磁盘大小不合法 请使用正确的size值 400 AS.1032 The ECS type [%s] in the AS configuration do not support 24 disks. 伸缩配置磁盘数量超过24个 请确保磁盘个数不超过限制 400 AS.1033 Parameter volumeType in the AS configuration is invalid. 伸缩配置磁盘volumeType非法 使用正确的volume_type值 400 AS.1034 Parameter diskType in the AS configuration is invalid. 伸缩配置diskType非法 使用正确的disk_type值 400 AS.1035 Parameter adminPass in the AS configuration is invalid. 伸缩配置密码复杂度不符合要求 使用复杂度符合要求的密码 400 AS.1036 32-bit operating system (OS) does not support the specification [%s] with 4G memory. 伸缩配置32位系统内存超过4G 请更换镜像或者规则 400 AS.1037 The flavorRef in the AS configuration is not available. 规格不可用,详细原因请查看错误详情 请更换规格 400 AS.1038 batch deleting scaling config failed 批量删除伸缩配置失败 出现该错误码时,可通过Message字段获取失败的伸缩配置ID和失败原因。 400 AS.1039 the number of scaling config is beyond the max limit 批量删除伸缩配置超过上限 允许批量删除的最大个数为50个 400 AS.1040 The list of AS config to be deleted is null. 伸缩配置列表为空 添加需要批量删除的伸缩配置ID 400 AS.1041 The eip info of scaling config is null. 伸缩配置public_ip字段中eip字段为空 当传入public_ip字段时,请确保eip字段不为空 400 AS.1042 The bandwidth size of eip is invalid. 伸缩配置带宽大小非法 使用正确的带宽值 400 AS.1043 The eip type of scaling config is invalid. 伸缩配置弹性IP类型非法 使用正确的弹性IP类型 400 AS.1044 The bandwidth charging mode of eip is invalid. 伸缩配置带宽计费模式非法 使用正确的带宽计费模式 400 AS.1045 The bandwidth type of eip is invalid. 伸缩配置带宽类型非法 使用正确的带宽类型 400 AS.1046 The bandwidth size of eip is null. 伸缩配置带宽大小为空 添加伸缩配置带宽的值 400 AS.1047 The bandwidth charging mode of eip is null. 伸缩配置带宽计费模式为空 添加带宽计费模式 400 AS.1048 The bandwidth id of eip is null. 伸缩配置共享带宽ID为空 添加共享带宽ID 400 AS.1049 Parameter userdata in the AS configuration is invalid. 伸缩配置userdata参数非法 使用正确的userdata值 400 AS.1050 The user login mode in the AS configuration is illegal. 伸缩配置用户登录方式非法 使用正确的登录方式 400 AS.1052 Parameter metadata in the AS configuration is invalid. 伸缩配置metadata参数非法 使用正确的metadata参数,metadata最大长度 512B,且key的值不能包含空白字符、$和. 400 AS.1053 The data image is not available. 伸缩配置数据镜像不可用 使用正确的数据镜像 400 AS.1054 The size of the data disk in the AS configuration is less than the data image required. 伸缩配置数据盘大小小于数据镜像所需要的 使用正确的数据盘大小 400 AS.1055 The system disk is not support to data image. 伸缩配置系统盘不支持导入数据镜像 参考错误码说明 400 AS.1056 The data image in the AS configuration does not exist. 伸缩配置数据镜像不存在 使用正确的数据镜像ID 400 AS.1062 The number of EVS disks with snapshot IDs in the AS configuration is different from that of EVS disks specified in the full-ECS image. 伸缩配置中含快照ID的磁盘个数应当与整机镜像中的磁盘个数保持一致 参考错误码说明 400 AS.1064 The data disk you have selected will be restored using the disk data backup in the full-ECS image. Then, data mirroring will be unavailable. 您选择的数据盘将从整机镜像中的磁盘备份恢复,此时无法再使用数据镜像 参考错误码说明 400 AS.1065 ECS resources specified in the AS configuration belong to different AZs. 伸缩配置中各类型虚拟机资源所属可用区不一致 请使用同一可用区下的虚拟机资源(如规格、镜像、磁盘等) 400 AS.1066 The AS configuration contains EVS disks with invalid snapshot IDs. 伸缩配置中含快照ID无效的磁盘 使用正确的快照ID 400 AS.1067 The value of parameter Offset number is invalid. offset参数非法 使用正确的offset值 400 AS.1068 The server group in the AS configuration does not exist. 伸缩配置中的云服务器组不存在 使用存在的云服务器组ID 400 AS.1069 The maximum number of ECSs has been reached for the ECS group. 云服务组内的服务器达到上限 更换其他的云服务器组ID 400 AS.1070 The bandwidth id of eip does not exist. 伸缩配置中的共享带宽不存在 使用正确的共享带宽ID 400 AS.1071 Parameter tenancy in the AS configuration is invalid. 伸缩配置中的tenancy参数非法 使用正确的tenancy值 400 AS.1072 The server group ID is invalid. 伸缩配置中的云服务器组ID非法 更换正确的云服务器组ID 400 AS.1073 The dedicated host id does not exist. 伸缩配置中的专属主机ID不存在 使用存在的专属主机ID 400 AS.1074 The value of parameter Marker is invalid. marker参数非法 使用正确的marker值 400 AS.1075 The image ID is invalid. 伸缩配置中的镜像ID非法 更换正确的镜像ID 400 AS.1076 The bandwidth id of eip is invalid. 伸缩配置中的共享带宽ID非法 更换正确的共享带宽ID 400 AS.1077 No available dedicated host resource. 无可用的专属主机资源 创建新的专属主机资源或者对已有专属主机资源进行排查恢复可用 400 AS.1078 The dedicated host has insufficient available capacity for [%s]. 您选择的专属主机的可用容量不足 创建新的专属主机资源或者使用其他专属主机 400 AS.1079 No dedicated host resources supporting this type [%s] of ECS. 无支持该类型云服务器的专属主机资源 更换伸缩配置中使用的云服务器类型 400 AS.1080 No dedicated host resources supporting the AZ [%s] you selected. 该可用区下无可用的专属主机资源 更换伸缩组的可用区或者在该可用区下创建专属主机 400 AS.1081 This specification [%s] does not support IPv6. 伸缩配置flavor不支持开启IPv6 更换伸缩配置 400 AS.1082 Bandwidth type is not shared. 使用的带宽的类型不是共享型 请使用带宽类型为共享型的带宽 400 AS.1083 Instance marketing type is illegal. 伸缩配置中的计费模式非法 请使用正确的market_type值 400 AS.1084 Failed to query the price of specification [%s] from CBC. 查询竞价或按需规格价格失败 请更换伸缩配置规格或联系技术支持 400 AS.1085 Invalid multi flavor priority policy. 伸缩配置中的多规格使用优先级策略类型非法 请使用正确的multi_flavor_priority_policy值 400 AS.1086 AS configuration is not available for AS group 伸缩配置不可用 为伸缩组更换伸缩配置 400 AS.1087 The number of flavors in the AS config exceeds the upper limit. 伸缩配置中规格数量达到限制 确保伸缩配置中的规格个数不超过限制 400 AS.1088 The image in the AS configuration you selected is unavailable for the AZ [%s] in AS group 伸缩配置中的镜像在伸缩组的可用区中不可用 为伸缩组更换伸缩配置或者更换伸缩组的可用区 400 AS.1090 The specification [s%] in the AS configuration cannot match image architecture 所选规格与镜像的架构类型不一致 请确保选择的规格和镜像架构类型一致 400 AS.1097 Parameter iops in the AS configuration is invalid 伸缩配置中iops参数不合法 请传入合法的iops参数 400 AS.1098 Parameter throughput in the AS configuration is invalid 伸缩配置中throughput参数不合法 请传入合法的throughput参数 400 AS.1099 Can not create AS configuration with exist instance that volume_type is GPSSD2,ESSD2 使用已有云服务器为模板创建伸缩配置时,磁盘类型不允许为GPSSD2和ESSD2 使用其他磁盘类型的虚拟机为模板创建伸缩配置 400 AS.2002 The name of the AS group is null. 伸缩组名称不能为空 添加伸缩组名称 400 AS.2003 The AS group name is too long. 伸缩组名称过长 使用正确的伸缩组名称 400 AS.2004 Invalid min or max number of instances in the AS group. 伸缩组最大/最小实例数值非法 请传入正确的伸缩组最大/最小实例数值 400 AS.2005 The expected number cannot be less than the minimum number of instances or greater than the maximum number of instances. 伸缩组期望实例数不合法 请传入合法的伸缩组期望实例数 400 AS.2006 Invalid cooling duration of the AS group. 伸缩组冷却时间不合法 请传入合法的伸缩组冷却时间 400 AS.2007 The AS group does not exist. 伸缩组不存在 使用正确的伸缩组ID 400 AS.2008 Invalid execution action of the AS group. 伸缩组执行动作不合法 使用正确的伸缩组执行动作 400 AS.2009 The AS group ID is null. 伸缩组ID为空 添加伸缩组ID 400 AS.2010 The expected number of instances in the AS group can not be smaller than the number of instances which set instance protection. 伸缩组期望实例数不能小于设置实例保护的实例数 请确保期望实例数不小于设置实例保护的实例数,或者对实例取消实例保护后再修改期望实例数 400 AS.2011 Invalid AZ in AS group. 伸缩组中的可用区非法 使用正确的参数值 400 AS.2012 The VPC of the AS group does not exist. 伸缩组中的VPC不存在 使用正确的参数值 400 AS.2013 Parameter networks in the AS group is invalid. 伸缩组中的networks参数非法 使用正确的参数值 400 AS.2014 The security group of the AS group does not exist. 伸缩组中的安全组不存在 使用正确的参数值 400 AS.2015 Parameter listenerId in the AS group is invalid. 伸缩组弹性负载均衡监听器非法 使用正确的参数值 400 AS.2016 The listener of the AS group does not belong to the vpc. 伸缩组中负载均衡监听器所属VPC与伸缩组中的VPC不一致 更换VPC ID或者更换监听器ID 400 AS.2017 The ID of the VPC in the AS group is null. 伸缩组中的VPC为空 添加VPC ID 400 AS.2018 No AS configuration is in the AS group. 伸缩组没有伸缩配置信息,启用失败 为伸缩组添加伸缩配置后,重新启用伸缩组 400 AS.2019 The value of the parameter that specifies whether to forcibly delete the group is invalid. 是否强制删除伸缩组的值非法 使用正确的参数值 400 AS.2020 The scaling group status is illegal. 伸缩组状态非法 伸缩组当前状态不能进行操作 400 AS.2021 The current number of instances in the AS group is not 0. 伸缩组当前实例数不为0,删除失败 请先将伸缩组中实例删除,再删除伸缩组 400 AS.2022 The AS group name contains invalid characters. 伸缩组名称含非法字符 使用正确的伸缩组名称 400 AS.2023 The number of AS groups exceeds the upper limit. 伸缩组数量超过上限 删除不使用的伸缩组或者申请扩大配额 400 AS.2024 The number of subnets in the AS group exceeds the upper limit. 伸缩组子网超过上限 确保子网个数不超过上限 400 AS.2025 The number of security groups in the AS group exceeds the upper limit. 伸缩组安全组达到上限 确保安全组个数不超过上限 400 AS.2026 The type of listeners in the AS group is not unique. 伸缩组负载均衡监听器种类不唯一 lb_listener_id和lbaas_listeners字段互斥 400 AS.2027 The subnet of the AS group does not belong to the vpc. 伸缩组的某些子网所在VPC与伸缩组中的VPC不一致 更换VPC ID或者子网ID 400 AS.2028 The modified expected number of instances is the same as the original number. 伸缩组期望实例数修改后与之前相同 参考错误码说明 400 AS.2029 Invalid health check method of the AS group. 伸缩组实例健康检查方式错误 使用正确的health_periodic_audit_method值 400 AS.2030 You are not allowed to modify the AZ, subnet, and security information when the number of instances in the AS group is not 0, the AS group is scaling, or the AS group is in Inservice status. 伸缩组实例数不为0、处于伸缩活动中或者伸缩组为Inservice状态,不允许修改可用区、子网、安全组信息。 请确认伸缩组内实例数,伸缩组状态或稍后再试 400 AS.2031 Invalid health check period of the AS group. 伸缩组健康检查周期不合法 使用正确的health_periodic_audit_time值 400 AS.2032 Invalid instance removal policy. 伸缩组实例移除策略不合法 使用正确的instance_terminate_policy值 400 AS.2033 You are not allowed to perform the operation when the AS group is in current [%s] status. 伸缩组当前状态不能进行操作 参考错误码说明 400 AS.2034 Invalid notification method of the AS group. 伸缩组通知方式不合法 使用正确的通知方式 400 AS.2035 The number of instances manually added to the AS group exceeds the maximum number of the instances required in the AS group. 手动添加一些云服务器后,伸缩组中云服务器数量超过伸缩组最大实例数 请添加合适数量云服务器或增大伸缩组最大实例数 400 AS.2036 The number of instances manually deleted is less than the minimum number of the instances required in the AS group. 手动删除一些云服务器后,伸缩组中云服务器数量小于伸缩组最小实例数 请删除合适数量云服务器或减小伸缩组最小实例数 400 AS.2037 The number of listeners in the AS group exceeds the upper limit. 伸缩组负载均衡监听器达到上限 请选择合适数量负载均衡监听器 400 AS.2038 The type [%s] of ECS in the AZ you selected has been sold out. 伸缩组的可用区下的该类型云服务器资源已售罄 参考错误码说明,修改伸缩组的可用区信息,或者为伸缩组更换伸缩配置 400 AS.2039 Parameter protocolPort in the AS group is invalid. 伸缩组统一负载均衡protocolPort非法 配置正确的protocolPort参数 400 AS.2040 Parameter weight in the AS group is invalid. 伸缩组统一负载均衡weight非法 配置正确的weight参数 400 AS.2042 Parameter pool of lbaas in the AS group is invalid. 伸缩组统一负载均衡pool非法 配置正确的pool参数 400 AS.2043 There is not avalid volume in the AZ [%s] you selected. 伸缩组的可用区下该类型存储资源已售罄或者不存在 参考错误码说明,修改伸缩组的可用区信息,或者为伸缩组更换伸缩配置 400 AS.2044 The AZ in the AS group is not available. 伸缩组的AZ不可用 参考错误码说明,修改伸缩组的可用区信息 400 AS.2045 The min or max number of instances in the AS group exceeds the upper limit. 伸缩组的最小实例数或最大实例数超出限制 请传入合适大小的伸缩组最大实例数和最小实例数 400 AS.2046 Invalid health check grace period of the AS group. 伸缩组实例健康状况检查宽限期不合法 请使用正确的health_periodic_audit_grace_period值 400 AS.2047 The AS group is in active status. 伸缩组处于活动状态无法修改lb参数 等待伸缩组活动结束后再执行修改lb操作 400 AS.2048 This subnet does not support IPv6. 伸缩组子网不支持开启IPv6 更换支持IPv6的子网或者不启用IPv6 400 AS.2049 The AZ in the AS group does not support IPv6. 伸缩组AZ不支持开启IPv6 更换支持IPv6的AZ或者不启用IPv6 400 AS.2050 IPv6 shared bandwidth can be used only after IPv6 is enabled. IPv6启用后才可以使用IPv6共享带宽 请启用IPv6后再使用IPv6带宽 400 AS.2051 The expected number cannot be less than the number of instances moved into the standby state. 伸缩组期望实例数不能小于备用实例个数 确保修改后的伸缩组期望实例数不小于备用实例(含正在进入备用状态和已备用状态的实例)个数 400 AS.2052 The expected number cannot be less than the sum of the number of standby instances and protected instances. 伸缩组期望实例数不能小于备用实例和保护实例个数之和 确保修改后的伸缩组期望实例数不小于备用实例(含正在进入备用状态和已备用状态的实例)和设置实例保护的实例个数之和 400 AS.2053 Invalid multi az priority policy. 伸缩组多AZ优先级策略类型不合法 请更换伸缩组多AZ优先级策略类型 400 AS.2054 The AS group is in active status. 伸缩组处于活动状态,无法修改AZ 等待伸缩组活动结束后再执行修改AZ操作 400 AS.3002 Invalid AS policy type. 伸缩策略类型非法 使用正确的scaling_policy_type值 400 AS.3003 The information about the AS policy is null. 伸缩策略类型为定时或周期时,scheduled_policy相关信息为空 添加scheduled_policy参数 400 AS.3004 Invalid recurrence type in the AS policy. 周期表达式类型错误 使用正确的recurrence_type值 400 AS.3005 The end time of the scaling action triggered periodically is null. 周期策略结束时间为空 添加end_time参数 400 AS.3006 The format of the end time of the scaling action triggered periodically is incorrect. 周期策略结束时间格式错误 使用正确的结束时间格式 400 AS.3007 The end time of the scaling action triggered periodically must be later than the current time. 周期策略结束时间必须晚于当前时间 请确保结束时间晚于当前时间 400 AS.3008 Parameter lanchTime in the AS policy is null. 触发时间为空 添加launch_time参数 400 AS.3009 The format of parameter lanchTime is incorrect. 策略触发时间格式错误 使用正确的策略触发时间格式 400 AS.3010 The triggering time of the scheduled policy must be later than the current time. 定时策略触发时间必须晚于当前时间 请确保定时策略触发时间晚于当前时间 400 AS.3011 The AS policy type is null. 伸缩策略类型为空 添加scaling_policy_type参数 400 AS.3012 Invalid cooling duration in the AS policy. 伸缩策略冷却时间不合法 使用正确的cool_down_time值 400 AS.3013 The AS policy name is null. 伸缩策略名称为空 添加scaling_policy_name参数 400 AS.3014 The length of the AS policy name is invalid. 伸缩策略名称长度不合法 使用正确的scaling_policy_name值 400 AS.3015 The action in the AS policy is null. 伸缩策略执行动作为空 添加scaling_policy_action参数 400 AS.3016 The operation to perform the action in the AS policy is null. 伸缩策略执行动作的操作为空 添加operation参数 400 AS.3017 The operation to perform the action in the AS policy action is invalid. 伸缩策略动作的操作不合法 使用正确的operation值 400 AS.3018 The number of instances which action in the AS policy operates on is invalid. 伸缩策略操作的实例数不合法 使用正确的instance_number值 400 AS.3019 The AS group ID in the AS policy cannot be null. 伸缩策略中伸缩组ID为空 添加伸缩组ID 400 AS.3020 The AS policy does not exist. 伸缩策略不存在 使用正确的伸缩策略ID 400 AS.3021 The AS policy ID cannot be null. 伸缩策略ID为空 添加伸缩策略ID 400 AS.3022 The action of the AS policy request body is invalid. 伸缩策略请求体action非法 使用正确的action值 400 AS.3023 The period type of the AS policy is null. 伸缩策略周期类型为空 添加recurrence_type参数 400 AS.3024 The value of the period type of the AS policy is null. 伸缩策略周期触发任务数值为空 添加recurrence_value参数 400 AS.3025 The value of period type of the AS policy is invalid. 伸缩策略周期类型非法 使用正确的recurrence_type值 400 AS.3026 The alarm ID in the AS policy is null. 伸缩策略告警ID为空 添加告警ID 400 AS.3027 The AS policy must be in the inservice status when the AS policy is performed. 伸缩策略执行时,伸缩组状态必须为启用状态 启用伸缩组后再试 400 AS.3028 The format of the start time for the scaling action triggered periodically is incorrect. 周期策略起始时间格式错误 使用正确的起始时间格式 400 AS.3029 The start time of the scaling action triggered periodically must be earlier than the end time. 周期策略起始时间必须早于结束时间 请确保周期策略起始时间早于结束时间 400 AS.3030 The alarm in the AS policy does not exist. 伸缩策略告警规则不存在 修改伸缩策略使用的告警规则 400 AS.3031 Invalid AS policy name. 伸缩策略名称非法 使用正确的scaling_policy_name值 400 AS.3032 The number of AS policies exceeds the upper limit. 伸缩策略数量达到限制 删除不使用的伸缩策略或者申请扩大配额 400 AS.3033 The triggering time of the periodic policy is not included in the effective time of the policy. 周期策略的触发时间不包含在策略的生效时间内 请确保周期策略的触发时间包含在策略的起始时间到结束时间的范围内 400 AS.3034 The alarm ID in the AS policy is being used by another AS group. 伸缩策略告警ID正在被其它伸缩组使用 参考错误码说明,告警ID同一时间只能被一个伸缩组的伸缩策略使用 400 AS.3035 The percentage of instances which action in the AS policy operates on is invalid. 伸缩策略操作的实例百分比非法 使用正确的instance_percentage值 400 AS.3036 The action in the AS policy operates is not unique. 伸缩策略操作实例的方式不唯一 instance_percentage和instance_number互斥 400 AS.3037 The scaling resource type in the AS policy is invalid. 伸缩策略资源类型非法 使用正确的scaling_resource_type值 400 AS.3038 The AS policy is in execting status. 伸缩策略正在执行中无法再次执行 请稍后再试 400 AS.3040 The adjustment by policy reached the limit 伸缩策略中的伸缩资源已达到修改上限 参考错误码说明 400 AS.3041 The scaling resource ID in the AS policy is null. 伸缩策略中的伸缩资源ID为空 请在伸缩策略中传入有效的伸缩资源ID 400 AS.3042 The scaling resource in the AS policy does not exist. 伸缩策略中的伸缩资源不存在 请在伸缩策略中传入有效的伸缩资源ID 400 AS.3043 The limit which action in the AS policy operates on is invalid. 伸缩策略中的limits参数值非法 请在伸缩策略中使用合法limits值 400 AS.3044 Parameter limits in the AS policy is invalid. 包年包月带宽不支持动态调整 请选择合法的带宽伸缩资源 400 AS.3045 Failed to delete policies in a batch. 批量删除策略失败 出现该错误码时,可通过Message字段获取失败的策略ID和失败原因。 400 AS.3046 Failed to resume policies in a batch. 批量启用策略失败 出现该错误码时,可通过Message字段获取失败的策略ID和失败原因。 400 AS.3047 Failed to pause policies in a batch. 批量停用策略失败 出现该错误码时,可通过Message字段获取失败的策略ID和失败原因。 400 AS.3048 The value of the parameter that specifies whether to forcibly delete the policy is invalid. 是否强制删除策略的值非法 使用正确的force_delete值 400 AS.3049 The list of AS policies to be batched is empty. 待批量操作的伸缩策略列表信息为空 添加需要批量操作的伸缩策略ID 400 AS.3050 The alarm ID in the AS policy is illegal. 伸缩策略中的告警ID格式错误 使用格式正确的告警ID 400 AS.3054 The scaling resource type in the AS policy is null. 伸缩策略中伸缩资源类型为空 添加scaling_resource_type参数 400 AS.3055 The scaling resource ID in the AS policy is format wrong. 伸缩策略中的伸缩资源ID非法 请在伸缩策略中传入有效的伸缩资源ID 400 AS.3056 The value of the parameter that specifies whether to delete the alarm in the AS policy is invalid. 是否删除伸缩策略使用的告警规则的值非法 请使用合法的delete_alarm值 400 AS.3057 The value of parameter sort_by in the request is invalid. 请求参数中sort_by值非法 请使用合法的sort_by值 400 AS.3058 The value of parameter order in the request is invalid. 请求参数中order值非法 请使用合法的order值 400 AS.4000 The value of parameter start_number in the request for the instance is invalid. 伸缩实例请求参数中start_number值非法 请使用合法的start_number值 400 AS.4001 The value of parameter limit in the request for the instance is invalid. 伸缩实例请求参数中limit值非法 请使用合法的limit值 400 AS.4003 The value of parameter life_cycle_state in the instance request is invalid. 伸缩实例请求参数中life_cycle_state值非法 使用正确的life_cycle_state值 400 AS.4004 The value of parameter health_status in the request for the instance is invalid. 伸缩实例请求参数中health_status值非法 使用正确的health_status值 400 AS.4005 Parameter scaling_group_id in the request for the instance does not exist. 伸缩实例请求参数中scaling_group_id不存在 使用正确的scaling_group_id 400 AS.4006 The instance does not exist. 伸缩实例不存在 使用正确的实例ID 400 AS.4007 The value of the parameter that specifies whether to delete the instance is invalid. 是否删除虚拟机的值非法 使用正确的参数值 400 AS.4008 The start time format of the log about the expected number of the instances is incorrect. 期望日志起始时间格式错误 使用正确的参数值 400 AS.4009 The the end time format of the log about expected number of the instances is incorrect. 期望日志结束时间格式错误 使用正确的参数值 400 AS.4010 Parameter start_number in the request for the log about the expected number of instances is invalid. 期望日志请求参数start_number非法 使用正确的参数值 400 AS.4011 The value of parameter limit in the request for the log about the expected number of instances is invalid. 期望日志请求参数中limit值非法 使用正确的参数值 400 AS.4012 The value of parameter logId in the request for the log about the expected number of instances is invalid. 期望日志请求参数中logId值非法 使用正确的参数值 400 AS.4013 The list of instances to be deleted is null. 待删除伸缩实例列表信息为空 添加待删除的伸缩实例信息 400 AS.4014 The instances do not belong to the same AS group. 实例不属于同一个组 选择同一伸缩组内的实例 400 AS.4015 The instance is not in the inservice status. 伸缩实例不是inservice状态 选择inservice状态的实例 400 AS.4016 Failed to delete the instance because the instance is charged by month or year. 伸缩实例是包年包月虚拟机,不能被直接删除 参考错误码说明 400 AS.4017 The requested instance is null. 伸缩实例查询为空 传入有效伸缩实例 400 AS.4018 The action of the body in the request to operate the instance is invalid. 批量操作实例请求体action参数值不合法 使用正确的参数值 400 AS.4019 The list of instances to be added to the AS group is null. 待添加伸缩实例列表信息为空 传入有效的伸缩实例 400 AS.4020 The AZ to which the instance belongs is not within the AZ in the AS group. 实例所属AZ不在伸缩组的AZ中 选择AZ合适的实例 400 AS.4021 The VPC to which the instance belongs is different from the VPC in the AS group. 实例所属VPC与伸缩组VPC不同 选择VPC合适的实例 400 AS.4022 The number of instances added to the AS group exceeds the upper limit. 添加实例个数超出限制 添加合适数量的实例 400 AS.4023 The added instance has already existed. 添加的实例已经存在 请选择其他有效实例 400 AS.4024 The instance is not in the active status. 添加的实例为非active状态 请选择active状态实例 400 AS.4025 The value of the parameter that specifies whether to append new instance(s) is invalid. 将实例移入备用状态时,是否补充新的云服务器的值非法 使用正确的参数值 400 AS.4026 The number of instances deleted exceeds the upper limit. 删除实例个数超出限制 删除合适数量实例 400 AS.4027 The added instance has already existed in other AS group. 添加的实例已经被加入到其它伸缩组中 请选择其他有效实例 400 AS.4028 The AS instance ID cannot be null. 实例ID不能为空 使用正确的实例ID 400 AS.4029 Failed to add instances in a batch. 批量添加云服务器失败。 出现该错误码时,可通过Message字段获取失败的云服务器ID和失败原因。 400 AS.4030 Failed to delete instances in a batch. 批量删除云服务器失败。 出现该错误码时,可通过Message字段获取失败的云服务器ID和失败原因。 400 AS.4032 The list of instances is null. 伸缩实例列表信息为空 参考错误码说明 400 AS.4033 Failed to set instance protection in a batch. 批量更新实例的实例保护属性失败。 出现该错误码时,可通过Message字段获取失败的云服务器ID和失败原因。 400 AS.4036 Failed to set instance enter standby in a batch. 批量将实例转入备用状态失败。 出现该错误码时,可通过Message字段获取失败的云服务器ID和失败原因。 400 AS.4037 Failed to set instance exit standby in a batch. 批量将实例移出备用状态失败。 出现该错误码时,可通过Message字段获取失败的云服务器ID和失败原因。 400 AS.4038 The instance is not in the standby status. 伸缩实例不是备用状态 请选择备用状态的实例 400 AS.4039 After adding new instances equal to the number of standby instances, the expected number cannot be larger than the max instance number of group. 加入与备用实例等量的新实例后,期望实例数不能大于伸缩组的最大实例数 修改伸缩组的最大实例数 400 AS.4043 The number of instances exceeds the upper limit. 批量操作实例个数超出限制 单次最多批量操作实例个数为10 400 AS.7003 called interface of VPC service failed 调用VPC服务的接口异常 请稍后再试或联系技术支持人员 400 AS.7011 This DeC does not support ECSs of this type [%s]. DeC不支持该类型云服务器 使用其他类型云服务器规格 400 AS.7012 lblistener doesnot exist. 弹性负载均衡监听器不存在 修改伸缩组的监听器信息 400 AS.7016 This DeC does not support the AZ [%s] you selected. DeC不支持该AZ 修改伸缩组的可用区信息 400 AS.7019 The number of private IP addresses in the subnet is insufficient. 子网下私有ip不足 修改伸缩组的子网信息,之后重新启用伸缩组 400 AS.7022 Keypair doesnot exist. 伸缩配置SSH密钥不存在 为伸缩组更换伸缩配置 400 AS.7025 The topic urn is not valid. 通知主题不合法 使用正确的通知主题 400 AS.7026 The topic scene is not valid. 通知场景不合法 使用正确的通知场景 400 AS.7027 The topic of notification is null. 通知主题不能为空 添加通知主题 400 AS.7028 The number of topics in the AS group exceeds the upper limit. 通知个数超过限制 最多允许添加5个 400 AS.7029 The topic of notification is duplicate. 通知主题重复 使用正确的通知主题 400 AS.7030 Invalid lifecycle hook default timeout. 生命周期挂钩超时时间不合法 使用正确的参数值 400 AS.7031 Invalid lifecycle hook name. 生命周期挂钩名称不合法 使用正确的参数值 400 AS.7032 The name of the lifecycle hook is empty. 生命周期挂钩名称不能为空 添加生命周期挂钩名称 400 AS.7033 Invalid lifecycle hook type. 生命周期挂钩类型不合法 使用正确的参数值 400 AS.7034 Invalid lifecycle hook callback action result. 生命周期挂钩操作不合法 使用正确的参数值 400 AS.7035 The metadata of the lifecycle hook is too long. 生命周期挂钩metadata过长 使用正确的参数值 400 AS.7036 The lifecycle hook is null. 生命周期挂钩不能为空 使用正确的参数值 400 AS.7037 The type of the lifecycle hook is empty. 生命周期挂钩类型不能为空 使用正确的参数值 400 AS.7038 The number of hooks in the AS group exceeds the upper limit. 生命周期挂钩个数超过限制 最多允许添加5个 400 AS.7039 The lifecycle hook callback action result is empty. 生命周期挂钩回调操作不能为空 使用正确的参数值 400 AS.7040 The lifecycle hook callback object is empty. 生命周期挂钩回调对象不能为空 使用正确的参数值 400 AS.7041 The lifecycle hook callback object is empty. 生命周期挂钩名称重复 使用正确的参数值 400 AS.7042 The lifecycle hook callback object does not exist. 生命周期挂钩回调对象不存在 使用正确的参数值。 400 AS.7043 The lifecycle hook topic urn does not exist. 生命周期挂钩使用的通知主题不存在 使用正确的参数值,检查生命周期挂钩使用的通知主题。 400 AS.7044 The tag of this resource is null 标签为空 使用正确的参数值。 400 AS.7045 The number of tags exceeded. 标签个数超过限制 最多允许添加10个。 400 AS.7046 The tags in the resource is invalid. tag非法 请使用正确的参数值 400 AS.7047 The value of tag in the resource is too long. 标签的value过长 使用正确的参数值。 400 AS.7048 The resource type in this operation with tag is invalid. 标签资源类型不合法 使用正确的参数值。 400 AS.7049 The action in this operation with tag is invalid. 标签执行动作不合法 使用正确的参数值。 400 AS.7050 The key of tag cannot be duplicate. 标签的key重复 使用正确的参数值。 400 AS.7051 The backend ECS group in the AS group does not exist. 伸缩组中的后端云服务器组不存在 使用正确的参数值,更换负载均衡的pool。 400 AS.7052 The matches in the resource is invalid. matches非法 请使用合法的matches值。 400 AS.7054 The value of tag cannot be duplicate. tag中一个key下value重复 对tag下对应的value进行检查,避免重复。 400 AS.7055 The metadata of the lifecycle hook has special character. 生命周期挂钩metadata包含非法字符 使用正确的参数值。 400 AS.7059 The enterprise project does not exist. 企业项目不存在 请使用存在的企业项目 400 AS.7060 The enterprise project is unavailable. 企业项目不可用 请使用可用的企业项目 400 AS.7061 The value of scaling tag is null. 标签的value为空 使用正确的参数值。 400 AS.7062 The key of scaling tag is null. 标签的key为空 使用正确的参数值。 400 AS.7063 The key of scaling tag is too long. 标签的key过长 使用正确的参数值。 400 AS.7065 The value of parameter enterprise_project_id in the request is invalid. 请求参数enterprise_project_id非法 使用合法的enterprise_project_id。 400 AS.7078 Failed to get the security group. Try again later or contact customer service. 调用VPC服务的接口,获取安全组异常 稍后重试或者联系技术支持人员 400 AS.7079 Failed to get the image. Try again later or contact customer service. 查询镜像接口,IMS响应异常 稍后重试或者联系技术支持人员 400 AS.7081 The enterprise project is disabled and cannot be bound to resources. 企业项目不可用,不能绑定资源 检查企业项目是否为启用状态 400 AS.7100 The tag policy does not allow the specified value for the following tag key: %s. 标签不允许为以下键指定值:%s。 修正对应的tag信息或联系技术支持。 400 AS.7111 Insufficient instance quota. 云服务器配额不足 释放不使用的云服务器资源或者申请扩大云服务器配额。 400 AS.7112 Insufficient volume quota. 云硬盘配额不足 释放不使用的云服务器资源或者申请扩大卷配额。 400 AS.7113 Insufficient elastic ip quota. 弹性IP配额不足 释放不使用的弹性IP或者申请扩大弹性IP配额。 400 AS.7114 Insufficient ram quota. 云服务器内存配额不足 释放不使用的云服务器资源或者申请扩大云服务器内存配额。 400 AS.7115 Insufficient cpu quota. 云服务器CPU配额不足 释放不使用的云服务器资源或者申请扩大云服务器CPU配额 400 AS.7118 The maximum number of EIPs bounded to this shared bandwidth has been reached. 共享带宽绑定的EIP个数超过最大限制 更换共享带宽 400 AS.8004 User resources are frozen. 用户资源被冻结,无法进行操作 需要充值,非欠费状态自动解冻 400 AS.9001 The format of the start time of the scaling activity log is incorrect. 伸缩活动日志起始时间格式错误 使用正确的参数值 400 AS.9002 The format of the end time of the scaling activity log is incorrect. 伸缩活动日志结束时间格式错误 使用正确的参数值 400 AS.9003 The value of parameter start_number in the request for the scaling activity log is invalid. 伸缩活动日志请求参数start_number非法 使用正确的参数值 400 AS.9004 The value of parameter limit in the request for the scaling activity log is invalid. 伸缩活动日志请求参数中limit值非法 使用正确的参数值。 400 AS.9005 The value of parameter log_id in the request for the scaling log is invalid. 伸缩活动日志请求参数中logId值非法 使用正确的参数值 400 AS.9007 The format of the execute time in the request is incorrect. 策略执行日志时间格式错误 使用正确的参数值 400 AS.9008 The value of parameter start_number in the request is invalid. 策略执行日志请求参数start_number非法 使用正确的参数值 400 AS.9009 The value of parameter limit in the request is invalid. 策略执行日志请求参数中limit值非法 使用正确的参数值 400 AS.9010 The value of parameter log_id in the request is invalid. 策略执行日志请求参数中logId值非法 使用正确的参数值 400 AS.9011 The value of parameter scaling_resource_id in the request is invalid. 策略执行日志请求参数中资源Id值非法 使用正确的参数值 400 AS.9012 The value of parameter type in the request for the scaling activity log is invalid. 伸缩活动日志请求参数中type值非法 使用正确的参数值 400 AS.9013 The value of parameter status in the request for the scaling activity log is invalid. 伸缩活动日志请求参数中status值非法 使用正确的参数值
  • 状态码 常用状态码请参见表1。 表1 请求状态返回码 状态码 描述 说明 200 OK 资源获取成功。 201 Created 资源创建成功。 202 Accepted 已经接受处理。 204 No Content 操作成功,但无数据。 400 Bad Request 请求内容缺失或无效的请求内容。 401 Unauthorized 权限无效。 403 Forbidden 不允许执行当前请求。 404 Not Found 请求的资源没有找到。 405 Method Not Allowed 对资源的操作不允许。 406 Not Acceptable 请求的资源的内容特性无法满足请求头中的条件,因而无法生成响应实体。 409 Conflict 由于和被请求的资源的当前状态之间存在冲突,请求无法完成。 411 Missing Content-Length 请求的报文中缺少http content-length头域。 413 Request Entity Too Large 服务器拒绝处理当前请求,因为该请求提交的实体数据大小超过了服务器愿意或者能够处理的范围。 416 Requested range not satisfiable 如果请求中包含了Range请求头,并且 Range中指定的任何数据范围都与当前资源的可用范围不重合,同时请求中又没有定义 If-Range 请求头,那么服务器就应当返回416状态码。 429 Too Many Requests 服务器会对接口进行流控,超过了接口限流要求,服务器将无法处理。 500 Internal Server Error 服务器遇到了一个未曾预料的状况,导致了它无法完成对请求的处理。 501 Not Implemented 请求中所涉及到的操作和元数据,系统未实现,不能处理。 503 Service Unavailable 用户发起太频繁请求,系统暂时不能为该用户提供服务。 父主题: 附录
  • 调用API获取项目ID 项目ID还用通过调用查询指定条件下的项目信息API获取。 获取项目ID的接口为“GET https://{Endpoint}/v3/projects/”,其中{Endpoint}为IAM的终端节点,可以从地区和终端节点获取。接口的认证鉴权请参见认证鉴权。 响应示例如下,其中projects下的“id”即为项目ID。 { "projects": [ { "domain_id": "65382450e8f64ac0870cd180d14e684b", "is_domain": false, "parent_id": "65382450e8f64ac0870cd180d14e684b", "name": "cn-north-4", "description": "", "links": { "next": null, "previous": null, "self": "https://www.example.com/v3/projects/a4a5d4098fb4474fa22cd05f897d6b99" }, "id": "a4a5d4098fb4474fa22cd05f897d6b99", "enabled": true } ], "links": { "next": null, "previous": null, "self": "https://www.example.com/v3/projects" } }
  • 调用API获取项目ID 项目ID可以通过调用查询指定条件下的项目列表API获取。 获取项目ID的接口为“GET https://{Endpoint}/v3/projects”,其中{Endpoint}为IAM的终端节点,可以从地区和终端节点获取。接口的认证鉴权请参见认证鉴权。 响应示例如下,其中projects下的“id”即为项目ID。 { "projects": [ { "domain_id": "65ewtrgaggshhk1223245sghjlse684b", "is_domain": false, "parent_id": "65ewtrgaggshhk1223245sghjlse684b", "name": "project_name", "description": "", "links": { "next": null, "previous": null, "self": "https://www.example.com/v3/projects/a4adasfjljaaaakla12334jklga9sasfg" }, "id": "a4adasfjljaaaakla12334jklga9sasfg", "enabled": true } ], "links": { "next": null, "previous": null, "self": "https://www.example.com/v3/projects" } }
  • 监控指标 表1 DDS推荐的监控指标 指标ID 指标名称 指标含义 取值范围 测量对象 监控周期(原始指标) mongo007_connections_usage 当前活动连接数百分比 该指标用于统计试图连接到实例节点的连接数占可用连接数百分比,以百分比为单位。 0~100% 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 5秒 mongo032_mem_usage 内存使用率 该指标用于统计测量对象的内存利用率,以百分比为单位。 0~100% 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 5秒 mongo031_cpu_usage CPU使用率 该指标用于统计测量对象的CPU利用率,以百分比为单位。 0~100% 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 5秒 mongo035_disk_usage 磁盘利用率 该指标用于统计测量对象的磁盘利用率,以百分比为单位。 0~100% 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 表2 DDS支持的监控指标 指标ID 指标名称 指标含义 取值范围 测量对象 监控周期(原始指标) mongo001_command_ps command执行频率 该指标用于统计平均每秒command语句在节点上执行次数,以次数/秒为单位。 ≥ 0 Executions/s 文档数据库实例 文档数据库集群实例下的dds mongos节点 文档数据库副本集实例下的只读节点 文档数据库实例下的主节点 文档数据库实例下的备节点 文档数据库实例下的隐藏节点 1分钟 5秒 mongo002_delete_ps delete语句执行频率 该指标用于统计平均每秒delete语句在节点上执行次数,以次数/秒为单位。 ≥ 0 Executions/s 文档数据库实例 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 5秒 mongo003_insert_ps insert语句执行频率 该指标用于统计平均每秒insert语句在节点上执行次数,以次数/秒为单位。 ≥ 0 Executions/s 文档数据库实例 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 5秒 mongo004_query_ps query语句执行频率 该指标用于统计平均每秒query语句在节点上执行次数,以次数/秒为单位。 ≥ 0 Executions/s 文档数据库实例 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 5秒 mongo005_update_ps update语句执行频率 该指标用于统计平均每秒update语句在节点上执行次数,以次数/秒为单位。 ≥ 0 Executions/s 文档数据库实例 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 5秒 mongo006_getmore_ps getmore语句执行频率 该指标用于统计平均每秒getmore语句在节点上执行次数,以次数/秒为单位。 ≥ 0 Executions/s 文档数据库实例 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 5秒 mongo007_chunk_num1 分片一的chunk数 该指标用于统计分片一的chunk个数,以个数为单位。 0~64 Counts 文档数据库集群实例 1分钟 mongo007_chunk_num2 分片二的chunk数 该指标用于统计分片二的chunk个数,以个数为单位。 0~64 Counts 文档数据库集群实例 1分钟 mongo007_chunk_num3 分片三的chunk数 该指标用于统计分片三的chunk个数,以个数为单位。 0~64 Counts 文档数据库集群实例 1分钟 mongo007_chunk_num4 分片四的chunk数 该指标用于统计分片四的chunk个数,以个数为单位。 0~64 Counts 文档数据库集群实例 1分钟 mongo007_chunk_num5 分片五的chunk数 该指标用于统计分片五的chunk个数,以个数为单位。 0~64 Counts 文档数据库集群实例 1分钟 mongo007_chunk_num6 分片六的chunk数 该指标用于统计分片六的chunk个数,以个数为单位。 0~64 Counts 文档数据库集群实例 1分钟 mongo007_chunk_num7 分片七的chunk数 该指标用于统计分片七的chunk个数,以个数为单位。 0~64 Counts 文档数据库集群实例 1分钟 mongo007_chunk_num8 分片八的chunk数 该指标用于统计分片八的chunk个数,以个数为单位。 0~64 Counts 文档数据库集群实例 1分钟 mongo007_chunk_num9 分片九的chunk数 该指标用于统计分片九的chunk个数,以个数为单位。 0~64 Counts 文档数据库集群实例 1分钟 mongo007_chunk_num10 分片十的chunk数 该指标用于统计分片十的chunk个数,以个数为单位。 0~64 Counts 文档数据库集群实例 1分钟 mongo007_chunk_num11 分片十一的chunk数 该指标用于统计分片十一的chunk个数,以个数为单位。 0~64 Counts 文档数据库集群实例 1分钟 mongo007_chunk_num12 分片十二的chunk数 该指标用于统计分片十二的chunk个数,以个数为单位。 0~64 Counts 文档数据库集群实例 1分钟 mongo008_connections 实例当前活动连接数 该指标用于统计试图连接到DDS实例的总连接数,以个数为单位。 0~200 Counts 文档数据库实例 1分钟 mongo009_migFail_num 过去一天块迁移的失败次数 该指标用于统计过去一天中块迁移失败的次数,以次数为单位。 ≥ 0 Counts 文档数据库集群实例 1分钟 mongo007_connections 当前活动连接数 该指标用于统计试图连接到DDS实例节点的总连接数,以个数为单位。 0~200 Counts 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 5秒 mongo007_connections_usage 当前活动连接数百分比 该指标用于统计试图连接到实例节点的连接数占可用连接数百分比,以百分比为单位。 0~100% 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 5秒 mongo008_mem_resident 驻留内存 该指标用于统计当前驻留内存的大小,以兆字节为单位。 ≥ 0 MB 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo009_mem_virtual 虚拟内存 该指标用于统计当前虚拟内存的大小,以兆字节为单位。 ≥ 0 MB 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo010_regular_asserts_ps 常规断言频率 该指标用于统计常规断言频率,以次数/秒为单位。 ≥ 0 Executions/s 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo011_warning_asserts_ps 警告频率 该指标用于统计警告频率,以次数/秒为单位。 ≥ 0 Executions/s 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo012_msg_asserts_ps 消息断言频率 该指标用于统计消息断言频率,以次数/秒为单位。 ≥ 0 Executions/s 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo013_user_asserts_ps 用户断言频率 该指标用于统计用户断言频率,以次数/秒为单位。 ≥ 0 Executions/s 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo014_queues_total 等待锁的操作数 该指标用于统计当前等待锁的操作数,以个数为单位。 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo015_queues_readers 等待读锁的操作数 该指标用于统计当前等待读锁的操作数,以个数为单位。 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo016_queues_writers 等待写锁的操作数 该指标用于统计当前等待写锁的操作数,以个数为单位。 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo017_page_faults 缺页错误数 该指标用于统计当前节点上的缺页错误数,以个数为单位。 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo018_porfling_num 慢查询数 该指标用于统计当前节点上的慢查询数,以个数为单位。 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo019_cursors_open 当前维护游标数 该指标用于统计当前节点上的维护游标数,以个数为单位。 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo020_cursors_timeOut 服务超时游标数 该指标用于统计当前节点上的服务超时游标数,以个数为单位。 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo021_wt_cahe_usage 内存中数据量(WiredTiger引擎) 该指标用于统计当前内存中数据量(WiredTiger引擎),以兆字节为单位。 ≥ 0 MB 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo022_wt_cahe_dirty 内存中脏数据量(WiredTiger引擎) 该指标用于统计当前内存中脏数据量(WiredTiger引擎),以兆字节为单位。 ≥ 0 MB 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo023_wInto_wtCache 写入WiredTiger内存的频率 该指标用于统计当前内存中写入频率(WiredTiger引擎),字节/秒为单位。 ≥ 0 Bytes/s 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo024_wFrom_wtCache 从WiredTiger内存写入磁盘频率 该指标用于统计当前内存写入磁盘频率(WiredTiger引擎),字节/秒为单位。 ≥ 0 Bytes/s 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo025_repl_oplog_win 主节点的Oplog中可用时间 该指标用于统计当前实例下的主节点的Oplog中可用时间,以小时为单位。 ≥ 0 Hours 文档数据库实例下的主节点 1分钟 mongo026_oplog_size_ph 主节点生成Oplog的速率 该指标用于统计当前实例下的主节点生成Oplog的速率,以兆字节/小时为单位。 ≥ 0 MB/Hour 文档数据库实例下的主节点 1分钟 mongo025_repl_headroom 主备Oplog重叠时长 该指标用于统计实例下的主节点和Secondary节点之间Oplog重叠时长,以秒为单位。 ≥ 0 Seconds 文档数据库实例下的备节点 1分钟 mongo026_repl_lag 主备延时 该指标用于统计实例下的主节点和Secondary节点之间的复制延时,以秒为单位。 ≥ 0 Seconds 文档数据库实例下的备节点 1分钟 mongo027_repl_command_ps 备节点复制的command执行频率 该指标用于统计平均每秒Secondary节点复制的command语句执行次数,以次/秒为单位。 ≥ 0 Executions/s 文档数据库实例下的备节点 1分钟 mongo028_repl_update_ps 备节点复制的update语句执行频率 该指标用于统计平均每秒Secondary节点复制的update语句执行次数,以次/秒为单位。 ≥ 0 Executions/s 文档数据库实例下的备节点 1分钟 mongo029_repl_delete_ps 备节点复制的delete语句执行频率 该指标用于统计平均每秒Secondary节点复制的delete语句执行次数,以次/秒为单位。 ≥ 0 Executions/s 文档数据库实例下的备节点 1分钟 mongo030_repl_insert_ps 备节点复制的insert语句执行频率 该指标用于统计平均每秒Secondary节点复制的insert语句执行次数,以次/秒为单位。 ≥ 0 Executions/s 文档数据库实例下的备节点 1分钟 mongo031_cpu_usage CPU使用率 该指标用于统计测量对象的CPU利用率,以百分比为单位。 0~100% 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 5秒 mongo032_mem_usage 内存使用率 该指标用于统计测量对象的内存利用率,以百分比为单位。 0~100% 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 5秒 mongo033_bytes_out 网络输出吞吐量 该指标用于统计平均每秒从测量对象的所有网络适配器输出的流量,以字节/秒为单位。 ≥ 0 Bytes/s 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 5秒 mongo034_bytes_in 网络输入吞吐量 该指标用于统计平均每秒从测量对象的所有网络适配器输入的流量,以字节/秒为单位。 ≥ 0 Bytes/s 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 5秒 mongo035_disk_usage 磁盘利用率 该指标用于统计测量对象的磁盘利用率,以百分比为单位。 0~100% 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo036_iops IOPS 该指标用于统计当前实例节点,单位时间内系统处理的I/O请求数量(平均值),以请求/秒为单位。 ≥ 0 Counts/s 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo037_read_throughput 硬盘读吞吐量 硬盘平均每秒读字节数,以字节/秒为单位。 ≥ 0 Bytes/s 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo038_write_throughput 硬盘写吞吐量 硬盘平均每秒写字节数,以字节/秒为单位。 ≥ 0 bytes/s 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo039_avg_disk_sec_per_read 硬盘读耗时 该指标用于统计某段时间平均每次读取硬盘所耗时间,以秒为单位。 ≥ 0 Seconds 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo040_avg_disk_sec_per_write 硬盘写耗时 该指标用于统计某段时间平均每次写入硬盘所耗时间,以秒为单位。 ≥ 0 Seconds 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo042_disk_total_size 磁盘总大小 该指标用于统计测量对象的磁盘总大小,以吉字节为单位。 0~1000 GB 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo043_disk_used_size 磁盘使用量 该指标用于统计测量对象的磁盘已使用总大小,以吉字节为单位。 0~1000 GB 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo044_swap_usage SWAP利用率 交换内存SWAP使用率百分数,以百分比为单位。 0~100% 文档数据库集群实例下的dds mongos节点 文档数据库实例下的备节点 1分钟 mongo050_top_total_time 集合花费的总时间 Mongotop-total time指标,集合操作花费的时间总和,以毫秒为单位。 ≥ 0 Milliseconds 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo051_top_read_time 集合读花费的总时间 Mongotop-read time指标,集合读操作花费的时间总和,以毫秒为单位。 ≥ 0 Milliseconds 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo052_top_write_time 集合写花费的总时间 Mongotop-write time指标,集合写操作花费的时间总和,以毫秒为单位。 ≥ 0 Milliseconds 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo053_wt_flushes_status 周期Checkpoint的触发次数 WiredTiger一个轮询间隔期间checkpoint的触发次数,记录周期内发生的次数单位。 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo054_wt_cache_used_percent Wiredtiger使用中的缓存百分比 Wiredtiger使用中的缓存大小百分数,以百分比为单位。 0~100% 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo055_wt_cache_dirty_percent Wiredtiger脏数据的缓存百分比 Wiredtiger脏数据的缓存大小百分数,以百分比为单位。 0~100% 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo070_rocks_active_memtable memtable中的数据大小 采集当前活动memtable中的数据大小 0~100 GB 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo071_rocks_oplogcf_active_memtable oplogcf上memtable中的数据大小 采集当前用于oplogcf上活动memtable中的数据大小 0~100 GB 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo072_rocks_all_memtable memtable和immutable-mem中的总数据大小 采集当前memtable和immutable-mem中的总数据大小 0~100 GB 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo073_rocks_oplogcf_all_memtable oplogcf上memtable和immutable-mem中的总数据大小 采集当前用于oplogcf上memtable和immutable-mem中的总数据大小 0~100 GB 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo074_rocks_snapshots 未释放的snapshot的数量 采集当前未释放的snapshot的数量 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo075_rocks_oplogcf_snapshots oplogcf上未释放的snapshot的数量 采集当前oplogcf上未释放的snapshot的数量 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo076_rocks_live_versions 活动的版本数量 采集当前活动的版本数量 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo077_rocks_oplogcf_live_versions oplogcf上活动的版本数量 采集当前oplogcf上活动的版本数量 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo078_rocks_block_cache 驻留在blockcache中的数据大小 采集当前驻留在blockcache中的数据大小 0~100 GB 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo079_rocks_background_errors 后台累积错误数量 采集记录后台累积错误数量 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo080_rocks_oplogcf_background_errors oplogcf上后台累积错误数量 采集记录oplogcf上后台累积错误数量 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo081_rocks_conflict_bytes_usage 事务写写冲突处理缓冲区使用率 采集事务写中写冲突处理缓冲区使用率 0~100% 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo082_rocks_uncommitted_keys 未提交的key的数量 采集当前未提交的key的数量 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo083_rocks_committed_keys 提交的key的数量 采集当前已提交的key的数量 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo084_rocks_alive_txn 活跃事务链表的长度 采集记录活跃事务链表的长度 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo085_rocks_read_queue 读队列的长度 采集当前读队列的长度 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo086_rocks_commit_queue 提交队列的长度 采集当前提交队列的长度 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo087_rocks_ct_write_out 已使用并发写事务数 采集当前已使用并发写事务数 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo088_rocks_ct_write_available 剩余可用并发写事务数 采集当前剩余可用并发写事务数 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo089_rocks_ct_read_out 已使用并发读事务数 采集当前已使用并发读事务数 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo090_rocks_ct_read_available 剩余可用并发读事务数 采集当前剩余可用并发读事务数 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo091_active_session_count 周期活跃会话数 该指标用于统计自上次刷新周期以来Mongo实例在内存中缓存的所有活跃本地会话的数目 ≥ 0 Counts 文档数据库实例 文档数据库副本集实例下的只读节点 文档数据库实例下的主节点 文档数据库实例下的备节点 文档数据库实例下的隐藏节点 1分钟 mongo092_rx_errors 接收报文错误率 该指标用于统计监控周期内接收报文中错误报文数量与全部接收报文比值。 0~100% 文档数据库实例 1分钟 5秒 mongo093_rx_dropped 接收报文丢包率 该指标用于监控周期内统计接收报文中丢失报文数量与全部接收报文比值。 0~100% 文档数据库实例 1分钟 5秒 mongo094_tx_errors 发送报文错误率 该指标用于监控周期内统计发送报文中错误报文数量与全部发送报文比值。 0~100% 文档数据库实例 1分钟 5秒 mongo095_tx_dropped 发送报文丢包率 该指标用于监控周期内统计发送报文中丢失报文数量与全部发送报文比值。 0~100% 文档数据库实例 1分钟 5秒 mongo096_retrans_segs 重传包数目 该指标用于监控周期内统计重传包数目。 ≥ 0 Counts 文档数据库实例 1分钟 5秒 mongo097_retrans_rate 重传比例 该指标用于监控周期内统计重传包比例。 0~100% 文档数据库实例 1分钟 5秒 mongo098_out_rsts_nums 发送RST数目 该指标用于监控周期内统计RST数目。 ≥ 0 Counts 文档数据库实例 1分钟 5秒 指标ID中含有“rocks”的监控指标均用于监测4.2版本的实例或实例节点。
  • 不同协议消息说明 不同的订阅协议接收到的消息包含的内容可能有所不同。 邮件和HTTP(S)终端收到的消息包含:消息主题、消息内容和取消订阅的链接。 短信终端接收到的消息只包含消息内容。 FunctionGraph(函数)终端收到的消息包含消息属性、消息标题、消息内容、主题URN等信息。消息样例类似如下。字段说明如表1所示。 { "record": [{ "event_version": "1.0", "smn": { "message_attributes": "", "subject": "Welcome", "message_id": "e6fa59c6b3e0424c9c02cbed35b680e7", "topic_urn": "urn:smn:regionId:66e0f4622d6f4e3fb2db2e495298a61a:smn_123", "type": "notification", "message": "Hello", "timestamp": "2017-08-17T10:07:14Z" }, "event_source": "smn", "event_subscription_urn": "urn:cff:regionId:66e0f4622d6f4e3fb2db2e495298a61a:function:DEFAULT:mytest:latest" }] } 表1 字段说明 字段配置项 类型 说明 record JSON对象 消息列表 event_version String 版本 message_attributes String 消息属性 subject String 消息标题 message_id String 消息ID topic_urn String 主题URN type String 消息类型 message String 消息内容 timestamp String 时间戳 event_source String 消息来源 event_subscription_urn String 订阅URN FunctionGraph(工作流)终端收到的消息包含消息标题、消息内容、主题URN等信息。消息样例类似如下。字段说明如表2所示。 { "records":[{ "event_version":"1.0", "smn":{ "topic_urn":"urn:smn:regionId:995960e6a6094fdeb00b7c9991d35791:11-16", "type":"notification", "message":"Hello", "timestamp":"2017-11-27T09:53:41Z", "subject":"test_1127", "message_id":"27d6e9e1249240288b47817bf637192b" }, "event_source":" SMN ", "event_subscription_urn":"urn:smn:regionId:995960e6a6094fdeb00b7c9991d35791:11-16:dcd78adcb194431587d4992c374f8465"}] } 表2 字段说明 字段配置项 类型 说明 records JSON对象 消息列表 event_version String 版本 topic_urn String 主题URN type String 消息类型 message String 消息内容 timestamp String 时间戳 subject String 消息标题 message_id String 消息ID event_source String 消息来源 event_subscription_urn String 订阅URN 父主题: 附录
  • 上传校验 调用上传检验接口时,点播服务会根据媒资的MD5值来检查是否已有重复的媒资文件。MD5值的生成方式是取媒资文件的1024字节,并进行MD5计算,示例代码如下所示: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 import java.io.File; import java.io.IOException; import java.nio.ByteBuffer; import java.nio.channels.SeekableByteChannel; import java.nio.file.Files; import java.nio.file.Path; import java.nio.file.Paths; import java.nio.file.StandardOpenOption; import org.apache.commons.codec.digest.DigestUtils; public class VodDemoDuplicateCheckMd5 { public static String computeMd5ByFile(String fileUrl) { String md5Content = null; Path targetFile = Paths.get(fileUrl); try (SeekableByteChannel channel = Files.newByteChannel(targetFile, StandardOpenOption.READ)) { ByteBuffer byteBuffer = ByteBuffer.allocate(1025); channel.read(byteBuffer); byteBuffer.flip(); byte[] data = new byte[byteBuffer.limit()]; byteBuffer.get(data); md5Content = DigestUtils.md5Hex(data); } catch (IOException e) { throw new RuntimeException(String.format("Read file %s failed.", fileUrl)); } return md5Content; } }