华为云用户手册

  • 请求示例 cURL示例 curl -k -s -L -i -X DELETE \ https://{ip:port}/restconf/data/device-shell-group-northbound:device-shell-group/device-group/cccc/device-ids/8d394835-cb84-38f3-a4d5-16a7f2074b40 \ -H 'cache-control: no-cache' \ -H 'content-type: application/json' \ -H 'x-access-token: x-ntc9c745ryk9uohj7vpint3wsanwo9nvnuur4bg5ir08bt3woavsjvc46rurrx9djzfy84k8c988qqnw04ldjw5hlfuq6q5iqpsbqkvwc82rvx0bvxnsgbhg5doa7wg9' HTTP示例 DELETE /restconf/data/device-shell-group-northbound:device-shell-group/device-group/cccc/device-ids/8d394835-cb84-38f3-a4d5-16a7f2074b40 HTTP/1.1 Host: {ip:port} Content-Type: application/json x-access-token: x-ntc9c745ryk9uohj7vpint3wsanwo9nvnuur4bg5ir08bt3woavsjvc46rurrx9djzfy84k8c988qqnw04ldjw5hlfuq6q5iqpsbqkvwc82rvx0bvxnsgbhg5doa7wg9 Cache-Control: no-cache
  • 响应示例 HTTP/1.1 204 No Content Server: product only Date: Tue, 19 Nov 2019 21:52:01 GMT Connection: keep-alive Keep-Alive: timeout=60 X-Frame-Options: DENY Strict-Transport-Security: max-age=31536000;incodeSubDomains Cache-Control: no-cache, no-store, must-revalidate X-Content-Type-Options: nosniff Pragma: no-cache Expires: Thu, 01 Jan 1970 00:00:00 GMT X-XSS-Protection: 1; mode=block
  • 响应示例 HTTP/1.1 200 OK Date: Tue,30 Oct 2018 10:00:00 GMT Server: example-server Content-Type: application/json;charset=UTF-8 Content-Length: 250 Connection: keep-alive { "huawei-ac-restconf-transactions:output" : { "diff-infos" : [ { "diff-info" : "{ "system" : { "systemInfo" : { "sysName" : { "left" : "xuliangtest1030" , "right" : "test"}}}}", "feature" : "/(https://www.huawei.com/netconf/vrp/huawei-system?revision=2018-06-11)system" } ] } }
  • 请求示例 cURL示例 curl -k -s -L -i -X POST -H 'Content-Type: application/json' -H 'Accept: application/json' -H 'Accept-Language: en-US' -H 'X-AC CES S-TOKEN: CA48D152F6B19D84:637C38259E6974E17788348128A430FEE150E874752CE754B6BF855281219925' 'https://{ip:port}/restconf/operations/huawei-ac-restconf-transactions:diff' -d '{"huawei-ac-applications:input":{"trans-id":"83bac01c-df39-473a-aa27-789549ff98bf"}},"path":{{path}}' HTTP示例 POST /restconf/operations/huawei-ac-restconf-transactions:diff HTTP/1.1 Host: {ip:port} Content-Type: application/json Accept: application/json Accept-Language: en-US X-ACCESS-TOKEN: CA48D152F6B19D84:637C38259E6974E17788348128A430FEE150E874752CE754B6BF855281219925
  • 响应参数 表4 DiffOutput对象的参数列表 参数名称 类型 参数值域 默认值 参数说明 huawei-ac-restconf-transactions:output REFERENCE 详细信息请参见表 huawei-ac-restconf-transactions:output对象的参数列表。 - 表5 huawei-ac-restconf-transactions:output对象的参数列表 参数名称 类型 参数值域 默认值 参数说明 diff-infos REFERENCE system feature - 系统和差异信息。 返回状态码为200:差异预览成功。 返回状态码为400、500:差异预览失败。 表6 错误码描述 Status Code Error Code Error Message Parameter 错误说明 400 0x00c80014 {0}不存在。 {0} :指定的对象或者记录。 查询差异时,数据不存在。
  • 响应示例 返回状态码为200:Successful operation HTTP/1.1 200 OK Date: Fri,03 Dec 2021 10:00:00 GMT Server: example-server Content-Type: application/json;charset=UTF-8 Content-Length: 250 Connection: keep-alive { "huawei-nce-aoc-config-template-application:template": [ { "template-id": "f243948c-b822-4ee5-b9c5-84f63a024f0d", "template-name": "teszv" } ] } 返回状态码为400:Bad Request HTTP/1.1 400 Bad Request Date: Fri,30 Dec 2022 10:00:00 GMT Server: example-server Content-Type: application/json;charset=UTF-8 Content-Length: 250 Connection: keep-alive
  • 请求示例 HTTP的示例 GET /restconf/data/huawei-nce-aoc-config-template-application:template-application/a945675d-ccff-4ea3-afb4-8d04ac3100c2/template HTTP/1.1 Host: 192.168.1.125:26335 Content-Type: application/json Accept: application/json Accept-Language: en-US X-AUTH-TOKEN: x-yyyyyy
  • URI /restconf/data/huawei-nce-aoc-config-template-application:template-application/{template-application-id}/template 表1 path参数列表 参数名称 必选 类型 参数值域 默认值 参数说明 参数示例 template-application-id 是 string 0~128个字节。 - the identifier of the template application. "a945675d-ccff-4ea3-afb4-8d04ac3100c2"
  • 相关操作 如果您开启了登录保护并设置登录保护为MFA验证,请参考获取 IAM 用户Token(使用密码+虚拟MFA)获取IAM用户Token。 如果需要获取具有Security Administrator权限的Token,请参见:如何获取Security Administrator权限的Token。 通过Postman获取用户Token示例请参见:如何通过Postman获取用户Token。 您还可以通过视频教程了解如何使用Token认证:IAM视频帮助 。
  • 操作步骤 使用ssh以root用户登录到已安装Agent的主机中。 批量安装Agent,分别对应下面两种安装命令。 当获取到的Agent安装脚本为batch_agent_install.sh时,执行以下命令: cd /usr/local && curl -k -O ${download_url} && bash batch_agent_install.sh -t ${version} 当获取到的Agent安装脚本为agentBatchPackage.sh时,执行以下命令: cd /usr/local && curl -k -O ${download_url} && bash agentBatchPackage.sh 将安装命令中的${download_url}替换成表1中的下载路径,将${version}替换成Agent版本特性中的版本。 例如,在北京一的安装命令为: cd /usr/local && curl -k -O https://obs.cn-north-1.myhuaweicloud.com/uniagent-cn-north-1/script/batch_agent_install.sh && bash batch_agent_install.sh -t 2.7.5 安装完成后,登录 云监控服务 管理控制台,单击左侧导航栏的“主机监控”。 查看所有已安装Agent的弹性云服务器列表。 Agent插件配置完成后,因监控数据暂未上报,插件状态仍显示“未安装”,等待3-5分钟,刷新即可。
  • 前提条件 已配置DNS和安全组,配置方法参考如何配置DNS和安全组?。 已配置委托,配置方法参考如何配置委托?。 确保操作步骤中的安装目录都有读写权限,并且安装成功后的Telescope进程不会被其他软件关闭。 登录方式为账号密码:已收集需要安装Agent的所有主机的IP地址和root用户密码,按照iplist.txt格式整理好,并上传到第一台机器的/usr/local目录下 iplist.txt格式为“IP地址,root用户密码”,每个保持一行。 示例如下所示(样例中abcd为密码,请按实际值填写)。 192.168.1.1,abcd 192.168.1.2,abcd 登录方式为秘钥:已收集需要安装Agent的所有E CS 的IP地址,按照iplist.txt格式整理好,并上传到第一台机器的/usr/local目录下,上传秘钥文件user.pem到ECS的/usr/local目录下。 iplist.txt格式为“IP地址”,每个保持一行。 示例如下所示: 192.168.1.1 192.168.1.2 确保已下载Agent安装包,获取包的方式如下: 表1 获取Linux批量安装Agent的安装包 区域 regionID 下载路径 华北-北京一 cn-north-1 https://uniagent-cn-north-1.obs.cn-north-1.myhuaweicloud.com/package/batch_agent_install.sh 华北-北京四 cn-north-4 https://uniagent-cn-north-4.obs.cn-north-4.myhuaweicloud.com/package/batch_agent_install.sh 华北-乌兰察布一 cn-north-9 https://uniagent-cn-north-9.obs.cn-north-9.myhuaweicloud.com/package/batch_agent_install.sh 华南-广州 cn-south-1 https://uniagent-cn-south-1.obs.cn-south-1.myhuaweicloud.com/package/batch_agent_install.sh 华南-广州-友好用户环境 cn-south-4 https://telescope-cn-south-4.obs.cn-south-4.myhuaweicloud.com/scripts/agentBatchPackage.sh 华南-深圳 cn-south-2 https://uniagent-cn-south-2.obs.cn-south-2.myhuaweicloud.com/package/batch_agent_install.sh 华东-上海一 cn-east-3 https://uniagent-cn-east-3.obs.cn-east-3.myhuaweicloud.com/package/batch_agent_install.sh 华东-上海二 cn-east-2 https://uniagent-cn-east-2.obs.cn-east-2.myhuaweicloud.com/package/batch_agent_install.sh 华东-青岛 cn-east-5 https://uniagent-cn-east-5.obs.cn-east-5.myhuaweicloud.com/package/batch_agent_install.sh 华东二 cn-east-4 https://uniagent-cn-east-4.obs.cn-east-4.myhuaweicloud.com/package/batch_agent_install.sh 西南-贵阳一 cn-southwest-2 https://uniagent-cn-southwest-2.obs.cn-southwest-2.myhuaweicloud.com/package/batch_agent_install.sh 中国-香港 ap-southeast-1 https://uniagent-ap-southeast-1.obs.ap-southeast-1.myhuaweicloud.com/package/batch_agent_install.sh 亚太-曼谷 ap-southeast-2 https://uniagent-ap-southeast-2.obs.ap-southeast-2.myhuaweicloud.com/package/batch_agent_install.sh 亚太-新加坡 ap-southeast-3 https://uniagent-ap-southeast-3.obs.ap-southeast-3.myhuaweicloud.com/package/batch_agent_install.sh 亚太-雅加达 ap-southeast-4 https://uniagent-ap-southeast-4.obs.ap-southeast-4.myhuaweicloud.com/package/batch_agent_install.sh 非洲-约翰内斯堡 af-south-1 https://uniagent-af-south-1.obs.af-south-1.myhuaweicloud.com/package/batch_agent_install.sh 拉美-圣地亚哥 la-south-2 https://uniagent-la-south-2.obs.la-south-2.myhuaweicloud.com/script/agent_install.sh 拉美-圣保罗一 sa-brazil-1 https://uniagent-sa-brazil-1.obs.sa-brazil-1.myhuaweicloud.com/package/batch_agent_install.sh 拉美-墨西哥城一 na-mexico-1 https://uniagent-na-mexico-1.obs.na-mexico-1.myhuaweicloud.com/package/batch_agent_install.sh 拉美-墨西哥城二 la-north-2 https://uniagent-la-north-2.obs.la-north-2.myhuaweicloud.com/package/batch_agent_install.sh 中东-利雅得 me-east-1 https://uniagent-me-east-1.obs.me-east-1.myhuaweicloud.com/package/batch_agent_install.sh
  • 配置事件类告警策略 用户可以针对业务中的各类重要事件或对云资源的操作事件设置事件告警,在发生异常时及时通知您采取措施。事件类告警策略包括事件名称、触发时间周期、触发类型、触发次数和告警频率五个必要组成部分。您可以根据以下指引配置事件类告警策略。 基本概念 参数 参数说明 取值样例 事件名称 各服务监控事件的名称。 开机失败 触发时间周期 触发时间周期的含义是当该事件在5分钟内被累计触发时,向您发送告警信息。 触发时间周期可选择在5分钟内、在20分钟内、在1小时内、在4小时内、在24小时内。 说明: 当触发类型为累计触发时,该参数可选。 在5分钟内 触发类型 触发类型分为触发和累计触发。系统默认为触发。 触发表示当事件发生时,立即发送告警信息。 累计触发表示当事件在触发时间周期内累计触发预设的次数后,才能发生告警信息。 累计触发 触发次数 事件发生在触发时间周期内累计触发的次数。 说明: 当触发类型为累计触发时,该参数可选。 2 告警频率 当告警产生时,告警以特定的频率重复通知。 告警频率可设置以下几种方式: 只告警一次、每5分钟告警一次、每10分钟告警一次、每15分钟告警一次、每30分钟告警一次、每1小时告警一次、每3小时告警一次、每6小时告警一次、每12小时告警一次、每1天告警一次。 说明: 当触发类型为累计触发时,该参数可选。 每5分钟告警一次 配置事件类告警策略示例 例如,事件名称为开机失败 、触发时间周期为在5分钟内,触发类型为累计触发 、触发次数为2、告警频率为每5分钟告警一次。 表示:在5分钟内,某台云服务器开始失败事件累计触发2次则每5分钟触发告警一次。 图2 事件类告警策略
  • 操作步骤 使用具有“管理员”权限的账号(例如,administrator)登录Windows弹性云服务器。 在浏览器地址栏输入表1中的下载路径,下载并保存安装包。 进入安装包存放目录。 根据安装包的格式选择相应的操作方式进行插件安装。 若安装包为zip格式 如果安装包是telescope_windows_amd64.zip,解压zip安装包后双击执行“install.bat”脚本,安装启动Agent。 若安装包为exe格式 如果安装包是“install_amd64.exe”,则执行以下步骤: 打开Windows PowerShell。 执行以下命令,进入安装包存放路径(存放路径以"C:\Users\Administrator\Downloads"为例,执行命令时请修改为您机器上安装包存放的路径)。 cd C:\Users\Administrator\Downloads 执行以下命令,安装插件(执行时需将${version}替换成Agent版本特性中的版本,请根据版本特性按需选择安装版本。 .\install_amd64.exe -t ${version} 例如选择安装2.7.5版本,对应的安装命令为:".\install_amd64.exe -t 2.7.5"。 Agent插件配置完成后,因监控数据暂未上报,插件状态仍显示“未安装”,等待3-5分钟,刷新即可。
  • 前提条件 已配置DNS和安全组,配置方法参考如何配置DNS和安全组?。 已配置委托,配置方法参考如何配置委托?。 使用具有administrator权限的账户安装,例如administrator用户,并且确保安装成功后的Telescope进程不会被其他软件关闭。 已获取Agent安装包,格式为exe/zip,安装包获取方式如下。 表1 获取Windows镜像的Agent安装包 区域 regionID 下载路径 华北-北京一 cn-north-1 https://uniagent-cn-north-1.obs.cn-north-1.myhuaweicloud.com/package/install_amd64.exe 华北-北京四 cn-north-4 https://uniagent-cn-north-4.obs.cn-north-4.myhuaweicloud.com/package/install_amd64.exe 华北-乌兰察布一 cn-north-9 http://uniagent-cn-north-9.obs.cn-north-9.myhuaweicloud.com/package/install_amd64.exe 西南-贵阳一 cn-southwest-2 https://uniagent-cn-southwest-2.obs.cn-southwest-2.myhuaweicloud.com/package/install_amd64.exe 华南-广州 cn-south-1 https://uniagent-cn-south-1.obs.cn-south-1.myhuaweicloud.com/package/install_amd64.exe 华南-广州-友好用户环境 cn-south-4 https://telescope-cn-south-4.obs.cn-south-4.myhuaweicloud.com/agent/telescope_windows_amd64.zip 华南-深圳 cn-south-2 https://uniagent-cn-south-2.obs.cn-south-2.myhuaweicloud.com/package/install_amd64.exe 华东-上海二 cn-east-2 https://uniagent-cn-east-2.obs.cn-east-2.myhuaweicloud.com/package/install_amd64.exe 华东-上海一 cn-east-3 https://uniagent-cn-east-3.obs.cn-east-3.myhuaweicloud.com/package/install_amd64.exe 华东-青岛 cn-east-5 https://uniagent-cn-east-5.obs.cn-east-5.myhuaweicloud.com/package/install_amd64.exe 华东二 cn-east-4 https://uniagent-cn-east-4.obs.cn-east-4.myhuaweicloud.com/package/install_amd64.exe 中国-香港 ap-southeast-1 https://uniagent-ap-southeast-1.obs.ap-southeast-1.myhuaweicloud.com/package/install_amd64.exe 亚太-曼谷 ap-southeast-2 https://uniagent-ap-southeast-2.obs.ap-southeast-2.myhuaweicloud.com/package/install_amd64.exe 亚太-新加坡 ap-southeast-3 https://uniagent-ap-southeast-3.obs.ap-southeast-3.myhuaweicloud.com/package/install_amd64.exe 亚太-雅加达 ap-southeast-4 https://uniagent-ap-southeast-4.obs.ap-southeast-4.myhuaweicloud.com/package/install_amd64.exe 非洲-约翰内斯堡 af-south-1 https://uniagent-af-south-1.obs.af-south-1.myhuaweicloud.com/package/install_amd64.exe 拉美-圣地亚哥 la-south-2 https://uniagent-la-south-2.obs.la-south-2.myhuaweicloud.com/package/install_amd64.exe 拉美-圣保罗一 sa-brazil-1 https://uniagent-sa-brazil-1.obs.sa-brazil-1.myhuaweicloud.com/package/install_amd64.exe 拉美-墨西哥城一 na-mexico-1 https://uniagent-na-mexico-1.obs.na-mexico-1.myhuaweicloud.com/package/install_amd64.exe 拉美-墨西哥城二 la-north-2 https://uniagent-la-north-2.obs.la-north-2.myhuaweicloud.com/package/install_amd64.exe 中东-利雅得 me-east-1 https://uniagent-me-east-1.obs.me-east-1.myhuaweicloud.com/package/install_amd64.exe
  • 云产品监控指标 全局级服务的监控数据默认保存在华北-北京四,如需要查询数据,请在华北-北京四查看。 分类 服务 命名空间 维度 监控指标参考文档 计算 弹性云服务器 SYS.ECS Key:instance_id Value:云服务器ID 弹性云服务器的基础监控指标 弹性云服务器中操作系统监控 AGT.ECS Key:instance_id Value:云服务器ID Key:disk Value:磁盘 Key:mount_point Value:挂载点 Key:proc Value:进程 Key:gpu Value:GPU Key:npu Value:NPU Key:davp Value:DAVP 弹性云服务器操作系统监控的监控指标(安装Agent) 裸金属服务器 SERVICE.BMS Key:instance_id Value:云服务器ID 裸金属服务器操作系统监控的监控指标(安装Agent) 弹性伸缩 SYS.AS Key:AutoScalingGroup Value:弹性伸缩组的ID 弹性伸缩的监控指标说明 云手机服务器 SYS.CPH Key:instance_id Value:云手机服务器ID Key:cph_id Value:云手机ID Key:disk_name Value:磁盘名称 Key:gpu_index Value:GPU名称 云手机服务器的监控指标说明 函数工作流 服务 SYS.FunctionGraph Key:package-functionname Value:应用名-函数名 函数工作流服务的监控指标说明 存储 云硬盘(仅当挂载到云服务器时) SYS.EVS Key:disk_name Value:云服务器实例ID-盘符名(例如sda为盘符名) 云硬盘的监控指标说明 对象存储服务 SYS.OBS Key:bucket_name Value:桶名 Key:tenant_id Value:租户Id Key:api_name Value:接口 Key:http_code Value:HTTP返回码 Key:domain_name Value: 域名 对象存储服务监控指标说明 弹性文件服务 SYS.SFS Key:share_id Value:文件系统 弹性文件服务监控指标说明 云备份 SYS.CBR Key:instance_id Value:存储库名称/ID 云备份监控指标说明 云存储 网关 SYS.CSG Key:gateway_id Value:网关ID 云存储网关监控指标说明 弹性文件服务Turbo SYS.EFS Key:efs_instance_id Value:实例 SFS Turbo监控指标说明 网络 弹性公网IP和带宽 SYS.VPC Key:publicip_id Value:弹性公网IP ID Key:bandwidth_id Value:带宽ID 虚拟私有云的监控指标说明 弹性负载均衡 SYS.ELB 请参考右侧相关文档链接页面。 独享型弹性负载均衡的监控指标说明 共享型弹性负载均衡的监控指标说明 云专线 SYS.DCAAS Key:direct_connect_id Value:物理连接 Key:history_direct_connect_id Value:历史物理连接 Key:virtual_interface_id Value:虚拟接口 Key:virtual_gateway_id Value:虚拟网关 说明: 虚拟接口维度针对的是一站式专线,物理专线维度针对的是手工专线。 云专线的监控指标说明 虚拟专用网络 SYS.VPN Key:evpn_connection_id Value:VPN连接 虚拟专用网络的监控指标说明 NAT网关 SYS.NAT Key:nat_gateway_id Value:NAT网关实例标识 Key:vpc_nat_gateway_id Value:私网NAT实例标识 NAT网关的监控指标说明 企业路由器 SYS.ER Key:er_instance_id Value:企业路由器实例 Key:er_attachment_id Value:企业路由器连接 企业路由器的监控指标说明 云连接 SYS.CC Key:cloud_connect_id Value:云连接ID Key:bwp_id Value:带宽包ID Key:region_bandwidth_id Value:域间带宽ID 云连接的监控指标说明 全球加速 SYS.GA Key:ga_accelerator_id Value:全球加速实例的ID Key:ga_listener_id Value:全球加速监听器的ID Key:ga_source_pop Value:全球加速实例的接入点 Key:ga_destination_region Value:全球加速实例的目的区域 Key:ga_source_area Value:全球加速实例的接入大区 Key:ga_listener_region Value:全球加速监听器和目的区域 Key:ga_pop_listener Value:全球加速接入点和监听器 Key:ga_pop_region Value:全球加速接入点和目的区域 Key:ga_pop_listener_region Value:全球加速接入点、监听器和目的区域 Key:ga_source_destination_area Vaue:全球加速接入大区和目的大区 全球加速的监控指标说明 企业连接 SYS.EC Key:enterprise_connect_network Value:企业连接网络 Key:intelligent_enterprise_gateway Value:智能企业网关 Key:ieg_equipment Value:网关设备 企业连接的监控指标说明 应用中间件 分布式消息服务 SYS.DMS 请参考右侧相关文档链接页面。 分布式消息服务Kafka版的监控指标 分布式消息服务RabbitMQ的监控指标 分布式消息服务RocketMQ版的监控指标 API网关 SYS.APIG Key:api_id Value:API API网关的监控指标说明 API专享版网关 SYS.APIC Key:instance_id Value:专享版API网关 Key:api_id Value:API API专享版网关的监控指标说明 分布式缓存服务 SYS.DCS Key:dcs_instance_id Value:Redis实例 Key:dcs_cluster_redis_node Value:数据节点 Key:dcs_cluster_proxy_node Value:Redis3.0 Proxy集群实例Proxy节点 Key:dcs_cluster_proxy2_node Value:Redis4.0/Redis5.0 Proxy集群实例Proxy节点 Key:dcs_memcached_instance_id Value:Memcached实例 分布式缓存服务的监控指标说明 应用与 数据集成平台 SYS.ROMA 请参考右侧相关文档链接页面。 应用与数据集成平台的监控指标说明 数据库 关系型数据库 SYS.RDS 请参考右侧相关文档链接页面。 MySQL的监控指标说明 MariaDB的监控指标说明 PostgreSQL的监控指标说明 SQL Server的监控指标说明 文档数据库 SYS.DDS Key:mongodb_node_id Value:文档数据库节点ID Key:mongodb_instance_id Value:文档数据库实例ID 文档数据库的监控指标说明 分布式数据库 中间件 SYS.DDMS Key:node_id Value:DDM节点 分布式数据库中间件的监控指标说明 云数据库 GaussDB NoSQL SYS.NoSQL 请参考右侧相关文档链接页面。 云数据库GaussDB(for Cassandra)的监控指标说明 云数据库GaussDB(for Mongo)的监控指标说明 云数据库GaussDB(for Influx)的监控指标说明 云数据库GaussDB(for Redis)的监控指标说明 云数据库 TaurusDB SYS.GAUSSDB Key:gaussdb_mysql_instance_id Value:TaurusDB实例ID Key:gaussdb_mysql_node_id Value:TaurusDB实例节点ID Key:dbproxy_instance_id Value:TaurusDBProxy实例ID Key:dbproxy_node_id Value:TaurusDBProxy节点ID 云数据库 TaurusDB的监控指标说明 云数据库 GaussDB SYS.GAUSSDBV5 Key:gaussdbv5_instance_id Value:GaussDB实例 Key:gaussdbv5_node_id Value:GaussDB节点 Key:gaussdbv5_component_id Value:GaussDB组件 云数据库 GaussDB的监控指标说明 数据复制服务 SYS.DRS Key:instance_id Value:数据复制服务实例ID 数据复制服务的监控指标说明 迁移 云数据迁移 SYS. CDM Key:instance_id Value:云数据迁移服务实例 云数据迁移的监控指标说明 大数据 数据仓库 服务 SYS.DWS Key:datastore_id Value:数据仓库集群ID Key:dws_instance_id Value:数据仓库节点ID 数据仓库服务的监控指标说明 云搜索服务 SYS.ES Key:cluster_id Value:集群id Key:instance_id Value:实例id 云搜索 服务的监控指标说明 数据湖探索 SYS. DLI Key:queue_id Value:队列 Key:flink_job_id Value:Flink作业 Key:elastic_resource_pool_id Value:弹性资源池 数据湖 探索的监控指标说明 数据接入服务 SYS.DAYU Key:stream_id Value:实时数据接入 数据接入服务的监控指标说明 表格存储服务 SYS.CloudTable Key:cluster_id Value:CloudTable集群ID Key:instance_name Value:CloudTable集群节点名称 HBase集群的监控指标说明 Doris集群的监控指标说明 ClickHouse集群的监控指标说明 人工智能 ModelArts SYS.ModelArts Key:service_id Value:在线服务ID Key:model_id Value:模型负载ID ModelArts的监控指标说明 图像搜索 服务 SYS.IS Key:instanceName Value:实例名称 图形搜索服务的监控指标说明 图像识别 SYS.IRS Key:call_of_interface Value:接口 图像识别的监控指标说明 自然语言处理 SYS.NLP Key:call_of_interface Value:接口 自然语言处理的监控指标说明 文字识别 SYS.OCR Key:call_of_interface Value:接口 文字识别的监控指标说明 图引擎服务 SYS.GES Key:instance_id Value:图引擎服务实例 图引擎服务的监控指标说明 语音交互 服务 SYS.SIS Key:interface Value:接口 语音交互服务的监控指标说明 安全与合规 Web应用防火墙 SYS.WAF Key:instance_id Value:独享引擎实例 Key:waf_instance_id Value:云模式实例 WAF监控指标说明 数据库安全服务 SYS.DBSS Key:audit_id Value:实例 数据库安全服务的监控指标说明 云防火墙 SYS.CFW Key:fw_instance_id Value:云防火墙实例 云防火墙的监控指标说明 DDoS防护 SYS.DDOS Key:zone_ip Value:防护IP Key:instance_id Value:实例ID DDoS防护的监控指标说明 云堡垒机 SYS.CBH Key:server_id Value:CBH实例ID 云 堡垒机 的监控指标说明 企业主机安全 SYS.HSS Key:host_id Value:主机实例 企业主机安全的监控指标说明 企业应用 应用与数据集成平台 ROMA Connect SYS.ROMA Key:kafka_groups Value:消费组 Key:kafka_groups_topics Value:队列 Key:kafka_groups_partitions Value:分区 应用与数据集成平台的监控指标说明 云解析服务 SYS.DNS Key:resource Value:云解析服务实例的类型 Key:resourceId Value:云解析服务实例的ID Key:resourceName Value:云解析服务实例的名称 Key:domainId Value:用户ID 云解析服务的监控指标说明 CDN与智能边缘 智能边缘小站 SYS.IES Key:site_id Value:边缘小站ID 智能边缘小站的监控指标说明 内容分发网络 SYS.CDN Key:domain_name Value:域名 内容分发网络的监控指标说明 视频 视频直播 SYS.Live Key:domain Value:域名 视频直播的监控指标说明 管理与监管 消息通知 服务 SYS. SMN Key:topic_id Value:主题的ID 消息通知服务的监控指标说明
  • 操作步骤 使用root账号,登录主机。 执行以下命令,安装Agent,安装脚本分为agent_install.sh和agentInstall.sh,分别对应以下两种命令。 新架构Agent: cd /usr/local && curl -k -O ${download_url} && bash agent_install.sh -t ${version} -r ${regionID} 老架构Agent: cd /usr/local && curl -k -O ${download_url} && bash agentInstall.sh 表1中老架构的区域包括:华南-广州-友好用户环境、拉美-圣保罗一、拉美-墨西哥城一,其余都属于新架构。 将${download_url} 替换成表1中的下载路径,将${version}替换成Agent版本特性中的版本,将${regionID}替换成表1中的regionID。例如,用北京一下载地址替换${download_url},对应的安装命令为: cd /usr/local && curl -k -O https://obs.cn-north-1.myhuaweicloud.com/uniagent-cn-north-1/package/agent_install.sh && bash agent_install.sh -t 2.7.5 -r cn-north-1 命令执行完成时,输出Telescope process starts successfully.则代表安装成功。 执行如下命令,清除安装脚本。 if [[ -f /usr/local/uniagent/extension/install/telescope/bin/telescope ]]; then rm /usr/local/agent_install.sh; else rm /usr/local/agentInstall.sh; fi Agent插件配置完成后,因监控数据暂未上报,插件状态仍显示“未安装”,等待3-5分钟,刷新即可。
  • 前提条件 已配置DNS和安全组,配置方法参考如何配置DNS和安全组?。 已配置委托,配置方法参考如何配置委托?。 确保操作步骤中的安装目录都有读写权限,并且安装成功后的Telescope进程不会被其他软件关闭。 确保已下载Agent安装脚本,获取脚本的方式如下: 表1 获取Linux镜像的Agent安装脚本 区域 regionID 下载路径 华北-北京一 cn-north-1 https://uniagent-cn-north-1.obs.cn-north-1.myhuaweicloud.com/package/agent_install.sh 华北-北京四 cn-north-4 https://uniagent-cn-north-4.obs.cn-north-4.myhuaweicloud.com/package/agent_install.sh 华北-乌兰察布一 cn-north-9 https://uniagent-cn-north-9.obs.cn-north-9.myhuaweicloud.com/package/agent_install.sh 华南-广州 cn-south-1 https://uniagent-cn-south-1.obs.cn-south-1.myhuaweicloud.com/package/agent_install.sh 华南-广州-友好用户环境 cn-south-4 https://telescope-cn-south-4.obs.cn-south-4.myhuaweicloud.com/scripts/agentInstall.sh 华南-深圳 cn-south-2 https://uniagent-cn-south-2.obs.cn-south-2.myhuaweicloud.com/package/agent_install.sh 华东-上海一 cn-east-3 https://uniagent-cn-east-3.obs.cn-east-3.myhuaweicloud.com/package/agent_install.sh 华东-上海二 cn-east-2 https://uniagent-cn-east-2.obs.cn-east-2.myhuaweicloud.com/package/agent_install.sh 华东-青岛 cn-east-5 https://uniagent-cn-east-5.obs.cn-east-5.myhuaweicloud.com/package/agent_install.sh 华东二 cn-east-4 https://uniagent-cn-east-4.obs.cn-east-4.myhuaweicloud.com/package/agent_install.sh 西南-贵阳一 cn-southwest-2 https://uniagent-cn-southwest-2.obs.cn-southwest-2.myhuaweicloud.com/package/agent_install.sh 中国-香港 ap-southeast-1 https://uniagent-ap-southeast-1.obs.ap-southeast-1.myhuaweicloud.com/package/agent_install.sh 亚太-曼谷 ap-southeast-2 https://uniagent-ap-southeast-2.obs.ap-southeast-2.myhuaweicloud.com/package/agent_install.sh 亚太-新加坡 ap-southeast-3 https://uniagent-ap-southeast-3.obs.ap-southeast-3.myhuaweicloud.com/package/agent_install.sh 亚太-雅加达 ap-southeast-4 https://uniagent-ap-southeast-4.obs.ap-southeast-4.myhuaweicloud.com/package/agent_install.sh 非洲-约翰内斯堡 af-south-1 https://uniagent-af-south-1.obs.af-south-1.myhuaweicloud.com/package/agent_install.sh 拉美-圣地亚哥 la-south-2 https://uniagent-la-south-2.obs.la-south-2.myhuaweicloud.com/package/agent_install.sh 拉美-圣保罗一 sa-brazil-1 https://uniagent-sa-brazil-1.obs.sa-brazil-1.myhuaweicloud.com/package/agent_install.sh 拉美-墨西哥城一 na-mexico-1 https://uniagent-na-mexico-1.obs.na-mexico-1.myhuaweicloud.com/package/agent_install.sh 拉美-墨西哥城二 la-north-2 https://uniagent-la-north-2.obs.la-north-2.myhuaweicloud.com/package/agent_install.sh 中东-利雅得 me-east-1 https://uniagent-me-east-1.obs.me-east-1.myhuaweicloud.com/package/agent_install.sh
  • 限制与约束 一个用户最多可创建1000个资源分组。 一个资源分组可添加1-10000个云服务资源。 一个资源分组对不同类型资源有可选数量限制,具体请参见控制台提示。 当新建资源分组成功后,由于资源分组规则存在同步生效过程,不会立即生效,可能存在3小时左右的延迟。 当修改资源分组成功后,由于资源分组规则存在同步生效过程,不会立即生效,可能仍然按照旧的分组规则匹配资源,新规则生效时间可能存在3小时左右延迟。
  • 本地集群配置文件 本地集群配置文件为一个Cluster.yaml文件,是在UCS 控制台中自动生成,用于初始化本地集群的master节点。表1是该文件内各个字段的说明。 表1 命令 配置项 配置命令 # ssh登录master节点用户 USERNAME: root # ssh登录master节点密码 PASSWORD: # 集群master1节点IP地址 MASTER-1: # 集群master2节点IP地址 MASTER-2: # 集群master3节点IP地址 MASTER-3: # 是否使用ELB# 是否使用ELB ACCESS_EXTERNAL_LOAD_BALANCE: false # 可用ELB地址 EXTERNAL_LOAD_BALANCE_IP: # 集群VIP地址 VIRTUAL_IP: # 容器网络服务 NETWORK_PROVIDER: cilium # 容器网段 CILIUM_IPV4POOL_CIDR: 172.16.0.0/16 # cilium bgp 开关 CILIUM_BGP_ENABLE: false # cilium bgp 邻居地址 CILIUM_BGP_PEER_ADDRESS: 127.0.0.1 # cilium bgp AS编号 CILIUM_BGP_PEER_ASN: 65010 # cilium 负载均衡网段 LOAD_BALANCER_CIDR: # cilium 容器网络模式 CILIUM_NETWORK_MODE: overlay # 时区 TIMEZONE: Asia/Shanghai # 是否对管理节点打污点 TAINT_MANAGE: yes # 是否使用NTP INSTALL_NTP: true # 外接ntp服务地址 NTP_SERVER_IP: # 代理转发模式 PROXY_MODE: ebpf # 外接dns服务地址 DNS_SERVER_IP: # 集群外部访问地址 CUSTOM_IP: # 集群安装包下载地址 PACKAGE_PATH: # 集群镜像包下载地址 IMAGES_PACKAGE_PATH: # IAM 租户ID IAM_DOMAIN_ID: # IAM 云服务地址 IAM_ENDPOINT: 父主题: 管理本地集群
  • 通过kubectl命令行创建NPU应用 本节以创建无状态工作负载(Deployment)为例,说明使用kubectl命令创建训练任务的方法。 apiVersion: apps/v1 kind: Deployment metadata: annotations: description: '' labels: appgroup: '' version: v1 name: demo namespace: default spec: selector: matchLabels: app: demo version: v1 template: metadata: labels: app: demo version: v1 spec: containers: - name: container-1 image: swr.cn-north-7.myhuaweicloud.com/ief-ies/demo:latest imagePullPolicy: IfNotPresent env: - name: PAAS_APP_NAME value: demo - name: PAAS_NAMESPACE value: default - name: PAAS_PROJECT_ID value: 0aa612a71f80d4322fe0c010beb80e8a resources: requests: cpu: 250m memory: 512Mi huawei.com/ascend-1980: '1' ##需要使用的npu卡数量 limits: cpu: 250m memory: 512Mi huawei.com/ascend-1980: '1' ##需要使用的npu卡数量 terminationGracePeriodSeconds: 30 schedulerName: volcano ## 使用的调度器指定为volcano tolerations: - key: node.kubernetes.io/not-ready operator: Exists effect: NoExecute tolerationSeconds: 300 - key: node.kubernetes.io/unreachable operator: Exists effect: NoExecute tolerationSeconds: 300 initContainers: [] volumes: [] replicas: 2 revisionHistoryLimit: 10 strategy: type: RollingUpdate rollingUpdate: maxUnavailable: 25% maxSurge: 25% progressDeadlineSeconds: 600
  • 升级集群联邦 UCS支持查看现有联邦版本,并升级集群联邦至更新的版本。 集群联邦升级过程中,不允许进行集群移入、移出操作,不允许进行联邦操作,否则可能造成集群联邦升级失败。 登录UCS控制台,在左侧导航栏中选择“容器舰队”。 在“容器舰队”页签下找到需要升级联邦版本的目标舰队,单击目标舰队名称,在舰队基本信息中单击“升级该版本”。 图2 升级联邦版本 在弹出的升级告知中查看能够升级到的版本,并单击“下一步”进行升级前检查。 若通过检查,则单击“开始升级”进行升级,升级过程大约需要2分钟。 若未通过检查,请单击“排查原因”,参考文档进行错误修复。 右上角状态重新显示为“集群联邦能力已开通”表明升级成功,您可以在舰队基本信息中查看新的版本号。 右上角状态显示为“集群联邦能力升级失败”表明升级失败,请执行集群联邦版本回退。
  • 支持的巡检项 表1 CCE集群巡检项 巡检维度 集群巡检场景 巡检项 集群 集群资源规划能力 集群Master节点是否高可用 集群CPU的Request水位是否超过80% 集群CPU的Limit水位是否超过150% 集群内存的Request水位是否超过80% 集群内存的Limit水位是否超过150% 集群版本是否超期 集群运维能力 集群kube-prometheus-stack插件状态是否正常 集群log-agent插件状态是否正常 集群npd插件状态是否正常 集群配置 安全组配置是否正确 核心插件 coredns插件状态 coredns近24小时cpu使用率最大值是否超过80% coredns近24小时内存使用率最大值是否超过80% coredns近24小时是否存在域名解析失败请求次数 coredns近24小时P99请求时延是否超过5s coredns插件状态 everest插件状态 everest插件状态 everest近24小时CPU使用率最大值是否超过80% everest近24小时内存使用率最大值是否超过80% kube-prometheus-stack插件状态 kube-prometheus-stack近24小时CPU使用率最大值是否超过80% kube-prometheus-stack近24小时内存使用率最大值是否超过80% kube-prometheus-status插件状态 kube-prometheus-status近24小时是否出现OOM kube-prometheus-status在Server部署模式下,prometheus-server的PVC使用率是否超过80% log-agent插件状态 log-agent插件状态 LTS日志组、日志流是否创建成功 LTS日志组结构化是否创建成功 autoscaler插件状态 集群在开启节点池弹性扩缩容条件下,autoscaler插件状态是否可用 节点 节点状态 节点状态是否就绪 节点状态不可调度 节点kubelet状态 节点配置 节点内存的Requset是否超过80% 节点CPU的Request是否超过80% 节点内存的Limit检查是否超过150% 节点CPU的Limit检查是否超过150% 节点资源水位诊断 节点24小时内CPU使用率最大值是否超过80% 节点24小时内内存使用率最大值是否超过80% 节点磁盘使用率是否超过80% 节点PID使用量是否正常 节点24小时内是否发生OOM事件 负载 Pod状态 Pod状态检查 Pod负载状态 Pod在24小时内是否发生OOM Pod的24小时内CPU使用率最大值是否超过80% Pod的24小时内内存使用率最大值是否超过80% Pod配置 Pod中的容器是否配置Request Pod中的容器是否配置Limit Pod探针配置 Pod中的容器是否配置存活探针 Pod中的容器是否配置就绪探针 外部依赖 租户节点资源配额 租户云硬盘配额是否超过90% 租户ECS配额充足是否超过90% 表2 本地集群巡检项 巡检维度 集群巡检场景 巡检项 集群 集群资源规划能力 集群Master节点是否高可用 集群CPU的Request水位是否超过80% 集群CPU的Limit水位是否超过150% 集群内存的Request水位是否超过80% 集群内存的Limit水位是否超过150% 集群运维能力 集群kube-prometheus-stack插件状态是否正常 集群log-agent插件状态是否正常 核心插件 kube-prometheus-stack插件状态 kube-prometheus-stack近24小时CPU使用率最大值是否超过80% kube-prometheus-stack近24小时内存使用率最大值是否超过80% kube-prometheus-status插件状态 kube-prometheus-status近24小时是否出现OOM log-agent插件状态 log-agent插件状态 LTS日志组、日志流是否创建成功 LTS日志组结构化是否创建成功 节点 节点状态 节点状态是否就绪 节点状态不可调度 节点kubelet状态 节点配置 节点内存的Requset是否超过80% 节点CPU的Request是否超过80% 节点内存的Limit检查是否超过150% 节点CPU的Limit检查是否超过150% 节点资源水位诊断 节点24小时内CPU使用率最大值是否超过80% 节点24小时内内存使用率最大值是否超过80% 节点磁盘使用率是否超过80% 节点PID使用量是否正常 节点24小时内是否发生OOM事件 负载 Pod状态 Pod状态检查 Pod负载状态 Pod在24小时内是否发生OOM Pod的24小时内CPU使用率最大值是否超过80% Pod的24小时内内存使用率最大值是否超过80% Pod配置 Pod中的容器是否配置Request Pod中的容器是否配置Limit Pod探针配置 Pod中的容器是否配置存活探针 Pod中的容器是否配置就绪探针 外部依赖 租户节点资源配额 租户云硬盘配额是否超过90% 租户ECS配额充足是否超过90% 表3 附着集群、多云集群、伙伴云集群巡检项 巡检维度 集群巡检场景 巡检项 集群 集群资源规划能力 集群Master节点是否高可用 集群CPU的Request水位是否超过80% 集群CPU的Limit水位是否超过150% 集群内存的Request水位是否超过80% 集群内存的Limit水位是否超过150% 集群运维能力 集群kube-prometheus-stack插件状态是否正常 核心插件 kube-prometheus-stack插件状态 kube-prometheus-stack近24小时CPU使用率最大值是否超过80% kube-prometheus-stack近24小时内存使用率最大值是否超过80% kube-prometheus-status插件状态 kube-prometheus-status近24小时是否出现OOM 节点 节点状态 节点状态是否就绪 节点状态不可调度 节点kubelet状态 节点配置 节点内存的Requset是否超过80% 节点CPU的Request是否超过80% 节点内存的Limit检查是否超过150% 节点CPU的Limit检查是否超过150% 节点资源水位诊断 节点24小时内CPU使用率最大值是否超过80% 节点24小时内内存使用率最大值是否超过80% 节点磁盘使用率是否超过80% 节点PID使用量是否正常 节点24小时内是否发生OOM事件 负载 Pod状态 Pod状态检查 Pod负载状态 Pod在24小时内是否发生OOM Pod的24小时内CPU使用率最大值是否超过80% Pod的24小时内内存使用率最大值是否超过80% Pod配置 Pod中的容器是否配置Request Pod中的容器是否配置Limit Pod探针配置 Pod中的容器是否配置存活探针 Pod中的容器是否配置就绪探针 外部依赖 租户节点资源配额 租户云硬盘配额是否超过90% 租户ECS配额充足是否超过90%
  • 概述 流量治理是Istio的核心功能,其目标是提供非侵入的流量治理能力,用户仅仅关注自己的业务逻辑,无需关注服务访问管理。流量治理要解决的问题类似如下: 动态修改服务间访问的负载均衡策略,比如配置一致性哈希将流量转发到特定的服务实例上。 同一个服务有两个版本在线,将一部分流量切到某个版本上。 服务保护,如限制并发连接数、限制请求数、隔离有故障的服务实例等。 动态修改服务中的内容,或者模拟一个服务运行故障等。 应用服务网格服务当前支持重试、超时、连接池、熔断、负载均衡、HTTP头域、故障注入等流量治理能力,可满足大多数业务场景的治理需求。 父主题: 流量治理
  • 检查节点apt源(Ubuntu) 检查节点apt源操作适用于操作系统为Ubuntu的节点,若您的节点操作系统为HCE或Redhat,请参见检查节点yum源(HCE、Redhat)进行检查。 在本地集群执行纳管节点操作时(纳管节点是指待添加到本地集群管理的服务器),部分安装组件如ntpdate等,需要从apt源中获取依赖包。故纳管节点前,请确保节点上apt源是可用的,若不可用,请执行如下操作。 以安装用户(默认为root)登录待安装的集群管理节点。 编辑“/etc/apt/sources.list”。 具体信息以实际规划的apt源服务器地址为准。 保存文件,执行如下命令。 sudo apt-get update 请分别登录到规划的节点执行上述操作。
  • 检查节点yum源(HCE、Redhat) 在本地集群执行纳管节点操作时,部分安装组件如ntpdate等,需要从yum源中获取依赖包。故纳管节点前,请确保节点上yum源是可用的,若不可用,请执行如下操作。 以安装用户(默认为root)登录待安装的集群管理节点。 修改/etc/yum.repos.d/目录下的软件源配置文件。 具体信息以实际规划的yum源服务器地址为准。 保存文件,执行如下命令。 sudo yum clean all sudo yum makecache 请分别登录到规划的节点执行上述操作。
  • 主机最小化安装要求 不使用的软件包不允许存在系统中 遵循最小化安装原则,只安装业务需要的软件包与服务组件。减少系统漏洞,降低系统遭受攻击风险。 用于生产环境的系统中不允许保留开发和编译工具 系统中不允许存在如下开发工具和编译工具: 'cpp' (/usr/bin/cpp) 'gcc' (/usr/bin/gcc) 'ld' (/usr/bin/ld) 'lex' (/usr/bin/lex) 'rpcgen' (/usr/bin/rpcgen) 如果产品的生产环境,比如在部署或运行过程中需要python、lua等解释器,则可以保留解释器运行环境,否则不允许保留。 'python' (/usr/bin/python) 'lua' (/usr/bin/lua) 同样情形适用于perl解释器,Suse系统的一些管理程序依赖perl解释器,在这种情形下,则可保留perl解释器,否则需要去除。 perl (/usr/bin/perl) 操作系统中不允许安装显示安全策略的工具 防止系统的安全信息泄露。依照业务需求,预安装的安全加固工具,限制其文件的所有者为root,并且仅root具有执行权限。 操作系统中不允许存在网络嗅探类的工具 tcpdump、ethereal等嗅探工具不允许出现在系统上,防止被恶意使用。 在不需要Modem系统中不应默认安装Modem 在不需要Modem系统中不应默认安装Modem,严格遵循系统最小化安装。
  • 集群安装检查项 在安装本地集群前,您需要对节点进行一系列检查。 表格中的命令适用于HCE与Redhat操作系统,若您使用Ubuntu操作系统,请将命令中的“yum”修改为“apt”。 检查类型 检查名 检查内容 检查通过标准 集群检查 节点架构检查 所有安装的Master节点架构检查 所有安装节点架构必须一致 节点主机名检查 所有安装的Master节点主机名检查 所有安装节点主机名必须不同 节点时钟同步检查 所有安装的Master节点时钟同步状态检查 所有安装节点主机时间差异必须小于10秒 VIP使用检查 VIP是否被其他节点占用 VIP必须处于空闲状态,检查依据22端口是否能被访问通 节点检查 节点语言检查 节点语言设置必须符合约束 节点语言设置符合en_US.UTF-8、en_GB.UTF-8任何一种 节点操作系统检查 节点操作系统必须符合约束 节点操作系统为Ubuntu 22.04、Redhat 8.6、HCE 2.0任何一种 系统命令检查 节点具备基础命令行工具 操作系统具备以下命令行工具:ifconfig、netstat、curl、systemctl、nohup、pidof、mount、uname、lsmod、swapoff、hwclock、ip、ntpdate(对接ntp场景具备) 端口空闲检查 节点必装服务端口未被占用 操作系统以下端口未被占用: 4001、4002、4003、2380、2381、2382、4011、4012、4013、4005、4006、4007、5444、8080、10257、10259、4133、20100、9444、20102、9443、5443、4134、4194、10255、10248、10250、80、443、10256、10249、20101 keepalived安装检查 keepalived未安装 执行yum list --installed keepalived列表无对应服务 haproxy安装检查 haproxy未安装 执行yum list --installed haproxy列表无对应服务 runit安装检查 runit未安装 执行yum list --installed runit列表无对应服务 paas用户检查 节点paas用户处于可创建状态 节点paas用户不存在且id为10000的用户未被占用 ntp服务检查 ntp服务处于可用状态 chrony需配置好ntpserver服务器,在节点执行 chronyc sources -v 可检查ntpserver服务器状态 说明: 默认ntp为chrony,默认使用chrony命令进行进行检查
  • 创建命名空间 通过控制台创建命名空间 登录UCS控制台,在左侧导航栏中单击“服务网格”。 单击服务网格名称,进入详情页。 在左侧导航栏,单击“服务中心”下的“命名空间”,进入命名空间列表页。 单击右上角“创建命名空间”。 图1 创建命名空间 参照下表信息设置命名空间参数。 参数 参数说明 名称 新建命名空间的名称,命名必须唯一。 描述 输入对命名空间的描述信息。 标签 为命名空间添加标签键值对 建议根据需要在命名空间中设置资源配额,避免因资源过载导致集群或节点异常。 例如:在集群中每个节点可以创建的实例(Pod)数默认为110个,如果您创建的是50节点规格的集群,则最多可以创建5500个实例。因此,您可以在命名空间中自行设置资源配额以确保所有命名空间内的实例总数不超过5500个,以避免资源过载。 设置完成后,单击“确定”。 通过YAML创建命名空间 apiVersion: v1 kind: Namespace # 创建服务类别为命名空间 metadata: name: weather # 命名空间名 annotations: namespaceDesc: description labels: app: forecast # 标签键值对 restartNamespacePod: false # 重启服务关闭 istio-injection: disabled # 注入数据面代理关闭
  • 更新命名空间 控制台更新命名空间,操作步骤如下: 登录UCS控制台,在左侧导航栏中单击“服务网格”。 单击服务网格名称,进入详情页。 在左侧导航栏,单击“服务中心”下的“命名空间”,进入命名空间列表页。 单击命名空间列表右侧操作列下的“更新”,弹出“更新命名空间”对话框。 更新命名空间参数。 表1 命名空间参数 参数 参数说明 描述 添加或修改描述。 标签 添加或删除标签键值对。 注入数据面代理 开启后,新创建的Pod会自动注入 istio-proxy sidecar,已存在的Pod需要配合重启服务才能生效注入istio-proxy sidecar。 重启服务 Sidecar自动注入开启时,将立即重启未注入sidecar的服务负载以注入sidecar;Sidecar自动注入关闭时,将立即重启已注入sidecar的服务负载以取消sidecar注入。 设置完成后,单击右下角“确定”。更新命名空间完成。 YAML编辑更新命名空间,操作步骤如下: 登录UCS控制台,在左侧导航栏中单击“服务网格”。 单击服务网格名称,进入详情页。 在左侧导航栏,单击“服务中心”下的“命名空间”,进入命名空间列表页。 单击命名空间列表右侧操作列下的“YAML编辑”,弹出YAML编辑界面。 更新标签、描述和是否注入数据面代理设置。 设置完成后,单击右下角“确定”。更新命名空间完成。
  • 使用须知 仅Flink 1.15版本支持对接 AOM Prometheus监控。 需提前创建AOM Prometheus通用集群,创建AOM Prometheus通用集群不收费,AOM的计费项由自定义指标上报量、指标存储时长、数据转储量的费用组成。了解AOM计费模式与计费项。 AOM 2.0基于自定义指标上报量进行计费,了解计费规则。 仅支持AOM Prometheus for通用实例。 弹性资源池对接Prometheus实例后,当前弹性资源池下所有新提交运行的Flink 1.15作业指标都会上报到绑定的Prometheus。默认只上报基础指标,基础指标AOM Prometheus不收取费用。如需上报所有指标请参考DLI对接AOM Prometheus监控的配置项章节的metrics.reporter.remote.report-all-metrics参数进行配置。 DLI Flink指标上报周期默认为30秒,因此指标上报有一定延迟。如需调整上报周期,请参考DLI对接AOM Prometheus监控的配置项章节metrics.reporter.remote.interval参数进行配置。 不建议将该参数设置过低,否则上报过于频繁,推荐配置为30秒。 Flink 1.15及以上版本中,弹性资源池与Prometheus实例解绑后,新作业不再上报指标到该Prometheus实例,已提交的作业继续上报至作业运行结束。 Flink 1.15及以上版本中,修改绑定的Prometheus实例后,新作业上报指标到修改后的Prometheus实例,已提交的作业继续上报至原Prometheus实例直至作业运行结束。
共100000条