云服务器内容精选

  • 创建类别为负载均衡的M CS 对象 使用kubectl连接集群联邦,详细操作请参见使用kubectl连接集群联邦。 创建并编辑 mcs.yaml 文件,文件内容定义如下所示,参数定义请参见表1。 示例YAML定义的MCS对象关联了名为nginx的Service,将nginx的Service注册到华为云ELB的监听器上。 vi mcs.yaml apiVersion: networking.karmada.io/v1alpha1 kind: MultiClusterService metadata: name: nginx namespace: default annotations: karmada.io/elb.id: 2050857a-45ff-4312-8fdb-4a4e2052e7dc karmada.io/elb.projectid: c6629a1623df4596a4e05bb6f0a2e166 karmada.io/elb.port: "802" karmada.io/elb.health-check-flag: "on" spec: ports: - port: 80 types: - LoadBalancer consumerClusters: - name: clusterA 表1 关键参数说明 参数 是否必填 参数类型 描述 metadata.name 是 String MCS对象的名称,应与关联Service保持一致。 metadata.namespace 否 String MCS对象所在命名空间名称,应与关联Service所在命名空间名称保持一致。不填则默认为default。 spec.types 是 String 数组 流量方向。 实现集群间服务发现能力应配置为CrossCluster; 将服务通过ELB对外暴露应配置为LoadBalancer。 spec.ports.port 否 Integer 关联的Service需要注册到ELB监听器上的服务端口。 spec.consumerClusters.name 否 String Service的访问集群名称,应配置为期望通过MCS实现跨集群访问Service的集群名称。不填则默认设置为所有集群联邦内集群可访问该Service。 karmada.io/elb.id 是 String MCS关联的elb的id,不允许为空。 取值范围:1-32个字符。 karmada.io/elb.projectid 是 String MCS关联的elb所属的项目ID,获取方法请参见获取项目ID。 取值范围:1-32个字符。 karmada.io/elb.port 否 String MCS关联的elb的端口,不填时默认为80。 取值范围:1-65535。 karmada.io/elb.health-check-flag 否 String 是否启用健康检查,可选值为: on:开启 off:不开启 不填写时默认为off。 karmada.io/elb.health-check-option 否 HealthCheck Object 健康检查参数,详情请参见HealthCheck。 说明: 健康检查参数配置示例: karmada.io/elb.health-check-option: '{"protocol":"TCP","delay":"5","connect_port":"80","timeout":"1","max_retries":"1","path":"/wd"}' 在annotation开启健康检查配置的情况下,Service名称的长度不应超过39个字符。 karmada.io/elb.lb-algorithm 否 String 转发算法: ROUND_ROBIN:加权轮询算法。 LEAST_CONNECTIONS:加权最少连接算法。 SOURCE_IP:源IP算法。 不填写时默认为ROUND_ROBIN。 表2 HealthCheck参数说明 参数 是否必填 参数类型 描述 protocol 否 String 健康检查使用的协议。支持TCP/HTTP,默认值是TCP。 connect_port 否 Int 健康检查使用的端口。取值范围[1,65535],为可选参数。 说明: 默认使用后端服务器默认业务端口进行健康检查。指定特定端口后,使用指定的端口进行健康检查。 delay 否 Int 健康检查的延迟时间,以秒为单位,1-50,默认值是5秒。 timeout 否 Int 健康检查的超时时间,以秒为单位,1-50,默认值是10秒。 path 否 String 健康检查的请求URL,当protocol为HTTP时生效。 以"/"开头,默认为"/"。支持使用字母、数字和短划线(-)、正斜线(/)、半角句号(.)、百分号(%)、半角问号(?)、井号(#)和and(&)以及扩展字符集。长度为1-80个字符。 max_retries 否 Int 最大重试次数,取值范围1-10,默认值是3次。 执行如下命令创建MCS对象。 kubectl apply -f mcs.yaml 创建完成后,可以执行如下命令操作MCS对象。其中nginx为MCS对象的名称。 获取MCS对象:kubectl get mcs nginx 更新MCS对象:kubectl edit mcs nginx 删除MCS对象:kubectl delete mcs nginx
  • 准备工作 如您没有可用的ELB实例,需要先创建ELB实例,具体请参考创建独享型负载均衡器。该ELB实例需要满足以下条件: ELB为独享型。 ELB必须支持网络型(TCP/UDP)。 ELB网络类型必须支持私网(有私有IP地址)。 如果ELB与成员集群的网络不在同一VPC内,ELB需要支持开启跨VPC访问的开关。 MCS为跨集群后端工作负载提供统一入口和四层网络访问,因此需要在联邦中提前部署可用的工作负载(Deployment)和服务(Service)。若您无可用工作负载和服务,请参考无状态负载和集群内访问(ClusterIP)创建。 设置集群为underlay网络,支持underlay网络的集群类型请参见设置集群网络。
  • 约束与限制 init容器不支持进行GPU虚拟化。 对于单张GPU卡: 最多虚拟化为20个GPU虚拟设备。 最多调度20个使用隔离能力的Pod。 仅支持调度相同隔离模式(GPU虚拟化支持显存隔离、显存与算力隔离两种隔离模式。)的工作负载。 对于同一工作负载中的不同容器: 仅支持配置单一显卡型号,不支持混合配置两种及以上GPU显卡型号。 仅支持配置一致GPU使用模式,不支持混合配置虚拟化和非虚拟化模式。 使用GPU虚拟化后,该GPU节点不再支持调度使用共享GPU资源的工作负载。
  • 验证GPU虚拟化隔离能力 工作负载创建成功后,您可以尝试验证GPU虚拟化的隔离能力。 登录容器查看容器被分配显存总量 kubectl exec -it gpu-app -- nvidia-smi 预期输出: Wed Apr 12 07:54:59 2023 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 470.141.03 Driver Version: 470.141.03 CUDA Version: 11.4 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |===============================+======================+======================| | 0 Tesla V100-SXM2... Off | 00000000:21:01.0 Off | 0 | | N/A 27C P0 37W / 300W | 4792MiB / 5000MiB | 0% Default | | | | N/A | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=============================================================================| +-----------------------------------------------------------------------------+ 预期输出表明,该容器被分配显存总量为5000 MiB,实际使用了4792MiB。 查看所在节点的GPU显存隔离情况(在节点上执行)。 export PATH=$PATH:/usr/local/nvidia/bin;nvidia-smi 预期输出: Wed Apr 12 09:31:10 2023 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 470.141.03 Driver Version: 470.141.03 CUDA Version: 11.4 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |===============================+======================+======================| | 0 Tesla V100-SXM2... Off | 00000000:21:01.0 Off | 0 | | N/A 27C P0 37W / 300W | 4837MiB / 16160MiB | 0% Default | | | | N/A | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=============================================================================| | 0 N/A N/A 760445 C python 4835MiB | +-----------------------------------------------------------------------------+ 预期输出表明,GPU节点上的显存总量为16160 MiB,其中示例Pod使用了4837MiB。
  • 查看集群内节点列表 节点列表中包含节点名称、状态、IP地址、Pod(已分配/总额度)、CPU申请比率/限制比率/使用率,以及内存申请比率/限制比率/使用率等信息。 图1 节点列表页面 您可以通过在列表上方按照节点名称、状态、私有地址和公网地址进行筛选,快速找到需要的节点。在列表的右上角,您可以单击按钮来导出全部节点数据,或者选择部分节点进行导出,此时仅导出所选中的数据。导出的文件为“.xlsx”格式,文件命名中包含时间戳。 节点概况展示了节点的名称、当前运行状态、CPU/内存的使用率、所属集群、节点IP地址以及节点所在地区,且单击上方搜索框,选择属性类型,再输入对应的关键字,即可查询该条件下的节点。 当节点的CPU限制比率或内存限制比率超过100%时,意味着节点资源超分,节点上的负载限制值(可使用的最大值)之和已经超过了节点规格。如果负载占用资源过高,可能会导致节点异常。
  • 查看集群内节点详情 在节点列表中,单击需要查看详情的节点名称,进入该节点的详情页面,通过切换“概览”、“Pod列表”和“监控”页签查看相应内容。 表1 节点详情页面 词条 词条描述 概览 单击节点名称,可以进入节点概览页。在这里,您可以方便地查看: 资源健康概况:包括节点状态、Pod数量以及异常事件。 节点监控:包括近1小时、近8小时、近24小时以及自定义时间段内的监控概览,其中包括CPU使用率、内存使用率和网络流入/流出速率这些常见的监控指标。 Pod使用趋势:包括近1小时、近8小时、近24小时以及自定义时间段内CPU使用量、内存使用量Top5的Pod信息。 容器列表 Pod列表中包含了实例名称、状态、命名空间、实例IP、所在节点、重启次数、CPU申请/限制、内存申请/限制,以及CPU和内存使用率等详细信息。 您可以通过在列表上方按照实例名称、状态、命名空间、实例IP和所在节点进行筛选,快速找到需要的实例。 在列表的右上角,您可以单击按钮来导出全部实例数据,或者选择部分实例进行导出,此时仅导出所选中的数据。导出的文件为“.xlsx”格式,文件命名中包含时间戳。 单击实例名称可以查看实例的详细监控数据。更多相关内容,请参见查看集群内Pod情况。 监控 在此处,您可以方便地查看节点在近1小时、近8小时、近24小时以及自定义时间段内各维度资源的使用情况。 如需查看更多监控信息,请单击“查看全部仪表盘”,跳转至“仪表盘”页面,相应指导请参见仪表盘。
  • 查看/切换视图 选择一个容器舰队或者未加入舰队的集群。 图1 选择舰队或未加入舰队的集群 选择“仪表盘”页签,默认展示集群视图。 设置查看视图的相关参数。各个视图可供设置的参数不同,请参见表1。 设置视图的时间窗。 在页面右上角处,选择时间段,或者自定义时间,并单击刷新界面。 容器智能分析仪表盘提供了预置视图,您可单击视图名称边上的“切换视图”按钮,选择需要的视图查看监控数据。系统预置视图如表1所示。 表1 预置视图 视图名称 视图参数 视图中包含的监控指标 集群视图(默认视图) 集群 节点数/磁盘不可用节点数/不可用节点数 CPU/内存使用率 CPU/内存Requests水位 CPU/内存Limits水位 Pod/容器数 CPU/内存使用量 网络接收/发送速率 网络平均接收/发送速率 接收/发送数据包速率 丢包率(接收/发送) 磁盘IOPS(读+写) ThroughPut(读+写) APIServer视图 集群 实例 存活数 QPS 请求成功率(读) 处理中请求数 请求速率(读/写) 请求错误率(读/写) 请求时延(读/写)(99分位时延) 工作队列增加速率/深度 工作队列时延(99分位时延) 内存/CPU使用量 Go routine数 Pod视图 集群 命名空间 pod 容器数/运行中容器数 Pod状态 容器重启次数 CPU/内存使用量 CPU Throttling 网络接收/发送速率 接收/发送数据包速率 丢包率(接收/发送) 磁盘IOPS(读+写) ThroughPut(读+写) 文件系统使用率/使用量 主机视图 集群 节点 CPU/内存使用率 平均负载 内存使用量 磁盘写入/读取速率 磁盘空间使用 磁盘IO Node视图 集群 节点 CPU/内存使用率 CPU/内存Requests水位 CPU/内存Limits水位 内存使用量 网络接收/发送速率 接收/发送数据包速率(Pod) 接收/发送数据包速率 丢包率(接收/发送) 磁盘IOPS(读+写) ThroughPut(读+写) CoreDNS视图 集群 实例 请求速率(记录类型/区域/DO标志位) 请求数据包(UDP/TCP) 响应速率(响应状态码) 响应时延 响应数据包(UDP/TCP) 缓存大小 缓存命中率 PVC视图 集群 命名空间 PV PVC PV/PVC状态 PVC使用量/使用率 PVC inodes使用量/使用率 PVC每小时/每天/每周使用率 一周后PVC使用量 Kubelet 集群 实例 运行中Kubelet/Pod/容器 实际卷/期望卷/配置错误数量 操作速率/错误率/时延 Pod启动速率/时延(99分位) 存储操作速率/错误率/时延(99分位) 控制组管理器操作速率/时延(99分位) PLEG relist速率/间隔/时延(99分位) RPC速率 请求时延(99分位) 内存/CPU使用量 Go routine数 Prometheus 集群 job instance Target同步间隔 Target数 平均拉取间隔 拉取失败 Appended Samples Head中Series数/Chunks数 查询速率/阶段时延 Prometheus Remote Write 集群 实例 url Highest Timestamp In vs. Highest Timestamp Sent Rate5m Rate in vs. succeeded or dropped 5m 当前/最大/最小/期望分片数 分片容量 挂起样本数 TSDB/远程写入当前段 样本丢弃率/失败率/重试率 入队失败重试率 工作负载 集群 命名空间 类型 工作负载 CPU/内存使用量 网络接收/发送速率 网络平均接收/发送速率 接收/发送数据包速率 丢包率(接收/发送) XGPU视图 集群 集群--XGPU设备显存使用率 集群--XGPU设备算力使用率 节点--XGPU设备显存使用率 节点--XGPU设备算力使用率 节点--XGPU设备数量 节点--XGPU设备显存分配量 GPU卡--XGPU设备显存使用率 GPU卡--XGPU设备显存分配量 GPU卡--XGPU设备显存分配率 GPU卡--XGPU设备算力使用率 GPU卡--XGPU设备数量 GPU卡--调度策略 GPU卡--不健康的XGPU设备数量 容器显存分配量 容器算力使用率 容器显存使用量 容器显存使用率
  • 现象四:显示已接入集群联邦,状态异常,报错:cluster is not reachable 请在对应的成员集群中执行以下命令,查询ServiceAccount是否存在。其中{cluster_name}请替换为集群名称。 kubectl get sa -A|grep karmada-{cluster_name}.clusterspace.{cluster_name} 若回显显示ServiceAccount不存在,请先将该成员集群移出舰队,再重新添加该集群至对应舰队。
  • 现象一:提示clusterrole、clusterrolebinding已存在 问题原因:一个集群不能同时加入两个或两个以上的联邦。有这个报错提示,说明当前集群已经添加到联邦中,或者曾经加入过联邦但是存在资源残留。 解决方案:手工清理残留资源。 操作步骤: 获取报错集群的kubeconfig配置文件,并准备kubectl及运行节点,将kubeconfig文件放在运行节点/tmp目录。 执行如下命令,清理残留资源。 alias kubectl='kubectl --kubeconfig=/tmp/kubeconfig' kubectl delete clusterrolebinding `kubectl get clusterrolebinding |grep karmada-controller-manager | awk '{print $1}'` kubectl delete clusterrole `kubectl get clusterrole |grep karmada-controller-manager | awk '{print $1}'` kubectl delete namespace `kubectl get namespace |egrep 'karmada-[0-9a-f]{8}-([0-9a-f]{4}-){3}[0-9a-f]{12}' |awk '{print $1}'`
  • 现象三:CCE集群已绑定EIP,集群加入联邦仍失败,报错:network in cluster is unstable, please retry it later 问题原因:联邦需要访问CCE集群的5443端口,但是CCE集群的控制面安全组入方向规则不允许124.70.21.61(源地址)访问CCE集群的5443端口。 解决方案:修改CCE控制面入方向安全组,允许124.70.21.61(源地址)访问CCE集群的5443端口。
  • 错误码 如果操作请求在执行过程中出现异常导致未被处理,则会返回一条错误信息,错误信息中包括错误码和具体错误描述。 表1 错误码说明 错误码 状态码 错误信息 描述 处理措施 UCS.00000001 400 Failed to obtain the user information. 未能获取用户信息 请确认账号状态,或联系技术支持。 UCS.00000004 403 Request forbidden. 禁止请求 请确认账号权限是否满足。 UCS.00000005 500 Database operation failed. 数据库操作失败 请参考返回的message,或联系技术支持。 UCS.00000006 500 Server internal error. 服务器内部错误 请参考返回的message,或联系技术支持。 UCS.00000007 500 Data transform error. 数据转换失败 请参考返回的message,或联系技术支持。 UCS.00000008 500 Error add event. 添加事件失败 请参考返回的message,或联系技术支持。 UCS.00000009 500 Data unmarshal error. 数据反序列化失败 请参考返回的message,或联系技术支持。 UCS.00000010 500 Data marshal error. 数据序列化失败 请参考返回的message,或联系技术支持。 UCS.00000011 400 Bad query parameter value. 请求参数非法 请参考返回的message和UCS接口文档修改请求参数,或联系技术支持。 UCS.00000012 400 Invalid request body. 请求体非法 请参考返回的message和UCS接口文档修改请求体,或联系技术支持。 UCS.00000013 404 No requested resources found. 请求资源不存在 请确认要访问的资源是否已被删除。 UCS.00000014 500 Failed to encrypt data. 加密数据失败 请参考返回的message,或联系技术支持。 UCS.00000015 500 Failed to decrypt data. 解密数据失败 请参考返回的message,或联系技术支持。 UCS.00000016 400 Invalid header value. 请求头非法 请参考返回的message和UCS接口文档修改请求参数,或联系技术支持。 UCS.00000017 400 Insufficient quota 配额不足 请提交工单增加对应资源配额,或联系技术支持。 UCS.00000018 401 Authorization failed. 授权失败 请参考返回的message,或联系技术支持。 UCS.00010001 500 Failed to get iam connection. 获取 IAM 连接失败 请参考返回的message,或联系技术支持。 UCS.00010002 403 Sub-user has no authority to create agency. 子用户无权创建委托 请使用主账号创建委托。 UCS.00010003 400 Failed to create agency. 创建委托失败 请参考返回的message,或联系技术支持。 UCS.00010009 400 Failed to get project token by agency 通过委托获取项目token失败 请参考返回的message,或联系技术支持。 UCS.00010011 400 Failed to get project id by project name. 获取项目id失败 请参考返回的message,或联系技术支持。 UCS.00010012 400 IAM agency quota insufficient, please expand agency quota 超出IAM委托配额 请提交工单增加委托配额。 UCS.00010013 400 fail to get iam pdp authorize result 获取PDP鉴权结果失败 请参考返回的message,或联系技术支持。 UCS.00010014 403 iam pdp authentication denied PDP鉴权拒绝 请确认账号权限是否满足,或联系技术支持。 UCS.00010015 403 iam rbac authentication denied RBAC鉴权拒绝 请确认集群权限是否满足。 UCS.00020002 500 Failed to get certs. 获取证书失败 请参考返回的message,或联系技术支持。 UCS.00020003 500 Failed to create certs. 创建证书失败 请参考返回的message,或联系技术支持。 UCS.00020003 500 Failed to delete certs. 删除证书失败 请参考返回的message,或联系技术支持。 UCS.00030001 404 Cluster Not Found. 集群不存在 请确认集群是否存在。 UCS.00030002 400 Failed to obtain the cluster information. 获取集群信息失败 请确认集群是否存在。 UCS.00030003 400 Failed to get resourceJob info with cluster status 获取resource job失败 请参考返回的message,或联系技术支持。 UCS.00040001 400 Failed to obtain the mesh information. 获取网格信息失败 请确认网格是否存在,或联系技术支持。 UCS.00100001 400 Failed to publish message to smn. 发布消息到 SMN 失败 请参考返回的message,或联系技术支持。 UCS.00100002 400 smn topic error. SMN主题错误 请参考返回的message,或联系技术支持。 UCS.00100003 400 smn subscription error. SMN订阅错误 请参考返回的message,或联系技术支持。 UCS.00110001 400 SDR failed to get billing raw data 获取计费数据失败 请参考返回的message,或联系技术支持。 UCS.00120001 400 CBC failed to update resources status 更新CBC资源状态失败 请参考返回的message,或联系技术支持。 UCS.00130001 400 Get UCS Agency info error 获取UCS委托错误 请参考返回的message,或联系技术支持。 UCS.00140001 400 Create ClusterRole failed ClusterRole创建失败 请参考返回的message,或联系技术支持。 UCS.00140002 400 Delete ClusterRole failed ClusterRole删除失败 请参考返回的message,或联系技术支持。 UCS.00140003 400 Update ClusterRole failed ClusterRole更新失败 请参考返回的message,或联系技术支持。 UCS.00140004 400 Get ClusterRole failed ClusterRole信息获取失败 请参考返回的message,或联系技术支持。 UCS.00140005 400 Create ClusterRoleBinding failed ClusterRoleBinding创建失败 请参考返回的message,或联系技术支持。 UCS.00140006 400 Delete ClusterRoleBinding failed ClusterRoleBinding删除失败 请参考返回的message,或联系技术支持。 UCS.00140007 400 Update ClusterRoleBinding failed ClusterRoleBinding更新失败 请参考返回的message,或联系技术支持。 UCS.00140008 400 Get ClusterRoleBinding failed ClusterRoleBinding信息获取失败 请参考返回的message,或联系技术支持。 UCS.00140009 400 Create Role failed Role创建失败 请参考返回的message,或联系技术支持。 UCS.00140010 400 Delete Role failed Role删除失败 请参考返回的message,或联系技术支持。 UCS.00140011 400 Update Role failed Role更新失败 请参考返回的message,或联系技术支持。 UCS.00140012 400 Get Role failed Role信息获取失败 请参考返回的message,或联系技术支持。 UCS.00140013 400 Create RoleBinding failed RoleBinding创建失败 请参考返回的message,或联系技术支持。 UCS.00140014 400 Delete RoleBinding failed RoleBinding删除失败 请参考返回的message,或联系技术支持。 UCS.00140015 400 Update RoleBinding failed RoleBinding更新失败 请参考返回的message,或联系技术支持。 UCS.00150001 400 Cluster policy validate failed. 集群策略验证失败 请确认集群策略中心状态是否运行中。 UCS.00150002 400 ClusterGroup policy validate failed. 集群组策略验证失败 请确认舰队策略中心状态是否运行中。 UCS.00150003 400 Cluster has enable policy. 集群已启用策略 请勿重复开启策略中心,集群已经启用策略中心。 UCS.00150004 400 ClusterGroup has enable policy. 集群组已启用策略 请勿重复开启策略中心,舰队已经启用策略中心。 UCS.00150005 400 Cluster not enable policy. 集群未启用策略 请确认集群已经开启策略中心。 UCS.00150006 400 ClusterGroup not enable policy. 集群组未启用策略 请确认舰队已经开启策略中心。 UCS.00150007 500 Get policy job failed. 获取策略任务失败 请参考返回的message,或联系技术支持。 UCS.01000001 400 Failed to obtain the user information. 获取用户信息失败 请参考返回的message,或联系技术支持。 UCS.01000002 429 The throttling threshold has been reached. 达到流控阈值 请稍后重试。 UCS.01000003 401 Authorization failed. 授权失败 请参考返回的message,或联系技术支持。 UCS.01000004 403 Request forbidden. 禁止请求 请参考返回的message,或联系技术支持。 UCS.01000005 500 Database operation failed. 数据库操作失败 请参考返回的message,或联系技术支持。 UCS.01000006 500 Server internal error. 服务器内部错误 请参考返回的message,或联系技术支持。 UCS.01000007 500 Data transform error. 数据转换失败 请参考返回的message,或联系技术支持。 UCS.01000008 500 Error add event. 添加事件失败 请参考返回的message,或联系技术支持。 UCS.01000009 500 Data unmarshal error. 数据反序列化失败 请参考返回的message,或联系技术支持。 UCS.01000010 500 Data marshal error. 数据序列化失败 请参考返回的message,或联系技术支持。 UCS.01000011 400 Bad query parameter value. 请求参数非法 请参考返回的message和UCS接口文档修改请求参数,或联系技术支持。 UCS.01000012 400 Invalid request body. 请求体非法 请参考返回的message和UCS接口文档修改请求体,或联系技术支持。 UCS.01000013 404 No requested resources found. 请求资源不存在 请确认集群或者容器舰队是否存在。 UCS.01000014 500 Failed to encrypt data. 加密数据失败 请参考返回的message,或联系技术支持。 UCS.01000015 500 Failed to decrypt data. 解密数据失败 请参考返回的message,或联系技术支持。 UCS.01000016 400 Invalid header value. 请求头非法 请参考返回的message和UCS接口文档修改请求参数,或联系技术支持。 UCS.01000017 400 Insufficient quota 配额不足 请提交工单增加对应资源配额,或联系技术支持。 UCS.01000018 400 Quota info validate failed 配额参数校验失败 请参考返回的message,或联系技术支持。 UCS.01000019 500 Quota update failed 配额更新失败 请参考返回的message,或联系技术支持。 UCS.01010001 500 Failed to get iam connection. 获取IAM连接失败 请参考返回的message,或联系技术支持。 UCS.01010002 500 Failed to get project token by agency 通过委托获取项目token失败 请参考返回的message,或联系技术支持。 UCS.01010003 403 No access permission. Please contact the administrator. 无访问权限 请参考返回的message,或联系技术支持。 UCS.01010005 400 get IAM agency's token error 获取委托token失败 请参考返回的message,或联系技术支持。 UCS.01010006 400 fail to get iam pdp authorize result 获取PDP鉴权结果失败 请参考返回的message,或联系技术支持。 UCS.01010007 403 iam pdp authentication denied PDP鉴权拒绝 请确认账号权限是否满足,或联系技术支持。 UCS.01010008 403 iam rbac authentication denied RBAC鉴权拒绝 请确认集群权限是否满足。 UCS.01020002 500 Failed to get certs. 获取证书失败 请参考返回的message,或联系技术支持。 UCS.01020003 500 Failed to create certs. 创建证书失败 请参考返回的message,或联系技术支持。 UCS.01020004 500 Failed to delete certs. 删除证书失败 请参考返回的message,或联系技术支持。 UCS.01030001 404 Cluster Not Found. 集群不存在 请确认集群是否存在。 UCS.01030002 400 Failed to obtain the cluster information. 获取集群信息失败 请确认集群是否存在。 UCS.01030003 409 The same cluster already exists. 存在同名集群 请勿注册同名集群。 UCS.01030004 400 Cluster status is unavailable, please fix cluster first. 集群状态不可用 请确认集群状态是否可用。 UCS.01030005 403 No authorization for cluster 集群授权失败 请确认该集群是否属于对应账户。 UCS.01030006 400 Create resource job for cluster error 集群创建resource job失败 请参考返回的message,或联系技术支持。 UCS.01030007 400 Create on-demand order for cluster error 创建按需订单失败 请参考返回的message,或联系技术支持。 UCS.01030008 400 Cluster kubeconfig format error. 集群kubeconfig格式错误 请确认kubeconfig内容是否正确。 UCS.01030009 400 This cluster does not support unregister 集群不支持注销 请删除集群安装的插件,再注销集群 UCS.01030011 400 Cluster category not supported 不支持该集群类别 请参考UCS支持的集群类型,确认集群类型是否支持。 UCS.01030012 400 Register cce cluster error 注册cce集群失败 请参考返回的message,或联系技术支持。 UCS.01030013 400 Register attached cluster error 注册附着集群失败 请参考返回的message,或联系技术支持。 UCS.01030014 400 Register on-premise cluster error 注册本地集群失败 请参考返回的message,或联系技术支持。 UCS.01030015 100 Register multi cloud cluster error 注册多云集群失败 请参考返回的message,或联系技术支持。 UCS.01030016 400 Cluster has been frozen 集群已被冻结 请确认集群状态是否正常。 UCS.01080002 400 Cluster group has federalized. 舰队已开启联邦 请勿重复开启联邦,舰队联邦已开启。 UCS.01080003 500 Cluster group federation failed. 舰队联邦操作失败 请参考返回的message,或联系技术支持。 UCS.01080004 400 Cluster group federation validate failed. 开启联邦校验失败 请参考返回的message,或联系技术支持。 UCS.01080005 400 Retry join all clusters to federation failed. 重试所有集群加入联邦失败 请参考返回的message,或联系技术支持。 UCS.01080006 400 Cluster group has not been federalized. 舰队未开启联邦 请开启联邦后再操作。 UCS.01080007 400 Retry join cluster to federation failed. 重试集群加入联邦失败 请参考返回的message,或联系技术支持。 UCS.01090001 400 Failed to obtain the mesh information. 获取网格信息失败 请确认网格是否存在,或联系技术支持。 UCS.01100002 400 associate cluster with clustergroup error 集群加入舰队失败 请参考返回的message,或联系技术支持。 UCS.01100003 400 associate cluster with rule error 舰队关联权限策略失败 请参考返回的message,或联系技术支持。 UCS.01100005 404 ClusterGroup Not Found. 舰队不存在 请确认舰队是否存在。 UCS.01100006 400 Cluster number in fleet exceed limit. 舰队内集群数量超过限制 请提交工单增加舰队内集群配额。 UCS.01100007 400 Update associated clusters validate failed 更新关联集群校验失败 请参考返回的message,或联系技术支持。 UCS.01110001 400 resource notification to SMN error 通知SMN失败 请参考返回的message,或联系技术支持。 UCS.01120001 400 Create ClusterRole failed ClusterRole创建失败 请参考返回的message,或联系技术支持。 UCS.01120002 400 Delete ClusterRole failed ClusterRole删除失败 请参考返回的message,或联系技术支持。 UCS.01120003 400 Update ClusterRole failed ClusterRole更新失败 请参考返回的message,或联系技术支持。 UCS.01120004 400 Get ClusterRole failed ClusterRole信息获取失败 请参考返回的message,或联系技术支持。 UCS.01120005 400 Create ClusterRoleBinding failed ClusterRoleBinding创建失败 请参考返回的message,或联系技术支持。 UCS.01120006 400 Delete ClusterRoleBinding failed ClusterRoleBinding删除失败 请参考返回的message,或联系技术支持。 UCS.01120007 400 Update ClusterRoleBinding failed ClusterRoleBinding更新失败 请参考返回的message,或联系技术支持。 UCS.01120008 400 Get ClusterRoleBinding failed ClusterRoleBinding信息获取失败 请参考返回的message,或联系技术支持。 UCS.01120009 400 Create Role failed Role创建失败 请参考返回的message,或联系技术支持。 UCS.01120010 400 Delete Role failed Role删除失败 请参考返回的message,或联系技术支持。 UCS.01120011 400 Update Role failed Role更新失败 请参考返回的message,或联系技术支持。 UCS.01120012 400 Get Role failed Role信息获取失败 请参考返回的message,或联系技术支持。 UCS.01120013 400 Create RoleBinding failed RoleBinding创建失败 请参考返回的message,或联系技术支持。 UCS.01120015 400 Update RoleBinding failed RoleBinding更新失败 请参考返回的message,或联系技术支持。 UCS.01130001 400 policy management create reconcile job failed 策略管理创建协调作业失败 请参考返回的message,或联系技术支持。 UCS.01130002 400 policy management create disable job failed 策略管理创建禁用作业失败 请参考返回的message,或联系技术支持。 UCS.01130003 400 cluster policy validate failed. 集群策略验证失败 请确认集群策略中心状态正常。 UCS.01130004 400 clusterGroup policy validate failed. 集群组策略验证失败 请确认舰队策略中心状态正常。 UCS.01130005 400 cluster policy management is in installing or closing status 集群策略管理处于安装或关闭状态 请等待集群策略中心开启或者关闭完成后再操作。 UCS.01130006 400 cluster group policy management is in installing or closing status 集群组策略管理处于安装或关闭状态 请等待舰队策略中心开启或者关闭完成后再操作。
  • 集群备份 本地备份 创建备份文件压缩包存放的目录。 执行备份命令: ./ucs-ctl backup 集群名 --path 备份路径 --type local 示例如下: ./ucs-ctl backup gpu-test --path /home/ggz/gpu-test --type local 执行成功后,会在指定的备份路径下产生名为:集群名-backup-时间戳.tar.gz这样一个备份压缩文件。 备份压缩文件存在ha.yaml、etcd-snapshot目录、crt目录,etcd-snapshot包含etcd备份数据,crt包含证书与加解密材料。 远端备份
  • 基础规划 配置 支持版本 集群版本 v1.25.15-r7及以上 操作系统 华为云欧拉操作系统 2.0 系统架构 X86 GPU类型 T4、V100 GPU虚拟化驱动版本 470.57.02、510.47.03、535.54.03 容器运行时 containerd 插件 集群中需要同时安装以下插件: volcano插件:1.10.1及以上版本 gpu-device-plugin插件:2.0.0及以上版本
  • 步骤二:安装插件 如果您的集群中已安装符合基础规划的插件,您可以跳过此步骤。 更改驱动版本后,需要重启节点才能生效。 重启节点前需要排空节点中的Pod,在进行升级重启的操作。请注意预留GPU资源以满足节点排空过程中的Pod调度需求,防止资源不足导致Pod调度失败影响业务运行。 登录UCS控制台,单击集群名称进入集群,在左侧导航栏中选择“插件管理”,查看“已安装插件”中是否存在volcano插件与gpu-device-plugin插件。 若未安装volcano插件,请安装该插件,具体操作请参见volcano。 若未安装gpu-device-plugin插件,请安装该插件,具体操作请参见gpu-device-plugin。
  • 准备网络环境 伙伴云集群的数据接入方式支持公网接入和私网接入。 公网接入是通过公网Internet接入,要求集群能够访问公网,具有弹性灵活、成本低、易接入的优势。如果对网络质量没有要求,只想采用更简便的方式接入,那么公网接入是个不错的选择。 公网接入要求集群能够访问公网,请确保集群已符合此条件,否则会接入失败。 私网接入是通过云专线(DC)或 虚拟专用网络 (VPN)服务将伙伴云网络与云上虚拟私有云(VPC)连通,并利用 VPC终端节点 通过内网与容器智能分析建立连接,具有高速、低时延、安全的优势。 图1 私网接入原理 因此,在开启之前,您需要准备满足一个云上虚拟私有云(VPC),并将伙伴云厂商的网络环境与该VPC连通。VPC子网网段不能与伙伴云中已使用的网络网段重叠,否则将无法接入集群,例如,伙伴云中已使用的VPC子网为192.168.1.0/24,那么华为云VPC中不能使用192.168.1.0/24这个子网。 网络连通可以选用如下两种方案: 虚拟专用网络(VPN)方案:请参见通过VPN连接云下数据中心与云上VPC。 云专线(DC)方案:请参见用户通过单专线静态路由访问VPC或用户通过单专线BGP协议访问VPC。