检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
bel,如果有,值为1,如果节点上没有,值为0。 前提条件 已创建v1.19.16及以上版本的集群,具体操作请参见购买Standard/Turbo集群。 集群中已安装1.11.5及以上版本的Volcano插件,具体操作请参见Volcano调度器。 配置Volcano节点池软亲和调度策略
40及以上时,支持部署dcgm-exporter组件。 启用dcgm-exporter组件后,采集的GPU监控数据如需上报AOM服务,请在云原生监控插件中开启上报至AOM服务开关。对于上报至AOM服务的GPU指标属于自定义指标,将进行按需收费,详情请参见价格详情。 设置插件支持的其他参数配置,单击“安装”。参数配置详情请参见CCE
NAMESPACE * internal internalCluster user 登录Argo服务端,用户名为admin,服务端地址及密码可从1中获取。如果ECS服务器与集群处于同一VPC下,此处节点IP可使用私网IP。 argocd login <节点IP:端口号> --username
作用的集群类型 取值范围: CCE:CCE Standard集群 Turbo:CCE Turbo集群 Autopilot:CCE Autopilot集群 默认取值 为空时默认为CCE Standard,CCE Turbo集群 请求示例 无 响应示例 状态码: 200 ok { "kind"
作用的集群类型 取值范围: CCE:CCE Standard集群 Turbo:CCE Turbo集群 Autopilot:CCE Autopilot集群 默认取值 为空时默认为CCE Standard,CCE Turbo集群 请求示例 无 响应示例 状态码: 200 OK { "kind"
解决? 问题描述 容器使用SCSI类型的云硬盘存储,在CentOS节点上创建和删除容器触发磁盘频繁挂载卸载的场景,有概率会出现系统盘读写瞬时冲高,然后系统卡住的问题,影响节点正常工作。 出现该问题时,可在dmesg日志中观察到: Attached SCSI disk task jdb2/xxx
连接集群。 kubectl安装成功后,执行如下命令授予集群权限。 # 创建服务账号 kubectl create serviceaccount spark # 将集群角色spark-role和上一步创建服务账号绑定,并指定default命名空间授予edit的clusterrole权限
--name=<service-name> 以上命令会给Deployment创建一个服务,--port为服务暴露出去的端口,--type为服务类型,--target-port为服务对应后端Pod的端口,port提供了集群内部访问服务的入口,即ClusterIP:port。 run 在集群中运行一个特定的镜像。
\"requestsMem\":\"512Mi\"}],\"size\":\"small\",\"category\":[\"CCE\",\"Turbo\"]}}},{\"addonTemplateName\":\"everest\"}]" } }, "spec": { "category":
$containerID 根据日志提示修复工作负载本身的问题。 查看操作系统的错误日志。 cat /var/log/messages | grep $containerID | grep oom 根据日志判断是否触发了系统OOM。 排查思路 根据具体事件信息确定具体问题原因,如表1所示。
S密钥是否有效 如果以上排查思路仍无法解决您的问题,请提交工单寻找客服人员协助您进行定位。 排查项一:安全组是否被修改 登录控制台,选择“服务列表 > 网络 > 虚拟私有云 VPC”,单击左侧导航栏的“访问控制 > 安全组”,找到集群控制节点的安全组。 控制节点安全组名称为:集群名称-cce-control-编号。
cannot be created in this CCE version. 当前CCE版本不支持创建该类型的操作系统。 请参考返回的message,使用支持的操作系统。 400 CCE.01400019 Insufficient resource tenant quota. 资源租户配额不足。
txt 然后查看容器所在节点的nvidia驱动版本支持的cuda版本范围,是否包含容器中的cuda版本。 相关链接 工作负载异常:GPU节点部署服务报错 父主题: 节点运行
为集群的API服务提供者,控制面API Server的异常可能会导致整个集群无法访问,同时也会影响依赖API Server的工作负载的正常运行,QPS和请求错误率可以帮助您快速识别和修复问题。 图2 健康概况 资源消耗Top统计 在资源消耗Top统计中,CCE服务会将CPU使用率
过selector选择到标签“app:nginx”的Pod,目标Pod的端口为80,Service对外暴露的端口为8080。 访问服务只需要通过“服务名称:对外暴露的端口”接口,对应本例即“nginx:8080”。这样,在其他Pod中,只需要通过“nginx:8080”就可以访问到“nginx”关联的Pod。
您已经创建好一个文件存储,并且文件存储与集群在同一个VPC内。 使用通用文件系统(SFS 3.0)时,您需要提前在集群所在VPC创建一个VPC终端节点,集群需要通过VPC终端节点访问通用文件系统。配置VPC终端节点的方法请参见配置VPC终端节点。 约束与限制 使用通用文件系统(SFS 3.0)SFS存储卷时,集群中需要安装2
请勿删除cce-pause等系统镜像,否则可能导致无法正常创建容器。 方案二:扩容磁盘 扩容磁盘的操作步骤如下: 在EVS控制台扩容数据盘。详情请参见扩容云硬盘容量。 在EVS控制台扩容成功后,仅扩大了云硬盘的存储容量,还需要执行后续步骤扩容逻辑卷和文件系统。 登录CCE控制台,进入
更多信息请参见Kubernetes控制节点上的CPU管理策略。 影响范围 开启了CPU管理策略的集群。 解决方案 登录CCE节点(弹性云服务器)并删除cpu_manager_state文件。 删除命令示例如下: rm -rf /mnt/paas/kubernetes/kubel
URL中的参数说明 参数 描述 {clusterid} 集群ID,创建集群后,调用获取指定项目下的集群接口获取。 Endpoint Web服务入口点的URL,可以从终端节点(Endpoint)中获取。 uri 资源路径,也即API访问路径。从具体接口的URI模块获取,例如“获取用
"flavor": { "category": [ "CCE", "Turbo" ], "name": "default", "resources": [