检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
application/json application/json;charset=utf-8 application/x-pem-file multipart/form-data(注:存在FormData参数时使用) 默认取值: 不涉及 X-Auth-Token 是 String 参数解释:
目标版本的GPU插件,并配置当前GPU驱动后,测试创建节点是否正常使用。 您可以执行以下步骤确认GPU插件的升级目标版本与当前驱动配置。 登录CCE控制台,前往“插件中心”处查看CCE AI套件(NVIDIA GPU)插件。 单击该插件的“升级”按钮,查看插件目标版本及驱动版本。
-type f -name 'kubelet-server-*.pem' ! -name "$link_target" -delete 删除证书软连接文件。 find -maxdepth 1 -type f -name 'kubelet-server-current.pem' -delete
模板管理 上传模板 获取模板列表 获取模板实例列表 更新模板 创建模板实例 删除模板 更新指定模板实例 获取模板 删除指定模板实例 下载模板 获取指定模板实例 获取模板Values 查询指定模板实例历史记录 获取用户模板配额 父主题: API
置管理异常。 nodepool id(master)表示集群配置管理异常。 问题场景一:节点池配置管理异常 修复节点池异常配置步骤如下: 登录CCE控制台,进入“节点管理”。 找到问题节点池,单击“更多”并选择“配置管理”。 选择“网络组件配置(eni)”,修改节点池级别的节点预热容器网卡回收阈值
开发者社区支持的唯一标准。为便于管理,建议用户尽快将模板切换至Helm v3格式。 当前社区从Helm v2演进到Helm v3,主要有以下变化: 移除tiller Helm v3 使用更加简单和灵活的架构,移除了 tiller,直接通过kubeconfig连接apiserver,简化安全模块,降低了用户的使用壁垒。
检查项内容 检查CCE GPU插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。 解决方案 使用kubectl连接集群。 执行以下命令获取插件实例详情。 kubectl get ds nvidia-driver-installer -nkube-system -oyaml
工作负载异常:实例无法写入数据 Pod事件 Pod所在的节点文件系统损坏,新建的Pod无法成功在/var/lib/kubelet/device-plugins/.xxxxx写入数据,Pod通常会出现以下类似事件: Message: Pod Update Plugin resources
排查其他可能原因。 排查项一:节点是否存在资源压力 排查项二:是否在实例上设置了tolerations 排查项三:是否满足停止驱逐实例的条件 排查项四:容器与节点上的“资源分配量”是否一致 排查项五:工作负载实例不断失败并重新部署 排查项一:节点是否存在资源压力 当满足硬性或软性
获取指定的集群 获取指定项目下的集群 更新指定的集群 删除集群 集群休眠 集群唤醒 获取集群证书 吊销用户的集群证书 变更集群规格 获取任务信息 绑定、解绑集群公网apiserver地址 获取集群访问的地址 查询集群日志配置信息 配置集群日志 获取分区列表 创建分区 获取分区详情 更新分区 父主题:
如果首选规格因可用区资源售罄或配额不足等原因创建失败,将按照节点池内规格优先级的顺序,尝试创建下一个优先级的规格,原实例进入5分钟的冷却时间。 如果一个节点池中的所有规格都无法成功创建实例,系统将顺延至下一个优先级的节点池继续尝试。 手动扩容策略 当节点池进行手动扩缩容时,您可选择指定的规格
目标,您需要为集群安装log-agent插件,该插件可以采集Kubernetes事件,并在“监控中心 > 事件”页面进行展示。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“监控中心”,单击“事件”页签。 事件页面分为两个页签:“概览”和“事件”。
great security risks. It is recommended that the AK and SK be stored in ciphertext in configuration files or environment variables and decrypted
io/client-go中的generated clients。 已从apiserver_request_total中删除“client”标签。 参考链接 关于Kubernetes 1.19与其他版本的性能对比和功能演进的更多信息,请参考: Kubernetes v1.19.0 Release
great security risks. It is recommended that the AK and SK be stored in ciphertext in configuration files or environment variables and decrypted
工作负载异常问题排查 工作负载状态异常定位方法 工作负载异常:实例调度失败 工作负载异常:实例拉取镜像失败 工作负载异常:启动容器失败 工作负载异常:实例驱逐异常(Evicted) 工作负载异常:存储卷无法挂载或挂载超时 工作负载异常:一直处于创建中 工作负载异常:Pod一直处于Terminating状态
Sock文件。该文件影响Euler操作系统下的容器运行时启动。 解决方案 问题场景:节点使用的docker为定制的Euler-docker而非社区的docker 登录相关节点。 执行rpm -qa | grep docker | grep euleros命令,如果结果不为空,说明节点上使用的docker为Euler-docker。
U驱动卸载。 关闭:无法根据用户诉求指定驱动版本,无法依靠插件进行驱动维护。当不开启驱动选择时,如从控制台创建NPU节点,控制台会自动补充NPU驱动(用户无法指定版本和类型)安装命令,并在安装完成后自动重启节点;如通过API或其他方式创建节点则需要用户在“安装后执行脚本”中添加驱动安装命令。
4.41)支持使用量监控。 极速文件存储类型的PVC支持使用量监控(包括子目录场景,但子目录PVC采集到的使用量和容量与SFS Turbo实例的使用量和容量一致)。 挂载到普通容器的PVC支持采集使用量及inodes数据,挂载至安全容器PVC不支持。 指标说明 PVC视图暴露的指标如下:
NPD插件版本过低导致进程资源残留问题 模板格式不正确,无法删除模板实例? CCE是否支持nginx-ingress? 插件安装失败,提示The release name is already exist如何解决? 创建或升级实例失败,提示rendered manifests contain