检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点NetworkManager检查异常处理 检查项内容 检查节点上的NetworkManager状态是否正常。 解决方案 请登录该节点,执行systemctl is-active NetworkManager命令查询NetworkManager服务运行状态。若回显状态异常,请执行systemctl
) 默认取值: 不涉及 X-Auth-Token 是 String 参数解释: 调用接口的认证方式分为Token和AK/SK两种,如果您使用的Token方式,此参数为必填,请填写Token的值,获取方式请参见获取token。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及
在处理的请求的连接。如果后端服务Pod在收到结束信号后立即退出,可能会导致正在处理的请求失败或部分流量仍被转发到已经退出的Pod中,导致部分流量损失。为了避免这种情况,建议在后端服务的Pod中配置preStop Hook,在Pod被移除后继续工作一段时间,以解决流量中断的问题。 工作负载配置示例如下:
metadata是集群对象的元数据定义,是集合类的元素类型,包含一组由不同名称定义的属性。 spec 是 PersistentVolumeClaimSpec object spec是集合类的元素类型,用户对需要管理的集群对象进行详细描述的主体部分都在spec中给出。系统通过spec的描述来创建或更新对象。
模板包信息 name 参数名 取值范围 默认值 是否允许修改 作用范围 name 无 无 支持初始化时配置,不支持后续修改 - 模板名称 version 参数名 取值范围 默认值 是否允许修改 作用范围 version 无 无 上传新版本后更新 - 模板版本 description
亲和策略的节点,否则插件实例将无法运行。 容忍策略 容忍策略与节点的污点能力配合使用,允许(不强制)插件的 Deployment 实例调度到带有与之匹配的污点的节点上,也可用于控制插件的 Deployment 实例所在的节点被标记污点后插件的 Deployment 实例的驱逐策略。
40及以上版本集成,其他版本不支持。 启用DCGM-Exporter组件后,采集的GPU监控数据如需上报AOM服务,请在云原生监控插件中开启“上报至AOM服务”开关。对于上报至AOM服务的GPU指标属于自定义指标,将进行按需收费,详情请参见价格详情。 设置插件支持的其他参数配置,单击“安装”。参数配置详情请参见CCE
Kubeflow在调度环境使用的是Kubernetes的默认调度器。而Kubernetes默认调度器最初主要是为长期运行的服务设计的,对于AI、大数据等批量和弹性调度方面还有很多的不足。主要存在以下问题: 资源争抢问题 TensorFlow的作业包含Ps和Worker两种不同的角色,这两种角色的Pod要
找到需要转包年/包月的集群,查看集群的更多操作,并单击“转包年包月”。 在转包年包月页面中,选择需要转包年/包月的集群,您也可以同时选择需要转包年/包月的节点。 图1 按需集群转包年/包月 单击“确定”,等待生成订单并完成支付即可。 按需节点转包年/包月 按需计费节点绑定的资源(云硬盘、
用于服务账户令牌的身份验证组件,会验证API请求中使用的令牌是否指定了合法的受众。 配置建议:根据集群服务间通信的需求,精确配置受众列表。此举确保服务账户令牌仅在授权的服务间进行认证使用,提升安全性。 说明: 不正确的配置可能导致服务间认证通信失败,或令牌的验证过程出现错误。
检查集群内节点是否Ready。 解决方案 问题场景一:节点状态显示不可用 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”,筛选出状态不可用的节点后,请参照控制台提供的“修复建议”修复该节点后重试检查。 问题场景二:节点状态与实际不符 节点状态与实际不符可能存在两种情况: 控制台“节点管理”处
操作系统:该项无需设置,用于展示目标版本的镜像信息。 同步方式:当前支持节点重置方式进行同步。 每批最大同步节点数:节点升级时,允许节点不可用的最大数量。节点重置方式进行同步时节点将不可用,请合理设置该参数,尽量避免出现集群节点不可用数量过多导致Pod无法调度的情况。 节点列表:选择需要同步节点池配置的节点。 单击“确定”,即可开始节点池的同步。
如果您出现以上集群过载的情况,您也可以提交工单以获取技术支持。 排查项三:集群Secret落盘加密使用的KMS密钥是否有效 问题现象 当出现集群不可用,您可以查看集群事件确认异常原因。 当集群事件中存在“KMS密钥状态异常”时,您需要确认该集群对应的使用的密钥状态是否被设置为“禁用”或“计划删除”。
检查到本次升级涉及GPU插件,可能影响新建GPU节点时GPU驱动的安装。 解决方案 由于当前GPU插件的驱动配置由您自行配置,需要您验证两者的兼容性。建议您在测试环境验证安装升级目标版本的GPU插件,并配置当前GPU驱动后,测试创建节点是否正常使用。 您可以执行以下步骤确认GPU插件的升级目标版本与当前驱动配置。
返回一个资源特征与地址的列表用于用户终端(例如:浏览器)选择。 301 Moved Permanently 永久移动,请求的资源已被永久的移动到新的URI,返回信息会包括新的URI。 302 Found 资源被临时移动。 303 See Other 查看其它地址。 使用GET和POST请求查看。
e_timeout时长一直没有请求, 负载均衡会暂时中断当前连接,直到下一次请求时重新建立新的连接。 配置建议: 取值范围为10-4000,单位为s。默认值为300s UDP监听器不支持此字段 父主题: 服务
ndots:域名中必须出现的"."的个数。如果域名中的"."的个数不小于ndots,则该域名为一个全限定域名,操作系统会直接查询;如果域名中的"."的个数小于ndots,操作系统会在搜索域中进行查询。 域名解析服务器地址:即dnsConfig字段中的nameservers参数,您可对自定义的域名配置域名服务器,值为一个或一组DNS
y体大小等。 本文介绍在创建Nginx类型的Ingress时常用的Annotation。 注解的键值只能是字符串,其他类型(如布尔值或数值)必须使用引号,例如"true"、"false"、"100"。 Nginx Ingress支持社区的原生注解,详情请参考Annotations。
metadata PV名称 PV名称 参数名 取值范围 默认值 是否允许修改 作用范围 name 1-63字符 无 支持初始化时配置,不支持后续修改 - PV资源名称,指定后不允许修改 父主题: 存储卷
业务上报nvidia版本和cuda版本不匹配? 容器中查看cuda的版本,执行如下命令: cat /usr/local/cuda/version.txt 然后查看容器所在节点的nvidia驱动版本支持的cuda版本范围,是否包含容器中的cuda版本。 相关链接 工作负载异常:GPU节点部署服务报错