检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
容器id 业务上报nvidia版本和cuda版本不匹配? 容器中查看cuda的版本,执行如下命令: cat /usr/local/cuda/version.txt 然后查看容器所在节点的nvidia驱动版本支持的cuda版本范围,是否包含容器中的cuda版本。 相关链接 工作负载异常:GPU节点部署服务报错
在左侧选择“节点管理”,切换至“节点”页签,单击“故障检测策略”。 在跳转的页面中查看当前检查项配置,单击检查项操作列的“编辑”,自定义检查项配置。 当前支持以下配置: 启用/停用:自定义某个检查项的开启或关闭。 目标节点配置:检查项默认运行在全部节点,用户可根据特殊场景需要自
控制台上修改的配置均存在被覆盖的风险。 解决方案 建议您使用Annotation配置负载均衡类型的服务对应的ELB。关于注解配置方式的更多信息,请参见使用Annotation配置负载均衡类型的服务。 请勿在ELB控制台上手动修改Kubernetes创建并维护的ELB的任何配置,否
VPA对Pod资源进行动态更新时,会导致Pod的重建,重建的Pod可能会调度到一个新的节点上,且VPA无法保证重建的Pod调度成功。 只有由副本控制管理器(例如Deployment、StatefulSet等)管理的Pod才会进行资源动态更新,独立运行的Pod不支持资源动态更新。 目前VPA不能和监控CPU和内存度量的Horizontal
# 访问Service的端口 protocol: TCP # 访问Service的协议,支持TCP和UDP targetPort: 80 # Service访问目标容器的端口,此端口与容器中运行的应用强相关,如本例中nginx镜像默认使用80端口
期望运行在同一物理CPU的超线程 如果您的应用有以上其中一个特点,可以利用Kubernetes中提供的CPU管理策略为应用分配独占的CPU核(即CPU绑核),提升应用性能,减少应用的调度延迟。CPU manager会优先在一个Socket上分配资源,也会优先分配完整的物理核,避免一些干扰。
该API用于获取任务信息。通过某一任务请求下发后返回的jobID来查询指定任务的进度。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径 该接口通常使用场景为: 创建、删除集群时,查询相应任务的进度。 创建、删除节点时,查询相应任务的进度。 调用方法 请参见如何调用API。
当前仅北京一、北京四、上海一、上海二、广州、贵阳一和乌兰察布一支持使用CloudShell登录容器。 登录CCE控制台,单击集群名称进入集群。 在左侧选择“工作负载”,单击目标工作负载名称,查看工作负载的实例列表。 单击目标实例操作列中的“更多 > 远程登录”。 图1 登录容器 在弹出窗口中选择要登录的容器以及命令,然后单击“确定”。
目标服务名称:请选择已有Service或新建Service。页面列表中的查询结果已自动过滤不符合要求的Service。 目标服务访问端口:可选择目标Service的访问端口。 执行动作 动作:选择“重定向至URL”,当访问请求满足转发策略时,会将请求重定向至指定的URL,并返回指定的状态码。 URL:以 "http://"
该错误表示IAM用户没有编程访问权限。 解决方案 请联系主账号管理员,登录统一身份认证服务。 找到需要修改的IAM用户,单击用户名称。 修改“访问方式”,同时勾选“编程访问”和“管理控制台访问”。 图1 修改IAM用户访问方式 单击“确定”。 父主题: 权限
于端口复用的连接,IPVS不会主动进行新的调度,也并不会触发结束连接或DROP操作,新连接的数据包会被直接转发到之前使用的后端pod。如果此时后端pod已经被删除或重建就会出现异常,根据当前的实现逻辑,高并发访问Service场景下,不断有端口复用的连接请求发来,旧的转发连接不会
同可用区的节点上,避免单可用区故障。 CoreDNS所运行的集群节点应避免CPU、内存用满的情况,否则会影响域名解析的QPS和响应延迟。建议您使用插件自定义参数完成CoreDNS隔离部署。 使用自定义参数完成CoreDNS隔离部署 建议CoreDNS插件与资源使用率高的负载隔离部
不建议修改,请自行恢复。 通过ELB的控制台解绑ELB的IPv4公网IP 解绑公网IP后,该弹性负载均衡器变更为私网类型,无法进行公网流量转发。 请自行恢复。 通过ELB的控制台在CCE管理的ELB创建自定义的监听器 若ELB是创建Service/Ingress时自动创建的,在Service/I
轮转时间间隔表示向云凭据管理服务发起请求并获取最新的凭据的周期,合理的时间间隔范围为[1m, 1440m],默认值为2m。 单击“安装”。 待插件安装完成后,选择对应的集群,然后单击左侧导航栏的“插件中心”,可在“已安装插件”页签中查看相应的插件。 组件说明 表1 dew-provider组件
找到目标节点,单击节点后的“更多 > 节点排水”。 在弹出的“节点排水”窗口中,进行排水设置。 超时时间(秒):超过设定的时间后排水任务会自动失败,0表示不设置超时时间。 强制排水:使用强制排水时,将忽略DaemonSet管理的Pod,但会删除挂载了emptyDir卷的Pod和不受contr
Kubelet 使用的文件系统的可用inodes数的百分比 默认5% 取值范围为1%~99% imagefs.available 容器运行时存放镜像等资源的文件系统的可用容量的百分比 默认10% 取值范围为1%~99% imagefs.inodesFree 容器运行时存放镜像等资源的文件系统的可用inodes数的百分比
Prometheus插件版本发布记录(停止维护) 表1 Prometheus插件版本记录 插件版本 支持的集群版本 更新特性 社区版本 2.23.32 v1.17 v1.19 v1.21 - 2.10.0 2.23.31 v1.15 适配CCE v1.15集群 2.10.0 2.23
根据PDB规则保障关键业务的可用性。 节点的系统盘和数据盘将会被清空,重置前请事先备份重要数据。 节点重置会清除用户单独添加的K8S标签和K8S污点,可能导致与节点有绑定关系的资源(本地存储,指定调度节点的负载等)无法正常使用。请谨慎操作,避免对运行中的业务造成影响。 升级操作完成后,节点将会自动开机。
单击“安装”,安装插件的任务即可提交成功。 创建GPU节点。 在左侧菜单栏选择“节点管理”,单击右上角“创建节点”,在弹出的页面中配置节点的参数。 选择一个“GPU加速型”的节点规格,其余参数请根据实际需求填写,详情请参见创建节点。 完成配置后,单击“下一步:规格确认”,确认所设置的服务选型参
CCE节点故障检测插件(node-problem-detector,简称NPD)是一款监控集群节点异常事件的插件,以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序,可从不同的守护进程中搜集节点问题并将其报告给apiserver。node-problem-detector可以作为DaemonSet运行,