检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CCE AI套件(NVIDIA GPU)版本发布记录 表1 CCE AI套件(NVIDIA GPU)版本记录 插件版本 支持的集群版本 更新特性 2.7.19 v1.28 v1.29 v1.30 修复nvidia-container-toolkit CVE-2024-0132容器逃逸漏洞
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
功能介绍 集群休眠用于将运行中的集群置于休眠状态,休眠后,将不再收取控制节点资源费用。 接口约束 1、集群休眠后,将无法在此集群上创建和管理工作负载等资源。 2、按需付费集群休眠后,将暂停收取控制节点资源费用,集群所属的节点、绑定的弹性IP、带宽等资源按各自的计费方式(“包年/包月”或“按需付费”)进行收费。
25引入了对kubelet所管理的新的Pod状况PodHasNetwork的Alpha支持, 该状况位于Pod的status字段中 。详情请参见Pod网络就绪。 应用滚动上线所用的两个特性进入稳定阶段 在Kubernetes 1.25版本,StatefulSet的minReadySeco
域名:实际访问的域名地址,不配置时可通过IP地址访问Ingress。请确保所填写的域名已注册并备案,一旦配置了域名规则后,必须使用域名访问。 路径匹配规则:支持前缀匹配、精确匹配、正则匹配,请按需选择。 路径:后端应用对外提供访问的路径,此处添加的访问路径要求后端应用内存在相同的路径,否则转发无法生效。
在集群中移除节点会将该节点移出集群,然后重装节点的操作系统,并清理节点上的CCE组件。 移除不会删除节点对应的服务器。移除前请确认您的正常业务运行不受影响,请谨慎操作。 节点移出集群后会继续开机运行,并继续产生费用。 约束限制 若节点在CCE集群移除后重装操作系统失败,请手动完成失败节点的操作系统重装,并在重
推荐使用滚动的方式迁移,即扩容部分Containerd节点,再删除部分Docker节点,直至新的Containerd节点池中节点数量和原Docker节点池中节点数量一致。 若您在原有Docker节点或节点池上部署的负载设置了对应的节点亲和性,则需要将负载的节点亲和性策略配置为的新Containerd节点或节点池。
绑定EIP的Pod,如果要被公网成功访问,需要添加放通相应请求流量的安全组规则。 单个Pod只能绑定单个EIP。 创建Pod时,可指定相关的annotation配置EIP的属性,创建完成后,更新EIP相关的annotation均无效。 与Pod关联的EIP不要通过弹性公网IP的con
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
small表示小规模单控制节点的专属云CCE集群(最大50节点)。 small:表示集群支持管理的最大节点规模为50节点。 medium:表示集群支持管理的最大节点规模为200节点。 large:表示集群支持管理的最大节点规模为1000节点。 xlarge:表示集群支持管理的最大节点规模为2000节点。
关于更多关于流水线脚本的语法请参考Pipeline。 示例脚本中的部分参数需要修改: git_url:您代码仓库的地址,需要替换为实际取值。 swr_login:登录命令为获取长期的docker login命令获取的命令。 swr_region:SWR的区域。 organization:SWR中的实际组织名称。
为ELB Ingress配置自定义Header转发策略 独享型ELB的Ingress支持自定义Header的转发策略,可通过不同的Header键值来确定转发的后端Service。 前提条件 已创建一个CCE Standard或CCE Turbo集群,且集群版本满足以下要求: v1
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
Println(err) } } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 202 表示节点池伸缩已经被接受,节点池将根据伸缩后的节点池期望节点数增加或者删除节点池中的节点 错误码 请参见错误码。 父主题:
业务上报nvidia版本和cuda版本不匹配? 容器中查看cuda的版本,执行如下命令: cat /usr/local/cuda/version.txt 然后查看容器所在节点的nvidia驱动版本支持的cuda版本范围,是否包含容器中的cuda版本。 相关链接 工作负载异常:GPU节点部署服务报错
创建GPU类型节点,具体请参见创建节点。 集群中需要安装GPU插件,且安装时注意要选择节点上GPU型号对应的驱动,具体请参见CCE AI套件(NVIDIA GPU)。 在v1.27及以下的集群中使用默认GPU调度能力时,GPU插件会把驱动的目录挂载到/usr/local/nvidia/lib64,在容器中使用GP
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
使用Ubuntu 22.04或Huawei Cloud EulerOS 2.0操作系统的节点上不存在此问题,CentOS/Ubuntu18.04/EulerOS 2.5/EulerOS 2.9(低版本内核)/Huawei Cloud EulerOS 1.1操作系统则存在此问题。