检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
图1 设置工作负载基本信息 容器配置 在基本信息中单击“选择镜像”,在弹出的窗口中选择“镜像中心”,并搜索“wordpress”,选择wordpress镜像,并设置镜像版本为“php7.3”。
由于安装Kubeflow需要从github下载文件,从gcr.io等下载镜像,建议在华为云国际站创建集群,否则容易碰到较多网络问题。 节点上绑定了EIP,并配置了kubectl命令行工具,详情请参见通过kubectl连接集群。
在容器使用场景下,GPU驱动是安装在节点上的,而CUDA Toolkit一般会在应用程序的容器镜像构建时预安装,或者可直接使用Nvidia官方已预装CUDA Toolkit的基础镜像构建应用容器镜像。GPU驱动和CUDA Toolkit版本需要配套才可以正常使用GPU资源。
公共镜像:请选择节点对应的操作系统。 私有镜像:支持使用私有镜像,私有镜像制作方法具体请参见制作CCE节点自定义镜像。 说明: 由于业务容器运行时共享节点的内核及底层调用,为保证兼容性,建议节点的操作系统选择与最终业务容器镜像相同或接近的Linux发行版本。
单击“下一步:规格确认”,确认已阅读并知晓华为云的云容器引擎服务声明。 单击“提交”。 相关操作 节点池创建完成后节点总数默认为0,您需要手动选择规格扩容节点数,详情请参见扩缩容节点池。 父主题: 节点池
Devicemapper:单独划分了thinpool存储镜像相关数据。执行以下代码,查看容器容量是否扩容成功。
在客户端,您可以通过优化域名解析请求来降低解析延迟,通过使用合适的容器镜像、节点DNS缓存NodeLocal DNSCache等方式来减少解析异常。
漏洞修复方案 在完成漏洞修复前,避免在集群中运行不可信的容器镜像。 CCE已发布新版本插件修复该漏洞,请关注CCE AI套件(NVIDIA GPU)版本发布记录。
方案一:清理镜像 您可以执行以下步骤清理未使用的镜像: 使用containerd容器引擎的节点: 查看节点上的本地镜像。 crictl images -v 确认镜像无需使用,并通过镜像ID删除无需使用的镜像。
在发布修复的OS镜像后,新建集群、节点默认修复该漏洞,存量节点可通过重置节点修复。若集群版本已经EOS,需先升级集群版本。
重新拉取镜像失败 请参考工作负载异常:实例拉取镜像失败 CreateContainerError CrashLoopBackOff 启动容器失败 重新启动容器失败 请参考工作负载异常:启动容器失败 Evicted 实例状态为“Evicted”,pod不断被驱逐 请参考工作负载异常
节点规格:4核 | 16GiB 操作系统:Huawei Cloud EulerOS 2.0 弹性公网IP:为节点自动创建EIP,可访问公网拉取镜像。 CCE集群 本示例中共有2个CCE集群,包括测试集群和生产集群。 关键配置如下,非关键配置可根据需求自行设置或设为默认值。
这些操作,可以在制作镜像时通过在Dockerfile文件中设置ENTRYPOINT或CMD来完成,如下所示的Dockerfile中设置了ENTRYPOINT ["top", "-b"]命令,其将会在容器启动时执行。
CCE集群受该漏洞影响的范围如下: x86场景EulerOS 2.5和CentOS镜像不受该漏洞影响。 内核版本小于4.19.36-vhulk1907.1.0.h962.eulerosv2r8.aarch64的EulerOS arm版本。
tag,一般与device_version相同 swr_addr 是 String 镜像仓库地址 swr_user 是 String 镜像仓库租户路径 表3 flavor 参数 是否必选 参数类型 描述 description 否 String 插件相关的描述信息 name 是 String
公共镜像:请选择节点对应的操作系统。 私有镜像:支持使用私有镜像,私有镜像制作方法具体请参见制作CCE节点自定义镜像。 说明: 由于业务容器运行时共享节点的内核及底层调用,为保证兼容性,建议节点的操作系统选择与最终业务容器镜像相同或接近的Linux发行版本。
集群支持华为云自研的Huawei Cloud EulerOS 2.0操作系统。 CCE集群支持选择Containerd容器运行时。 CCE Turbo集群在离线混部增强:支持CPU潮汐亲和性。 优化升级控制节点ETCD版本至社区版本3.5.6。
tag,一般与device_version相同 obs_url 是 String 当从默认驱动地址中下载GPU驱动时,该值为GPU的驱动地址 swr_addr 是 String 镜像仓库地址 swr_user 是 String 镜像仓库租户路径 表3 custom 参数 是否必选
问题场景二:cce-pause版本异常 检测到当前kubelet依赖的pause容器镜像版本非cce-pause:3.1,继续升级将会导致批量Pod重启,当前暂不支持升级,请联系技术支持人员。 父主题: 升级前检查异常问题排查
集群支持华为云自研的Huawei Cloud EulerOS 2.0操作系统。 CCE集群支持选择Containerd容器运行时。 CCE Turbo集群在离线混部增强:支持CPU潮汐亲和性。 优化升级控制节点ETCD版本至社区版本3.5.6。