检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用其他方式申请显存,例如调用cudaMalloc()等。 受GPU虚拟化技术的限制,容器内应用程序初始化时,通过nvidia-smi监测工具监测到的实时算力可能超过容器可用的算力上限。 节点上开启了GPU虚拟化且有多张GPU卡时,如果GPU资源不足,不支持抢占其他Pod的GPU资源。
易导致容器存储空间不足,可以通过此方法来扩容。 解决方案 登录CCE控制台,单击集群列表中的集群名称。 在左侧导航栏中选择“节点管理”。 切换至“节点”页签,选择集群中的节点,单击操作列中的“更多 > 重置节点”。 重置节点操作可能导致与节点有绑定关系的资源(本地存储,指定调度节
何其他命名空间的ServiceMonitor和PodMonitor。 只支持无本地存储的模式。 开启后不支持关闭,可通过插件卸载安装的方式切换为正常模式。 暂不支持成本优化。 暂不支持在AOM页面进行指标废弃。 暂不支持在AOM页面进行ServiceMonitor和PodMonitor启停。
Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 200 表示获取指定节点池配置参数列表成功。 错误码 请参见错误码。 父主题: 配置管理
以恢复? 云硬盘EVS存储需要人工配置备份策略。如果卷被删除或者释放,可以使用云硬盘备份恢复数据。 详细请参见备份云硬盘。 父主题: 存储管理
节点无法连接互联网(公网),如何排查定位? 当节点无法连接互联网时,请参照如下方法排查。 排查项一:节点是否绑定弹性IP 登录ECS控制台,查看节点对应的弹性云服务器是否已绑定弹性IP。 若弹性IP一栏有IP地址,表示已绑定弹性IP。若没有,请为弹性云服务器绑定弹性IP。 图1 节点是否已绑定弹性IP
5ac100095的节点池配置管理异常。 nodepool id(master)表示集群配置管理异常。 问题场景一:节点池配置管理异常 修复节点池异常配置步骤如下: 登录CCE控制台,进入“节点管理”。 找到问题节点池,单击“更多”并选择“配置管理”。 选择“网络组件配置(eni
使用kubectl对接已有极速文件存储卷 使用kubectl部署带极速文件存储卷的无状态工作负载 使用kubectl部署带极速文件存储卷的有状态工作负载 父主题: 存储管理-Flexvolume(已弃用)
yaml 步骤三:对接第三方监控平台 登录CCE控制台,选择一个已安装云原生监控插件的集群,单击集群名称。 在左侧导航栏中选择“配置中心”,并切换至“监控运维配置”页签。 开启“对接第三方监控平台”,将云原生监控插件采集到的数据上报至第三方监控平台。 数据上报地址:即步骤一中获取的Remote
Pod能够互相通信,且Pod必须通过非NAT网络连接,即收到的数据包的源IP就是发送数据包Pod的IP。 节点之间可以在非NAT网络地址转换的情况下通信。 Pod通信 同一个节点中的Pod通信 Pod通过虚拟Ethernet接口对(Veth Pair)与外部通信,Veth Pa
通过容器服务实现了多租隔离,在同一台虚拟机上可以给多个企业部署系统。 升级 升级效率低。 版本升级时,需要逐台登录虚拟机手动配置升级,效率低且容易出错。 秒级升级。 通过更换镜像版本的方式,实现秒级升级。且CCE提供了滚动升级,使升级时业务不中断。 运维 运维成本高。 每给客户部署一套应用,就需要增加一台虚拟机
升效率。 制作镜像时,要求制作镜像的文件在同个目录下。 使用云服务 容器镜像服务SWR:是一种支持容器镜像全生命周期管理的服务, 提供简单易用、安全可靠的镜像管理功能,帮助用户快速部署容器化服务。 基本概念 镜像:Docker镜像是一个特殊的文件系统,除了提供容器运行时所需的程序
如何设置CCE集群中的VPC网段和子网网段? VPC中的子网网段一旦创建,便无法更改。创建虚拟私有云时,请预留一定的VPC网段和子网网段资源,避免后续无法扩容。 子网网段可在“创建虚拟私有云”页面的“子网配置 > 子网网段”中进行设置。在设置选项下可查看到“可用IP数”。 容器网
Nginx Ingress使用建议 Nginx型的Ingress在集群中部署NGINX Ingress控制器来对流量进行负载均衡及访问控制。由于NGINX Ingress控制器插件使用开源社区的模板与镜像,且部署在集群内部,因此它的稳定性与使用时的配置、当前集群状态密切相关。本文介绍Nginx
群版本重新计数。platformVersion格式为:cce.X.Y- X: 表示内部特性版本。集群版本中特性或者补丁修复,或者OS支持等变更场景。其值从1开始单调递增。- Y: 表示内部特性版本的补丁版本。仅用于特性版本上线后的软件包更新,不涉及其他修改。其值从0开始单调递增。
包,并且软件包版本需要保持配套: 驱动GPU工作的硬件驱动程序,如Tesla系列驱动。 上层应用程序所需要的库,如CUDA Toolkit工具包。 在容器使用场景下,GPU驱动是安装在节点上的,而CUDA Toolkit一般会在应用程序的容器镜像构建时预安装,或者可直接使用Nvidia官方已预装CUDA
file handle 问题根因 通用文件存储(SFS 3.0)在OS中的挂载点的属组及权限不支持修改,请勿执行此类操作。 父主题: 存储管理
形式。 调整集群管理规模 如果集群控制节点资源水位线持续高位,比如持续出现内存使用率大于85%,建议您及时扩大集群管理规模,避免突发流量导致集群过载,详情请参见变更集群规格。 集群管理规模越大,控制节点规格越高、性能也更佳。 CCE集群管理规模指的是集群支持管理的最大节点数,仅供
中出现“Liveness probe failed: Get http…”时,表示健康检查失败。 解决方案: 请在工作负载详情页中,切换至“容器管理”页签,核查容器的“健康检查”配置信息,排查健康检查策略是否合理或业务是否已异常。 排查项三:容器所在磁盘空间不足 如下磁盘为创建节
自建Kubernetes或使用开源容器引擎: 升级Docker到18.09.2版本,由于开源Docker在17.06之后的版本做了较大变更,涉及架构解耦重构,该办法可能会导致用户容器业务中断,建议做好充分验证,并按节点逐步滚动升级。 仅升级runc,对于17.06等Docke