检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
以使用GPU实现计算加速功能。在使用GPU前,您需要根据GPU型号,选择兼容配套软件包并安装。 本文将介绍如何选择GPU节点的驱动版本及配套的CUDA Toolkit。 如何选择GPU节点驱动版本 一般情况下,使用GPU资源时您将会使用以下软件包,并且软件包版本需要保持配套: 驱
容器异常退出状态码 当容器启动失败或终止时,K8s事件中将会打印容器异常退出状态码(Exit Code)来报告容器异常的原因。本文将介绍如何通过事件中打印的Exit Code进一步定位容器异常的根本原因。 查看容器异常退出状态码 您可使用kubectl连接集群,并通过以下命令查询Pod详细状态:
是 String 参数解释: 项目ID,获取方式请参见如何获取接口URI中参数。 约束限制: 不涉及 取值范围: 账号的项目ID 默认取值: 不涉及 cluster_id 是 String 参数解释: 集群ID,获取方式请参见如何获取接口URI中参数。 约束限制: 不涉及 取值范围:
常见的导致集群过载的原因: 集群资源数据量过大 etcd和kube-apiserver是集群控制平面的两个核心组件,etcd是后台数据库,负责存储所有集群数据,而kube-apiserver则是控制平面的入口,负责处理请求。为了减轻etcd的负担,kube-apiserver缓
23起支持Containerd OverlayFS runC Huawei Cloud EulerOS 1.1 3.x Docker Containerd OverlayFS runC Huawei Cloud EulerOS 2.0 5.x Docker Containerd OverlayFS
设置对应的容器规格。 启动命令添加python /home/caffeEx00.py。 挂载刚刚导入的OBS存储盘: 单击“创建”。等待job执行完成,进入OBS存储盘的outputimg下,可以看到推理使用的图片。 登录在集群中添加GPU节点添加的节点,执行docker logs
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
节点运行 集群可用但节点状态为“不可用”如何解决? CCE集群中的节点无法远程登录,如何排查解决? 如何重置CCE集群中节点的密码? 如何收集CCE集群中节点的日志? 如何解决yum update升级操作系统导致的容器网络不可用问题? Node节点vdb盘受损,通过重置节点仍无法恢复节点?
节点干扰ContainerdSock检查异常处理 检查项内容 检查节点上是否存在干扰的Containerd.Sock文件。该文件影响Euler操作系统下的容器运行时启动。 解决方案 问题场景:节点使用的docker为定制的Euler-docker而非社区的docker 登录相关节点。
信息,并单击“提交”,开始创建节点。 待GPU节点创建完成后,可前往“节点列表”查看节点状态。 导入OBS存储卷 进入存储管理页面,导入OBS存储数据预置中创建的OBS存储卷。 父主题: 在CCE集群中部署使用Caffe
工作负载异常:实例驱逐异常(Evicted) 工作负载异常:存储卷无法挂载或挂载超时 工作负载异常:一直处于创建中 工作负载异常:Pod一直处于Terminating状态 工作负载异常:已停止 工作负载异常:GPU节点部署服务报错 工作负载异常:添加存储失败 工作负载异常:实例无法写入数据 工作负载异常:Init容器启动失败
start操作中99%的操作的时延分布情况 存储操作速率 次/秒 Kubelet每秒执行的存储相关操作的次数 存储操作错误率 次/秒 Kubelet每秒执行的存储相关操作失败的次数 存储操作时延(99分位) 秒 Kubelet执行存储操作中99%的操作的时延分布情况 控制组管理器操作速率
创建工作负载时支持选用不同可用区或节点 容灾部署 磁盘加密 CCE支持多种存储类型,满足各类高可用以及部分存储加密场景,可为您的数据提供强大的安全防护。 存储概览 集群密钥配置 密钥(Secret)是一种用于存储工作负载所需要认证信息、密钥的敏感信息等的集群资源类型,内容由用户决定。
标签对于系统运行,没有直接意义,也不用于存储结构化或复杂数据。因为,标签将建立索引和反索引,用于查询和监控。 配置建议: 用户可以使用Labels对service资源对象进行标识、组织和选择。标签对于系统运行,没有直接意义,也不用于存储结构化或复杂数据。因为,标签将建立索引和反索引,用于查询和监控。
服务发布到ELB,ELB的后端为何会被自动删除? 如何使容器重启后所在容器IP仍保持不变? 如何确认网卡不被集群占用? 删除子网后如何删除安全组规则? 不同命名空间下的Ingress共用监听器时如何同步生效的证书? 如何确认监听器配置生效的Ingress 父主题: 网络管理
Grafana插件参数配置 参数 参数说明 存储卷声明类型 安装Grafana需创建存储卷用于存储本地数据,卸载插件时Grafana的存储卷不会删除。 选择“云硬盘”类型时,需选择“云硬盘类型”,不同局点支持的云硬盘类型可能不同,请以控制台选择项为准。 创建云硬盘会收取存储费用,并占用云硬盘的配额。
外部请求经过代理服务器多层转发时,客户端源IP地址可能无法被成功传递至容器内的业务中。本文将针对CCE集群提供网络访问的不同方案,详细说明如何在容器内部有效地获取客户端源IP。 场景介绍 图1 容器中获取源IP 根据不同的网络设置,容器内获取客户端源IP的方法可能会有所不同。以下
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
云容器引擎CCE服务已通过等保三级认证,您可以在创建节点时进行安全加固,详情请参见如何进行安全加固。 但在您使用集群前,还需要充分理解云容器引擎的安全责任边界,华为云无法限制您在服务托管范围外的行为,您需要为这部分的行为承担安全责任。详情请参见责任共担。 如何进行安全加固 登录CCE控制台。 在左侧导航栏中选择
稳定性。 cadvisor GPU/NPU相关指标优化。 修复部分安全问题。 v1.23.5-r0 v1.23.11 容器存储支持对接SFS 3.0文件存储服务。 支持GPU节点的设备故障检测和隔离能力。 支持配置集群维度的自定义安全组。 CCE Turbo集群支持节点级别的网卡预热参数配置。