检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
容器中查看cuda的版本,执行如下命令: cat /usr/local/cuda/version.txt 然后查看容器所在节点的nvidia驱动版本支持的cuda版本范围,是否包含容器中的cuda版本。 相关链接 工作负载异常:GPU节点部署服务报错 父主题: 节点运行
程度,具体请参见监控概述。您可以在CCE控制台从集群、节点、工作负载等维度查看这些监控指标数据,也可以在AOM中查看。 自定义指标 CCE支持采集应用程序中的自定义指标并上传到AOM,为您提供个性化的监控服务。您可以根据特定业务需求,扩展监控指标范围,具体使用方法请参见自定义监控。
在开始使用之前,请确保您安装的是最新版本的SDK。使用过时的版本可能会导致兼容性问题或无法使用最新功能。您可以在SDK中心查询版本信息。 表1提供了各个CCE服务支持的SDK列表,您可以在GitHub仓库查看SDK更新历史、获取安装包以及查看指导文档。 表1 SDK列表 编程语言 Github地址 参考文档
如果您的Kubernetes集群中独立部署了Kubernetes Dashboard v1.10及之前版本(v1.7.0-v1.10.0),同时支持登录功能且使用了自定义证书。 漏洞修复方案 华为云CCE提供的Dashboard插件已将对应镜像升级到v1.10.1版本,不受Kubernetes
资源售罄、配额不足、竞价过低等场景将可能导致实际节点数未达到预期。短时异常恢复后CCE将会持续重试直至满足预期。 伸缩组启用后:创建节点池时,仅允许指定默认伸缩组期望节点数,不支持扩展伸缩组 父主题: 节点池
Ingress中配置的全局会话保持可以被服务中的会话保持模式覆盖。 会话保持配置参数 监听器的会话保持模式为HTTP_COOKIE时,支持配置会话保持时间 参数名 取值范围 默认值 是否允许修改 作用范围 k8s annotation: kubernetes.io/elb.s
ost-upgrade-check工作负载并单击“更多>删除”,删除该测试用工作负载。 解决方案 若Pod无法新建,或状态异常,请联系技术支持人员,并说明异常发生的范围为新建节点还是存量节点。 父主题: 升级后验证
工作负载异常:一直处于创建中 问题描述 节点上的工作负载一直处于创建中。 排查思路 以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往低频率原因排查,从而帮助您快速找到问题的原因。 如果解决完某个可能原因仍未解决问题,请继续排查其他可能原因。 排查项一:cce-pause镜像是否被误删除
节点sock文件挂载检查异常处理 检查项内容 检查节点上的Pod是否直接挂载docker/containerd.sock文件。升级过程中Docker/Containerd将会重启,宿主机sock文件发生变化,但是容器内的sock文件不会随之变化,二者不匹配,导致您的业务无法访问D
小权限原则,只给予受信用户创建及管理Ingress的权限。 社区已发布nginx-ingress v1.11.2版本修复该漏洞,但该版本仅支持 Kubernetes >= 1.26 ,因此若CCE集群版本低于v1.27,请先升级集群版本。 相关链接 社区已经发布版本修复:https://github
容器与节点时区同步 案例场景 场景一:容器与节点时区同步 场景二:容器、容器日志与节点时区同步 场景三:工作负载与节点时区同步 场景一:容器与节点时区同步 登录CCE控制台。 在创建工作负载基本信息页面,开启“时区同步”,即容器与节点使用相同时区。 图1 开启时区同步 登录节点进入容器查询容器时区是否与节点保持一致。
产品变更公告 2024/04/26 15 1.23版本集群停止维护公告 集群版本公告 2024/04/25 16 关于CCE集群Docker支持策略公告 产品变更公告 2024/02/19 17 runc漏洞(CVE-2024-21626)对CCE服务的影响说明 漏洞公告 2024/02/01
约束限制: 不涉及 取值范围: 不涉及 targetVersion String 参数解释: 当前集群版本 约束限制: 不涉及 取值范围: CCE支持的集群版本 表7 status 参数 参数类型 描述 phase String 状态,取值如下 Success 成功 Failed 失败 Error
5db6b4f7-bv74t | grep 'updating Ingress status' 若通过上述两种方式仍然无法确认,请联系技术支持人员。 解决方案 为Nginx类型的Ingress添加注解,方式如下: kubectl annotate ingress <ingress-name>
管理节点标签 节点标签可以给节点打上不同的标签,给节点定义不同的属性,通过这些标签可以快速的了解各个节点的特点。 节点标签使用场景 节点标签的主要使用场景有两类。 节点管理:通过节点标签管理节点,给节点分类。 工作负载与节点的亲和与反亲和:通过为节点添加标签,您可以使用节点亲和性
授权方式:监控中心页面自动弹出“确认授权”页面,用户单击“确认授权”按钮后系统自动完成授权。所授予的权限类型请参考云原生观测委托权限说明。 约束与限制 集群版本仅支持v1.17及以上。 使用监控中心前,用户需要使用具有admin用户组的账户完成对CCE及其依赖服务的委托授权。授权完成后,拥有CCE Administrator角色或CCE
Prometheus Server视图 Prometheus本地数据存储模式可以收集有关主机和应用程序的指标数据并存储在集群中,监控数据可以选择上报并存储到AOM或三方监控平台。Prometheus Server视图展示了Prometheus提供的一些内置指标,可用于监控和度量系统的性能和状态。
命名空间基础配置 命名空间名称 参数名 取值范围 默认值 是否允许修改 作用范围 name 1-63个字符,可包含小写英文字母,数字和中划线,并以小写字母开头,小写英文字母或数字结尾 无 允许 CCE Standard/CCE Turbo 命名空间(Namespace) 提供一种
工作负载异常:添加存储失败 问题现象 实例一直处于创建中,事件中存在“添加存储失败”的告警,事件信息如下所示: AttachVolume.Attach failed for volume "pvc-***" : rpc error: code = Internal desc = [***][disk
集群安装nginx-ingress插件失败,一直处于创建中? 问题背景 客户已经购买并搭建了CCE集群,希望在公网上可以访问到CCE上部署的应用服务,目前最高效的方式是在ingress资源上注册该应用的Service路径,从而满足要求。 但客户安装ingress插件后,插件状态一