检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
业务上报nvidia版本和cuda版本不匹配? 容器中查看cuda的版本,执行如下命令: cat /usr/local/cuda/version.txt 然后查看容器所在节点的nvidia驱动版本支持的cuda版本范围,是否包含容器中的cuda版本。 相关链接 工作负载异常:GPU节点部署服务报错
10以上集群版本 支持的运行时类型 仅支持普通容器(容器运行时为runC),不支持安全容器(容器运行时为Kata) 支持的Pod类型 仅支持非HostNetwork类型Pod 支持的场景 支持Pod间互访、Pod访问Node、Pod访问Service的场景限速 限制的场景 无 无 不支持Pod访问100
单击“安装”,安装插件的任务即可提交成功。 创建GPU节点。 在左侧菜单栏选择“节点管理”,单击右上角“创建节点”,在弹出的页面中配置节点的参数。 选择一个“GPU加速型”的节点规格,其余参数请根据实际需求填写,详情请参见创建节点。 完成配置后,单击“下一步:规格确认”,确认所设置的服务选型参
userDefinedStep 否 Integer 参数解释: 每批升级的最大节点数量。升级时节点池之间会依次进行升级。节点池内的节点分批升级,第一批升级1个节点,第二批升级2个节点,后续每批升级节点数以2的幂数增加,直到达到您设置的每批最大升级节点数,并会持续作用在下一个节点池中 约束限制:
命令中的yaml名称是示例,请以实际步骤2和步骤3创建的pv和pvc的yaml名字为准。 通过kubectl edit的方式修改有状态应使用新建的PVC。 kubectl edit sts sts-example -n xxx 命令中的sts-example为待升级的有状态应用的名称,请以实际为准。xxx指代有状态应用所在的命名空间。
建议您在任何情况下设置CoreDNS副本数应至少为2,且副本数维持在一个合适的水位以承载整个集群的解析。CCE集群安装CoreDNS插件的默认实例数为2。 CoreDNS使用资源的规格与解析能力相关,修改CoreDNS副本数量、CPU/内存的大小会对影响解析性能,请经过评估后再做修改。 CoreDN
io/ingress-bandwidth Pod的入口带宽 具体使用请参见为Pod配置QoS。 - kubernetes.io/egress-bandwidth Pod的出口带宽 具体使用请参见为Pod配置QoS。 - Pod标签 在控制台创建工作负载时,会默认为Pod添加如下标签,其中app的值为工作负载名称。
最合适的方案进行迁移。 云原生监控插件支持无本地存储的轻量化模式(推荐)和基于本地存储的传统模式。 无本地存储的轻量化模式指标数据存储于AOM,您的Grafana等应用需要对接至AOM。该模式集群内资源占用非常低,可以显著节省您的计算和存储成本,AOM服务按照上报的指标量进行计费
可以通过查询规格列表获取所有支持的类型。 弹性规格:适用于业务用量波动较大的场景,按实际使用量收取每小时使用的容量费用。v1.21.10-r10、v1.23.8-r10、v1.25.3-r10及以上版本集群支持使用弹性规格。 固定规格:适用于业务用量较为稳定的场景,按固定规格折算收取每小时使用的容量费用。
2024-09-26 漏洞影响 在NVIDIA Container Toolkit v1.16.1及更早版本的环境中,攻击者通过运行一个恶意镜像,可能实现容器逃逸,从而获得主机系统的访问权限。成功利用此漏洞可能会导致代码执行、拒绝服务、权限提升、信息泄露和数据篡改。 判断方法 如果集群未安装CCE
EulerOS 2.0 x86的节点上,非Huawei Cloud EulerOS 2.0 x86的节点不会部署agent。 默认节点池不支持修改混部配置。 云原生混部配置 云原生混部以节点池粒度进行管理,您需要在节点池打开混部开关并进行混部配置。默认的混部配置,会启用混部所有能力
绑定EIP的Pod,如果要被公网成功访问,需要添加放通相应请求流量的安全组规则。 单个Pod只能绑定单个EIP。 创建Pod时,可指定相关的annotation配置EIP的属性,创建完成后,更新EIP相关的annotation均无效。 与Pod关联的EIP不要通过弹性公网IP的con
用健康检查失败并频繁重启。 升级前检查您使用了exec probe的应用的probe timeouts是否合理。 CCE的v1.19及以上版本的kube-apiserver要求客户侧webhook server的证书必须配置Subject Alternative Names (S
亲和策略的节点,否则插件实例将无法运行。 容忍策略 容忍策略与节点的污点能力配合使用,允许(不强制)插件的 Deployment 实例调度到带有与之匹配的污点的节点上,也可用于控制插件的 Deployment 实例所在的节点被标记污点后插件的 Deployment 实例的驱逐策略。
CCEGroup 上述示例为kube-system空间下的CoreDNS设置一条名为“CoreDNS内存使用率超过百分之八十”的告警规则,告警等级为紧急。当内存使用率的最大值大于80%,且持续了1分钟时,给联系组CCEGroup内的所有告警联系人发送通知 (通知方式为短信或邮件)。
69之前或2.1.11之前的版本时,使用子目录功能时不能同时并发创建超过10个PVC。推荐使用everest 1.2.69及以上或2.1.11及以上的版本。 subpath类型的卷实际为SFS Turbo的子目录,对该类型的PVC进行扩容仅会调整PVC声明的资源范围,并不会调整SFS
69之前或2.1.11之前的版本时,使用子目录功能时不能同时并发创建超过10个PVC。推荐使用everest 1.2.69及以上或2.1.11及以上的版本。 subpath类型的卷实际为SFS Turbo的子目录,对该类型的PVC进行扩容仅会调整PVC声明的资源范围,并不会调整SFS
于本地存储了数据的机制,导致prometheus-server实例滚动重启的这段时间里指标重叠,即云原生监控插件上报到AOM的指标同时存在新老prometheus-server实例的指标,因而导致节点列表的资源信息不准确。故在指标重叠的这段时间内,不展示节点列表的资源信息。若无特
PreCheckTask spec 是 PrecheckSpec object 参数解释: spec是集合类的元素类型,您对需要升级前检查的配置信息的主体部分都在spec中给出。CCE通过spec的描述来执行检查。 约束限制: 不涉及 表3 PrecheckSpec 参数 是否必选 参数类型 描述
bind,如何排查? 登录CCE控制台,进入集群,在左侧导航栏选择“服务发现”。 在service列表里确认此服务是否有关联的工作负载,或关联的工作负载的相关实例是否正常。 父主题: 网络异常问题排查