检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
/proc/xgpu/{GPU卡序号}/meminfo,注意替换命令中的{GPU卡序号}为步骤2获取的GPU卡序号,观测GPU虚拟化的可用显存。 比较步骤2和步骤3的可用显存。 由于GPU厂商的驱动程序,本身就会占用一定量的物理显存,量级在300MB左右,这属于正常现象。例如Tesla T4配套510
AI套件(NVIDIA GPU)插件配置节点的驱动文件路径,节点重启后会自动安装驱动。您也可以手动更新驱动的方式进行更新。 手动更新GPU节点的驱动版本为临时方案,适用于需要对某个节点进行差异化配置的场景,但节点重启后将自动重置为GPU插件配置中指定的版本。 如果需要稳定升级GPU节点驱
在一个正常的node节点上,删除lv,删除vg,节点不可用。 重置异常节点,重置过程中,报语法错误,而且节点不可用。 如下图: 问题定位 node节点中vg被删除或者损坏无法识别,为了避免重置的时候误格式化用户的数据盘,需要先手动恢复vg,这样重置的时候就不会去格式化其余的数据盘。
开启驱动选择后,NPU插件启动时将自动根据对应机型的驱动配置安装驱动,驱动维护更灵活。推荐使用默认的驱动版本,您也可以选择“自定义驱动”并填写完整的驱动地址。 支持的NPU卡类型和对应的操作系统规格如下: NPU卡类型 支持的操作系统 D310 EulerOS 2.5 x86、CentOS
v1.21 v1.23 log-agent是基于开源fluent-bit和opentelemetry构建的云原生日志采集插件。log-agent支持基于CRD的日志采集策略,可以根据您配置的策略规则,对集群中的容器标准输出日志、容器文件日志、节点日志及K8s事件日志进行采集与转发。
部分端口为高危端口,默认被屏蔽,如21端口。 配置建议: 同集群的路由支持对接到相同的监听器 不同集群的路由不支持对接到相同的监听器;不支持对接到手动创建的监听器,会出现端口冲突的报错 安全策略 路由对接的监听器使用的安全策略 参数名 取值范围 默认值 是否允许修改 作用范围 k8s
进程 ID(PID)是节点上的一种基础资源,容易在尚未超出其它资源约束的时候触及进程ID数量上限,进而导致节点不稳定。 您可以根据实际业务需求调整进程ID数量上限。 默认kernel.pid_max说明 CCE在2022年1月底将1.17及以上集群的节点公共操作系统EulerOS
Kubernetes调度器可以发现集群中新创建且尚未被调度到节点上的Pod,并负责将未调度的Pod指派到一个合适的节点上运行。在同一个集群中可以使用多个不同的调度器,kube-scheduler调度器是Kubernetes社区提供的集群默认调度器,CCE同时还支持增强的Volcano调度器,提供了高性能任务
cker的支持。 解决方案 若您的节点池的运行时非containerd,您可通过更新节点池功能将节点池的运行时修改为containerd。 如果您仍想在1.27以上集群中创建并使用docker节点池,可跳过该告警,但推荐您尽快切换至containerd,它提供了更出色的用户体验和更强大的功能。
限制单个容器的主目录大小(默认为10GB),但节点上的所有容器还是共用节点的thinpool磁盘空间,并不是完全隔离,当一些容器使用大量thinpool空间且总和达到节点thinpool空间上限时,也会影响其他容器正常运行。 另外,在容器的主目录中创删文件后,其占用的thinpo
亲和策略的节点,否则插件实例将无法运行。 容忍策略 容忍策略与节点的污点能力配合使用,允许(不强制)插件的 Deployment 实例调度到带有与之匹配的污点的节点上,也可用于控制插件的 Deployment 实例所在的节点被标记污点后插件的 Deployment 实例的驱逐策略。
17集群配套插件版本记录 插件版本 支持的集群版本 更新特性 社区版本 1.17.27 v1.17 日志优化 bug修复,自动移除已删除的节点池 设置优先调度 修复刚扩容出的节点打污点会被覆盖的问题 修复停用节点伸缩策略时,低于缩容阈值的节点未触发缩容的问题 修改自定义规格的内存申请与限制 当没有
io/<MODE>-version: <VERSION> # audit和warn模式的作用主要在于提供相应信息供用户排查负载违反了哪些安全行为 命名空间的标签用来表示不同的模式所应用的安全策略级别,存在以下两种格式: pod-security.kubernetes.io/<MODE>:
I访问的路径。 表1 URL中的参数说明 参数 描述 {clusterid} 集群ID,创建集群后,调用获取指定项目下的集群接口获取。 Endpoint Web服务入口点的URL,可以从终端节点(Endpoint)中获取。 uri 资源路径,也即API访问路径。从具体接口的URI模块获取,请参见Kubernetes
容器id 业务上报nvidia版本和cuda版本不匹配? 容器中查看cuda的版本,执行如下命令: cat /usr/local/cuda/version.txt 然后查看容器所在节点的nvidia驱动版本支持的cuda版本范围,是否包含容器中的cuda版本。 相关链接 工作负载异常:GPU节点部署服务报错
定义自动创建的底层存储名称,实际创建的底层存储名称为“存储卷名称前缀”与“PVC UID”的拼接组合,如果不填写该参数,默认前缀为“pvc”。 例如,存储卷名称前缀设置为“test”,则实际创建的底层存储名称test-{uid}。 容量 申请的存储卷容量大小,支持GiB和MiB。 说明:
cker的支持。 解决方案 若您的节点的运行时非containerd,您可通过节点重置功能重置节点的运行时为containerd。 如果您仍想在1.27以上集群中创建并使用docker节点,可跳过该告警,但推荐您尽快切换至containerd,它提供了更出色的用户体验和更强大的功能。
此外,CCE为所有客户提供相同的信息,以平等地保护所有客户。CCE不会向个别客户提供事先通知。 最后,CCE不会针对产品中的漏洞开发或发布可利用的入侵代码(或“验证性代码”)。 父主题: 漏洞公告
按照订单的购买周期结算。 后付费 按照集群实际使用时长计费。 计费周期 按订单的购买周期计费。 秒级计费,按小时结算。 集群休眠计费方式 包年/包月的集群无法休眠。 集群休眠后,集群费用将不再收取,但集群内使用的其他云服务资源(例如云硬盘、绑定的弹性IP、带宽等)将按各自的计费方式
请确保您自建的Prometheus满足以下条件,否则无法正常共存运行: 若您的Prometheus不是基于Operator社区的KubePrometheus构建的,则满足兼容性要求。 若您的Prometheus是基于Operator社区的KubePrometheus构建的,则CRD