检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
管理节点标签 节点标签可以给节点打上不同的标签,给节点定义不同的属性,通过这些标签可以快速的了解各个节点的特点。 节点标签使用场景 节点标签的主要使用场景有两类。 节点管理:通过节点标签管理节点,给节点分类。 工作负载与节点的亲和与反亲和:通过为节点添加标签,您可以使用节点亲和性
于本地存储了数据的机制,导致prometheus-server实例滚动重启的这段时间里指标重叠,即云原生监控插件上报到AOM的指标同时存在新老prometheus-server实例的指标,因而导致节点列表的资源信息不准确。故在指标重叠的这段时间内,不展示节点列表的资源信息。若无特
在CCE集群中使用密钥Secret的安全配置建议 当前CCE已为secret资源配置了静态加密,用户创建的secret在CCE的集群的etcd里会被加密存储。当前secret主要有环境变量和文件挂载两种使用方式。不论使用哪种方式,CCE传递给用户的仍然是用户配置时的数据。因此建议: 用户不应在日志中对相关敏感信息进行记录;
上述公式中的剩余周期为每个自然月的剩余天数/对应自然月的最大天数。 这里以扩大集群规格且无任何优惠的场景为例,假设您在2023/04/08购买了一个集群规模为50节点的包年/包月集群,且集群为高可用(控制节点数为3),购买时长为1个月,计划在2023/04/18变更集群规格为200节点。旧配置价格为1262
慢启动指负载均衡器向组内新增的后端服务器Pod线性增加请求分配权重,直到配置的慢启动时间结束,负载均衡器向后端服务器Pod正常发送完请求的启动模式。慢启动能够实现业务的平滑启动,成功避免业务抖动问题。 配置慢启动持续时间后,如果您在YAML中删除对应的annotation,将不启用慢启动。
一般情况下,Kubernetes在调度工作负载时会使用自带的默认调度器,若需要使用Volcano调度器的能力,您可以为工作负载指定调度器。关于Kubernetes调度器的详情请参见为Pod指定调度器。 约束与限制 调度大量工作负载的场景下,Volcano会打印较多的日志,建议搭配日志服务使用,否则可能导致日志过多占满所在节点磁盘。
修复了为业务容器自动挂载npu-smi失败的问题 2.1.5 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 适配CCE v1.29集群 新增静默故障码 2.0.9 v1.21 v1.23 v1.25 v1.27 v1.28 修复进程级故障恢复和给工作负载添加注解偶现失败问题
30版本中,Pod拓扑分布中的最小域特性进阶至GA。此特性允许通过Pod的minDomains字段配置符合条件的域的最小数量。负载拓扑约束匹配到的域的数量如果大于minDomains,则该字段没有影响;如果小于minDomains,则会将全局最小值(符合条件的域中匹配 Pod 的最小数量)设为
Bool 默认值:false XGPU虚拟化模式的开关 gpu_driver_config 否 Map 针对单个节点池的GPU驱动的相关配置 默认值:{} health_check_xids_v2 否 String 插件健康检查的GPU错误的范围 默认值:"74,79" inject_ld_Library_path
30版本中,Pod拓扑分布中的最小域特性进阶至GA。此特性允许通过Pod的minDomains字段配置符合条件的域的最小数量。负载拓扑约束匹配到的域的数量如果大于minDomains,则该字段没有影响;如果小于minDomains,则会将全局最小值(符合条件的域中匹配 Pod 的最小数量)设为
NVIDIA公布了关于NVIDIA GPU驱动的一个漏洞CVE-2021-1056,该漏洞是存在于NVIDIA GPU驱动程序中与设备隔离相关的安全漏洞。当容器以非特权模式启动,攻击者利用这个漏洞,通过在容器中创建特殊的字符设备文件后,能够获取宿主机上所有GPU设备的访问权限。 关于漏洞的详细信息,请参见CVE-2021-1056。
69之前或2.1.11之前的版本时,使用子目录功能时不能同时并发创建超过10个PVC。推荐使用everest 1.2.69及以上或2.1.11及以上的版本。 subpath类型的卷实际为SFS Turbo的子目录,对该类型的PVC进行扩容仅会调整PVC声明的资源范围,并不会调整SFS
69之前或2.1.11之前的版本时,使用子目录功能时不能同时并发创建超过10个PVC。推荐使用everest 1.2.69及以上或2.1.11及以上的版本。 subpath类型的卷实际为SFS Turbo的子目录,对该类型的PVC进行扩容仅会调整PVC声明的资源范围,并不会调整SFS
创建GPU类型节点,具体请参见创建节点。 集群中需要安装GPU插件,且安装时注意要选择节点上GPU型号对应的驱动,具体请参见CCE AI套件(NVIDIA GPU)。 在v1.27及以下的集群中使用默认GPU调度能力时,GPU插件会把驱动的目录挂载到/usr/local/nvidia/lib64,在容器中使用GP
(可选)登录SWR管理控制台,选择左侧导航栏的“组织管理”,单击页面右上角的“创建组织”,创建一个组织。 如已有组织可跳过此步骤。 在左侧导航栏选择“我的镜像”,单击右侧“客户端上传”,在弹出的页面中单击“生成临时登录指令”,单击复制登录指令。 在集群节点上执行上一步复制的登录指令,登录成功会显示“Login
Pod所在节点与需挂载的SFS Turbo文件系统间的网络不通。 检查PV中共享地址是否正确。 获取PV的YAML,查看spec.csi.volumeAttributes下的everest.io/share-export-location字段值即为共享地址,正确的共享地址是指定的SFS Turbo文件系统的共享路径。
创建一个Pod,用于运行Spark的驱动程序。 驱动程序在集群中创建执行程序的Pod并与其建立连接,用于执行应用程序代码。 应用程序完成后,执行程序的Pod将终止并清理,但驱动程序Pod仍然存在并保持在“已停止”状态,直到最终进行垃圾回收或手动清理。在“已停止”状态下,驱动程序Pod不会使用任何计算或内存资源。
进入“日志中心”,单击“展开日志条数统计图”查看日志统计图。若上报的日志组日志流不是默认日志组日志流,则单击“全局日志查询”页签,选择上报的日志组和日志流后进行查看。 图10 查看日志统计 根据统计图中的柱状图,计算每秒上报的日志量,检查是否超过当前规格的日志采集性能。 若超过当前规格的日志采集性能,可尝试增加log
19 修复监控指标无法被获取的问题 0.7.1 1.14.4 v1.17 v1.19 适配ARM64节点部署 适配containerd运行时节点 0.7.1 1.14.2 v1.17 v1.19 适配CCE v1.19集群 新增支持Ubuntu操作系统和安全容器场景 0.7.1 1
CCEGroup 上述示例为kube-system空间下的CoreDNS设置一条名为“CoreDNS内存使用率超过百分之八十”的告警规则,告警等级为紧急。当内存使用率的最大值大于80%,且持续了1分钟时,给联系组CCEGroup内的所有告警联系人发送通知 (通知方式为短信或邮件)。