检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
检查项内容 检查集群管理平面网段是否与主干配置一致。 解决方案 该问题由于您的局点做过管理面网段配置修改,导致主干配置中的管理平面网段不一致; 请您提交工单,联系技术支持人员修改配置之后重启检查。 父主题: 升级前检查异常问题排查
调度配置”选择开启或关闭DRF调度能力,默认开启。 登录CCE控制台。 单击集群名称进入集群,在左侧选择“配置中心”,在右侧选择“调度配置”页签。 在“AI任务性能增强调度”配置中,选择是否开启“公平调度 (drf) ”。 启用该能力后,可增强集群业务的吞吐量,提高业务运行性能。 修改完成后,单击“确认配置”。
凌晨3:00首次尝试自动续费,如果扣款失败,每天凌晨3:00尝试一次,直至资源到期或者续费成功。到期前7日自动续费扣款是系统默认配置,您也可以根据需要修改此扣款日。 父主题: 续费
接口(storage-driver)实现了云存储服务接入能力,目前该插件已经不是官方建议的存储扩展方式,在1.15及以上版本的CCE集群中默认安装CSI容器存储插件(everest),详情参见存储概述。 Kubernetes1.13版本之前的CCE集群不支持端到端容器存储扩容功能,PVC容量与存储容量不一致。
属性,创建完成后,更新EIP相关的annotation均无效。 与Pod关联的EIP不要通过弹性公网IP的console或API直接操作(修改名称/删除/解绑/绑定/转包周期等操作),否则可能导致EIP功能异常。 自动创建的EIP被手动删除后,会导致网络异常,需要重建Pod。 EIP跟随Pod创建
用) 默认取值: 不涉及 X-Auth-Token 是 String 参数解释: 调用接口的认证方式分为Token和AK/SK两种,如果您使用的Token方式,此参数为必填,请填写Token的值,获取方式请参见获取token。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及
部署在容器中的业务时延降低、性能无损耗。 公测 / 11 新增1.19集群的节点池配置管理参数 CCE支持限制容器内文件句柄数、支持默认开启并修改PodPidsLimit、支持弹性计算周期可配置、支持容器mount F2FS&OverLayFS文件系统 商用 12 若干插件适配1
用) 默认取值: 不涉及 X-Auth-Token 是 String 参数解释: 调用接口的认证方式分为Token和AK/SK两种,如果您使用的Token方式,此参数为必填,请填写Token的值,获取方式请参见获取token。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及
将无法访问已挂载的对象存储。 自定义访问密钥暂不支持安全容器。 关闭自动挂载访问密钥 老版本控制台会要求您上传AK/SK,对象存储卷挂载时默认使用您上传的访问密钥,相当于所有IAM用户(即子用户)都使用的是同一个访问密钥挂载的对象桶,对桶的权限都是一样的,导致无法对IAM用户使用对象存储桶进行权限控制。
新版节点池中的包周期节点不再支持手动缩容,仅支持退订和移除。 弹性伸缩默认扩缩容的节点为按需节点,不会缩容包周期节点。 不再支持通过更新节点池接口创建包周期节点,需要通过扩缩容新建包周期节点。 包周期节点池中默认创建的节点不再是包周期节点,而是按需节点。 表1 节点池升级前后的行为对比
GPU调度 GPU节点驱动版本 使用Kubernetes默认GPU调度 GPU虚拟化 监控GPU资源指标 CCE AI套件(NVIDIA GPU)插件使用DCGM-Exporter监控GPU指标 基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理
第一条在可用区下工作负载反亲和,参数设置如下。 权重weight:权重值越高会被优先调度,本示例设置为50。 拓扑域topologyKey:包含默认和自定义标签,用于指定调度时的作用域。本示例设置为topology.kubernetes.io/zone,此为节点上标识节点在哪个可用区的标签。
kubebuilder.io/version: v0.9.2 兼容模式约束 兼容模式会将云原生监控插件安装在cce-monitoring名空间下,默认不识别任何其他命名空间的ServiceMonitor和PodMonitor。 只支持无本地存储的模式。 开启后不支持关闭,可通过插件卸载安装的方式切换为正常模式。
管理、应用编排、运维监控能力。 Kubernetes存在的问题 Kubeflow在调度环境使用的是Kubernetes的默认调度器。而Kubernetes默认调度器最初主要是为长期运行的服务设计的,对于AI、大数据等批量和弹性调度方面还有很多的不足。主要存在以下问题: 资源争抢问题
xec 探测器不考虑 timeoutSeconds 字段。相反,探测将无限期运行,甚至超过其配置的截止日期,直到返回结果。 若用户未配置,默认值为1秒。升级后此字段生效,如果探测时间超过1秒,可能会导致应用健康检查失败并频繁重启。 升级前检查您使用了exec probe的应用的probe
GPU虚拟化 GPU虚拟化概述 准备GPU虚拟化资源 使用GPU虚拟化 兼容Kubernetes默认GPU调度模式 父主题: GPU调度
String 实例数,默认为:2 resources 是 resources object 容器资源(CPU、内存)配额。 表3 custom 参数 是否必选 参数类型 描述 multiAZEnable 否 bool 插件中deployment组件多可用部署是否采用强制模式,默认:false
UID”后的内容即可。 disk-mode 云硬盘磁盘模式,取值可以是VBD和SCSI。 v1.11.7之前的CCE集群,该字段无需填写,默认都是VBD。 v1.11.7+以及v1.13的Linux x86 CCE集群要求该字段值必须存在,且基于PVC触发动态创建的都是EVS S
伸缩配置 该设置仅在1.25及以上版本的集群中显示。 系统默认:采用社区推荐的默认行为进行负载伸缩,详情请参见社区默认行为说明。 自定义:自定义扩/缩容配置的稳定窗口、步长、优先级等策略,实现更灵活的配置。未配置的参数将采用社区推荐的默认值。 禁止扩/缩容:选择是否禁止扩容或缩容。 稳定
Kubernetes通过Volcano实现MPI高性能计算作业 kube-scheduler基于scheduler-framework拓展默认调度器 kube-scheduler如何完成调度和调整调度权重 CCE云原生混部场景下在线任务抢占、压制离线任务CPU资源、保障在线任务服务质量效果测试