检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如果您使用的CUDA库无法与当前的NVIDIA驱动版本匹配,您需要升级节点的驱动版本才可以正常使用GPU节点。建议您以节点池为粒度进行节点NVIDIA驱动版本的管理,创建应用时可调度到指定驱动版本的节点池,在升级驱动时,也可以根据节点池分批次控制升级。 通过节点池升级存量节点的NVIDIA驱动,本质上
情请参见创建集群。 生成创建节点池/节点的API参数 登录CCE控制台。 在左侧导航栏中选择“集群管理”,单击要创建节点的集群进入集群控制台。 在集群控制台左侧导航栏中选择“节点管理”。 创建节点池:参考创建节点池,根据自身需求配置节点池参数。 创建节点:参考创建节点,根据自身需求配置节点参数。
Container,SWR)是一种支持容器镜像全生命周期管理的服务, 提供简单易用、安全可靠的镜像管理功能,帮助用户快速部署容器化服务。容器镜像服务提供的镜像仓库是用于存储、管理docker容器镜像的场所,可以让使用人员轻松存储、管理、部署docker容器镜像。 容器镜像服务相关问题汇总
Standard/CCE Turbo 自定义资源是kubernetes 1.17新增的无需改变代码就可以扩展 Kubernetes API 的机制,用来管理自定义对象。 自定义资源类型 自定义资源类型 参数名 取值范围 默认值 是否允许修改 作用范围 kind 无 无 允许 CCE Standard/CCE
应用扩缩容优先级策略 通过应用扩缩容优先级策略,您可以精细调整Pod在不同类型节点上的扩容和缩容顺序,实现资源管理的最优化。在使用默认扩缩容优先级策略的情况下,扩容过程中Pod优先被调度到包周期的节点,其次被调度到按需计费的节点,最后被调度到virtual-kubelet节点(弹
创建集群时指定要安装的插件 创建集群时,可在请求Body体中metadata字段的annotations中添加键值对,Key为cluster.install.addons/install,Value为AddonTemplate的json列表字符串。 表1 Value数据结构说明 参数
一站式容器化交付流程,并可对接已有CI/CD,完成传统应用的容器化改造和部署。 优势 高效流程管理 更优的流程交互设计,脚本编写量较传统CI/CD流水线减少80%以上,让CI/CD管理更高效。 灵活的集成方式 提供丰富的接口便于与企业已有CI/CD系统进行集成,灵活适配企业的个性化诉求。
Container,简称SWR)是一种支持镜像全生命周期管理的服务,提供简单易用、安全可靠的镜像管理功能,包括镜像的上传、下载、删除等。 SWR的一个显著特点是其细粒度的权限管理能力,允许管理员为不同用户定制访问权限,包括读取、编辑和管理等级别。这确保了镜像的安全性和合规性,同时满足了团队协作的需求。
无用户节点的Serverless版集群,无需对节点的部署、管理和安全性进行维护,并根据CPU和内存资源用量按需付费。 使用场景 - 面向有云原生数字化转型诉求的用户,期望通过容器集群管理应用,获得灵活弹性的算力资源,简化对计算、网络、存储的资源管理复杂度。 适合对极致性能、资源利用率提升和全场景覆盖有更高诉求的客户。
支持使用Metrics输出监控指标(对接云监控)。 支持告警规则配置(对接云监控)。 运维能力 自行维护组件,定期同步社区新版本。 通过配置HPA进行扩缩容。 需要主动配置规格进行调优。 全托管、免运维。 自动弹性,免配置支持超大容量。 处理能力随业务峰值自动伸缩。 安全 支持HTTPS协议。
CPU信息不匹配,导致节点上的负载无法重新拉起,也无法创建新负载。 更多信息请参见Kubernetes控制节点上的CPU管理策略。 影响范围 开启了CPU管理策略的集群。 解决方案 登录CCE节点(弹性云服务器)并删除cpu_manager_state文件。 删除命令示例如下: rm
异常事件和部分正常事件。 自1.3.2版本起,云原生日志采集插件默认会将上报所有Warning级别事件以及部分Normal级别事件到应用运维管理(AOM),上报的事件可用于配置告警。当集群版本为1.19.16、1.21.11、1.23.9或1.25.4及以上时,安装云原生日志采集
ELB对接Pod需要通过节点NodePort转发 使用独享型ELB时可直接对接Pod 使用共享型ELB对接Pod需要通过节点NodePort转发 容器IP地址管理 需设置单独的容器网段 按节点划分容器地址段,动态分配(地址段分配后可动态增加) 需设置单独的容器网段 按节点划分容器地址段,静态分配(节
实际使用中很少直接创建Pod,而是使用Kubernetes中称为Controller的抽象层来管理Pod实例,例如Deployment和Job。Controller可以创建和管理多个Pod,提供副本管理、滚动升级和自愈能力。通常,Controller会使用Pod Template来创建相应的Pod。
使用API调用则可以按如下配置。 cceUse selector匹配到一块100G 数据盘。 所选磁盘被cce管理用作数据盘。 dataVolumes中创建的另一块100G 数据盘未被任何selector选中并被group管理。因此此块云盘作为裸盘挂载至节点,不做初始化。 创建后登录节点查看,可以发现有一块100G的盘已经挂载但没有被初始化。
获取集群升级任务详情 功能介绍 获取集群升级任务详情,任务ID由调用集群升级API后从响应体中uid字段获取。 集群升级涉及多维度的组件升级操作,强烈建议统一通过CCE控制台执行交互式升级,降低集群升级过程的业务意外受损风险; 当前集群升级相关接口受限开放。 调用方法 请参见如何调用API。
查看部署后工作负载的状态和日志信息,对工作负载进行相应的升级、伸缩和监控等。 具体请参见管理工作负载和任务。 常见问题 我不懂Kubernetes,是否可以使用CCE? 可以使用,CCE管理控制台操作简单,并提供新手入门指导文档,您可以快速了解并使用CCE。 我有一个应用,想使用
NVIDIA Container Toolkit容器逃逸漏洞公告(CVE-2024-0132) NVIDIA Container Toolkit 是一个由 NVIDIA 提供的开源工具包,它允许您在容器化环境中利用 NVIDIA GPU 进行加速计算。工具包包括一个容器运行时库和
指导、在线排查等客户支持,不再适用于CCE服务SLA保障。请前往CCE的集群管理页面,升级集群版本。详情请参见集群升级指导。 集群运维能力 云原生监控插件状态是否正常 否 云原生监控插件主要提供了集群运维监控的能力,要体验一站式监控体系,需前往插件市场,安装插件并检查插件状态。详情请参见云原生监控插件。
形式。 调整集群管理规模 如果集群控制节点资源水位线持续高位,比如持续出现内存使用率大于85%,建议您及时扩大集群管理规模,避免突发流量导致集群过载,详情请参见变更集群规格。 集群管理规模越大,控制节点规格越高、性能也更佳。 CCE集群管理规模指的是集群支持管理的最大节点数,仅供