检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
组调度(Gang) 组调度(Gang)满足了调度过程中“All or nothing”的调度需求,避免Pod的任意调度导致集群资源的浪费,主要应用于AI、大数据等多任务协作场景。启用该能力后,可以解决分布式训练任务之间的资源忙等待和死锁等痛点问题,大幅度提升整体训练性能。 前提条件
创建一个有1个节点的集群,节点规格为2U4G及以上,并在创建节点时为节点添加弹性公网IP,以便从外部访问。如创建节点时未绑定弹性公网IP,您也可以前往ECS控制台为该节点进行手动绑定。 给集群安装插件。 autoscaler:节点伸缩插件。 metrics-server:是Kubernetes
采集控制面组件日志 集群支持对用户开放集群控制节点的日志信息。在日志中心页面可以选择需要上报日志的控制面组件,支持kube-controller-manager、kube-apiserver、kube-scheduler三个组件。 约束与限制 如您需要查看集群控制面组件日志,集群必须为v1
状态信息 执行状态 参数名 取值范围 默认值 是否允许修改 作用范围 status 无 无 允许 - 最新事件 参数名 取值范围 默认值 是否允许修改 作用范围 status_description 无 无 允许 - 创建时间 参数名 取值范围 默认值 是否允许修改 作用范围 create_at
定时任务 CronJobSpec
Pod PodTemplate Container配置 容器resource资源
应用模板 模板包信息 基础配置 状态信息
存储卷声明 metadata spec
密钥 metadata annotations type data
集群 集群创建 集群运行 集群删除 集群升级
安全加固 集群节点如何不暴露到公网? 如何配置集群的访问策略 如何获取TLS密钥证书? 如何批量修改集群node节点安全组? 父主题: 网络管理
权限 能否只配置命名空间权限,不配置集群管理权限? 如果不配置集群管理权限的情况下,是否可以使用API呢? 如果不配置集群管理权限,是否可以使用kubectl命令呢? IAM用户无法使用调用API
集群升级 CCE集群升级时,升级集群插件失败如何排查解决? 父主题: 集群
Service事件:Have no node to bind,如何排查? 登录CCE控制台,进入集群,在左侧导航栏选择“服务发现”。 在service列表里确认此服务是否有关联的工作负载,或关联的工作负载的相关实例是否正常。 父主题: 网络异常问题排查
工作负载 工作负载异常问题排查 容器设置 监控日志 调度策略 其他
工作负载异常问题排查 工作负载状态异常定位方法 工作负载异常:实例调度失败 工作负载异常:实例拉取镜像失败 工作负载异常:启动容器失败 工作负载异常:实例驱逐异常(Evicted) 工作负载异常:存储卷无法挂载或挂载超时 工作负载异常:一直处于创建中 工作负载异常:Pod一直处于Terminating状态
模板管理 上传模板 获取模板列表 获取模板实例列表 更新模板 创建模板实例 删除模板 更新指定模板实例 获取模板 删除指定模板实例 下载模板 获取指定模板实例 获取模板Values 查询指定模板实例历史记录 获取用户模板配额 父主题: API
节点管理 创建节点 获取指定的节点 获取集群下所有节点 更新指定的节点 删除节点 节点开启缩容保护 节点关闭缩容保护 同步节点 批量同步节点 纳管节点 自定义节点池纳管节点 重置节点 节点移除 节点迁移 节点迁移到自定义节点池 父主题: API
CCE部署使用Caffe 预置条件 资源准备 Caffe分类范例 父主题: 批量计算
Spark on CCE with OBS安装使用指南 安装Spark 使用Spark on CCE 父主题: 批量计算