检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置。 原有节点在默认节点池 创建新的节点池。具体请参见创建节点池。 单击节点池名称,单击“操作”区域的“节点列表”可查看新建节点的IP地址。 安装配置kubectl。具体请参见通过kubectl连接集群。 迁移工作负载。 给需要迁移工作负载的节点打上Taint(污点)。 kubectl
是一些常见的场景: 表1 容器重建的常见场景 常见场景 说明 容器崩溃或异常终止 当运行中的容器因软件错误、资源耗尽或其他意外情况崩溃时,为了确保服务的连续性,系统会自动重建容器以迅速恢复服务。 手动删除某容器 若手动删除了某个正在运行的容器,容器编排工具会根据定义的部署策略重新
服务基础配置 命令空间 路由所在的命名空间 参数名 取值范围 默认值 是否允许修改 作用范围 namespace 0-63字符 default 创建时可修改 CCE Standard/CCE Turbo 父主题: 路由
端口范围配置 Nodeport类型服务端口范围 service的NodePort模式下能够使用的主机端口号范围,默认是30000-32767 参数名 取值范围 默认值 是否允许修改 作用范围 service-node-port-range 20106-32767 30000-32767
关联安全组 选中的安全组将绑定到选中的工作负载的弹性网卡/辅助弹性网卡上,在下拉框中最多可以选择5条,安全组必选,不可缺省。 如将绑定的安全组未创建,可单击“创建安全组”,完成创建后单击刷新按钮。 须知: 最多可选择5个安全组。 鼠标悬浮在安全组名称上,可查看安全组的详细信息。 6
userDefinedStep 否 Integer 参数解释: 每批升级的最大节点数量。升级时节点池之间会依次进行升级。节点池内的节点分批升级,第一批升级1个节点,第二批升级2个节点,后续每批升级节点数以2的幂数增加,直到达到您设置的每批最大升级节点数,并会持续作用在下一个节点池中 约束限制:
节点被判定不可缩容后能再次启动检查的时间间隔,单位分钟,默认值:5。 scaleDownUtilizationThreshold 否 double 判断节点可缩容的cpu和内存资源使用率门限,默认0.5。 maxNodesTotal 否 int 集群扩容的节点数量上限,默认1000。 coresTotal
io/ingress-bandwidth:Pod的入口带宽 kubernetes.io/egress-bandwidth:Pod的出口带宽 如果不设置这两个参数,则表示不限制带宽。 修改Pod出/入口带宽限速后,需要重启容器才可生效。由于独立创建的Pod(不通过工作负载管理)修改anno
登录数据加密服务 DEW控制台。 在自定义密钥列表中,找到集群使用的KMS密钥。 “计划删除”状态的密钥:单击操作列中的“取消删除”。如果密钥取消删除后,仍处于“禁用”状态,则还需取消禁用。 “禁用”状态的密钥:单击操作列中的“启用”。 密钥重新为“启用”状态后,集群将在大约在5-10分钟内自动恢复。
创建一个Pod,用于运行Spark的驱动程序。 驱动程序在集群中创建执行程序的Pod并与其建立连接,用于执行应用程序代码。 应用程序完成后,执行程序的Pod将终止并清理,但驱动程序Pod仍然存在并保持在“已停止”状态,直到最终进行垃圾回收或手动清理。在“已停止”状态下,驱动程序Pod不会使用任何计算或内存资源。
CCE AI套件(NVIDIA GPU)版本发布记录 表1 CCE AI套件(NVIDIA GPU)版本记录 插件版本 支持的集群版本 更新特性 2.7.42 v1.28 v1.29 v1.30 v1.31 新增NVIDIA 535.216.03驱动,支持XGPU特性 2.7.41
业务上报nvidia版本和cuda版本不匹配? 容器中查看cuda的版本,执行如下命令: cat /usr/local/cuda/version.txt 然后查看容器所在节点的nvidia驱动版本支持的cuda版本范围,是否包含容器中的cuda版本。 相关链接 工作负载异常:GPU节点部署服务报错
您可以将鼠标悬停在图表上,以便查看每分钟的监控数据。 CPU:单位时间内集群CPU使用情况的统计。 内存:单位时间内集群内存使用情况的统计。 PVC存储状态:PVC和PV的绑定情况。 Pod数量状态趋势:实时监控集群Pod的状态。 Pod总重启次数趋势:近5分钟的集群的Pod重启次数总和。 节点状态趋势:实时监控集群节点的状态。
名为nginx的Pod。 Namespace的隔离说明 Namespace只能做到组织上划分,对运行的对象来说,它不能做到真正的隔离。举例来说,如果两个Namespace下的Pod知道对方的IP,而Kubernetes依赖的底层网络没有提供Namespace之间的网络隔离的话,那这两个Pod就可以互相访问。
programmatic access." 该错误表示IAM用户没有编程访问权限。 解决方案 请联系主账号管理员,登录统一身份认证服务。 找到需要修改的IAM用户,单击用户名称。 修改“访问方式”,同时勾选“编程访问”和“管理控制台访问”。 图1 修改IAM用户访问方式 单击“确定”。 父主题:
kubelet异常时,节点显示不可用,请参考集群可用,但节点状态为“不可用”修复节点后,重试检查任务。 问题场景二:cce-pause版本异常 检测到当前kubelet依赖的pause容器镜像版本非cce-pause:3.1,继续升级将会导致批量Pod重启,当前暂不支持升级,请联系技术支持人员。 父主题: 升级前检查异常问题排查
skippedCheckItemListResponse objects 跳过检查的项目列表 表5 skippedCheckItemListResponse 参数 参数类型 描述 name String 跳过检查的项目名称 resourceSelector resourceSelectorResponse
进程 ID(PID)是节点上的一种基础资源,容易在尚未超出其它资源约束的时候触及进程ID数量上限,进而导致节点不稳定。 您可以根据实际业务需求调整进程ID数量上限。 默认kernel.pid_max说明 CCE在2022年1月底将1.17及以上集群的节点公共操作系统EulerOS
API、存储管理生效,对应需要调用接口访问的集群。 表1 URL中的参数说明 参数 描述 {clusterid} 集群ID,创建集群后,调用获取指定项目下的集群接口获取。 Endpoint Web服务入口点的URL,可以从终端节点(Endpoint)中获取。 uri 资源路径,也即API访问路径。从具体接口的URI
namespace 集群中存在的命名空间 default 支持初始化时配置,不支持后续修改 - 命名空间为资源的隔离维度,一旦指定后不允许修改 配置建议: 建议按照业务、部门等归属合理划分命名空间,避免将大量资源堆叠在default命名空间下 标签 密钥附带的标签 参数名 取值范围 默认值