检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
# 插件版本为2.0.0及以上时,驱动安装路径更改,需执行以下命令: cd /usr/local/nvidia/bin && ./nvidia-smi 登录CCE控制台,单击集群名称进入集群,在左侧选择“配置中心”。 切换至“异构资源配置”页签,在“节点池自定义驱动”下方选择
健康诊断。如果想体验更丰富的诊断能力,请参考开通监控中心开通。 配置定时巡检规则 在“健康诊断”页面右上角打开“定时巡检”开关,并配置定时巡检启动的时间。集群将在指定时间自动开始集群巡检任务。单个集群,每天仅支持配置一个定时巡检时间。 图1 定时巡检 手动发起诊断 当您初次使用健
如何获取TLS密钥证书? 场景 当您的Ingress需要使用HTTPS协议时,创建Ingress时必须配置IngressTLS或kubernetes.io/tls类型的密钥。 以创建IngressTLS密钥证书为例。如图1: 图1 创建密钥 密钥数据中上传的证书文件和私钥文件必须是配套的,不然会出现无效的情况。
调度 问题现象 如果节点存在Memory/Disk/PID Pressure的情况,节点会被添加系统污点。此时修改节点池kubelet组件配置参数或者重启节点kubelet后,该污点会被临时删除,可能会导致由于节点资源压力而触发驱逐的节点重新加入调度器计算流程中,Pod重新调度到
、view四种ClusterRole角色的权限,这四种权限是针对命名空间中所有资源进行配置,无法对命名空间中不同类别资源(如Pod、Deployment、Service等)的增删改查权限进行配置。 解决方案 Kubernetes提供一套RBAC授权机制,可以非常方便地实现命名空间内容资源的权限控制。
进入/usr/local/nvidia/bin目录,执行nvidia-smi -q命令。 若nvidia-smi命令不存在或执行失败,有可能是驱动安装未就绪导致,可以重新安装GPU驱动后,再重试。 观察执行结果中的ECC ERROR(发生ECC故障的记录)。 Correctable Error:不会影响业务,不会触发GPU隔离。
和生产集群。 关键配置如下,非关键配置可根据需求自行设置或设为默认值。 集群类型:CCE Turbo集群 虚拟私有云:测试集群位于vpc-A(172.16.0.0/16网段),生产集群位于vpc-B(172.17.0.0/16网段) 节点数:1个/集群 节点配置: 节点规格:4核
模板插件 插件异常问题排查 集群安装nginx-ingress插件失败,一直处于创建中? NPD插件版本过低导致进程资源残留问题 模板格式不正确,无法删除模板实例? CCE是否支持nginx-ingress? 插件安装失败,提示The release name is already
的后端服务器。如果在更新Service时配置出现错误,导致更新后的后端服务器全部健康检查失败,在保证流量不中断的逻辑下,Service此时并不会删除原先正常的后端服务器,最终导致只有部分后端服务器更新为错误配置,其余后端服务器仍保持原先配置。 解决方法:在后端服务器配额已满的情况
有,请为弹性云服务器绑定弹性IP。 图1 节点是否已绑定弹性IP 排查项二:节点是否配置网络ACL 登录VPC控制台,单击左侧导航栏的“访问控制 > 网络ACL”。排查节点所在集群的子网是否配置了网络ACL,并限制了外部访问。 父主题: 网络异常问题排查
明持久卷的数据还原成功。 业务流量切换 由运维人员做DNS切换,将流量引到新集群。 DNS流量切换:调整DNS配置实现流量切换。 客户端流量切换:升级客户端代码或更新配置实现流量切换。 原集群下线 由运维人员确认新集群业务正常后,下线原集群并清理备份文件。 确认新集群业务正常。 下线原集群。
节点池的状态一直处于“扩容中”,但是“操作记录”里面没有看到有对应创建节点的记录。 原因排查: 检查如下问题并修复: 租户是否欠费。 查看节点池配置的规格是否资源不足。 租户的ECS或内存配额是否不足。 如果一次创建节点太多,可能会出现租户的ECS容量校验不过的情况发生。 解决方案: 若租户已经欠费,请尽快续费。
tcp_keepalive_time net.ipv4.tcp_keepalive_time = 600 创建节点/节点池时自动配置内核参数 您可以设置节点或节点池安装后执行脚本,在新建节点或节点池时通过脚本配置内核参数。 此处以修改TCP发送keepalive探测消息的间隔时间tcp_keepalive_time为例,取值为表1中的建议值。
v1.19 支持v1.19版本集群 支持SFS、SFS Turbo类型存储 支持CronJob 支持配置envFrom 日志文件自动转储 屏蔽TCPSocket类型健康检查 支持配置资源标签(pod-tag) 提升了性能和可靠性 修复了一些已知问题 1.0.5 v1.13 v1.15
绑定,请重新下载kubeconfig文件配置,然后重新执行kubectl命令。 如果是在集群内节点上执行kubectl,请检查节点的安全组,是否放通Node节点与Master节点TCP/UDP互访,安全组的详细说明请参见集群安全组规则配置 父主题: API&kubectl
单击“部门管理”,进行部门配置查看。 图6 部门管理 单击“编辑部门”,修改自定义部门配置。 图7 编辑部门 单击“下一步”,修改公共成本分摊到部门的比例。 图8 修改公共成本分摊 单击“提交配置”,便可以在部门管理界面看到配置的结果。 图9 提交配置 配置完成后,关闭部门管理界面
例如,缓存服务经常受限于内存大小,而且可以将不常用的数据转移到比内存慢的存储中,对总体性能的影响并不大。另有些应用程序需要以文件形式注入的只读数据,比如配置数据或密钥。 Kubernetes中的临时卷(Ephemeral Volume),就是为此类场景设计的。临时卷会遵从Pod的生命周期,与 Pod一起创建和删除。
域名解析失败排查思路 当遇到域名解析失败的问题时,首先需要判断是集群内域名还是集群外域名解析失败。 集群内域名: 确认coredns插件是否安装,coredns服务是否正常运行。 其他Pod到coredns的Pod网络是否正常,其他Pod到coredns的服务是否网络正常,如网络不正常:
空间”,选择要授权的用户或用户组,再选择具体权限。 对于没有IAM权限的用户,给其他用户和用户组配置权限时,无法选择用户和用户组,此时支持填写用户ID或用户组ID进行配置。 图1 配置命名空间权限 其中自定义权限可以根据需要自定义,选择自定义权限后,在自定义权限一行右侧单击新建自
23 修复部分问题 1.23.0 1.23.57 v1.23 修复部分问题 1.23.0 1.23.56 v1.23 伸缩组支持配置节点上下限 修复配置节点AZ拓扑约束时,节点池弹性扩容后不符合预期问题 1.23.0 1.23.54 v1.23 修复多规格情况下无法缩容和非预期PreferNoSchedule污点问题