检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
云原生异构计算插件 CCE AI套件(NVIDIA GPU) CCE AI套件(Ascend NPU) 父主题: 插件
已创建一个v1.28或v1.29版本的集群。 在集群中安装CCE AI套件(NVIDIA GPU)(2.7.5及以上版本)、Volcano调度器及CCE集群弹性引擎(1.28.78或1.29.41及以上版本)。 步骤一:节点池配置 登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“节点管理”。
基于优先级抢占调度的亲和/反亲和示例 在Pod间亲和场景中,不推荐Pod与比其优先级低的Pod亲和。如果pending状态的Pod与节点上的一个或多个较低优先级Pod具有Pod间亲和性,对较低优先级的Pod发起抢占时,会无法满足Pod间亲和性规则,抢占规则和亲和性规则产生矛盾。
Kubernetes 1.9的集群版本升级公告 发布时间:2020/12/07 根据CCE发布的Kubernetes版本策略中的版本策略,CCE将在近期停止Kubernetes 1.9的集群版本的维护,为了能够更好地方便您使用云容器引擎服务,确保您使用稳定又可靠的Kubernetes版本,如果您仍在使用1
允许 CCE Standard/CCE Turbo 支持网络类型 自动创建的独享型负载均衡器属性:inner为私网,public为公网 参数名 取值范围 默认值 是否允许修改 作用范围 type inner/public inner 允许 CCE Standard/CCE Turbo
问题现象 工作负载的状态为“已停止”。 问题原因: 工作负载的yaml的中metadata.enable字段为false,导致工作负载被停止,Pod被删除导致工作负载处于已停止状态,如下图所示: 解决方案 将enable字段删除或者将false修改为true。 父主题: 工作负载异常问题排查
集群节点如何不暴露到公网? 问题描述: 集群节点如何不暴露到公网? 问题解决: 如果不需要访问集群节点的22端口,可在安全组规则中禁用22端口的访问。 如非必须,集群节点不建议绑定EIP。 如有远程登录集群节点的需求,推荐使用华为云堡垒机服务作为中转连接集群节点。 父主题: 安全加固
in API group "apps" in the namespace "default" 问题根因 用户没有操作该Kubernetes资源的权限。 解决方法 给该用户授权Kubernetes权限,具体方法如下。 登录CCE控制台,在左侧导航栏中选择“权限管理”。 在右边下拉列表中选择要添加权限的集群。
ipv4.neigh.default.gc_thresh3确定,此内核参数非namespace隔离,节点和节点上运行容器会共用ARP表项大小。容器场景下,该参数推荐设置为163790。 此内核参数计算公式如下: CCE Turbo集群&容器隧道网络模型集群: net.ipv4.neigh
Memory)事件,导致容器异常退出。关于OOM事件,可以参考为容器和Pod分配内存资源。 解决方案 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”。 单击工作负载操作列的“监控”,即可查看Pod的CPU、内存、网络I/O等监控大盘。 通过Pod内存监控查看内存增长曲线,确定异常出现时间。
为购买的集群续费。 包周期的集群超期未续费将会被系统删除,删除后集群内的节点以及运行的业务都将销毁,请务必及时续费或开通自动续费。 登录CCE控制台,在左侧导航栏中选择“集群管理”。 找到需要续费的集群,查看集群的更多操作,并单击“续费”。 图1 续费集群 在弹出的“续费”页面中,根据系统提示进行续费操作。
Nginx Ingress高级配置示例 为Nginx Ingress配置HTTPS证书 为Nginx Ingress配置重定向规则 为Nginx Ingress配置URL重写规则 为Nginx Ingress配置HTTPS协议的后端服务 为Nginx Ingress配置GRPC协议的后端服务
为了更加经济合理地利用存储容量,CCE支持在创建PVC时动态创建SFS子目录,实现不同工作负载共享使用SFS。 仅通用文件系统(SFS 3.0)支持动态创建子目录。 前提条件 您已经创建好一个集群,并且在该集群中安装2.4.41及以上版本的CCE容器存储(Everest)。 如果
能到达可用状态,则会触发节点的回收操作。因此需要避免执行耗时过长的安装前/后脚本。 请避免在安装后脚本中直接使用reboot指令。 当前CCE会在执行完节点必备组件的安装之后,再执行安装后脚本。当安装后脚本执行完之后才会将节点状态置为可用状态。如果直接使用reboot命令,可能会
"。 spec.claimRef.name 与下一步创建的pvc的name一致。 spec.claimRef.namespace 与下一步创建的pvc的namespace一致。 PVC yaml文件配置示例如下: apiVersion: v1 kind: PersistentVolumeClaim
集群的管理规模和控制节点的数量有关系吗? 集群管理规模是指:当前集群支持管理的最大节点数。若选择50节点,表示当前集群最多可管理50个节点。 针对不同的集群规模,控制节点的规格不同,但数量不受管理规模的影响。 集群的多控制节点模式开启后将创建三个控制节点,在单个控制节点发生故障后集群可以继续使用,不影响业务功能。
执行如下命令,删除故障容器的Pod。 kubectl delete pod {podName} -n {podNamespace} 其中: {podName}:替换为实际故障容器所属pod名称。 {podNamespace}:替换为实际Pod所在的namespace名称。 删除故障容器的Pod之后系统
如何配置Pod使用GPU节点的加速能力? 问题描述 我已经购买了GPU节点,但运行速度还是很慢,请问如何配置Pod使用GPU节点的加速能力。 解答 方案1: 建议您将集群中GPU节点的不可调度的污点去掉,以便GPU插件驱动能够正常安装,同时您需要安装高版本的GPU驱动。 如果您的
健康检查探针(Liveness、Readiness)偶现检查失败? 健康检查探针偶现检测失败,是由于容器内的业务故障所导致,您需要优先定位自身业务问题。 常见情况有: 业务处理时间长,导致返回超时。 tomcat建链和等待耗费时间太长(连接数、线程数等),导致返回超时。 容器所在节点,磁盘IO等性能达到瓶颈,导致业务处理超时。
节点Python命令检查异常处理 检查项内容 检查Node节点中Python命令是否可用。 检查方式 /usr/bin/python --version echo $? 如果回显值不为0证明检查失败。 解决方案 可优先重置节点或手动安装Python之后再进行升级。 父主题: 升级前检查异常问题排查