检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
后脚本实现。本文为您提供正确使用安装前/后脚本的指导,帮助您了解和使用安装前/后脚本。如果有进阶的安装脚本使用需求,可以将脚本存放在OBS中,避免脚本字符数超限等问题,详情请参见创建节点时使用OBS桶实现自定义脚本注入。 注意事项 请避免使用执行耗时过长的安装前/后脚本。 安装前
的磁盘使用率和云监控使用率一致了。 请问集群界面的节点监控是怎么样的原理,是否只报最大磁盘使用率的数据呢? 问题解答: CCE集群监控信息中,磁盘使用率为当前节点中使用率最高的硬盘的监控信息。 父主题: 集群运行
设置标签与注解 Pod注解 CCE提供一些使用Pod的高级功能,这些功能使用时可以通过给YAML添加注解Annotation实现。具体的Annotation如下表所示。 表1 Pod Annotation 注解 说明 默认值 kubernetes.AOM.log.stdout 容
该标签的Pod不会被重新调度。 另外操作符operator的值为In,表示标签值需要在values的列表中,其他operator取值如下。 NotIn:标签的值不在某个列表中 Exists:某个标签存在 DoesNotExist:某个标签不存在 Gt:标签的值大于某个值(字符串比较)
GPU视图 GPU资源指标可以衡量GPU性能和使用情况,包括GPU的利用率、温度、显存等方面的监控数据,帮助您掌控GPU运行状况。 指标说明 图1 GPU资源指标 表1 GPU图表说明 图表名称 单位 说明 集群-显存使用率 百分比 集群的显存使用率 计算公式:集群内容器显存使用总量/集群内显存总量
取值范围: 空值:可用(节点池当前节点数已达到预期,且无伸缩中的节点) Synchronizing:伸缩中(节点池当前节点数未达到预期,且无伸缩中的节点) Synchronized:伸缩等待中(节点池当前节点数未达到预期,或者存在伸缩中的节点) SoldOut:节点池当前不可扩容(兼容字
组成,子网与子网之间的网络交互通过子网网关完成,而集群就是建立在某个子网中。因此,存在以下三种场景: 不同集群可以创建在不同的虚拟私有云中。 不同集群可以创建在同一个子网中。 不同集群可以创建在不同的子网中。 图1 集群与VPC、Subnet的关系 相关文档 集群网络地址段规划实践
节点上运行一个Pod,且保证只有一个Pod,非常适合一些系统层面的应用,例如日志收集、资源监控等,这类应用需要每个节点都运行,且不需要太多实例,一个比较好的例子就是Kubernetes的kube-proxy。 DaemonSet跟节点相关,如果节点异常,也不会在其他节点重新创建。
iderClass对象,在业务Pod中声明Volume并进行引用,当启动Pod时,就会将在SecretProviderClass对象中声明的凭据信息挂载至Pod内。 定时轮转能力:当Pod正常运行后,若其在SPC中声明的、存储在云凭据管理服务中的凭据发生了更新,通过定时轮转,可以
以小写字母开头,由小写字母、数字、中划线(-)组成,长度253以内,且不能以中划线(-)结尾,命名空间下名称不能重复 无 密钥创建后名称不允许修改 - 密钥资源名称,为资源主键,指定后不支持修改 命名空间 密钥所属命名空间 参数名 取值范围 默认值 是否允许修改 作用范围 namespace 集群中存在的命名空间
#新增磁盘分配至容器引擎和Kubelet组件共用的空间 Pod容器空间(basesize)扩容 登录CCE控制台,单击集群列表中的集群名称。 在左侧导航栏中选择“节点管理”。 切换至“节点”页签,选择集群中的节点,单击操作列中的“更多 > 重置节点”。 重置节点操作可能导致与节点有绑定关系的资源(本地
配置项名称 配置项的名称 参数名 取值范围 默认值 是否允许修改 作用范围 name 以小写字母开头,由小写字母、数字、中划线(-)组成,长度253以内,且不能以中划线(-)结尾,同一命名空间下名称不能重复 无 配置项创建后名称不允许修改 - 配置项资源名称,为资源主键,指定后不支持修改
Exec:Probe执行容器中的命令并检查命令退出的状态码,如果状态码为0则说明已经就绪。 HTTP GET:往容器的IP:Port发送HTTP GET请求,如果Probe收到2xx或3xx,说明已经就绪。 TCP Socket:尝试与容器建立TCP连接,如果能建立连接说明已经就绪。 Readiness
业务上报nvidia版本和cuda版本不匹配? 容器中查看cuda的版本,执行如下命令: cat /usr/local/cuda/version.txt 然后查看容器所在节点的nvidia驱动版本支持的cuda版本范围,是否包含容器中的cuda版本。 相关链接 工作负载异常:GPU节点部署服务报错
oleBinding、ingressClass、validatingWebhookConfiguration 解决方案 使用kubectl连接集群。 查找NGINX Ingress相关资源。 className="nginx" namespace="kube-system" className=`if
CLOSE_WAIT 状态的空闲 conntrack 条目在 conntrack 表中保留的时间 配置建议: 不建议配置 系统中最大的连接跟踪表项数目 系统中最大的连接跟踪表项数目 参数名 取值范围 默认值 是否允许修改 作用范围 conntrack-min 大于等于0 131072 允许 CCE
纳管节点时失败,报错“安装节点失败”如何解决? 问题描述 节点纳管失败报错安装节点失败。 问题原因 登录节点,查看/var/paas/sys/log/baseagent/baseagent.log安装日志,发现如下报错: 查看节点LVM设置,发现/dev/vdb没有创建LVM逻辑卷。
默认情况下,kubectl drain命令会保留某些系统级Pod不被驱逐,例如everest-csi-driver。 使用kubectl连接集群。 查看集群中的节点。 kubectl get node 选择一个节点,查看节点上存在的所有Pod。 kubectl get pod --all-namespaces
kubernetes.io/arch在1.14版本中已经废弃,计划在1.18版本中移除。 禁止通过--node-labels设置kubernetes.io和k8s.io为前缀的标签,老版本中kubernetes.io/availablezone该label在1.17中移除,整改为failure-domain
健康检查探针偶现检测失败,是由于容器内的业务故障所导致,您需要优先定位自身业务问题。 常见情况有: 业务处理时间长,导致返回超时。 tomcat建链和等待耗费时间太长(连接数、线程数等),导致返回超时。 容器所在节点,磁盘IO等性能达到瓶颈,导致业务处理超时。 父主题: 容器设置