检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
以小写字母开头,由小写字母、数字、中划线(-)组成,长度253以内,且不能以中划线(-)结尾,命名空间下名称不能重复 无 密钥创建后名称不允许修改 - 密钥资源名称,为资源主键,指定后不支持修改 命名空间 密钥所属命名空间 参数名 取值范围 默认值 是否允许修改 作用范围 namespace 集群中存在的命名空间
将没有被调度的Job发送到会话的待调度队列中。 遍历所有的待调度Job,按照定义的次序依次执行enqueue、allocate、preempt、reclaim、backfill等动作,为每个Job找到一个最合适的节点。将该Job 绑定到这个节点。action中执行的具体算法逻辑取决于注册的plugin中各函数的实现。
际使用的{clusterid}参数请参考插件管理,填写在query或body体中。 {clusterid}参数对Kubernetes API、存储管理生效,对应需要调用接口访问的集群。 表1 URL中的参数说明 参数 描述 {clusterid} 集群ID,创建集群后,调用获取指定项目下的集群接口获取。
MongoDB:本例中MongoDB和Tomcat应用是在同一台机器中部署。因此对应配置可以固定,不需要将配置提取出来。 应用需要对接哪些外部服务,例如数据库,文件存储等等。 应用部署在虚拟机上时,该类配置需要每次部署时手动配置。容器化部署,可通过环境变量的方式注入到容器中,部署更为方便。
配置项名称 配置项的名称 参数名 取值范围 默认值 是否允许修改 作用范围 name 以小写字母开头,由小写字母、数字、中划线(-)组成,长度253以内,且不能以中划线(-)结尾,同一命名空间下名称不能重复 无 配置项创建后名称不允许修改 - 配置项资源名称,为资源主键,指定后不支持修改
资源准备 在集群中添加GPU节点 登录CCE控制台,单击已创建的集群,进入集群控制台。 安装GPU插件。 在左侧导航栏中选择“插件管理”,在右侧找到gpu-beta(或gpu-device-plugin),单击“安装”。 在安装插件页面,设置插件关键参数。 Nvidia驱动:填写
漏洞信息 漏洞类型 CVE-ID 漏洞级别 披露/发现时间 资源管理错误 CVE-2021-21285 中 2021-02-02 漏洞影响 docker daemon组件在拉取镜像的过程中没有对镜像层digest进行有效性校验,拉取一个被恶意损坏的镜像可能会导致docker daemon崩溃。
Pods ,它允许该类Pod中的容器访问节点上的独占CPU资源(绑核)。 约束与限制 CCE Turbo集群的弹性云服务器-物理机节点不支持使用CPU管理策略。 为集群开启CPU管理策略(DefaultPool中的节点) 在创建集群时的“高级配置”中可以选择开启CPU管理策略。
VC在工作负载中挂载存储。适用于已有可用磁盘的场景。 通过动态存储卷使用专属存储:即动态创建的方式,无需预先创建磁盘,在创建PVC时通过指定存储类(StorageClass),即可自动创建磁盘和对应的PV对象。适用于无可用的磁盘,需要新创建的场景。 在有状态负载中动态挂载专属存储
健康概况 资源健康概况 资源健康概况涵盖了节点、工作负载和Pod三类资源中异常资源所占比例,以及命名空间的总数,以便及时发现和解决业务异常。 控制面健康概况 除了控制面组件和Master节点的异常占比,控制面资源概况中还提供了API Server的总QPS和请求错误率指标。作为集群的API服务提供者,控制面API
然运行旧版镜像。 配置中的环境变量错误。例如将command拼写成commnd,仍然能够使用该YAML文件创建工作负载,但是容器在运行时,却不会使用您原本期望的命令,而是执行了镜像中的EntryPoint默认命令。 解决方案 查看Pod的配置,确定Pod中容器的配置是否符合预期。具体操作,请参见Pod配置查看方法。
cluster-info 查看在集群中运行的插件: kubectl cluster-info 查看详细信息: kubectl cluster-info dump top* 显示资源(CPU/Memory/Storage)使用,该命令需要集群中的Metrics Server正常运行。
设置kube-scheduler调度器为默认调度器时,如果集群中同时安装Volcano调度器,将默认启用Volcano增强能力,为您提供资源利用率优化、AI任务性能增强、异构资源管理等高级调度能力,提升集群资源利用率,节约使用成本。此时,集群中的普通工作负载调度任务任由kube-schedul
待节点恢复后,处于Terminating状态的Pod会自动删除。 容器无响应:如果Pod中的容器在终止过程中没有响应SIGTERM信号,则可能导致Pod卡在Terminating状态。 Pod中存在未处理完的请求或资源占用:如果Pod中存在长时间运行的进程没有结束,则可能导致Pod无法被正常终止,进入Terminating状态。
对应事件内容:FailedScheduling 原因详述:集群中的节点无法满足Pod的调度要求,可能由以下一种或多种原因导致。可以通过事件的详细描述确定具体原因。 集群节点可用的CPU、内存资源不足,无法满足组件Pod的资源需求,对应事件描述中存在Insufficient memory或Insufficient
default-secret的类型为kubernetes.io/dockerconfigjson,其data内容是登录SWR镜像仓库的凭据,用于从SWR拉取镜像。在CCE中创建工作负载时如果需要从SWR拉取镜像,需要配置imagePullSecrets的取值为default-secret,如下所示。 apiVersion:
1-63个字符,可包含小写英文字母,数字和中划线,并以小写字母开头,小写英文字母或数字结尾 无 支持初始化时配置,不支持后续修改 - 命名空间 参数名 取值范围 默认值 是否允许修改 作用范围 namespace 1-63个字符,可包含小写英文字母,数字和中划线,并以小写字母开头,小写英文字母或数字结尾
配置Gitlab项目 获取源码到本地。本实践中将使用一个Java示例。 在Gitlab上创建ccedemo项目组。 在ccedemo项目组中添加java-demo项目。 上传项目代码至本地Gitlab仓库。 cd ~/java-demo-main //目录地址按实际情况 git
个 组件存活实例数 QPS 请求数/秒 每秒不同响应码的请求个数 请求成功率(读) 百分比 每秒读请求中响应码为20x的请求比例 处理中请求数 个数 APIServer在处理中的请求个数 请求速率(读) 请求数/秒 每秒不同响应码的读请求个数 请求错误率(读) 百分比 每秒读请求的错误请求比例
删除节点会涉及Pod迁移,可能会影响业务,请在业务低峰期操作。如果Pod具有特定的节点选择器,且集群中的其他节点均不符合标准,则工作负载实例可能仍处于无法安排的状态。 删除过程中,系统会把当前节点池中的节点均设置为不可调度状态。 操作步骤 登录CCE控制台。 单击集群名称进入集群