检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CCE集群新增节点时的问题与排查方法? 注意事项 同一集群下的节点镜像保证一致,后续新建/添加/纳管节点时需注意。 新建节点时,数据盘如需分配用户空间,分配目录注意不要设置关键目录,例如:如需放到home下,建议设置为/home/test,不要直接写到/home/下。 请注意“挂
址是新IP,前台的Pod无法直接感知。 图1 Pod间访问 使用Service解决Pod的访问问题 Kubernetes中的Service对象就是用来解决上述Pod访问问题的。Service有一个固定IP地址(在创建CCE集群时有一个服务网段的设置,这个网段专门用于给Servic
请求端集群为VPC网络模型时,目的端集群的节点安全组需放通请求端集群的VPC网段(包含节点子网)和容器网段。 请求端集群为容器隧道网络模型时,目的端集群的节点安全组需放通请求端集群的VPC网段(包含节点子网)。 请求端集群为云原生网络2.0模型时,目的端集群的ENI安全组和节点安全
回收策略:请按需设置。 Delete:删除动作会将PersistentVolume对象从Kubernetes中移除,同时也会从外部基础设施中移除所关联的存储资产。 Retain:当PersistentVolumeClaim对象被删除时,PersistentVolume卷仍然存在,对应的数据卷被视为“已释放(released)”。
对命名空间进行配额管理 配额管理实现多团队或多用户在共享集群资源的情况下限制团队、用户可以使用的资源总量,包括限制命名空间下创建某一类型对象的数量以及对象消耗计算资源(CPU、内存)的总量。 通过命名空间配额管理,您可以对业务或者团队进行资源限制,减小不必要的资源开销。 详情请参见设置资源配额及限制。
driver_version 是 String 插件安装驱动时,插件里负责安装驱动的Pod的镜像tag,一般与device_version相同 obs_url 是 String 当从默认驱动地址中下载GPU驱动时,该值为GPU的驱动地址 swr_addr 是 String 镜像仓库地址 swr_user
csi-disk 有状态应用使用如下Headless Service。 apiVersion: v1 kind: Service # 对象类型为Service metadata: name: nginx labels: app: nginx spec: ports:
若能正常返回GPU信息,说明设备可用,插件安装成功。 如果驱动地址填写错误,需要将插件卸载后重新安装,并配置正确的地址。 nvidia驱动建议放在OBS桶里,并设置为公共读。 相关链接 GPU节点使用nvidia驱动启动容器排查思路 GPU插件安装 父主题: 工作负载异常问题排查
GET /api/v3/projects/{project_id}/jobs/{job_id} cce:job:get √ √ 列出所有任务 GET /api/v2/projects/{project_id}/jobs cce:job:list √ √ 删除所有任务或删除单个任务 DELETE
网络配置 网络配置支持为您的集群配置节点默认安全组,扩展容器网段等。 集群网络配置 表1 集群网络配置参数说明 参数名称 参数说明 虚拟私有云 显示集群所在虚拟私有云。 虚拟私有云(Virtual Private Cloud,简称VPC)可以为云服务器、云容器、云数据库等资源构建
GET /api/v3/projects/{project_id}/jobs/{job_id} cce:job:get √ √ 列出所有任务 GET /api/v2/projects/{project_id}/jobs cce:job:list √ √ 删除所有任务或删除单个任务 DELETE
db获取信息并登录服务器。 CCE集群备份恢复(停止维护) CCE集群备份恢复插件提供集群备份恢复能力。它将用户应用数据和业务数据备份到OBS桶中,并提供数据的本地备份和远程备份的能力。 插件生命周期 生命周期是指插件从安装到卸载历经的各种状态。 表1 插件生命周期状态说明 状态
Controller支持admissionWebhook配置,通过设置controller.admissionWebhook参数,可以对Ingress对象进行有效性校验,避免因配置错误导致ingress-controller不断重新加载资源,导致业务中断。 使用admissionWebhoo
格变动的浮动预留;CCE侧预留包括基础预留和随节点Pod数量的浮动预留。 表3 节点内存预留规则v2 预留类型 基础/浮动 预留公式 预留对象 OS侧预留 基础预留 固定400MiB sshd、systemd-journald等操作系统服务组件占用 浮动预留(随节点内存) 25MiB/GiB
采集自定义指标的方法及示例请参见使用云原生监控插件监控自定义指标。 自定义指标名称:自定义指标的名称,输入时可根据联想值进行选择。 指标来源:在下拉框中选择对象类型,可选择“Pod”。 期望值:Pod支持指标为平均值。通过向上取整(当前指标值 / 期望值 × 当前实例数)来计算需要伸缩的实例数。 说明:
WorkFlowSpec object 参数解释: 集合类的元素类型,您对集群升级流程主体都在spec中给出。CCE通过spec的描述来创建或更新对象。 约束限制: 不涉及 表4 WorkFlowSpec 参数 是否必选 参数类型 描述 clusterID 是 String 参数解释: 集群ID
由于上传模板时创建OBS桶的命名规则由cce-charts-{region}-{domain_name}变为cce-charts-{region}-{domain_id},其中旧命名规则中的domain_name系统会做base64转化并取前63位,如果您在现有命名规则的OBS桶中找不到模板,请在旧命名规则的桶中进行查找。
过程中,您需要用到账号、用户和密码等信息。 区域(Region) 从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region分为通用Region和专属Region,通用Region指面向公共租户提供通用
one-off tasks),即仅执行一次的任务,它保证批处理任务的一个或多个Pod成功结束。 Job:是Kubernetes用来控制批处理型任务的资源对象。批处理业务与长期伺服业务(Deployment、StatefulSet)的主要区别是批处理业务的运行有头有尾,而长期伺服业务在用户不停止
"iam_url" : "*****", "ims_url" : "*****", "obs_url" : "*****", "platform" : "linux-amd64", "sfs30_url"