检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
手动更新GPU节点驱动版本 一般情况下,您可以通过CCE AI套件(NVIDIA GPU)插件配置节点的驱动文件路径,节点重启后会自动安装驱动。您也可以手动更新驱动的方式进行更新。 手动更新GPU节点的驱动版本为临时方案,适用于需要对某个节点进行差异化配置的场景,但节点重启后将自动重置为GPU插件配置中指定的版本。
在Jenkins中能够识别的证书文件为PKCS#12 certificate,因此需要先将集群证书转换生成PKCS#12格式的pfx证书文件。 前往CCE控制台的“总览 > 连接信息”页面中下载集群证书,证书包含ca.crt、client.crt、client.key三个文件。 登录一台Lin
择“应用模板”,在右上角单击“上传模板”。 单击“添加文件”,选中待上传的模板包后,单击“上传”。 自定义value.yaml 您可在本地创建一个value.yaml配置文件用于设置安装工作负载参数,在安装时只需导入此配置文件进行自定义安装,其他未指定的参数将会使用默认配置。 配置内容如下:
ter:3.0.4-3.0.0-ubuntu20.04 上传dcgm-exporter镜像到SWR。 (可选)登录SWR管理控制台,选择左侧导航栏的“组织管理”,单击页面右上角的“创建组织”,创建一个组织。 如已有组织可跳过此步骤。 在左侧导航栏选择“我的镜像”,单击右侧“客户端
创建HPA策略 创建使用自定义指标的HPA策略 创建CronHPA定时策略 创建CustomedHPA策略 创建VPA策略 创建AHPA策略 管理工作负载弹性伸缩策略 父主题: 弹性伸缩
些分布式的场景,要求每个Pod都有自己单独的状态时,比如分布式数据库,每个Pod要求有单独的存储,这时Deployment无法满足业务需求。 分布式有状态应用的特点主要是应用中每个部分的角色不同(即分工不同),比如数据库有主备、Pod之间有依赖,在Kubernetes中部署有状态应用对Pod有如下要求:
普通工作负载:未添加指定污点的容忍度,无法调度至GPU/NPU节点。 操作步骤如下: 登录CCE控制台,单击集群名称进入集群。 在左侧列表中选择“节点管理”,勾选GPU/NPU节点,并单击“标签与污点管理”。 单击“新增批量操作”,为GPU/NPU节点添加污点。 选择“污点(Taints)”,并填写键值与污点效果。示
设置时区同步 设置镜像拉取策略 使用第三方镜像 使用SWR企业版镜像仓库镜像 设置容器规格 设置容器生命周期 设置容器健康检查 设置环境变量 设置性能管理配置 设置工作负载升级策略 设置容忍策略 设置标签与注解 父主题: 工作负载
新建节点检查 检查内容 检查集群是否可以正常创建节点。 检查步骤 登录CCE控制台,单击集群名称进入集群。 在导航栏中选择“节点管理”,并切换至“节点”页签,单击“创建节点”。节点配置详情请参见创建节点。 图1 创建节点 解决方案 若集群升级后您的集群无法创建节点,请联系技术支持人员。
MySQL实例安全组的入方向规则中。 进入控制台首页,单击左上角的,在展开的列表中单击“数据库 > 云数据库 RDS”,单击右侧“实例管理”,单击相应的RDS for MySQL实例名称。 界面左侧单击“连接管理”,“安全组规则”模块单击安全组名称。可以发现在“入方向规则”中源地址有网段192
插件的版本。插件版本和CCE集群存在配套关系,更多信息可以参考CCE突发弹性引擎(对接CCI)插件版本记录。 规格配置 用于配置插件负载的实例数及资源配额。 选择“系统预置规格”时,您可选择“单实例”或“高可用”规格。 选择“自定义规格”时,您可根据需求修改插件各个组件的副本数以及CPU/内存配置。 说明:
插件的版本。插件版本和CCE集群存在配套关系,更多信息可以参考CCE突发弹性引擎(对接CCI)插件版本记录。 规格配置 用于配置插件负载的实例数及资源配额。 选择“系统预置规格”时,您可选择“单实例”或“高可用”规格。 选择“自定义规格”时,您可根据需求修改插件各个组件的副本数以及CPU/内存配置。 说明:
Volcano调度器 插件介绍 Volcano 是一个基于 Kubernetes 的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要的而 Kubernetes 当下缺失的一系列特性。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 否 表
local:使用本地的jar包路径。本例中使用本地文件存放jar包,因此使用local类型。根据实际情况,该参数可采用多种类型(file/http/local等),详情请参见官方文档。 访问对象存储服务OBS 使用spark-submit下发hdfs任务。请修改命令最后的参数为租户内实际的文件obs://bucket-name/filename。
NAMESPACE * internal internalCluster user 登录Argo服务端,用户名为admin,服务端地址及密码可从1中获取。如果ECS服务器与集群处于同一VPC下,此处节点IP可使用私网IP。 argocd login <节点IP:端口号>
件指标监控。 节点数据盘分区及大小 节点第一块数据盘默认供容器运行时及kubelet组件使用,其剩余的容量大小会影响镜像下载和容器启动及运行,数据盘的分配详情请参见数据盘空间分配说明。 该数据盘默认大小为100G,您也可以根据需求调整该数据盘大小。由于镜像、系统日志、应用日志都保
eDNS发生资源抢占。 以自定义亲和策略为例: 登录CCE控制台,进入集群,单击左侧导航栏的“节点管理”。 切换至“节点”页签,选择CoreDNS需要独占的节点,单击“标签与污点管理”。 添加以下标签: 标签键:node-role.kubernetes.io/coredns 标签值:true
Ingress资源不再支持networking.k8s.io/v1beta1和extensions/v1beta1 API。如果使用旧版本API管理Ingress,会影响应用对外暴露服务,请尽快使用networking.k8s.io/v1替代。 CustomResourceDefini
请参见通过kubectl连接集群,使用kubectl连接集群。 创建名为“service-test.yaml”的YAML文件,此处文件名可自定义。 vi service-test.yaml 以关联已有ELB为例,YAML配置文件如下: apiVersion: v1 kind: Service metadata:
工作负载的“事件”保存多长时间? 在1.7.3-r12、1.9.2-r3及以上版本的集群中,工作负载的“事件”信息保存时间为1个小时,1小时后自动清除数据。 在1.7.3-r12之前更老的集群版本中,保存时间为24小时。 父主题: 监控日志