检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
当插件状态处于“未知状态”且对应插件返回信息的status.Reason字段为"don't install the addon in this cluster"时,一般为集群中对应插件的helm release关联secret被误删导致,此类场景可先卸载插件,然后以相同配置参数重新安装插件恢复。 插件相关操作
String 插件的版本 driver_version 是 String 插件开启自动安装驱动时,插件里负责安装驱动的Pod的镜像tag,一般与device_version相同 swr_addr 是 String 镜像仓库地址 swr_user 是 String 镜像仓库租户路径
间配置了弱反亲和的调度策略。本文提供了CCE插件调度策略的优化实践,业务可以根据自身可靠性的要求优化插件的部署策略。 高可靠部署方案 插件一般由无状态工作负载、守护进程等组成,守护进程默认会在所有节点上部署,而无状态工作负载在高可用的情况下会设置多实例、设置AZ亲和策略以及指定节点调度来保证插件应用的高可靠性。
主机路径(HostPath)。 主机路径 输入主机路径,如/etc/hosts。 说明: 请注意“主机路径”不能设置为根目录“/”,否则将导致挂载失败。挂载路径一般设置为: /opt/xxxx(但不能为/opt/cloud) /mnt/xxxx(但不能为/mnt/paas) /tmp/xxx /var/xxx
时使用的存储及镜像技术,使应用重复部分的复用更为容易,基于基础镜像进一步扩展镜像也变得非常简单。 企业应用容器化改造方式 应用容器化改造,一般有以下三种方式: 方式一:单体应用整体容器化,应用代码和架构不做任何改动。 方式二:将应用中升级频繁,或对弹性伸缩要求高的组件拆分出来,将这部分组件容器化。
按秒计费,以小时为出账周期 图1 CCE和CCI收费方式区别 应用场景 表4 应用场景不同 云容器引擎CCE 云容器实例CCI 适用所有场景,一般运行大规模长期稳定的应用,例如: 电商 业务中台 IT系统 适用于有明显的波峰波谷特征的场景,灵活申请资源,提高资源利用率。例如: 批量计算
提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。 功能 描述 参考文档 使用Volcano调度工作负载 一般情况下,Kubernetes在调度工作负载时会使用自带的默认调度器,若需要使用Volcano调度器的能力,您可以为工作负载指定调度器。 使用Volcano调度工作负载
device_version 是 String 插件的版本 driver_version 是 String 插件安装驱动时,插件里负责安装驱动的Pod的镜像tag,一般与device_version相同 obs_url 是 String 当从默认驱动地址中下载GPU驱动时,该值为GPU的驱动地址 swr_addr
数量受限于虚拟私有云VPC的路由配额。 容器隧道网络(Overlay):基于底层VPC网络,另构建了独立的VXLAN隧道化容器网络,适用于一般场景。 云原生2.0:深度整合弹性网卡(Elastic Network Interface,简称ENI)能力,采用VPC网段分配容器地址,支持ELB直通容器,享有高性能。
restartPolicy: OnFailure 创建TFJob。 kubectl apply -f tf-gpu.yaml 等待worker运行完毕后(一般GPU训练大约需要5分钟),执行如下命令查看运行结果: kubectl logs tf-smoke-gpu-worker-0 回显如下:
了应用预留资源较多、资源无法分时复用的问题。 在线作业与离线作业 从业务是否一直在线的角度看,其类型可分为在线作业和离线作业。 在线作业:一般运行时间长,服务流量呈周期性,资源存在潮汐现象,但对服务SLA要求较高,如广告业务、电商业务等。 离线作业:往往运行时间短,计算需求大,可容忍较高的时延,如AI/大数据业务。
图2 开通集群 (可选)单击“创建部门”,进行部门的配置。部门的配置包含如下步骤: 图3 创建部门 自定义部门:为贴合实际的业务场景,一般会按照实际业务部门设立该成本单元,并关联业务部门使用的集群或者命名空间。 部门名称:建议使用实际的业务部门名称,支持中文; 部门范围:该部
ginx Ingress Controller的连接超时时间。 对Nginx Ingress Controller配置HPA进行自动扩容 一般情况下,Nginx Ingress Controller已经有足够的能力应对业务的突发流量。如果在高负载情况下仍不满足您的要求,也可以配置HPA对Nginx
存占用与厂商的驱动程序版本也有一定相关性,例如535系列驱动比470系列占用更多。 若发现GPU虚拟化的可用显存远小于GPU卡的物理显存,一般是因为存在一些非GPU虚拟化发放的容器,占用了显存。 通过CCE控制台或kubectl命令,将目标节点的GPU负载排空。 执行rmmod
创建对等连接参数说明 参数 说明 示例 对等连接名称 必选参数。 此处填写对等连接的名称。 由中文字符、英文字母、数字、中划线和下划线等构成,一般不超过64个字符。 peering-demo 本端VPC 必选参数。 此处为对等连接一端的VPC,可以在下拉框中选择已有VPC作为本端VPC。
连续探测1次成功表示成功 failureThreshold: 3 # 连续探测3次失败表示失败 initialDelaySeconds一般要设置大于0,这是由于很多情况下容器虽然启动成功,但应用就绪也需要一定的时间,需要等就绪时间之后才能返回成功,否则就会导致probe经常失败。
com/helm/charts的stable目录中查找您需要的chart包,下载后将chart包上传至节点。 下载并解压已获取的chart包,一般chart包格式为.zip。 unzip chart.zip 安装Helm模板。 helm install aerospike/ 安装完成后,执行helm
创建对等连接-参数说明 参数 说明 取值样例 对等连接名称 必选参数。 此处填写对等连接的名称。 由中文字符、英文字母、数字、中划线、下划线等构成,一般不超过64个字符。 peering-AB 本端VPC 必选参数。 此处为对等连接一端的VPC,可以在下拉框中选择已有VPC作为本端VPC。
量进行自定义调整。其中,插件组件的CPU和内存申请值可根据集群节点规模和PVC数量不同进行调整,配置建议请参见表2。 非典型场景下,限制值一般估算公式如下: everest-csi-controller: CPU限制值:200及以下节点规模设置为250m;1000节点规模设置为3
版本号。 swr.cn-east-3.myhuaweicloud.com是仓库地址,每个区域的地址不同。 container是组织名,组织一般在SWR中创建,如果没有创建则首次上传的时候会自动创建,组织名在单个区域内全局唯一,需要选择合适的组织名称。 v1则是hello镜像分配的版本号。