检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
PU的调度和隔离能力。 前提条件 配置 支持版本 集群版本 v1.23.8-r0、v1.25.3-r0及以上 操作系统 Huawei Cloud EulerOS 2.0操作系统 GPU类型 支持T4、V100类型的GPU 驱动版本 GPU虚拟化功能仅支持470.57.02、510
使用共享型ELB对接Pod需要通过节点NodePort转发 容器IP地址管理 需设置单独的容器网段 按节点划分容器地址段,动态分配(地址段分配后可动态增加) 需设置单独的容器网段 按节点划分容器地址段,静态分配(节点创建完成后,地址段分配即固定,不可更改) 容器网段从VPC子网划分,无需设置单独的容器网段
load ImageNet labels labels_file = caffe_root + 'data/ilsvrc12/synset_words.txt' #if not os.path.exists(labels_file): # !../data/ilsvrc12/get_ilsvrc_aux
0m,限制值为2000m;内存的申请值为500Mi,限制值为2000Mi。 高于100个节点,每增加100个节点(10000个Pod),建议CPU的申请值增加500m,内存的申请值增加1000Mi;CPU的限制值建议比申请值多1500m,内存的限制值建议比申请值多1000Mi。 申请值推荐计算公式:
默认值:default-scheduler disable_mount_path_v1 否 Bool 默认值:false true:不将/opt/cloud/cce/nvidia挂载到GPU容器的/usr/lib/nvidia路径上 disable_nvidia_gsp 否 Bool 默认值:true
示例: docker tag cloudeye-exporter:1.0 swr.cn-east-3.myhuaweicloud.com/cloud-develop/cloudeye-exporter:1.0 上传镜像至镜像仓库。 docker push [镜像仓库地址]/[组织名称]/[镜像名称2:版本名称2]
ism的设置,可以将Job划分为以下几种类型。 表1 任务类型 Job类型 说明 使用示例 一次性Job 创建一个Pod直至其成功结束 数据库迁移 固定结束次数的Job 依次创建一个Pod运行直至completions个成功结束 处理工作队列的Pod 固定结束次数的并行Job 依
参数填写完成后,单击“创建”。 参数 描述 存储卷声明类型 本文中选择“本地持久卷”。 PVC名称 输入PVC的名称。创建后将根据实例数自动增加后缀,格式为<自定义PVC名称>-<序号>,例如example-0。 创建方式 仅可选择“动态创建”,通过控制台级联创建存储卷声明PVC、存储卷PV和底层存储。
接无法建立。进程监听socket的连接队列大小受限于内核参数 net.core.somaxconn,调整somaxconn内核参数的值即可增加Nginx Ingress连接队列。 进程调用listen系统监听端口时会传入一个backlog参数,该参数决定socket连接队列大小,
开启CPU Burst 约束与限制 集群版本:CCE Turbo集群且集群版本为v1.23.5-r0及以上。 OS版本:Huawei Cloud EulerOS 2.0。 集群中需要安装Volcano 1.9.0及以上版本的插件,且开启混合部署开关。 操作步骤 登录CCE控制台,单击集群名称进入集群。
v1相比提供了一些改进,详情请参见cgroups v2。 SeccompDefault提升到Beta状态 如果要开启该特性,需要给kubelet增加启动参数为--seccomp-default=true,这样会默认开启seccomp为RuntimeDefault,提升整个系统的安全。1
如集群下节点不满足多可用区,插件实例将调度到单可用区下的不同节点。 均分模式:插件Deployment实例均匀调度到当前集群下各可用区,增加新的可用区后建议扩容插件实例以实现跨可用区高可用部署;均分模式限制不同可用区间插件实例数相差不超过1,单个可用区资源不足会导致后续其他实例无法调度。
同一个子网,否则容易出现IP资源不足导致容器或节点创建失败的情况。 另外云原生网络2.0模型下容器网段支持在创建集群后增加子网,扩展可用IP数量,此时需要注意增加的子网不要与容器网段其他子网存在网络冲突。 图4 网段配置(创建集群时配置) 云原生网络2.0访问示例 本示例中,已创建一个CCE
态频繁变化时,确保CPU使用数据被持续追踪。 配置建议:如果Pods在启动后的就绪状态发生波动,并且您需要避免此波动导致HPA的误判,适当增加此值可以使HPA得到更全面的CPU使用数据。 说明: 请合理设置该参数,值设置过低可能会在Pod刚进入就绪状态时,因CPU数据波动导致不恰
其他健康的实例,从而保证服务的连续性。由于无状态负载实例相互独立、可替换的特性,您可以根据实时的业务需求灵活调整实例数量,比如在流量高峰期增加实例数量来分担压力。 本文将使用轻量级的Web服务器NGINX作为示例,在CCE集群中部署无状态工作负载。 操作流程 操作步骤 说明 准备工作
图10 查看日志统计 根据统计图中的柱状图,计算每秒上报的日志量,检查是否超过当前规格的日志采集性能。 若超过当前规格的日志采集性能,可尝试增加log-agent-otel-collector副本数或提高log-agent-otel-collector的内存上限。 若CPU使用率超
v1相比提供了一些改进,详情请参见cgroups v2。 SeccompDefault提升到Beta状态 如果要开启该特性,需要给kubelet增加启动参数为--seccomp-default=true,这样会默认开启seccomp为RuntimeDefault,提升整个系统的安全。1
<containername> 高级命令 replace replace命令用于对已有资源进行更新、替换。当需要更新资源的一些属性的时候,如果修改副本数量,增加、修改标签,更改镜像版本,修改端口等,都可以直接修改原YAML文件,然后执行replace命令。 kubectl replace -f <filename>
NodeOrder和Binpack对某个节点的给出的基础分值,并根据对应的权重值进行倍数放大,调整插件中某个策略的权重值后,该策略对于节点打分的整体影响力增加,其他插件对节点评分的影响力将会同步被削弱。 公平调度 DRF调度算法(Dominant Resource Fairness)可以根据作业
记录当版本驱动状态。根据CCE AI套件(NVIDIA GPU)插件版本差异,查询驱动的命令如下: 1.x.x版本执行: /opt/cloud/cce/nvidia/bin/nvidia-smi 2.0.0-2.5.3版本执行:/usr/local/nvidia/bin/nvidia-smi