检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
2模型,且支持通过节点池配置管理参数(kube-reserved-mem和system-reserved-mem)动态调整,具体方法请参见修改节点池配置。 CCE节点内存v2模型的总预留值等于OS侧预留值与CCE管理Pod所需预留值之和。 其中OS侧预留包括基础预留和随节点内存规
指定Pod请求的其他自定义资源类型,例如nvidia.com/gpu。增大该权重值,优先提高指定资源的利用率。 - 图2 资源利用率优化调度 修改完成后,单击“确认配置”。 父主题: 资源利用率优化调度
的阈值告警规则。 告警模板:不使用模板场景下,需填写手动规则详情。您也可以使用告警模板,快速定义告警规则(PromQL)或基于已有模板进行修改。 规则详情: 参数 说明 场景示例 规则名称 自定义告警规则的名称 CoreDNS内存使用率超过百分之八十 描述(可选) 添加告警规则描述。
STARTS_WITH status: loadBalancer: ingress: - ip: 192.168.1.138 修改该Ingress配置,添加annotation(kubernetes.io/elb.custom-eip-id)。 apiVersion:
5及以上版本的插件不再支持该插件,请使用xgpu插件。 小数GPU配置的前提条件为CCE集群GPU节点为共享模式,检查集群是否关闭GPU共享,请参见修改CCE集群配置中的enable-gpu-share参数。 - - plugins: - name: 'cce-gpu-topology-predicate'
ant Administrator权限,可能会因为某个服务权限不足而影响CCE功能的正常使用。因此在使用CCE服务期间,请不要自行删除或者修改“cce_admin_trust”委托。 (可选)创建虚拟私有云 虚拟私有云为CCE集群提供一个隔离的、用户自主配置和管理的虚拟网络环境。
添加Nginx Ingress时,需在集群中提前安装NGINX Ingress 控制器,具体操作可参考安装插件。 约束与限制 不建议在ELB服务页面修改ELB实例的任何配置,否则将导致服务异常。如果您已经误操作,请卸载Nginx Ingress插件后重装。 Ingress转发策略中注册的U
vice类型修改为NodePort。 # kubectl patch svc argocd-server -n argocd -p '{"spec": {"type": "NodePort"}}' service/argocd-server patched 查看修改结果。 # kubectl
loop:检测简单的转发循环,如果找到循环则停止CoreDNS进程。 reload:允许自动重新加载已更改的Corefile。编辑ConfigMap配置后,请等待两分钟以使更改生效。 loadbalance:这是一个循环DNS负载均衡器,可以在答案中随机化A,AAAA和MX记录的顺序。
跨集群Service创建完成后,系统会添加kubernetes.io/elb.listener-port注解,请勿自行指定该注解,且不建议自行修改或删除,否则会导致ELB下资源回收失败。 为ELB配置同VPC内不同集群的后端 集群版本需满足v1.23.18-r0、v1.25.13-r0、v1
25 插件挂载节点时区 0.6.2 1.3.6 v1.19 v1.21 v1.23 v1.25 支持插件实例AZ反亲和配置 默认污点容忍时长修改为60s 0.6.2 1.3.3 v1.19 v1.21 v1.23 v1.25 适配CCE v1.25集群 CronHPA调整Deployment实例数,新增skip场景
Exporter Dashboard来展示DCGM相关指标信息。关于在Grafana导入Dashboard的方法,请参见Manage dashboards。 查看刚刚导入的面板。 附录:DCGM-Exporter组件故障排查 运行状态检查 在CCE AI套件(NVIDIA GPU)插件页面检查Pod状态为“运行中”。
2。 图4 自定义部门 分摊公共成本:将集群中的公共成本分摊到部门。默认集群中的管理成本和未被分配成本,在其关联的部门中进行平均分摊。支持修改分摊比例。 图5 分摊公共成本 基于部门进行成本管理:部门配置完成后,单击“提交配置”,便可以在部门管理界面看到配置的结果。部门配置结果如下:
入到Nginx的配置文件(nginx.conf)中。 内置的Nginx组件进行reload,加载更新后的配置文件,完成Nginx转发规则的修改和更新。 在流量访问集群时,首先被已创建的负载均衡实例转发到集群内部的Nginx组件,然后Nginx组件再根据转发规则将其转发至对应的各个工作负载。
开启优先级抢占调度时,不支持使用Pod延迟创建。 优先级抢占暂不支持eni/sub-eni自定义资源、hostPort端口的抢占。 图1 业务优先级保障调度 修改完成后,单击“确认配置”。 配置完成后,可以在工作负载或Volcano Job中使用优先级定义(PriorityClass)进行优先级调度。
编辑YAML 单击配置项名称后的“编辑YAML”,可编辑当前配置项的YAML文件。 更新配置 选择需要更新的配置项名称,单击“更新”。 根据表1更改信息。 单击“确定”。 删除配置 选择要删除的配置项,单击“删除”。 根据系统提示删除配置。 父主题: 配置项与密钥
sourceFile String 涉及文件路径 nodeMsg String 节点信息 field String 参数值 operation String 修改操作类型 originalValue String 原始值 value String 当前值 表20 deprecatedAPIRisks
登录CCE控制台,单击集群名称进入集群。 在左侧选择“节点管理”,在右侧选择“节点池”页签,单击节点池名称后的“更多 > 配置管理”。 在侧边栏滑出的“配置管理”窗口中,修改kubelet组件的CPU管理策略配置(cpu-manager-policy)参数值,选择static。 单击“确定”,完成配置操作。 在节点池中配置CPU拓扑策略。
load ImageNet labels labels_file = caffe_root + 'data/ilsvrc12/synset_words.txt' #if not os.path.exists(labels_file): # !../data/ilsvrc12/get_ilsvrc_aux
Exporter Dashboard来展示gpu的相关指标信息。 关于在Grafana导入Dashboard的方法,请参见Manage dashboards。 手动部署dcgm-exporter组件 本文在集群部署dcgm-exporter组件进行GPU指标的采集,同时以9400端口对外暴露GPU指标。