搜索_华为云

使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

到2个GPU。但是TFJob1和TFJob2均需要4块GPU卡才能运行起来。这样TFJob1和TFJob2处于互相等待对方释放资源，这种死锁情况造成了GPU资源的浪费。亲和调度问题分布式训练中，Ps和Worker存在很频繁的数据交互，所以Ps和Worker之间的带宽直接影响了训练的效率。

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
Volcano调度器 - 云容器引擎 CCE
Volcano调度器 - 云容器引擎 CCE

v1.21 v1.23 v1.25 支持GPU资源抢占优化混部弹性限流功能增强可用区拓扑分布能力优化NPU芯片rank table排序能力优化GPU虚拟化功能提升与CA联动扩容效率提升调度稳定性优化持久卷调度逻辑优化日志信息 1.10.7 v1.19.16 v1.21

帮助中心 > 云容器引擎 CCE > 用户指南 > 插件 > 容器调度与弹性插件
资源利用率优化调度配置案例 - 云容器引擎 CCE

资源利用率优化调度配置案例概述 Volcano调度分为两个阶段，分别为节点过滤和节点优选，过滤阶段筛选出符合调度条件的节点，优选阶段对所有符合调度条件的节点打分，最终选取得分最高的节点进行调度。Volcano提供多种调度策略进行节点打分优选，每种调度策略可以根据实际业务场景调整

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > Volcano调度 > 资源利用率优化调度
Volcano调度器 - 云容器引擎 CCE
Volcano调度器 - 云容器引擎 CCE

Volcano调度器插件介绍 Volcano 是一个基于 Kubernetes 的批处理平台，提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要的而 Kubernetes 当下缺失的一系列特性。字段说明表1 参数描述参数是否必选参数类型描述 basic

帮助中心 > 云容器引擎 CCE > API参考 > API > 插件实例字段说明
调度概述 - 云容器引擎 CCE
调度概述 - 云容器引擎 CCE

现快速高效地处理推理和图像识别等工作。功能描述参考文档 NPU调度 NPU调度可以指定Pod申请NPU的数量，为工作负载提供NPU资源。 NPU调度 Volcano调度 Volcano是一个基于Kubernetes的批处理平台，提供了机器学习、深度学习、生物信息学、基因组学

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度
节点系统参数优化 - 云容器引擎 CCE

节点系统参数优化可优化的节点系统参数列表修改节点日志缓存内存占用量上限RuntimeMaxUse 修改最大文件句柄数修改节点内核参数修改节点进程 ID数量上限kernel.pid_max 父主题：节点运维

 帮助中心 > 云容器引擎 CCE > 用户指南 > 节点 > 节点运维
亲和与反亲和调度 - 云容器引擎 CCE

backend 图2 拓扑域示意图调度时，会根据prefer标签划分节点拓扑域，本示例中192.168.0.97和192.168.0.94被划作同一拓扑域。如果当拓扑域中运行着app=backend的Pod，即使该拓扑域中并非所有节点均运行了app=backend的Pod（本例该拓扑域中仅192

帮助中心 > 云容器引擎 CCE > Kubernetes基础知识 > Pod的编排与调度
资源利用率优化调度 - 云容器引擎 CCE

资源利用率优化调度装箱调度（Binpack）重调度（Descheduler）节点池亲和性调度负载感知调度资源利用率优化调度配置案例父主题： Volcano调度

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > Volcano调度
Volcano调度概述 - 云容器引擎 CCE

Volcano调度概述 Volcano是一个基于Kubernetes的批处理平台，提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性，提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。 Volcano

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > Volcano调度
可优化的节点系统参数列表 - 云容器引擎 CCE

可优化的节点系统参数列表 CCE提供默认的节点系统参数在某些用户场景下可能出现性能瓶颈，因此用户可对部分节点系统参数进行自定义优化，节点系统参数如可优化的节点系统参数列表所示。修改节点系统参数具有一定的风险，需要您对Linux命令和Linux系统知识具有较高程度的了解，避免误操作引起节点故障。

帮助中心 > 云容器引擎 CCE > 用户指南 > 节点 > 节点运维 > 节点系统参数优化
部署策略 - 云容器引擎 CCE
部署策略 - 云容器引擎 CCE

可用区部署策略优先模式：以拓扑域topology.kubernetes.io/zone为key做多实例副本软的反亲和部署。优先将插件的容器实例调度到不同可用区的节点上，如集群下节点不满足多可用区，插件实例将调度到单可用区下的不同节点。强制模式：以拓扑域topology.kubernetes

帮助中心 > 云容器引擎 CCE > 配置参考 > 集群
设置性能管理配置 - 云容器引擎 CCE

0参数概念的详细说明，请参见APM参数说明。应用启动后，等待约3分钟，应用数据就会呈现在APM界面中，此时登录APM，您可以在APM上通过拓扑、调用链等进行应用性能优化，详细操作请参考应用拓扑。修改性能管理配置登录CCE控制台。单击集群名称进入集群，在左侧选择“工作负载”，单击工作负载名称。在“性

 帮助中心 > 云容器引擎 CCE > 用户指南 > 工作负载 > 配置工作负载
优化域名解析请求 - 云容器引擎 CCE

次访问都经过DNS解析和TCP重新建链的开销。优化容器内的resolve.conf文件由于resolve.conf文件中的ndots和search两个参数的作用，容器内resolve.conf文件的不同写法决定了域名解析的效率，关于ndots和search两个参数机制的详情请参考工作负载DNS配置说明。

帮助中心 > 云容器引擎 CCE > 最佳实践 > 网络 > CoreDNS配置优化实践 > 客户端
CoreDNS配置优化实践 - 云容器引擎 CCE

CoreDNS配置优化实践 CoreDNS配置优化概述客户端服务端父主题：网络

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 网络
使用ASM实现灰度发布和蓝绿发布 - 云容器引擎 CCE

返回控制台的“监测灰度运行状态”页面查看v1和v3版本的实时流量监控情况。图11 流量监控详情在“流量监控”页面，您可以查看Bookinfo应用各微服务之间的实时拓扑。ASM提供的流量监控功能，可监控微服务之间的拓扑、会话请求调用链、各环节耗时和RPS、RT等性能状态。图12 流量监控拓扑从拓扑图可以看出

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 发布
谨慎调整VPC和虚拟机的DNS配置 - 云容器引擎 CCE

谨慎调整VPC和虚拟机的DNS配置 CoreDNS启动时会默认从部署的实例上获取resolve.conf中的DNS配置，作为上游的解析服务器地址，并且在CoreDNS重启之前不会再重新加载节点上的resolve.conf配置。建议：保持集群中各个节点的resolve.conf配

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 网络 > CoreDNS配置优化实践 > 客户端
CoreDNS配置优化概述 - 云容器引擎 CCE

避免此类问题。解决方案 CoreDNS配置优化包含客户端优化及服务端优化。在客户端，您可以通过优化域名解析请求来降低解析延迟，通过使用合适的容器镜像、节点DNS缓存NodeLocal DNSCache等方式来减少解析异常。优化域名解析请求选择合适的镜像避免IPVS缺陷导致的DNS概率性解析超时

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 网络 > CoreDNS配置优化实践
通过特权容器功能优化内核参数 - 云容器引擎 CCE

通过特权容器功能优化内核参数前提条件从客户端机器访问Kubernetes集群，需要使用Kubernetes命令行工具kubectl，请先连接kubectl。详情请参见通过kubectl连接集群。操作步骤通过后台创建daemonSet，选择nginx镜像、开启特权容器、配置生命周期、添加hostNetwork:

帮助中心 > 云容器引擎 CCE > 最佳实践 > 容器
修改最大文件句柄数 - 云容器引擎 CCE

其中1048576为最大文件句柄数的建议取值。下图中命令仅做示例，请根据实际情况填写。节点创建完成后，登录节点查看参数是否修改成功。父主题：节点系统参数优化

 帮助中心 > 云容器引擎 CCE > 用户指南 > 节点 > 节点运维 > 节点系统参数优化
客户端 - 云容器引擎 CCE
客户端 - 云容器引擎 CCE

客户端优化域名解析请求选择合适的镜像避免IPVS缺陷导致的DNS概率性解析超时使用节点DNS缓存NodeLocal DNSCache 及时升级集群中的CoreDNS版本谨慎调整VPC和虚拟机的DNS配置父主题： CoreDNS配置优化实践

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 网络 > CoreDNS配置优化实践

总条数： 1000

上一页
1
2
3
4
5
...
50
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

Volcano调度器 - 云容器引擎 CCE

资源利用率优化调度配置案例 - 云容器引擎 CCE

Volcano调度器 - 云容器引擎 CCE

调度概述 - 云容器引擎 CCE

节点系统参数优化 - 云容器引擎 CCE

亲和与反亲和调度 - 云容器引擎 CCE

资源利用率优化调度 - 云容器引擎 CCE

Volcano调度概述 - 云容器引擎 CCE

可优化的节点系统参数列表 - 云容器引擎 CCE

部署策略 - 云容器引擎 CCE

设置性能管理配置 - 云容器引擎 CCE

优化域名解析请求 - 云容器引擎 CCE

CoreDNS配置优化实践 - 云容器引擎 CCE

使用ASM实现灰度发布和蓝绿发布 - 云容器引擎 CCE

谨慎调整VPC和虚拟机的DNS配置 - 云容器引擎 CCE

CoreDNS配置优化概述 - 云容器引擎 CCE

通过特权容器功能优化内核参数 - 云容器引擎 CCE

修改最大文件句柄数 - 云容器引擎 CCE

客户端 - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线