华为云UCS-volcano:版本记录

时间:2024-09-12 15:06:05

版本记录

建议升级到跟集群配套的最新volcano版本。

表4 集群版本配套关系

集群版本

支持的插件版本

v1.25

1.7.1、1.7.2

v1.23

1.7.1、1.7.2

v1.21

1.7.1、1.7.2

v1.19.16

1.3.7、1.3.10、1.4.5、1.7.1、1.7.2

v1.19

1.3.7、1.3.10、1.4.5

v1.17(停止维护)

1.3.7、1.3.10、1.4.5

v1.15(停止维护)

1.3.7、1.3.10、1.4.5

表5 CCE插件版本记录

插件版本

支持的集群版本

更新特性

1.9.1

/v1.19.16.*|v1.21.*|v1.23.*|v1.25.*/

  • 修复networkresource插件计数pipeline pod占用subeni问题
  • 修复binpack插件对资源不足节点打分问题
  • 修复对结束状态未知的pod的资源的处理
  • 优化事件输出
  • 默认高可用部署

1.7.2

/v1.19.16.*|v1.21.*|v1.23.*|v1.25.*/

  • Volcano 支持 Kubernetes 1.25版本
  • 提升Volcano调度性能。

1.7.1

/v1.19.16.*|v1.21.*|v1.23.*|v1.25.*/

Volcano 支持 Kubernetes 1.25版本

1.6.5

/v1.19.*|v1.21.*|v1.23.*/

  • 支持作为CCE的默认调度器
  • 支持混部场景下统一调度

1.4.5

/v1.17.*|v1.19.*|v1.21.*/

  • volcano-scheduler的部署方式由statefulset调整为deployment,修复节点异常时Pod无法自动迁移的问题

1.4.2

/v1.15.*|v1.17.*|v1.19.*|v1.21.*/

  • 修复跨GPU分配失败问题
  • 适配更新后的EAS API

1.3.3

/v1.15.*|v1.17.*|v1.19.*|v1.21.*/

  • 修复GPU异常导致的调度器崩溃问题;修复特权Init容器准入失败问题

1.3.1

/v1.15.*|v1.17.*|v1.19.*/

  • 升级Volcano框架到最新版本
  • 支持Kubernetes 1.19版本
  • 添加numa-aware插件
  • 修复多队列场景下Deployment扩缩容的问题
  • 调整默认开启的算法插件

1.2.5

/v1.15.*|v1.17.*|v1.19.*/

  • 修复某些场景下OutOfcpu的问题
  • 修复queue设置部分capability情况下Pod无法调度问题
  • 支持volcano组件日志时间与系统时间保持一致
  • 修复队列间多抢占问题
  • 修复ioaware插件在某些极端场景下结果不符合预期的问题
  • 支持混合集群

1.2.3

/v1.15.*|v1.17.*|v1.19.*/

  • 修复因为精度不够引发的训练任务OOM的问题
  • 修复CCE1.15以上版本GPU调度的问题,暂不支持任务分发时的CCE版本滚动升级
  • 修复特定场景下队列状态不明的问题
  • 修复特定场景下作业挂载PVC panic的问题
  • 修复GPU作业无法配置小数的问题
  • 添加ioaware插件
  • 添加ring controller
support.huaweicloud.com/usermanual-ucs/ucs_10_0193.html