检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。
监控资源 用户可以通过资源占用情况窗口查看计算节点的资源使用情况,最多可显示最近三天的数据。在资源占用情况窗口打开时,会定期向后台获取最新的资源使用率数据并刷新。 操作一:如果训练作业使用多个计算节点,可以通过实例名称的下拉框切换节点。
原因分析 出现该问题的可能原因如下: 如果在此之前是有进行数据复制的,每个节点复制的速度不是同一个时间完成的,然后有的节点没有复制完,其他节点进行torch.distributed.init_process_group()导致超时。
原因分析 节点磁盘不足,镜像大小过大。 解决方法 首先考虑优化镜像,减小节点磁盘的占用。 优化镜像无法解决问题,请联系系统管理员处理。 父主题: 服务部署
规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。
规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。
对于不同的升级方式,滚动升级选择节点的策略会不同: 如果升级方式为安全升级,则根据滚动实例数量选择无业务的节点,隔离节点并滚动升级。 如果升级方式为强制升级,则根据滚动实例数量随机选择节点,隔离节点并滚动升级。
如果升级方式为强制升级,则根据滚动节点数量随机选择节点,隔离节点并滚动升级。 无业务节点定义:在资源池详情“节点管理”页签下,如果GPU/Ascend的可用数等于总数,则为无业务节点。 滚动驱动升级时,驱动异常的节点对升级无影响,会和驱动正常的节点一起升级。
规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。
规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。
开发第一条Workflow 本章节提供了一个基于图像分类算法,构建包含训练单节点的Workflow的样例。更多节点的构建参数请参考创建Workflow节点。 步骤一:安装开发环境 本案例提供了两种安装开发环境的方法,您可根据使用习惯选择。
规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。
如果您购买了套餐包,计算节点规格可选择您的套餐包,同时在“配置费用”页签还可查看您的套餐包余量以及超出部分的计费方式,请您务必关注,避免造成不必要的资源浪费。
找到购买Cluster资源时选择的CCE集群,单击名称进入CCE集群详情页面,单击“节点管理”页签,在“节点”页签中单击需要登录的节点名称,跳转至弹性云服务器页面。 图1 节点管理 绑定弹性公网IP。 若已有未绑定的弹性公网IP,直接选择即可。
如果您购买了套餐包,计算节点规格可选择您的套餐包,同时在“配置费用”页签还可查看您的套餐包余量以及超出部分的计费方式,请您务必关注,避免造成不必要的资源浪费。 完成资源配置后,单击“继续运行”,服务部署节点将继续运行,直至状态变为“运行成功”,至此,已将模型部署为在线服务。
在弹性节点Server的节点列表页中,可以查看Server节点的状态、创建时间、计费模式、实例规格名称、核心硬件配置、私网IP地址和绑定的虚拟私有云名称。 图1 查看Server节点 单击某个Server节点名称,进入到Server节点详情页,可以查看更多信息,如表1所示。