正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
图1 资源配置(单节点方式) 若购买资源池时,节点数量采用整柜方式购买(部分规格支持),则在扩缩容时为整柜方式扩缩容,目标节点总数等于“数量*整柜”。“整柜”参数为创建资源池时选择,扩缩容时不可修改。用户通过增减“数量”来改变“目标总节点数”。
创建新版Notebook无法使用已购买的专属资源池,如何解决? 问题现象 已购买专属资源池,但创建Notebook时该资源池不可选择,无法创建Notebook。 提示当前专属资源池未初始化开发环境,请到专属资源池页面初始化开发环境。
完成本方案的部署,需要先联系您所在企业的华为方技术支持购买Cluster资源。 本方案目前仅适用于企业客户,并且需要用户具备k8s集群相关技能。
Step1 准备环境 请参考DevServer资源开通,购买DevServer资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。
通过将Stable Diffusion的流程巧妙分解成各个节点,成功实现了工作流的精确定制和可靠复现。每一个节点都有特定的功能,可以通过调整节点连接达到不同的出图效果。在图像生成方面,它不仅比传统的WebUI更迅速,而且显存占用更为经济。
说明: 单次创建时,节点数建议不大于30,否则可能触发限流导致创建失败。 部分规格支持整柜购买,此时节点数量会显示为“数量*整柜”,购买的节点总数为两者的乘积。整柜购买可实现不同任务间的物理隔离,避免通信冲突,在任务规模增大的同时保证计算性能线性度不下降。
] properties 节点的属性信息 否 dict policy 节点的执行策略,主要包含节点调度运行的时间间隔、节点执行的超时时间、以及节点执行是否跳过的相关配置 否 StepPolicy depend_steps 依赖节点的列表,该字段决定了DAG的结构,也决定了节点执行的顺序
在左侧菜单栏中选择“AI专属资源池 > 弹性节点 Server”。 执行如下操作,启动或停止弹性节点Server。 启动弹性节点Server:单击“操作”列的“启动”。只有处于“已停止/停止失败/启动失败”状态的弹性节点Server可以执行启动操作。
管理Lite Cluster节点:节点是容器集群组成的基本元素,您可以对资源池内单节点进行替换、删除、重置等操作。 管理Lite Cluster节点池:为帮助您更好地管理Kubernetes集群内的节点,ModelArts支持通过节点池来管理节点。
Workflow多分支运行介绍 当前支持两种方式实现多分支的能力,条件节点只支持双分支的选择执行,局限性较大,推荐使用配置节点参数控制分支执行的方式,可以在不添加新节点的情况下完全覆盖ConditionStep的能力,使用上更灵活。
说明: 单次创建时,节点数建议不大于30,否则可能触发限流导致创建失败。 部分局点的部分规格支持整柜购买,此时节点数量会显示为“数量*整柜”,购买的节点总数为两者的乘积。整柜购买可实现不同任务间的物理隔离,避免通信冲突,在任务规模增大的同时保证计算性能线性度不下降。
单节点功能,如训练、推理等在ModelArts相应服务中调试通过。 根据节点功能选择相应的代码模板,进行内容的补充。 根据DAG结构编排节点,完成Workflow的编写。
原因分析 节点磁盘不足,镜像大小过大。 解决方法 首先考虑优化镜像,减小节点磁盘的占用。 优化镜像无法解决问题,请联系系统管理员处理。 父主题: 服务部署
*节点 & 8*Ascend 1*节点 & 2*Ascend cutoff_len=8192 sft lora per_device_train_batch_size=1 2*节点 & 8*Ascend 1*节点 & 4*Ascend 父主题: 训练脚本说明
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。
图4 复制实例ID Server购买订单里绑定的资源ID为Server ID,与Server产品所封装的BMS/ECS ID不同,若要退订Server,需要在ModelArts控制台的“AI专属资源池 > 弹性节点 Server”中查询对应ID。
原因分析 出现该问题的可能原因如下: 如果在此之前是有进行数据复制的,每个节点复制的速度不是同一个时间完成的,然后有的节点没有复制完,其他节点进行torch.distributed.init_process_group()导致超时。
表1 参数说明 参数名称 说明 “部署方式” 可选择“节点”、“节点组”或“资源池”。 节点:可选ModelArts边缘节点和IEF边缘节点。请指定“边缘节点类型”和“选择边缘节点”。 节点组:在IEF创建的铂金版实例的边缘节点组。
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。