检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
rser查看loss收敛情况,如图2所示。 单节点训练:训练过程中的loss直接打印在窗口上。 多节点训练:训练过程中的loss打印在最后一个节点上。 图2 Loss收敛情况(示意图) 父主题: 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导(6
rser查看loss收敛情况,如图2所示。 单节点训练:训练过程中的loss直接打印在窗口上。 多节点训练:训练过程中的loss打印在最后一个节点上。 图2 Loss收敛情况(示意图) 父主题: 主流开源大模型基于DevServer适配PyTorch NPU训练指导(6.3.906)
实例类别,默认为NOTEBOOK。枚举值如下: DEFAULT:CodeLab免费规格实例,每个用户最多只能创建一个。 NOTEBOOK:计费规格实例。 limit 否 Integer 每一页的数量,默认值10。 name 否 String 实例名称,支持模糊匹配查询。限制128个字符,支持大小写字母、数字、中划线和下划线。
实例类别,默认为NOTEBOOK。枚举值如下: DEFAULT:CodeLab免费规格实例,每个用户最多只能创建一个。 NOTEBOOK:计费规格实例。 limit 否 Integer 每一页的数量,默认值10。 name 否 String 实例名称,支持模糊匹配查询,限制128个字符,支持大小写字母、数字、中划线和下划线。
响应Body参数 参数 参数类型 描述 created_at String 创建时间。 subscription_id String 订阅ID,唯一性标识。创建订阅时,后台自动生成。 topic_urns Array of strings 订阅的主题。 entity String 订阅的主题。
署,工作流发布至运行态后,部分运行的开关默认关闭,节点全部运行。用户可在权限管理页面打开开关,选择指定的场景进行运行。 部分运行能力支持同一个节点被定义在不同的运行场景中,但是需要用户自行保证节点之间数据依赖的正确性。另外,部分运行能力仅支持在运行态进行配置运行,不支持在开发态进行调试。
-it ${container_name} bash 上传代码文件到宿主机时使用的是root用户,此处需要执行如下命令统一文件属主为ma-user用户。 #统一文件属主为ma-user用户 sudo chown -R ma-user:ma-group ${container_work_dir}
用户项目ID,获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 limit 否 Integer 每一页的数量,默认值200。 name 否 String 镜像名称,长度限制512个字符,支持小写字母、数字、中划线、下划线和点。 name_fuzzy_match
hostname和port也必须分别是0.0.0.0和8080不可更改。 Step2 部署模型 在ModelArts控制台的AI应用管理模块中,将模型部署为一个AI应用。 登录ModelArts控制台,单击“资产管理 > AI应用 > 创建”,开始创建AI应用。 设置创建AI应用的相应参数。此处仅
LoRA训练的详细过程。完成本方案的部署,需要先联系您所在企业的华为方技术支持购买DevServer资源。 本方案目前仅适用于企业客户。 资源规格要求 推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B单机。 表1 环境要求 名称 版本 driver 23.0.6 PyTorch
描述 user_id String IAM用户ID。此参数与user_name必填一个。两者都填优先使用user_id。 user_name String IAM用户名称。此参数与user_id必填一个。 状态码: 400 表5 响应Body参数 参数 参数类型 描述 - String
ep示例如下。 指定启动脚本与集群 from modelarts import workflow as wf # 通过MrsStep来定义一个MrsJobStep节点, algorithm = wf.steps.MrsJobAlgorithm( boot_file="o
计算节点个数:默认为1,输入值必须是1-5之间的整数。 是否自动停止:启用该参数并设置时间后,服务将在指定时间后自动停止。如果不启用此参数,在线服务将一直运行,同时一直收费,自动停止功能可以帮您避免产生不必要的费用。默认开启自动停止功能,且默认值为“1小时后”。 目前支持设置为“1小时后”、“2小
计算节点个数:默认为1,输入值必须是1-5之间的整数。 是否自动停止:启用该参数并设置时间后,服务将在指定时间后自动停止。如果不启用此参数,在线服务将一直运行,同时一直收费,自动停止功能可以帮您避免产生不必要的费用。默认开启自动停止功能,且默认值为“1小时后”。 目前支持设置为“1小时后”、“2小
ipeline.sh,具体修改代码内容以及位置,如下所示。 训练作业中存在2个代码目录,一个是从OBS上传到ModelArts Standard训练容器中的代码目录OBS_CODE_DIR,一个是后续构建新镜像步骤ECS中构建新镜像中镜像的代码目录CODE_DIR。修改代码如图1。
lora_70b.sh <MASTER_ADDR=xx.xx.xx.xx> <NNODES=8> <NODE_RANK=0> 示例: #第一台节点 sh scripts/llama2/0_pl_lora_70b.sh xx.xx.xx.xx 8 0 # 第二台节点 sh
购买共享存储硬盘资源(多机训练场景) 用户若购买开通多个节点机器资源,并使用多机进行分布式训练时,则需要用户购买可挂载的存储硬盘资源,以实现多机共同访问同一存储硬盘资源。ModelArts Lite DevServer 支持配置的存储方案请参考配置Lite Server存储。其中访问方式中,可支
购买共享存储硬盘资源(多机训练场景) 用户若购买开通多个节点机器资源,并使用多机进行分布式训练时,则需要用户购买可挂载的存储硬盘资源,以实现多机共同访问同一存储硬盘资源。ModelArts Lite DevServer 支持配置的存储方案请参考配置Lite Server存储。其中访问方式中,可支
购买共享存储硬盘资源(多机训练场景) 用户若购买开通多个节点机器资源,并使用多机进行分布式训练时,则需要用户购买可挂载的存储硬盘资源,以实现多机共同访问同一存储硬盘资源。ModelArts Lite DevServer 支持配置的存储方案请参考配置Lite Server存储。其中访问方式中,可支
scripts/llama2/0_pl_sft_70b.sh <MASTER_ADDR=xx.xx.xx.xx> <NNODES=4> <NODE_RANK=0> 示例: #第一台节点 sh scripts/llama2/0_pl_sft_70b.sh xx.xx.xx.xx 4 0 # 第二台节点 sh s