检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
加载中断生成的checkpoint,中间不需要改动任何参数(支持预训练、LoRA微调、SFT微调)。 如果要使用自动重启功能,资源规格必须选择八卡规格。 当前功能还处于试验阶段,只有llama3-8B/70B适配。 父主题: 主流开源大模型基于Standard适配PyTorch NPU训练指导(6
场景介绍 方案概览 本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,以基于DeepSpeed的Qwen-VL模型为例,为用户提供了多模态理解模型在ModelArts Standard上的全量微调和LoRA微调方案。 本方案目前仅适用于部分企业客户,完成本方
场景介绍 方案概览 本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,以基于DeepSpeed的Qwen-VL模型为例,为用户提供了多模态理解模型在ModelArts Standard上的全量微调和LoRA微调方案。 本方案目前仅适用于部分企业客户,完成本方
"根目录空间。 处理方法 排查数据集大小、数据集解压后的大小,checkpoint保存文件大小,是否占满了磁盘空间。具体规格的空间大小可参见训练环境中不同规格资源“/cache”目录的大小 如数据大小已超过/cache目录大小,则可以考虑通过SFS来额外挂载数据盘进行扩容。 将数
是否只读 备注 /home/ma-user/work/ 否 客户数据的持久化目录。 /data 否 客户PFS的挂载目录。 /cache 否 裸机规格时支持,用于挂载宿主机NVMe的硬盘。 /train-worker1-log 否 兼容训练任务调试过程。 /dev/shm 否 用于PyTorch引擎加速。
String 更新结果,取值为:SUCCESS/FAIL/RUNNING。 config Config结构数组 更新后的服务配置,当infer_type为real-time时,会返回此值。 success_num Number 操作成功的节点数,当infer_type为edge时,会返回此值。
wf.AlgorithmParameters(name="save_model_secs", value=wf.Placeholder(name="save_model_secs", placeholder_type=wf.PlaceholderType.INT, default=60
<cfgs_yaml_file>:性能测试配置的yaml文件地址,指代码目录中performance_cfgs.yaml相对或绝对路径,此配置文件为训练最优配置参数。 --baseline <baseline>:<可选>GP-Ant8机器性能基线yaml文件路径,用户可自行修改,不填则使
placeholder_type=wf.PlaceholderType.JSON, description="训练资源规格") ) ), # 训练资源规格信息 depend_steps=[condition_step] ) # 通过JobStep来定义一个训练节点,并将训练结果输出到OBS
3”目录“conda env”为“python-3.7.10”,训练脚本位于“/home/ma-user/modelarts/user-job-dir/code/train.py”。可通过以下方式使用指定的“conda env”启动训练: 方式一:为镜像设置正确的“DEFAULT
TensorBoard可视化训练作业,当前仅支持基于TensorFlow、PyTorch版本镜像,CPU/GPU规格的资源类型。请根据实际局点支持的镜像和资源规格选择使用。 前提条件 为了保证训练结果中输出Summary文件,在编写训练脚本时,您需要在脚本中添加收集Summary相关代码。
清理镜像构建缓存 (只支持ModelArts Notebook里使用)。 debug 在ECS上调试SWR镜像是否能在ModelArts Notebook中使用 (只支持已安装docker环境的ECS)。 使用ma-cli image get-template命令查询镜像构建模板 m
速尝鲜大模型,真正达到“即时接入,即时体验”的效果。 当开发者对希望对模型进行开发和训练,AI Gallery为零基础开发者,提供无代码开发工具,快速推理、部署模型;为具备基础代码能力的开发者,AI Gallery将复杂的模型、数据及算法策略深度融合,构建了一个高效协同的模型体验
<cfgs_yaml_file>:性能测试配置的yaml文件地址,指代码目录中performance_cfgs.yaml相对或绝对路径,此配置文件为训练最优配置参数。 --baseline <baseline>:<可选>GP-Ant8机器性能基线yaml文件路径,用户可自行修改,不填则使
ge-Language-Models at Evaluation)。 配置需要使用的NPU卡,例如:实际使用的是第1张和第2张卡,此处填写为“0,1”,以此类推。 export ASCEND_RT_VISIBLE_DEVICES=0,1 步骤一:配置精度测试环境 精度评测可以在原
“/”根目录,是docker中配置项“base size”,默认是10G,云上统一改为50G。 “/cache”目录满了,一般是3.5T存储空间满了,具体规格的空间大小可参见训练环境中不同规格资源“/cache”目录的大小。 处理方法 如果在训练作业的工作目录下有core文件生成,可以在启动脚本最前面加上如下代码,来关闭core文件产生。
ge-Language-Models at Evaluation)。 配置需要使用的NPU卡,例如:实际使用的是第1张和第2张卡,此处填写为“0,1”,以此类推。 export ASCEND_RT_VISIBLE_DEVICES=0,1 步骤一:配置精度测试环境 精度评测可以在原
ge-Language-Models at Evaluation)。 配置需要使用的NPU卡,例如:实际使用的是第1张和第2张卡,此处填写为“0,1”,以此类推。 export ASCEND_RT_VISIBLE_DEVICES=0,1 步骤一:配置精度测试环境 精度评测可以在原
样例 对应功能 场景 说明 ModelArts Standard权限管理 IAM权限配置、权限管理 为子账号配置权限 当一个华为云账号下需创建多个IAM子账号时,可参考此样例,为IAM子账号赋予使用ModelArts所需的权限。避免IAM子账号因权限问题导致使用时出现异常。 ModelArts
术支持。 适配的Cann版本是cann_8.0.rc3。 资源规格要求 ModelArts Lite DevServer或ModelArts Standard专属资源池的资源: 使用Ascend Snt9B单机单卡规格。 推荐使用“西南-贵阳一”Region上的昇腾资源。 软件配套版本