检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
用于指定预处理数据的工作线程数。随着线程数的增加,预处理的速度也会提高,但也会增加内存的使用。 per_device_train_batch_size 1 指定每个设备的训练批次大小。 gradient_accumulation_steps 8 必须修改,指定梯度累积的步数,这可以增加批次大小而不增加内存消耗。可参考表1
开启图模式后,服务第一次响应请求时会有一个较长时间的图编译过程,并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时,可通过缓存文件来快速完成图编译的过程,避免长时间的等待,并且基于图编译缓存文件来启动服务可获得更优的推理性能,因此请在有图编译缓存文件的前提下启动服务
查询onnx模型的输入信息。 # 查询onnx模型的输入信息 t.get_model_input_info() 图1 查询onnx模型的输入输出信息 查询onnx模型的输出信息。 # 查询模型的输出信息 t.get_model_output_info() 图2 查询onnx模型的输出信息
909软件包中的AscendCloud-AIGC-6.3.909-xxx.zip 文件名中的xxx表示具体的时间戳,以包名发布的实际时间为准。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。
_eval.sh中的参数 模型存放的地方,如果根据第2步的方式保存的模型,设置如下: CKPT="llama-vid/llama-vid-7b-full-224-video-fps-1" 调用openai的key,评估精度时需要调用openai,需要填写正确的key,这个可能需要进行付费调用,评估1000条大概需要0
911软件包中的AscendCloud-CV-6.3.911-xxx.zip 文件名中的xxx表示具体的时间戳,以包名发布的实际时间为准。 获取路径:Support-E,登录后在此路径中查找下载ModelArts 6.3.911 版本。 说明: 如果没有下载权限,请联系您所在企业的华为方技术支持下载获取。
开启图模式后,服务第一次响应请求时会有一个较长时间的图编译过程,并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时,可通过缓存文件来快速完成图编译的过程,避免长时间的等待,并且基于图编译缓存文件来启动服务可获得更优的推理性能,因此请在有图编译缓存文件的前提下启动服务
准备镜像 构建容器镜像并调试 镜像构建及调试与单机单卡相同。 具体操作,请参考线下容器镜像构建及调试。 上传镜像 请参考单机单卡训练的上传镜像章节操作。 父主题: 单机多卡
线下容器镜像构建及调试 构建容器镜像并调试 镜像构建及调试与单机单卡相同。 具体操作,请参考线下容器镜像构建及调试。 上传镜像 请参考单机单卡训练的上传镜像章节操作。 父主题: 多机多卡
模型NPU卡数、梯度累积值取值表 不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表1 NPU卡数、加速框架、梯度配置取值表 模型 Template 模型参数量 训练策略类型 序列长度cutoff_len 梯度累积值
模型NPU卡数、梯度累积值取值表 不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表1 NPU卡数、加速框架、梯度配置取值表 模型 Template 模型参数量 训练策略类型 序列长度cutoff_len 梯度累积值
00:00(北京时间)用AI开发平台ModelArts的新版数据集全面替代旧版数据集,旧版数据集正式下线。 下线范围 下线区域:华北-北京四(其他区域已下线) 受影响服务 ModelArts旧版数据集。 下线影响 正式下线后,所有用户将无法使用旧版数据集。为了避免影响您的业务,建议您在2024/10/30
用于指定预处理数据的工作线程数。随着线程数的增加,预处理的速度也会提高,但也会增加内存的使用。 per_device_train_batch_size 1 必须修改,指定每个设备的训练批次大小。 gradient_accumulation_steps 8 指定梯度累积的步数,这可以增加批次大小而不增加内存消耗。
equirements.txt”的文件,并且在文件中指定此whl包的包名。依赖包必须为“.whl”格式的文件。 例如,“代码目录”对应的OBS路径下,包含模型文件、whl包,同时还存在“pip-requirements.txt”文件。“代码目录”的结构如下所示: |---模型启动文件所在OBS文件夹
模型NPU卡数、梯度累积值取值表 不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表1 NPU卡数、加速框架、梯度配置取值表 模型 模型参数量 训练类型 序列长度cutoff_len 梯度累积值 优化工具(Deepspeed)
模型NPU卡数、梯度累积值取值表 不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表1 NPU卡数、加速框架、梯度配置取值表 模型 Template 模型参数量 训练策略类型 序列长度cutoff_len 梯度累积值
参来迭代模型;或在实验阶段,有一个可以优化训练的性能的想法,则会回到开发阶段,重新优化代码。 图1 模型开发过程 ModelArts提供了模型训练的功能,方便您查看训练情况并不断调整您的模型参数。您还可以基于不同的数据,选择不同规格的资源池用于模型训练。 请参考以下指导在ModelArts
称”,单击“确定”完成创建,选择创建的文件夹。 文件夹名称不能包含以下字符 : \/:*?"<>|。 文件夹名称不能以英文句号(.)或斜杠(/)开头或结尾。 文件夹的绝对路径总长度不能超过1023字符。 任何单个斜杠(/)表示分隔并创建多层级的文件夹。 图2 新建文件夹 父主题:
云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置:输入用户的“子目录挂载”路径。如果默认没有填写,则忽略。 图4 选择SFS Turbo 作业日志选择OBS中的路径,ModelArts的训练作业的日志信息则保存该路径下。 最后,请参考查看日志和
云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置:输入用户的“子目录挂载”路径。如果默认没有填写,则忽略。 图4 选择SFS Turbo 作业日志选择OBS中的路径,ModelArts的训练作业的日志信息则保存该路径下。 最后,请参考查看日志和