检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
常见错误原因和解决方法 显存溢出错误 网卡名称错误 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.909)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 mc2融合算子报错 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.912)
mox #obs存放数据路径 obs_code_dir= "obs://<bucket_name>/llm_train" obs_data_dir= "obs://<bucket_name>/training_data" obs_model_dir= "obs://<bucket_name>/model"
mox #obs存放数据路径 obs_code_dir= "obs://<bucket_name>/llm_train" obs_data_dir= "obs://<bucket_name>/training_data" obs_model_dir= "obs://<bucket_name>/model"
mox #obs存放数据路径 obs_code_dir= "obs://<bucket_name>/llm_train" obs_data_dir= "obs://<bucket_name>/training_data" obs_model_dir= "obs://<bucket_name>/model"
mox #obs存放数据路径 obs_code_dir= "obs://<bucket_name>/llm_train" obs_data_dir= "obs://<bucket_name>/training_data" obs_model_dir= "obs://<bucket_name>/model"
常见错误原因和解决方法 显存溢出错误 网卡名称错误 父主题: 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.909)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 父主题: 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.910)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 保存ckpt时超时报错 父主题: 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.907)
Step2 创建OBS桶 ModelArts使用对象存储服务(Object Storage Service,简称OBS)进行数据存储以及模型的备份和快照,实现安全、高可靠和低成本的存储需求。因此,在使用ModelArts之前通常先创建一个OBS桶,然后在OBS桶中创建文件夹用于存放数据。
常见错误原因和解决方法 显存溢出错误 网卡名称错误 父主题: 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.911)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 保存ckpt时超时报错 mc2融合算子报错 父主题: 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.912)
不支持小语种。 数据上传至OBS 在本文档中,采用通过OBS管理控制台将数据上传至OBS桶。 上传OBS的文件规范: 如不需要提前上传训练数据,请创建一个空文件夹用于存放工程后期生成的文件。如:“/bucketName/data-cat”。 如需要提前上传待标注的音频,请创建一
训练的权重转换说明 以llama2-13b举例,使用训练作业运行obs_pipeline.sh脚本后,脚本自动执行权重转换,并检查是否已经完成权重转换的过程。 如果已完成权重转换,则直接执行训练任务。如果未进行权重转换,则会自动执行scripts/llama2/2_convert_mg_hf
常见错误原因和解决方法 显存溢出错误 网卡名称错误 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.911)
参数类型 描述 input 是 String 模板输入路径,可以是obs文件路径,obs目录路径,使用多输入项的模板创建模型时,如果模板定义的目标路径input_properties是一样的,则此处输入的obs目录或者obs文件不能重名,否则会覆盖。 input_id 是 String
常见错误原因和解决方法 显存溢出错误 网卡名称错误 保存ckpt时超时报错 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.907)
file.copy('obs://bucket_name/obs_file.txt', '/tmp/obs_file.txt') 将本地文件复制到OBS,也就是上传一个OBS文件,例如上传“/tmp/obs_file.txt”到“obs://bucket_name/obs_file.txt”。
设置输入与输出。需根据实际数据情况选择“数据集”或“OBS目录”。设置为“数据集”时,需填写“数据集名称”和“数据集版本”;设置为“OBS目录”时,需填写正确的OBS路径。 图3 输入输出设置-数据集 图4 输入输出设置-OBS目录 确认参数填写无误后,单击“创建”,完成数据处理任务的创建。
afe527 CANN:cann_8.0.rc3 PyTorch:2.1.0 基础镜像的使用 用户通过ECS获取基础镜像步骤拉取基础镜像并上传至SWR中。随后可通过ECS中构建新镜像的方式来部署训练环境。可以在ECS中,通过运行Dockerfile文件会在基础镜像上创建新的镜像。