正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
常见错误原因和解决方法 显存溢出错误 网卡名称错误 父主题: 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.908)
ning-jobs/{training_job_id}/autosearch-parameter-analysis 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id
Standard使用run.sh脚本实现OBS和训练容器间的数据传输。 准备数据 单击下载动物数据集至本地,并解压。 通过obsutil将数据集上传至OBS桶中。 ./obsutil cp ./dog_cat_1w obs://${your_obs_buck}/demo/ -f -r OBS支持多种文件上
Turbo 作业日志选择OBS中的路径,ModelArts的训练作业的日志信息则保存该路径下。 最后,请参考查看日志和性能章节查看LoRA微调的日志和性能。了解更多ModelArts训练功能,可查看模型开发简介。 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch
单击服务名称,进入服务详情页面,查看服务详情信息,单击“日志”页签,查看服务日志信息。 图2 查看服务日志信息 服务预测 在服务详情页面,单击“预测”页签,进行服务预测。 图3 服务预测 父主题: Standard推理部署
针对大文件,建议使用OBS服务上传文件。使用OBS客户端,将本地文件上传至OBS桶中,然后使用ModelArts SDK从OBS下载文件至Notebook本地。 使用OBS客户端上传文件的操作指导:上传文件。 使用ModelArts SDK或Moxing接口从OBS下载文件请参见如何
获取自动化搜索作业yaml模板的内容 功能介绍 获取自动化搜索作业yaml模板的内容。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{projec
创建AI应用 从训练中选择元模型 从模板中选择元模型 从对象存储服务(OBS)中选择元模型 从容器镜像中选择元模型 父主题: 管理AI应用
data_selector:数据选择 data Object 输入项数据。 value Object 输入项的值。 表7 JobOutput 参数 参数类型 描述 name String 输出数据的名称。 type String 输出项类型。枚举值如下: obs:OBS model:AI应用元模型 config
Turbo 作业日志选择OBS中的路径,ModelArts的训练作业的日志信息则保存该路径下。 最后,请参考查看日志和性能章节查看LoRA微调的日志和性能。了解更多ModelArts训练功能,可查看模型开发简介。 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch
存在。 使用当前账户登录OBS管理控制台,去查找对应的OBS桶、文件夹、文件是否存在。 通过接口判断路径是否存在。在代码中执行如下命令,检查路径是否存在。 import moxing as mox mox.file.exists('obs://obs-test/ModelArts/examples/')
本地与ModelArts上训练对比 ModelArts上进行训练比本地训练多了一步OBS和容器环境的数据迁移工作。 增加了和OBS交互工作的整个训练流程如下: 建议使用OBSutil作为和OBS交互的工具,如何在本机安装obsutil可以参考obsutil安装和配置。 训练数据、代码、模型下载。(本地使用硬盘挂载或者docker
需求购买OBS服务。OBS服务支持以下两种存储方式,单机单卡场景使用文件系统,多机多卡场景使用普通OBS桶。 创建普通OBS桶 创建并行文件系统 购买数据加密服务DEW 在使用Notebook进行代码调试时,如果要开启“SSH远程开发”功能,需要选择已有密钥对。密钥对可免费创建,
在线服务预测报错DL.0105 问题现象 在线服务预测报错DL.0105,报错日志:“TypeError:‘float’object is not subscriptable”。 原因分析 根据报错日志分析,是因为一个float数据被当做对象下标访问了。 处理方法 将模型推理代码
常见错误原因和解决方法 显存溢出错误 网卡名称错误 保存ckpt时超时报错 父主题: 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.907)
数据及算法已经上传至OBS,如果未上传,请参考上传数据和算法至OBS(首次使用时需要)。 ECS服务器和SFS的共享硬盘在相同的VPC或者对应VPC能够互联。 ECS服务器基础镜像需要用Ubuntu 18.04的。 ECS服务器和SFS Turbo需要在同一子网中。 操作步骤 在ECS服务器中设置华为云镜像源。 sudo
/v2/{project_id}/training-jobs/autosearch/yaml-templates 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求参数 无 响应参数 状态码: 200 表2 响应Body参数
Turbo 作业日志选择OBS中的路径,ModelArts的训练作业的日志信息则保存该路径下。 最后,请参考查看日志和性能章节查看LoRA微调的日志和性能。了解更多ModelArts训练功能,可查看模型开发简介。 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch
常见错误原因和解决方法 显存溢出错误 网卡名称错误 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.908)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 保存ckpt时超时报错 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.907)