检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建OBS桶 ModelArts使用对象存储服务(Object Storage Service,简称OBS)进行数据存储以及模型的备份和快照,实现安全、高可靠和低成本的存储需求。因此,在使用ModelArts之前通常先创建一个OBS桶,然后在OBS桶中创建文件夹用于存放数据。
/bin/bash ##认证用的AK和SK硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。
您需要编写对应的推理代码和配置文件,方便后续进行推理部署。 说明:由于使用预置算法训练得到的模型,已包含了推理代码和配置文件,所以无需另外编写提供。 模型包规范介绍 订阅模型 ModelArts支持统一管理从AI Gallery订阅模型,订阅的模型可以直接用于服务部署。
使用该裸金属服务器制作自定义镜像时, 必须清除残留文件,请参考清理文件。 父主题: Lite Server
图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件 查看性能 训练性能主要通过训练日志中的2个指标查看,吞吐量和loss收敛情况。
表1 支持的模型列表 序号 支持模型 支持模型参数量 权重文件获取地址 框架 1 Qwen-VL 7b https://huggingface.co/Qwen/Qwen-VL-Chat DeepSpeed 操作流程 图1 操作流程图 表2 操作任务流程说明 阶段 任务 说明 准备工作
获取方法请参见获取项目ID和名称。 pool_name 是 String 资源池名称。 nodepool_name 是 String 节点池名称。
如果在训练时调用ECS中的文件,需要修改文件权限改为ma-user可读,否则会出现Permission denied错误,因此需要在ECS中提前创建好ma-user和ma-group。
获取方法请参见获取项目ID和名称。 pool_name 是 String 资源池名称。 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 X-ModelArts-User-ID 否 String 实际的外部租户ID,如果有的话,工作空间鉴权以该ID为准。
表1 支持的模型列表和权重获取地址 序号 模型名称 是否支持fp16/bf16推理 是否支持W4A16量化 是否支持W8A8量化 是否支持W8A16量化 是否支持 kv-cache-int8量化 开源权重获取地址 1 llama-7b √ √ √ √ √ https://huggingface.co
获取方法请参见获取项目ID和名称。 task_id 是 String 任务ID。 请求参数 无 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述 annotated_sample_count Long 已标注样本数量。
获取方法请参见获取项目ID和名称。 task_id 是 String 数据处理任务ID。 version_id 是 String 数据处理任务的版本ID。
获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 limit 否 Integer 指定每一页返回的最大条目数,取值范围[1,100],默认为10。 offset 否 Integer 分页列表的起始页,默认为0。
获取方法请参见获取项目ID和名称。 pool_name 是 String 资源池名称。 nodepool_name 是 String 节点池名称。 表2 Query参数 参数 是否必选 参数类型 描述 continue 否 String 分页查询时上一页位置。
如果找不到相关文件的问题,可以搜索相关文件在哪里,然后复制到指定目录,例如可执行如下命令: cp /tmp/nvidia-peer-memory-1.3/nv_peer_mem.conf /etc/infiniband/ cp /tmp/nvidia-peer-memory-1.3
数据管理 数据集管理 数据集版本管理 样本管理 导入任务管理 导出任务管理 Manifest管理 标注任务管理
获取数据集。动态benchmark需要使用数据集进行测试,可以使用公开数据集,例如Alpaca、ShareGPT。也可以根据业务实际情况,使用generate_datasets.py脚本生成和业务数据分布接近的数据集。
图3 运行示例 复制数据到OBS 在Notebook的在JupyterLab的服务界面,将文件yolov8_train_ascend.zip,复制到已有的OBS桶中,示例代码如下。
Host ModelArts-notebook-xxx HostName authoring-ssh-modelarts-example.huawei.com Port 31215 User ma-user IdentityFile c:\Users\xxx\KeyPair-xxx.pem
- ZeRO-0 数据分布到不同的NPU - ZeRO-1 Optimizer States分布到不同的NPU - ZeRO-2 Optimizer States、Gradient分布到不同的NPU - ZeRO-3 Optimizer States、Gradient、Model