检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
此处以qwen-14b举例。 obs://${bucket_name}/${folder-name}/ #OBS桶名称和文件目录可以自定义创建,此处仅为举例。 ├── config.json ├── generation_config.json ├── gitattributes
在ModelArts上如何提升训练效率并减少与OBS的交互? 场景描述 在使用ModelArts进行自定义深度学习训练时,训练数据通常存储在对象存储服务(OBS)中,且训练数据较大时(如200GB以上),每次都需要使用GPU资源池进行训练,且训练效率低。 希望提升训练效率,同时减
大小,SWR地址等。 基于自定义镜像创建Notebook实例 从Notebook中保存的镜像可以在镜像管理中查询到,可以用于创建新的Notebook实例,完全继承保存状态下的实例软件环境配置。 方式一:在Notebook实例创建页面,镜像类型选择“自定义镜像”,名称选择上述保存的镜像。
键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成,则执行脚本,自动完成数据预处理和权重转换的过程。 若用户进行自定义数据集预处理以及权重转换,可通过Notebook环境编辑 1_preprocess_data.sh 、2_convert_mg_hf.sh
键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成,则执行脚本,自动完成数据预处理和权重转换的过程。 若用户进行自定义数据集预处理以及权重转换,可通过Notebook环境编辑 1_preprocess_data.sh 、2_convert_mg_hf.sh
service_id 在线服务ID。 model_id 模型负载ID。 设置告警规则 通过设置ModelArts在线服务和模型负载告警规则,用户可自定义监控目标与通知策略,及时了解ModelArts在线服务和模型负载状况,从而起到预警作用。 设置ModelArts服务和模型的告警规则包括设
化。 量化方法:W4A16 per-group/per-channel,W8A16 per-channel Step1 环境准备 在节点自定义目录${node_path}下创建config.yaml文件 apiVersion: apps/v1 kind: Deployment metadata:
此处以qwen-14b举例。 obs://${bucket_name}/${folder-name}/ #OBS桶名称和文件目录可以自定义创建,此处仅为举例。 ├── config.json ├── generation_config.json ├── gitattributes
化。 量化方法:W4A16 per-group/per-channel,W8A16 per-channel Step1 环境准备 在节点自定义目录${node_path}下创建config.yaml文件 apiVersion: apps/v1 kind: Deployment metadata:
下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注意:CPU架构必须选择鲲鹏计算,镜像推荐选择EulerOS。
此处以qwen-14b举例。 obs://${bucket_name}/${folder-name}/ #OBS桶名称和文件目录可以自定义创建,此处仅为举例。 ├── config.json ├── generation_config.json ├── gitattributes
式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成,则执行脚本,自动完成数据预处理和权重转换的过程。 如果用户进行自定义数据集预处理以及权重转换,可通过Notebook环境编辑 1_preprocess_data.sh 、2_convert_mg_hf.sh
在ModelArts Standard使用run.sh脚本实现OBS和训练容器间的数据传输 自定义容器在ModelArts上训练和本地训练的区别如下图: 图1 本地与ModelArts上训练对比 ModelArts上进行训练比本地训练多了一步OBS和容器环境的数据迁移工作。 增加了和OBS交互工作的整个训练流程如下:
调优等服务的使用效率。 “自定义权重”:使用用户自定义的权重文件,需要先将权重文件上传至OBS桶中。且权重文件必须满足对应模型的文件格式要求,详情请参见约束限制。 权重文件指的是模型的参数集合。 说明: 百川和Llama系列模型只支持自定义权重。 自定义权重存储路径 当“权重设置
分布式训练功能介绍 ModelArts提供了如下能力: 丰富的官方预置镜像,满足用户的需求。 支持基于预置镜像自定义制作专属开发环境,并保存使用。 丰富的教程,帮助用户快速适配分布式训练,使用分布式训练极大减少训练时间。 分布式训练调测的能力,可在PyCharm/VSCode/J
e 使用案例 主要包含六种场景的用例: 基于JobStep的输出注册模型 基于OBS数据注册模型 使用模板方式注册模型 使用自定义镜像注册模型 使用自定义镜像+OBS的方式注册模型 使用订阅模型+OBS的方式注册模型 从训练作业中注册模型(模型输入来源JobStep的输出) import
升级Standard专属资源池驱动 场景介绍 当专属资源池中的节点含有GPU/Ascend资源时,用户基于自己的业务,可能会有自定义GPU/Ascend驱动的需求,ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力。 驱动升级有两种升级方式:安全升级、强制升级。
创建用户组并加入用户。 创建自定义策略。 使用管理员账号登录控制台,单击右上角用户名,在下拉框中选择“统一身份认证”,进入IAM服务。 图2 登录控制台 创建自定义策略1,赋予用户IAM和OBS服务权限。在统一身份认证服务控制台的左侧菜单栏中,选择“权限管理> 权限”。单击右上角“创建自定义策略”,
上传镜像 完成镜像上传后,在“容器镜像服务控制台>我的镜像”页面可查看已上传的自定义镜像。 “swr.example.com/deep-learning/tf-1.13.2:latest”即为此自定义镜像的“SWR_URL”。 父主题: Standard镜像相关
dia-fabricmanager方法。 NCCL必须和CUDA版本相匹配,可单击此处可查看配套关系和安装方法。 使用该裸金属服务器制作自定义镜像时, 必须清除残留文件,请参考清理文件。 父主题: Lite Server