检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
需要在训练开始前,修改llm_train/AscendFactory/yi/3_training.sh文件,并添加--tokenizer-not-use-fast参数。修改后如图1所示。
需要在训练开始前,修改llm_train/AscendFactory/yi/3_training.sh文件,并添加--tokenizer-not-use-fast参数。修改后如图1所示。
公共资源池:公共资源池提供公共的大规模计算集群,根据用户作业参数分配使用,资源按作业隔离。 用户下发训练作业、部署模型、使用开发环境实例等,均可以使用ModelArts提供的公共资源池完成,按照使用量计费,方便快捷。用户无需创建公共资源池,直接使用即可。
表1 需要填写的环境变量 环境变量 示例值 参数说明 GPUS_PER_NODE 8 默认必须填写。根据资源规格每个节点上NPU的数量填写。 Step4 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。
表1 需要填写的环境变量 环境变量 示例值 参数说明 GPUS_PER_NODE 8 默认必须填写。根据资源规格每个节点上NPU的数量填写。 Step4 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。
系统自动从资源参数的“实例数”中读取。 “MA_NUM_HOSTS=4” VC_TASK_INDEX 当前容器索引,容器从0开始编号。单机训练的时候,该字段无意义。在多机作业中,用户可以根据这个值来确定当前容器运行的算法逻辑。
- 参数类型(FP32/FP16) FP32还是FP16混合,判断精度调优难度。 例如:ResNet-50、YOLOv5模型使用FP16。BertLarge使用FP32。 - 模型变更频率 模型变更场景如下: 数据增量,模型算子未变更。
在弹出的“自动分组”对话框中,填写参数信息,然后单击“确定”。 “分组数”:填写2~200之间的整数,指将图片分为多少组。 “结果处理方式”:“更新属性到当前样本中”,或者“保存到对象存储服务(OBS)”。 “属性名称”:当选择“更新属性到当前样本中”时,需输入一个属性名称。
图3 安装依赖包 图4 保存镜像 图5 填写保存镜像相关参数 父主题: 准备工作
表1 需要填写的环境变量 环境变量 示例值 参数说明 GPUS_PER_NODE 8 必须填写。根据资源规格每个节点上NPU的数量填写。 DATA /home/ma-user/work/data/training_data/qwenvl_dataset 必须修改。
经常不能一次性获得一个满意的模型,需要反复的调整算法参数、数据,不断评估训练生成的模型。 一些常用的指标,如准确率、召回率、AUC等,能帮助您有效的评估,最终获得一个满意的模型。
图2 打通VPC参数选择 如果没有VPC可选,可以单击右侧的“创建虚拟私有云”,跳转到网络控制台,申请创建虚拟私有云。 如果没有子网可选,可以单击右侧的“创建子网”,跳转到网络控制台,创建可用的子网。
公共资源池:公共资源池提供公共的大规模计算集群,根据用户作业参数分配使用,资源按作业隔离。MaaS服务可以使用ModelArts Standard形态下提供的公共资源池完成模型训推,按照使用量计费,方便快捷。
表1 需要填写的环境变量 环境变量 示例值 参数说明 GPUS_PER_NODE 8 必须填写。根据资源规格每个节点上NPU的数量填写。 DATA /home/ma-user/work/data/training_data/qwenvl_dataset 必须修改。
表1 支持的模型列表及权重文件地址 支持模型 Template 支持模型参数量 权重文件获取地址 Llama3 llama3 llama3-8b https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct llama3-70b
异常 模型配置文件包含非法参数值:xxx。 Invalid %s in config.json. 请删除模型配置文件中的非法参数后重试。 异常 获取镜像xxx的标签列表失败。 Failed to obtain the tag list of image %s. 请联系技术支持。
ipv4\.ip_forward=0/net\.ipv4\.ip_forward=1/g' /etc/sysctl.conf sysctl -p | grep net.ipv4.ip_forward 步骤二:启动镜像 启动容器镜像,推理只需要启动单卡,启动前可以根据实际需要增加修改参数
停止Notebook实例时,EVS还会持续计费。如果要停止计费,需删除Notebook实例。 训练作业:停止训练作业。删除存储到OBS中的数据及OBS桶。 在线服务:停止在线服务。删除存储到OBS中的数据及OBS桶。 专属资源池:删除专属资源池。
Shell功能登录训练作业worker-0实例,使用curl {sfs-turbo-endpoint}:{port}命令检查port是否正常打开,SFS Turbo所需要入方向的端口号为111、445、2049、2051、2052、20048,具体请参见创建文件系统的“安全组”参数
填写以下参数配置: 域名:遵循命名规范“infer-modelarts-<regionId>.modelarts-infer.com”,例如:infer-modelarts-cn-south-1.modelarts-infer.com VPC:选择内网域名关联的VPC。