检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
rnetes.io/serviceaccount 是 / 训练任务 表2 训练任务挂载点介绍 挂载点 是否只读 备注 /xxx 否 专属池使用SFS盘挂载的目录,路径由客户自己指定。 /home/ma-user/modelarts 否 空文件夹,建议用户主要用这个目录。 /cache
用户项目ID。获取方法请参见获取项目ID和名称。 service_id 是 String 服务ID,如需批量删除多个服务,则将多个service_id使用英文半角逗号拼接。 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 用户
he”,实际下载的数据会翻倍。例如只下载了2.5TB的数据,程序就显示空间不够而失败,因为/cache只有4TB的可用空间。 处理方法 在使用Tensorflow多节点作业下载数据时,正确的下载逻辑如下: import argparse parser = argparse.ArgumentParser()
描述 workspace_id 否 String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 请求参数 表3 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String
可以直接把SFS的目录直接挂载到调试节点的"/mnt/sfs_turbo"目录,或者保证对应目录的内容和SFS盘匹配。 调试时建议使用接近的方式,即:启动容器实例时使用"-v"参数来指定挂载某个宿主机目录到容器环境。 docker run -ti -d -v /mnt/sfs_turbo:/sfs
自动从训练中断的位置接续训练,加载中断生成的checkpoint,中间不需要改动任何参数(支持预训练、LoRA微调、SFT微调)。 如果要使用自动重启功能,资源规格必须选择八卡规格。 当前功能还处于试验阶段,只有llama3-8B/70B适配。 父主题: 主流开源大模型基于Standard适配PyTorch
sh scripts/llama2/0_pl_pretrain_13b.sh 注意:如果单机运行需要指定使用NPU卡的数量,可提前定义变量 NPUS_PER_NODE 。例如使用单机四卡训练Llama2-7B命令: MASTER_ADDR=localhost NNODES=1 NODE_RANK=0
模型大小,单位为字节(Byte)。 model_train_dataset String 模型训练数据集。 model_dataset_format String 使用模型需要的数据集格式。 model_description_url String 模型描述链接。 parameter String 模型的
传输中的数据保护 在ModelArts中导入AI应用时,支持用户自己选择HTTP和HTTPS两种传输协议,为保证数据传输的安全性,推荐用户使用更加安全的HTTPS协议。 数据完整性检查 推理部署功能模块涉及到的用户模型文件和发布到AIGallery的资产在上传过程中,有可能会因为
参数查看表1。 loss收敛情况:日志里存在lm loss参数 ,lm loss参数随着训练迭代周期持续性减小,并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况,如图2所示。 单节点训练:训练过程中的loss直接打印在窗口上。 多节点
参数查看表1。 loss收敛情况:日志里存在lm loss参数 ,lm loss参数随着训练迭代周期持续性减小,并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况,如图2所示。 单节点训练:训练过程中的loss直接打印在窗口上。 多节点
参数查看表1。 loss收敛情况:日志里存在lm loss参数 ,lm loss参数随着训练迭代周期持续性减小,并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况,如图2所示。 单节点训练:训练过程中的loss直接打印在窗口上。 多节点
空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 os.modelarts/name String 用户指定的pool名称。 os.modelarts/resource.id String 资源池的主资源id,通常提供给cbc使用。 os.modelarts/tenant
空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 os.modelarts/name String 用户指定的pool名称。 os.modelarts/resource.id String 资源池的主资源id,通常提供给cbc使用。 os.modelarts/tenant
参数类型。 continuous:指定时表示这个超参是连续类型的。连续类型的超参在算法使用于训练作业时,控制台显示为输入框。 discrete:指定时表示这个超参是离散类型的。离散类型的超参在算法使用于训练作业时,控制台显示为下拉选择框架。 lower_bound String 超参下界。
dataset_version String 训练作业的数据集版本ID。 type String 数据集类型。 “obs”:表示使用OBS的数据。 “dataset”:表示使用数据集的数据。 data_url String OBS的桶路径。 表5 model_metric_list属性列表 参数
ta_source同时出现。 data_source 否 JSON Array 训练作业使用的数据集。不可与data_url或dataset_id/dataset_version_id同时使用。详情参数请见表3。 engine_id 是 Long 训练作业选择的引擎ID,默认为“
@modelarts:from_type String 内置属性:三元组关系标签的起始实体类型,创建关系标签时必须指定,该参数仅文本三元组数据集使用。 @modelarts:rename_to String 内置属性:重命名后的标签名。 @modelarts:shortcut String
@modelarts:from_type 否 String 内置属性:三元组关系标签的起始实体类型,创建关系标签时必须指定,该参数仅文本三元组数据集使用。 @modelarts:rename_to 否 String 内置属性:重命名后的标签名。 @modelarts:shortcut 否 String
在解压大量文件可能会出现此情况并造成节点重启。可以适当在解压大量文件时,加入sleep。比如每解压1w个文件,就停止1s。 存储限制 根据规格情况合理使用数据盘,数据盘大小请参考训练环境中不同规格资源大小。 CPU过载 减少线程数。 排查办法 根据错误信息判断,报错原因来源于用户代码。 您可以通过以下两种方式排查: