正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练作业的“/cache”目录是否安全? ModelArts训练作业的程序运行在容器中,容器挂载的目录地址是唯一的,只有运行时的容器能访问到。因此训练作业的“/cache”是安全的。 父主题: 创建训练作业
nizer文件,具体请参见训练tokenizer文件说明。 Step2 创建预训练任务 创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。 图1 选择镜像 训练作业启动命令中输入: cd
OOM导致训练作业失败 问题现象 因为OOM导致的训练作业失败,会有如下几种现象。 错误码返回137,如下图所示。 Modelarts Service Log Trainina end with return code: 137 Modelarts Service Log]handle
训练作业卡死 训练作业卡死检测定位 复制数据卡死 训练前卡死 训练中途卡死 训练最后一个epoch卡死 父主题: 训练作业
训练模型 特征和算法确定后,可以开始训练模型。 训练模型 单击“模型选择”左下方的“训练模型”。 新增“训练模型”内容,如图1所示。 图1 训练模型 单击“训练模型”代码框左侧的图标,进行模型训练。 模型训练完成后,界面下方展示模型的评估效果。 第一列内容的含义如下所示: 0:标注为0的所有样本。可以理解为标签。
提供“自动学习白盒化”能力,开放模型参数、自动生成模型,实现模板化开发,提高开发效率 采用自动深度学习技术,通过迁移学习(只通过少量数据生成高质量的模型),多维度下的模型架构自动设计(神经网络搜索和自适应模型调优),和更快、更准的训练参数自动调优自动训练 采用自动机器学习技术,基于
job_name:可选参数,训练任务名,便于区分和记忆。 本地单机调试训练任务开始后,SDK会依次帮助用户完成以下流程: 初始化训练作业,如果2指定的训练数据在OBS上,这里会将数据下载到local_path中。 执行训练任务,用户的训练代码需要将训练输出保存在4中指定的local_path中。
址。需要排查训练代码中是否有设置NCCL_SOCKET_IFNAME环境变量,该环境变量由系统自动注入,训练代码中无需设置。训练代码去除NCCL_SOCKET_IFNAME环境变量设置逻辑后,单击右侧“重建”,重新创建训练作业,提交训练作业后等待作业完成。 等待训练作业是否变成“已完成”状态。
推荐开启预检,预检可提前发现节点故障、驱动故障。 “1” 如何查看训练环境变量 在创建训练作业时,“启动命令”输入为“env”,其他参数保持不变。 当训练任务执行完成后,在训练作业详情页面中查看“日志”。日志中即为所有的环境变量信息。 图1 查看日志 父主题: 管理模型训练作业
单击“提交”,在“信息确认”页面,确认训练作业的参数信息,确认无误后单击“确定”。 训练作业创建完成后,后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。 训练作业一般需要运行一段时间,根据您的训练业务逻辑和选择的资源不同,训练时长将持续几十分钟到几小时不等。训练作业执行成功后,日志信息如下所示。
model_train_dataset String 模型训练数据集。 model_dataset_format String 使用模型需要的数据集格式。 model_description_url String 模型描述链接。 parameter String 模型的运行参数。当为自定义镜像训练作业的时候,此参数为容器环境变量。该样例请参考请求示例。
删除训练作业参数 功能介绍 删除训练作业参数。 URI DELETE /v1/{project_id}/training-job-configs/{config_name} 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String
训练作业是否支持定时或周期调用? ModelArts训练作业不支持定时周期化调用。当您的作业处于“运行中”状态时,可以按照业务需求进行调用。 父主题: 管理训练作业版本
String 训练作业参数的名称。 请求消息 请求参数如表2所示。 表2 参数说明 参数 是否必选 参数类型 说明 config_desc 否 String 对训练作业的描述,默认为空,字符串的长度限制为[0,256]。 worker_server_num 是 Integer 训练作业w
预训练 前提条件 已上传训练代码、训练权重文件和数据集到OBS中,具体参考代码上传至OBS。 Step1 创建训练任务 创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及选择上传的镜像。 代码目录选择:OBS桶路径下的llm_train/AscendSpeed代码目录。
JobResponse 参数 参数类型 描述 kind String 训练作业类型。默认使用job。枚举值: job 训练作业。 metadata JobMetadata object 训练作业元信息。 status Status object 训练作业状态信息。创建作业无需填写。 algorithm
ModelArts训练好后的模型如何获取? 使用自动学习产生的模型只能在ModelArts上部署上线,无法下载至本地使用。 使用自定义算法或者订阅算法训练生成的模型,会存储至用户指定的OBS路径中,供用户下载。 父主题: 功能咨询
图2 配置训练作业参数(公共资源池) 图3 配置训练作业参数(专属资源池) 图4 配置训练作业参数(自定义镜像) 参数填写完成后,单击“Apply and Run”,即自动上传本地代码至云端并启动训练,在工具下方的Training Log区域,会实时展示训练作业运行情况。当训练日志中出现“Current
训练作业运行失败排查指导 问题现象 训练作业的“状态”出现“运行失败”的现象。 原因分析及处理方法 查看训练作业的“日志”,出现报错“MoxFileNotExistsException(resp, 'file or directory or bucket not found.')”。
JupyterLab开发平台 创建特征工程 数据处理 模型训练 迁移学习 学件 模型归档 如何恢复异常的JupyterLab环境 父主题: 特征工程