检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
预训练 前提条件 已上传训练代码、训练权重文件和数据集到OBS中,具体参考代码上传至OBS。 Step1 创建训练任务 创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及选择上传的镜像。 代码目录选择:OBS桶路径下的llm_train/AscendSpeed代码目录。
删除训练作业参数 功能介绍 删除训练作业参数。 URI DELETE /v1/{project_id}/training-job-configs/{config_name} 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String
训练作业是否支持定时或周期调用? ModelArts训练作业不支持定时周期化调用。当您的作业处于“运行中”状态时,可以按照业务需求进行调用。 父主题: 管理训练作业版本
创建训练任务 登录ModelArts管理控制台,检查当前帐号是否已完成访问授权的配置。如果未完成,请参考使用委托授权针对之前使用访问密钥授权的用户,建议清空授权,然后使用委托进行授权。 在左侧导航栏中选择“模型训练 > 训练作业”,默认进入“训练作业”列表。单击“创建训练作业”进入创建训练作业页面。
String 训练作业参数的名称。 请求消息 请求参数如表2所示。 表2 参数说明 参数 是否必选 参数类型 说明 config_desc 否 String 对训练作业的描述,默认为空,字符串的长度限制为[0,256]。 worker_server_num 是 Integer 训练作业w
GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。 PP 1 表示流水线并行。一般此值与训练节点数相等,与权重转换时设置的值相等。 LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN
创建联邦学习工程 创建工程 编辑代码(简易编辑器) 编辑代码(WebIDE) 模型训练 父主题: 模型训练
JupyterLab开发平台 创建特征工程 数据处理 模型训练 迁移学习 学件 模型归档 如何恢复异常的JupyterLab环境 父主题: 特征工程
训练作业的启动文件如何获取训练作业中的参数? 训练作业参数有两种来源,包括后台自动生成的参数和用户手动输入的参数。具体获取方式如下: 创建训练作业时,“输入”支持配置训练的输入参数名称(一般设置为“data_url”),以及输入数据的存储位置,“输出”支持配置训练的输出参数名称(
训练日志包括普通训练日志和Ascend相关日志。 普通日志说明:当使用Ascend之外的资源训练时仅产生普通训练日志,普通日志中包含训练进程日志、pip-requirement.txt安装日志和ModelArts平台日志。 Ascend场景日志说明:使用Ascend资源训练时会产
编写训练代码 训练模型时引用依赖包,如何创建训练作业? 训练作业常用文件路径是什么? 如何安装C++的依赖库? 训练作业中如何判断文件夹是否复制完毕? 如何在训练中加载部分训练好的参数? 训练作业的启动文件如何获取训练作业中的参数? 训练作业中使用os.system('cd xxx')无法进入相应的文件夹?
job_name:可选参数,训练任务名,便于区分和记忆。 本地单机调试训练任务开始后,SDK会依次帮助用户完成以下流程: 初始化训练作业,如果2指定的训练数据在OBS上,这里会将数据下载到local_path中。 执行训练任务,用户的训练代码需要将训练输出保存在4中指定的local_path中。
单位:分钟 默认值:30 “30” 如何查看训练环境变量 在创建训练作业时,“启动命令”输入为“env”,其他参数保持不变。 当训练任务执行完成后,在训练作业详情页面中查看“日志”。日志中即为所有的环境变量信息。 图1 查看日志 父主题: 管理模型训练作业
训练作业 OBS操作相关故障 云上迁移适配故障 硬盘限制故障 外网访问限制 权限问题 GPU相关问题 业务代码问题 预置算法运行故障 训练作业运行失败 专属资源池创建训练作业 训练作业性能问题 Ascend相关问题
获取训练作业支持的AI预置框架 功能介绍 获取训练作业支持的AI预置框架。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/
job_id Long 训练作业的ID。 job_name String 训练作业的名称 status Int 训练作业的运行状态,详细作业状态列表请参见作业状态参考。 create_time Long 训练作业的创建时间,时间戳格式。 version_id Long 训练作业的版本ID。
training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 请求参数 无 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述 kind String 训练作业类型。默认使用job。枚举值: job 训练作业。 metadata JobMetadata
训练作业的“/cache”目录是否安全? ModelArts训练作业的程序运行在容器中,容器挂载的目录地址是唯一的,只有运行时的容器能访问到。因此训练作业的“/cache”是安全的。 父主题: 创建训练作业
名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 description 否 String 对训练作业的描述,默认为“NULL”,字符串的长度限制为[0, 256]。
创建训练作业标签 功能介绍 创建训练作业标签,支持批量添加,当添加的标签key已存在,则覆盖该标签的value。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST