检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
train_labels), (test_images, test_labels) = fashion_mnist.load_data() 对训练数据做预处理,并查看训练集中最开始的25个图片。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 class_names
调整参数和超参数。 神经网络中:学习率、学习衰减率、隐藏层数、隐藏层的单元数、Adam优化算法中的β1和β2参数、batch_size数值等。 其他算法中:随机森林的树数量,k-means中的cluster数,正则化参数λ等。 增加训练数据作用不大。 欠拟合一般是因为模型的学习能力不足,一味地增加数据,训练效果并不明显。
点修复。 建议与总结 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。 配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。
删除训练作业版本 功能介绍 删除训练作业一个版本。 此接口为异步接口,作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。 URI DELETE /v1/{project_id}/training-jobs/{job_id}/versions/{version_id} 参数说明如表1所示。
删除训练作业标签 功能介绍 删除训练作业标签,支持批量删除。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI DELETE /v2/{project_id}/trai
Step4 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoi
创建训练实验 功能介绍 创建训练实验。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v2/{project_id}/training-experiments/
JupyterLab开发平台 创建特征工程 数据处理 模型训练 迁移学习 学件 模型归档 如何恢复异常的JupyterLab环境 父主题: 特征工程
更新训练作业描述 功能介绍 更新训练作业的描述。 URI PUT /v1/{project_id}/training-jobs/{job_id} 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。
开发环境 联邦学习模型训练运行环境信息,可通过下拉框切换当前环境。 进入代码编辑界面 创建联邦学习训练任务,详细请参考: 创建联邦学习训练任务(简易编辑器) 创建联邦学习训练任务(WebIDE) 删除联邦学习训练工程 模型训练工程描述 描述信息,支持单击图标,编辑描述信息。 对训练任务的
训练脚本说明 yaml配置文件参数配置说明 各个模型深度学习训练加速框架的选择 模型NPU卡数取值表 各个模型训练前文件替换 父主题: 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导(6.3.907)
Object 会话对象,初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。 表2 update_job_configs请求参数说明 参数
code_dir+boot_file取训练作业的代码目录和启动文件。 tasks Array of TaskResponse objects 异构训练作业的任务列表。 spec spec object 训练作业规格参数。 表5 JobMetadata 参数 参数类型 描述 id String 训练作业ID,
training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 action_type 是 String 对训练作业的操作请求。参数值设置为terminate时,表示终止训练作业操作。 响应参数 状态码:
training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 请求参数 无 响应参数 无 请求示例 如下以删除uuid为3faf5c03-aaa1-4cbe-879d-24b05d997347的训练作业为例。 DELETE https://end
训练作业 创建训练作业 训练作业调测 查询训练作业列表 查询训练作业详情 更新训练作业描述 删除训练作业 终止训练作业 查询训练日志 查询训练作业的运行指标 父主题: 训练管理
训练日志包括普通训练日志和Ascend相关日志。 普通日志说明:当使用Ascend之外的资源训练时仅产生普通训练日志,普通日志中包含训练进程日志、pip-requirement.txt安装日志和ModelArts平台日志。 Ascend场景日志说明:使用Ascend资源训练时会产
job_name:可选参数,训练任务名,便于区分和记忆。 本地单机调试训练任务开始后,SDK会依次帮助用户完成以下流程: 初始化训练作业,如果2指定的训练数据在OBS上,这里会将数据下载到local_path中。 执行训练任务,用户的训练代码需要将训练输出保存在4中指定的local_path中。
在ModelArts上训练模型如何配置输入输出数据? ModelArts支持用户上传自定义算法创建训练作业。上传自定义算法前,请完成创建算法并上传至OBS桶。创建算法请参考开发用于预置框架训练的代码。创建训练作业请参考创建训练作业指导。 解析输入路径参数、输出路径参数 运行在Mo
nizer文件,具体请参见训练tokenizer文件说明。 Step2 创建预训练任务 创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。 图1 选择镜像 训练作业启动命令中输入: cd