检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
job_id Long 训练作业的ID。 job_name String 训练作业的名称 status Int 训练作业的运行状态,详细作业状态列表请查看作业状态参考。 create_time Long 训练作业的创建时间,时间戳格式。 version_id Long 训练作业的版本ID。
预训练 前提条件 已上传训练代码、训练权重文件和数据集到OBS中,具体参考代码上传至OBS。 Step1 创建训练任务 创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及选择上传的镜像。 代码目录选择:OBS桶路径下的 llm_train/AscendSpeed
训练作业常用文件路径是什么? 训练环境的当前目录以及代码目录在容器的位置一般通过环境变量${MA_JOB_DIR}读取,${MA_JOB_DIR}变量对应的实际值是/home/ma-user/modelarts/user-job-dir。 父主题: 编写训练代码
使用ModelArts时,用户数据需要存放在自己OBS桶中,但是训练代码运行过程中不能使用OBS路径读取数据。 原因: 训练作业创建成功后,由于在运行容器直连OBS服务进行训练性能很差,系统会自动下载训练数据至运行容器的本地路径。所以,在训练代码中直接使用OBS路径会报错。例如训练代码的OBS路径为obs://b
行管理平台,支持部署华为云ModelArts平台训练的模型,提供云上管理平台、丰富的技能市场和开发者工具与插件,帮助用户高效开发AI应用,并将其部署到多种端侧计算设备运行和在线管理。 华为HiLens为端云协同AI应用开发与运行管理平台,支持部署华为云ModelArts平台训练的
删除训练作业版本 功能介绍 删除训练作业一个版本。 此接口为异步接口,作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。 URI DELETE /v1/{project_id}/training-jobs/{job_id}/versions/{version_id} 参数说明如表1所示。
删除训练作业标签 功能介绍 删除训练作业标签,支持批量删除。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI DELETE /v2/{project_id}/trai
Step4 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoi
OOM导致训练作业失败 问题现象 因为OOM导致的训练作业失败,会有如下几种现象。 错误码返回137,如下图所示。 Modelarts Service Log Trainina end with return code: 137 Modelarts Service Log]handle
更新训练作业描述 功能介绍 更新训练作业的描述。 URI PUT /v1/{project_id}/training-jobs/{job_id} 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。
权重。自下上升的非监督学习就是从底层开始,一层一层地往顶层训练。采用无标定数据(有标定数据也可)分层训练各层参数,这一步可以看作是一个无监督训练过程,这也是和传统神经网络区别最大的部分,可以看作是特征学习过程。具体的,先用无标定数据训练第一层,训练时先学习第一层的参数,这层可以看
重。 自下上升的非监督学习就是从底层开始,一层一层地往顶层训练。采用无标定数据(有标定数据也可)分层训练各层参数,这一步可以看作是一个无监督训练过程,这也是和传统神经网络区别最大的部分,可以看作是特征学习过程。具体的,先用无标定数据训练第一层,训练时先学习第一层的参数,这层可以看
安全,这超出了本章的范围。然而,它们在正则化的背景下很有意思,因为我们可以通过对抗训练(adversarial training)减少原有独立同分布的测试集的错误率——在对抗扰动的训练集样本上训练网络 (Szegedy et al., 2014b; Goodfellow et al
安全,这超出了本章的范围。然而,它们在正则化的背景下很有意思,因为我们可以通过对抗训练(adversarial training)减少原有独立同分布的测试集的错误率——在对抗扰动的训练集样本上训练网络 (Szegedy et al., 2014b; Goodfellow et al
JupyterLab开发平台 创建特征工程 数据处理 模型训练 迁移学习 学件 模型归档 如何恢复异常的JupyterLab环境 父主题: 特征工程
明模型效果较好。 同一个自动学习项目可以训练多次,每次训练会注册一个新的模型版本。如第一次训练版本号为“0.0.1”,下一个版本为“0.0.2”。基于训练版本可以对训练模型进行管理。当训练的模型达到目标后,再执行模型部署的操作。 父主题: 使用自动学习实现声音分类
这里开始输出常见的训练日志文件。随着epoch++,loss下降,学习率也在增加,这正是AI训练的优势,可以随时地在训练过程中调整一些超参。 训练结束,可以查看p1\yolo\output和p1\yolo\log 做进一步的分析 modelarts平台会保存每一次的训练记录,这样
训练模型 特征和算法确定后,可以开始训练模型。 训练模型 单击“模型选择”左下方的“训练模型”。 新增“训练模型”内容,如图1所示。 图1 训练模型 单击“训练模型”代码框左侧的图标,进行模型训练。 模型训练完成后,界面下方展示模型的评估效果。 第一列内容的含义如下所示: 0:标注为0的所有样本。可以理解为标签。
时说明模型效果较好。 同一个自动学习项目可以训练多次,每次训练生成一个版本。如第一次训练版本号为“0.0.1”,下一个版本为“0.0.2”。基于训练版本可以对训练模型进行管理。当训练的模型达到目标后,再执行模型部署的操作。 父主题: 使用自动学习实现文本分类
train_labels), (test_images, test_labels) = fashion_mnist.load_data() 对训练数据做预处理,并查看训练集中最开始的25个图片。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 class_names