-
创建训练作业 - AI开发平台ModelArts
创建训练作业 模型训练是一个不断迭代和优化模型权重的过程。ModelArts的训练模块支持创建训练作业、查看训练情况以及管理训练版本。通过模型训练试验模型结构、数据和超参的各种组合,便于找到最佳的模型结构和权重。 前提条件 已经将用于训练作业的数据上传至OBS目录。 已经在OBS
-
训练模式选择 - AI开发平台ModelArts
训练模式选择 当训练作业的算法框架选用的是预置框架的MindSpore类引擎、资源池类型选用的是Ascend资源时,则ModelArts提供3种训练模式选择(普通模式、高性能模式和故障诊断模式),支持用户根据实际场景获取不同的诊断信息。 模式说明 训练作业默认设置为普通模式,普通模式的调测信息可参考查看训练作业日志。
-
模型训练 - AI开发平台ModelArts
模型训练 模型训练中除了数据和算法外,开发者花了大量时间在模型参数设计上。模型训练的参数直接影响模型的精度以及模型收敛时间,参数的选择极大依赖于开发者的经验,参数选择不当会导致模型精度无法达到预期结果,或者模型训练时间大大增加。 为了降低开发者的专业要求,提升开发者模型训练的开发
-
模型训练简介 - AI开发平台ModelArts
ModelArts提供了模型训练的功能,方便您查看训练情况并不断调整您的模型参数。您还可以基于不同的数据,选择不同规格的资源池用于模型训练。
-
模型训练简介 - 网络智能体
名称 模型训练名称。 模型训练工程描述 对模型训练工程的描述信息。 创建时间 训练工程、联邦学习工程、训练服务或者超参优化服务的创建时间。 类型 模型训练的类型。
-
自动学习训练后的模型是否可以下载? - AI开发平台ModelArts
自动学习训练后的模型是否可以下载? 不可以下载。但是您可以在AI应用管理页面查看,或者将此模型部署为在线服务。 父主题: 模型训练
-
AI建模与训练平台
遇见你,遇见未来 华为云 | +智能,见未来 项目实习生 AI建模与训练平台 AI建模与训练平台 领域方向:人工智能 工作地点: 杭州 AI建模与训练平台 人工智能 杭州 项目简介 随着人工智能技术的发展,越来越多的行业开始使用人工智能做智能化转型。
-
断点续训练和增量训练 - AI开发平台ModelArts
断点续训练和增量训练 什么是断点续训练和增量训练 断点续训练是指因为某些原因(例如容错重启、资源抢占、作业卡死等)导致训练作业还未完成就被中断,下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。 增量训练是指增加新的训练数据到当前训练流程中,扩展当前模型的知识和能力。
-
模型训练新建模型训练工程的时候,选择通用算法有什么作用? - 网络智能体
模型训练新建模型训练工程的时候,选择通用算法有什么作用? 通用算法目前包括:分类算法、拟合算法、聚类算法、其他类型。用户选择不同的通用算法类型,并勾选“创建入门模型训练代码”,便可以自动生成对应类型的代码模版。 父主题: 模型训练
-
使用模型训练服务快速训练算法模型 - 网络智能体
使用模型训练服务快速训练算法模型 本文档以硬盘故障检测的模型训练为例,介绍模型训练服务使用的全流程,包括数据集、特征工程、模型训练、模型管理和模型验证,使开发者快速熟悉模型训练服务。
-
如何提升模型训练效果? - 企业级AI应用开发专业套件 ModelArts Pro
-
模型开发简介 - AI开发平台ModelArts
使用控制台创建训练作业请参考创建训练作业章节。使用订阅算法创建训练作业示例请参考使用AI Gallery订阅的算法构建模型。使用自定义算法构建模型示例请参考使用自定义算法在ModelArts上构建模型。 关于训练作业日志、训练资源占用等详情请参考查看训练作业日志。 停止或删除模型训练作业,请参考停止、重建或查找作业。
-
模型训练服务首页 - 网络智能体
模型训练服务首页 如何回到模型训练服务首页? 创建项目公开至组的参数是什么含义? 父主题: 常见问题
-
在ModelArts上训练模型,输入输出数据如何配置? - AI开发平台ModelArts
数。 模型训练结束后,训练模型以及相关输出信息需保存在OBS路径。“输出”数据默认配置为模型输出,代码参数为“train_url”,也支持用户根据1的算法代码自定义输出路径参数。 在创建训练作业时,填写输入路径和输出路径。 训练输入选择对应的OBS路径或者数据集路径,训练输出选择对应的OBS路径。
-
训练进阶 - AI开发平台ModelArts
训练进阶 训练模式选择 训练故障自动恢复 断点续训练和增量训练 训练作业卡死检测 修改训练作业优先级 设置作业为高优先级权限
-
华为云发布全球最大预训练模型,开启工业化AI开发新模式
后续,华为云还将陆续发布多模态、科学计算等超大预训练模型。 华为云人工智能领域首席科学家、IEEE Fellow田奇表示:“预训练大模型是解决AI应用开发定制化和碎片化的重要方法。
-
分布式训练功能介绍 - AI开发平台ModelArts
分布式训练功能介绍 ModelArts提供了如下能力: 丰富的官方预置镜像,满足用户的需求。 支持基于预置镜像自定义制作专属开发环境,并保存使用。 丰富的教程,帮助用户快速适配分布式训练,使用分布式训练极大减少训练时间。 分布式训练调测的能力,可在PyCharm/VSCode/J
-
分布式训练 - AI开发平台ModelArts
分布式训练 分布式训练功能介绍 单机多卡数据并行-DataParallel(DP) 多机多卡数据并行-DistributedDataParallel(DDP) 分布式调测适配及代码示例 分布式训练完整代码示例 基于训练作业启动PyTorch DDP训练示例 基于训练作业启动PyTorch
-
如何训练作业保持运行中状态 - AI开发平台ModelArts
如何训练作业保持运行中状态 由于需要训练作业处于“运行中”状态才能登录Cloud Shell,因此本文介绍如何使训练作业保持运行中状态,方便您快速通过Cloud Shell登录运行中的训练容器。 通过Sleep命令使训练作业保持运行 如果训练作业使用的是预置框架: 在创建训练作业
-
查看训练标签 - AI开发平台ModelArts
查看训练标签 通过给训练作业添加标签,可以标识云资源,便于快速搜索训练作业。 在ModelArts管理控制台的左侧导航栏中选择“训练管理 > 训练作业”。 在训练作业列表中,单击作业名称进入训练作业详情页面。 在训练作业详情页面,单击“标签”页签查看标签信息。 支持添加、修改、删
-
查看训练作业详情 - AI开发平台ModelArts
查看训练作业详情 登录ModelArts管理控制台。 在左侧导航栏中,选择“训练管理 > 训练作业”,进入“训练作业”列表。 在“训练作业”列表中,单击作业名称,进入训练作业详情页。 在训练作业详情页的左侧,可以查看此次训练作业的基本信息和算法配置的相关信息。 训练作业基本信息 表1
-
评估训练结果 - AI开发平台ModelArts
评估训练结果 训练作业运行结束后,ModelArts可为您的模型进行评估,并且给出调优诊断和建议。 针对使用预置算法创建训练作业,无需任何配置,即可查看此评估结果(由于每个模型情况不同,系统将自动根据您的模型指标情况,给出一些调优建议,请仔细阅读界面中的建议和指导,对您的模型进行进一步的调优)。
-
查看训练作业日志 - AI开发平台ModelArts
查看训练作业日志 什么是训练作业日志 普通日志说明 Ascend场景日志说明 如何查看训练作业日志 如何通过训练日志定位问题 父主题: 完成一次训练
-
训练模型时引用依赖包,如何创建训练作业? - AI开发平台ModelArts
训练模型时引用依赖包,如何创建训练作业? ModelArts支持训练模型过程中安装第三方依赖包。在训练代码目录下放置“pip-requirements.txt”文件后,在训练启动文件被执行前系统会执行如下命令,以安装用户指定的Python Packages。 pip install
-
查看训练作业资源利用率 - AI开发平台ModelArts
查看训练作业资源利用率 如何查看训练作业资源使用详情 在ModelArts管理控制台的左侧导航栏中选择“训练管理 > 训练作业”。 在训练作业列表中,单击作业名称进入训练作业详情页面。 在训练作业详情页面,单击“资源占用情况”页签查看计算节点的资源使用情况,最多可显示最近三天的数
-
如何查看训练作业日志 - AI开发平台ModelArts
如何查看训练作业日志 在训练作业详情页,训练日志窗口提供日志预览、日志下载、日志中搜索关键字、系统日志过滤能力。 预览 系统日志窗口提供训练日志预览功能,如果训练作业有多个节点,则支持查看不同计算节点的日志,通过右侧下拉框可以选择目标节点预览。 图1 查看不同计算节日志 当日志文
-
已有镜像如何适配迁移至ModelArts训练平台 - AI开发平台ModelArts
已有镜像如何适配迁移至ModelArts训练平台 已有镜像迁移至训练管理需要关注如下步骤。 为镜像增加训练管理的默认用户组ma-group,“gid = 100”。 如果已存在“gid = 100”用户组,可能会报错“groupadd: GID '100' already exists”。可通过命令“cat
-
训练容错检查 - AI开发平台ModelArts
ckpt恢复中断的训练 在容错机制下,如果因为硬件问题导致训练作业重启,用户可以在代码中读取预训练模型,恢复至重启前的训练状态。用户需要在代码里加上reload ckpt的代码,使能读取训练中断前保存的预训练模型。具体请参见断点续训练和增量训练。 父主题: 训练故障自动恢复
-
清除训练作业资源 - AI开发平台ModelArts
清除训练作业资源 如果不再需要使用此训练任务,建议清除相关资源,避免产生不必要的费用。 在“训练作业”页面,“删除”运行结束的训练作业。您可以单击“操作”列的“删除”,在弹出的提示框中单击“确认”,删除对应的训练作业。 进入OBS,删除本示例使用的OBS桶及文件。 完成资源清除后