检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
标注文本分类数据 项目创建完成后,将会自动跳转至新版自动学习页面,并开始运行,当数据标注节点的状态变为“等待操作”时,需要手动进行确认数据集中的数据标注情况,也可以对数据集中的数据进行标签的修改,数据的增加或删减。 图1 数据标注节点状态 双击“数据标注”节点,单击实例详情按钮,打开数据标注页面。
Parallel)、TP(Tensor Parallel)、PP(Pipeline Parallel)。 DP:数据并行(Data Parallelism)是大规模深度学习训练中常用的并行模式,它会在每个进程(设备)或模型并行组中维护完整的模型和参数,但在每个进程上或模型并行组中处理不同的数据。因此,数据并行非常适合大数据量的训练任务。
标注物体检测数据 物体检测之前,首先需考虑如何设计标签,标签设计需要对应所检测图片的明显特征,并且选择的标签比较容易识别(画面主体物与背景区分度较高),每个标签就是对所检测图片期望识别的全部结果。物体的标签设计完成之后,基于设计好的标签准备该图片的数据,每种需识别出的标签,建议应
的notebook进行性能分析,节省NPU计算资源。完成分析后,可以查看生成的html文件来进行快速的调优,html文件详情请参考查看诊断报告。 下面以开发环境Notebook为例介绍一个典型的性能调优案例。 64卡训练任务,模型为GPT MOE,tensor parallel(tp)为8,pipeline
标注图像分类数据 由于模型训练过程需要大量有标签的图片数据,因此在模型训练之前需对没有标签的图片添加标签。通过ModelArts您可对图片进行一键式批量添加标签,快速完成对图片的标注操作,也可以对已标注图片修改或删除标签进行重新标注。 请确保数据集中已标注的图片不低于100张,否
部署图像分类服务 模型部署 模型部署操作即将模型部署为在线服务,并且提供在线的测试UI与监控能力。完成模型训练后,可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。 在“运行节点”页面中,待服务部署节点的状态变为“等待输入”时,双击“服务部署”进入配置详情页,完成资源的参数配置操作。
模型发布失败 模型发布任务提交失败和模型发布失败问题,一般是因为后台服务故障导致的,建议稍等片刻,然后重新创建训练作业。如果重试超过3次仍无法解决,请获取如下信息,并联系华为云技术支持协助解决故障。 获取模型ID。 进入“模型管理”页面,在模型管理页面找到自动学习任务中自动创建的
准备图像分类数据 使用ModelArts自动学习构建模型时,您需要将数据上传至对象存储服务(OBS)中。OBS桶需要与ModelArts在同一区域。 数据集要求 保证图片质量:不能有损坏的图片,目前支持的格式包括jpg、jpeg、bmp、png。 不要把明显不同的多个任务数据放在同一个数据集内。
创建图像分类项目 ModelArts自动学习,包括图像分类、物体检测、预测分析、声音分类和文本分类项目。您可以根据业务需求选择创建合适的项目。您需要执行如下操作来创建自动学习项目。 创建项目 登录ModelArts管理控制台,在左侧导航栏选择“开发空间 > 自动学习”,进入自动学习页面。
昇腾规格 规格名称 描述 Ascend 1*ascend-snt9b|ARM 24核 192GB Snt9b单卡规格,配搭ARM处理器,适合深度学习场景下的模型训练和调测 ModelArts提供了面向推理迁移工作的预置镜像,其中包含了最新商用版驱动、昇腾软件开发库,迁移工具链等。预置
ta 【可选】dataset_info.json配置文件所属的绝对路径;如使用自定义数据集,yaml配置文件需添加此参数。 是否选择加速深度学习训练框架Deepspeed,可参考表1选择不同的框架。 是,选用ZeRO (Zero Redundancy Optimizer)优化器。
使用ModelArts Standard自动学习实现垃圾分类 随着科技发展与人们生活质量的快速提升,生活垃圾分类成为当下越来越热门的话题,常见的生活垃圾分为厨余垃圾蛋壳、厨余垃圾水果果皮、可回收物塑料玩具、可回收物纸板箱、其他垃圾烟蒂、其他垃圾一次性餐盒、有害垃圾干电池、有害垃圾
examples/deepspeed/ds_z3_config.json 可选项。用于指定DeepSpeed的配置文件相对或绝对路径。DeepSpeed是一个开源库,用于加速深度学习训练。通过使用DeepSpeed,可以实现如混合精度训练、ZeRO内存优化等高级特性,以提高训练效率和性能 stage sft 表示当前
部署上线失败 出现此问题,一般是因为后台服务故障导致的,建议稍等片刻,然后重新部署在线服务。如果重试超过3次仍无法解决,请获取如下信息,并联系华为云技术支持协助解决故障。 获取服务ID。 进入“部署上线>在线服务”页面,在服务列表中找到自动学习任务中部署的在线服务,自动学习部署的
expandable_segments:True 将yaml文件中的per_device_train_batch_size调小,重新训练如未解决则执行下一步。 替换深度学习训练加速的工具或增加zero等级,可参考模型NPU卡数、梯度累积值取值表,如原使用Accelerator可替换为Deepspeed-Ze
实现对大模型输出的精确把控,不用进行强化学习,也可以准确判断和学习到使用者的偏好,最后,DPO算法还可以与其他优化算法相结合,进一步提高深度学习模型的性能。 SFT监督式微调(Self-training Fine-tuning):是一种利用有标签数据进行模型训练的方法。 它基于一
自动学习/Workflow计费项 计费说明 在ModelArts自动学习和Workflow中进行模型训练和推理时,会使用计算资源和存储资源,会产生计算资源和存储资源的累计值计费。具体内容如表1所示。 计算资源费用: 如果运行自动学习作业/Workflow工作流时,使用专属资源池进行模型训练和推理,计算资源不计费。
数据集版本发布失败 出现此问题时,表示数据不满足数据管理模块的要求,导致数据集发布失败,无法执行自动学习的下一步流程。 请根据如下几个要求,检查您的数据,将不符合要求的数据排除后再重新启动自动学习的训练任务。 ModelArts.4710 OBS权限问题 ModelArts在跟O
【下线公告】华为云ModelArts自动学习下线公告 华为云计划于2025/05/23 00:00(北京时间)将AI开发平台ModelArts自动学习模块正式下线。 下线范围 下线区域:华为云全部Region 下线影响 正式下线后,所有用户将无法使用自动学习模块创建项目,但仍可在
examples/deepspeed/ds_z3_config.json 可选项。用于指定DeepSpeed的配置文件相对或绝对路径。DeepSpeed是一个开源库,用于加速深度学习训练。通过使用DeepSpeed,可以实现如混合精度训练、ZeRO内存优化等高级特性,以提高训练效率和性能 stage sft 表示当前