检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练的数据集预处理说明 以 llama2-13b 举例,运行:0_pl_pretrain_13b.sh 训练脚本后,脚本检查是否已经完成数据集预处理的过程。 如果已完成数据集预处理,则直接执行预训练任务。如果未进行数据集预处理,则会自动执行 scripts/llama2/1_preprocess_data
包年/包月 包年/包月是一种先付费再使用的计费模式,适用于对资源需求稳定且希望降低成本的用户。通过选择包年/包月的计费模式,您可以预先购买云服务资源并获得一定程度的价格优惠。本文将介绍ModelArts资源包年/包月的计费规则。 适用场景 包年/包月计费模式需要用户预先支付一定时
创建和管理团队 团队标注功能是以团队为单位进行管理,数据集启用团队标注功能时,必须指定一个团队。一个团队可以添加多个成员。新添加的团队,其成员列表为空。您需要根据实际情况添加即将参与标注任务的成员信息。 一个账号最多可添加10个团队。一个团队最多支持添加100个成员,当超过100时,建议分为多个团队进行管理。
从DLI导入数据到ModelArts数据集 表格数据集支持从DLI导入数据。 从DLI导入数据,用户需要选择DLI队列、数据库和表名称。所选择的表的schema(列名和类型)需与数据集一致,支持自动获取所选择表的schema。DLI的详细功能说明,请参考DLI用户指南。 图1 DLI导入数据
发布ModelArts数据集中的数据版本 ModelArts在数据准备过程中,针对同一数据源的数据,对不同时间处理或标注后的数据,按照版本进行区分方便后续模型构建和开发时选择对应的数据集版本进行使用。 关于数据集版本 针对刚创建的数据集(未发布前),无数据集版本信息,必须执行发布操作后,才能应用于模型开发或训练。
管理Lite Cluster节点池 为帮助您更好地管理Kubernetes集群内的节点,ModelArts支持通过节点池来管理节点。一个节点池包含一个节点或多个节点,能通过节点池批量配置一组节点。 在资源池详情页,单击“节点池管理”页签,您可以创建、更新和删除节点池。 图1 节点池管理
在ModelArts自动学习中,如何进行增量训练? 在自动学习项目中,每训练一次,将自动产生一个训练版本。当前一次的训练结果不满意时(如对训练精度不满意),您可以适当增加高质量的数据,或者增减标签,然后再次进行训练。 增量训练目前仅支持“图像分类”、“物体检测”、“声音分类”类型的自动学习项目。
人工标注文本数据 由于模型训练过程需要大量有标签的数据,因此在模型训练之前需对没有标签的文本添加标签。您也可以对已标注文本进行修改、删除和重新标注。 针对文本分类场景,是对文本的内容按照标签进行分类处理,开始标注前,您需要了解: 文本标注支持多标签,即一个标注对象可添加多个标签。
人工标注音频数据 由于模型训练过程需要大量有标签的音频数据,因此在模型训练之前需对没有标签的音频添加标签。通过ModelArts您可对音频进行一键式批量添加标签,快速完成对音频的标注操作,也可以对已标注音频修改或删除标签进行重新标注。音频标注涉及到的标注标签和声音内容只支持中文和英文,不支持小语种。
入门案例:快速创建一个物体检测的数据集 本节以准备训练物体检测模型的数据为例,介绍如何针对样例数据,进行数据分析、数据标注等操作,完成数据准备工作。在实际业务开发过程中,可以根据业务需求选择数据管理的一种或多种功能完成数据准备。此次操作分为以下流程: 准备工作 创建数据集 数据分析
训练预测分析模型 创建自动学习后,将会进行模型的训练,得到预测分析的模型。模型部署步骤将使用预测模型发布在线预测服务。 操作步骤 在新版自动学习页面,单击创建成功的项目名称,查看当前工作流的执行情况。 在“预测分析”节点中,待节点状态由“运行中”变为“运行成功”,即完成了模型的自动训练。
标注声音分类数据 项目创建完成后,将会自动跳转至新版自动学习页面,并开始运行,当数据标注节点的状态变为“等待操作”时,需要手动进行确认数据集中的数据标注情况,也可以对数据集中的数据进行标签的修改,数据的增加或删减。 图1 数据标注节点状态 音频标注 在新版自动学习页面单击“实例详
标注文本分类数据 项目创建完成后,将会自动跳转至新版自动学习页面,并开始运行,当数据标注节点的状态变为“等待操作”时,需要手动进行确认数据集中的数据标注情况,也可以对数据集中的数据进行标签的修改,数据的增加或删减。 图1 数据标注节点状态 双击“数据标注”节点,单击实例详情按钮,打开数据标注页面。
创建Workflow数据集版本发布节点 功能介绍 通过对ModelArts数据集能力进行封装,实现数据集的版本自动发布的功能。数据集版本发布节点主要用于将已存在的数据集或者标注任务进行版本发布,每个版本相当于数据的一个快照,可用于后续的数据溯源。主要应用场景如下: 对于数据标注这
迁移评估 推理迁移包括模型迁移、业务迁移、精度性能调优等环节,是否能满足最终的迁移效果需要进行系统的评估。如果您仅需要了解迁移过程,可以先按照本文档的指导进行操作并熟悉迁移流程。如果您有实际的项目需要迁移,建议填写下方的推理业务迁移评估表,并将该调研表提供给华为云技术支持人员进行迁移评估,以确保迁移项目能顺利实施。
执行训练任务(推荐) 新的训练方式将统一管理训练日志、训练结果和训练配置,使用yaml配置文件方便用户根据自己实际需求进行修改。推荐用户使用该方式进行训练。 步骤一 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训
资源购买 购买弹性文件服务SFS 弹性文件服务默认为按需计费,即按购买的存储容量和时长收费。您也可以购买包年包月套餐,提前规划资源的使用额度和时长。在欠费时,您需要及时(15天之内)续费以避免您的文件系统资源被清空。SFS购买指导请参考如何购买弹性文件服务?。 购买容器镜像服务SWR
训练声音分类模型 完成音频标注后,可以进行模型的训练。模型训练的目的是得到满足需求的声音分类模型。由于用于训练的音频,至少有2种以上的分类,每种分类的音频数不少于5个。 操作步骤 在开始训练之前,需要完成数据标注,然后再开始模型的自动训练。 在新版自动学习页面,单击项目名称进入运
执行训练任务(历史版本) 步骤一 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。
执行预训练任务 Step1 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。