检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
审核图片类数据集标注结果 创建数据集标注任务时,如果设置了启用标注审核,在完成标注后可以在“标注审核”页面审核标注结果。 对于审核不合格的数据可以填写不合格原因并驳回给标注员重新标注。创建标注任务时如果指定了审核人员,则审核人员可以审核数据集,管理员(主账号)可以对所有数据集进行审核。
审核视频类数据集标注结果 创建数据集标注任务时,如果设置了启用标注审核,在完成标注后可以在“标注审核”页面审核标注结果。 对于审核不合格的数据可以填写不合格原因并驳回给标注员重新标注。创建标注任务时如果指定了审核人员,则审核人员可以审核数据集,管理员(主账号)可以对所有数据集进行审核。
在“数据集选择”页签选择需要进行评估的加工数据集,并设置抽样规格,即从数据集中抽取一定比例数据用于评估。 图3 选择数据集 单击“下一步”选择需要使用的评估标准。标准选择完成后,单击“下一步”设置评估人员。 图4 选择评估标注 图5 选择评估人员 评估人员设置完成后,单击“下一步”填写任务名称。
在“数据集选择”页签选择需要进行评估的加工数据集,并设置抽样规格,即从数据集中抽取一定比例数据用于评估。 图3 选择数据集 单击“下一步”选择需要使用的评估标准。标准选择完成后,单击“下一步”设置评估人员。 图4 选择评估标注 图5 选择评估人员 评估人员设置完成后,单击“下一步”填写任务名称。
型的收敛情况动态调整。 学习率衰减比率(learning_rate_decay_ratio) 0~1 0.01~0.1 学习率衰减比率用于设置训练过程中的学习率衰减的最小值。计算公式为:最小学习率=学习率*学习率衰减比率。 参数的选择没有标准答案,您需要根据任务的实际情况进行调整,以上建议值仅供参考。
通过使用加工算子,您可以提取、转换、过滤原始数据,生成适合大模型训练的数据集。 准备工作 请提前准备数据并上传至OBS服务,上传步骤请详见通过控制台快速使用OBS。 操作流程 登录ModelArts Studio大模型开发平台,进入所需空间。 选择左侧“数据工程 > 数据获取”,单击右上角“创建原始数据集”。
本空间”页面,单击操作列“更多 > 导出”。若无导出选项,请确认该空间是否为当前用户创建的空间。 选择需要导出的模型,应设置导出模型时对应的导出位置(OBS桶地址),添加从环境B中下载的用户证书。设置完成后单击“确定”导出模型。 图3 导出模型 导入盘古大模型至其他局点 导入盘古大模型至其他局点前,请确保当前空间为该用户所创建的空间。
后的视频类数据集,并设置标注项。 当选择“视频Caption”标注项时,可以设置使用AI大模型对数据集进行预标注。启动预标注将会借助AI模型生成标注内容,这些内容不会覆盖原始数据集,仅作为标注人员的参考,以提高标注效率。 图3 创建标注任务 单击“下一步”设置标注人员及信息,单击“完成创建”。
String 存储类型,取值为obs。 data 是 Array of ObsStorageDto objects 输入数据的OBS信息。 表4 ObsStorageDto 参数 是否必选 参数类型 描述 bucket 是 String 输入数据的OBS桶名称。 path 是 String
考》文档。 { "name": "test-task624", "input": { "type": "obs", "data": [ { "bucket": "pangu-weather-data"
图2 标注管理 在“创建标注任务”页面选择需要标注的加工后的文本类数据集,并设置标注项。 设置标注项时,不同类型的数据文件对应的标注项也有所差异,可基于页面提示进行设置。 图3 创建标注任务 单击“下一步”设置标注人员及信息,单击“完成创建”。 分配标注任务时,可以选择是否启用多人标
后的图片类数据集,并设置标注项。 当选择“图片Caption”标注项时,可以设置使用AI大模型对数据集进行预标注。启动预标注将会借助AI模型生成标注内容,这些内容不会覆盖原始数据集,仅作为标注人员的参考,以提高标注效率。 图3 创建标注任务 单击“下一步”设置标注人员及信息,单击“完成创建”。
自监督训练: 不涉及 有监督微调: 本场景采用了下表中的微调参数进行微调,您可以在平台中参考如下参数进行训练: 表2 微调核心参数设置 训练参数 设置值 数据批量大小(batch_size) 8 训练轮数(epoch) 4 学习率(learning_rate) 7.5e-05 学
结构化信息,可以将有监督的问题设置为“请根据标题xxx/关键性xxx/简介xxx,生成一段不少于xx个字的文本。”,将回答设置为符合要求的段落。 续写:根据段落的首句、首段续写成完整的段落。 若您的无监督文档没有任何结构化信息,可以将有监督的问题设置为“以下是一篇文章的第一个句子
自监督训练: 不涉及 有监督微调: 该场景采用下表中的微调参数进行微调,您可以在平台中参考如下参数进行训练: 表2 问答模型的微调核心参数设置 训练参数 设置值 数据批量大小(batch_size) 4 训练轮数(epoch) 3 学习率(learning_rate) 3e-6 学习率衰
与其他服务的关系 与对象存储服务的关系 盘古大模型使用对象存储服务(Object Storage Service,简称OBS)存储数据和模型,实现安全、高可靠和低成本的存储需求。 与ModelArts服务的关系 盘古大模型使用ModelArts服务进行算法训练部署,帮助用户快速创建和部署模型。
自监督训练: 不涉及 有监督微调: 该场景采用了下表中的微调参数进行微调,您可以在平台中参考如下参数进行训练: 表1 微调核心参数设置 训练参数 设置值 数据批量大小(batch_size) 8 训练轮数(epoch) 6 学习率(learning_rate) 7.5e-05 学
自定义关键词过滤 剔除包含关键词的数据。 敏感词过滤 对文本中涉及黄色、暴力、政治、机密和知识产权等敏感数据进行自动检测和过滤。 文本长度过滤 按照设置的文本长度,对长度范围内的数据进行保留。 冗余信息过滤 查找文本中的冗余信息并替换为空值,不改变数据条目。例如目录封面、图注表注、标注说明
单击“下一步”。在“已选择数据集配比”中,用户可以设置从数据集中抽取指定数量的数据用于训练。进行数据配比的目的是为了确保模型能够更全面地学习和理解数据的多样性,提升模型的泛化能力和性能。 图4 发布方式2 图5 数据集配比 设置发布格式。由于数据工程需要支持对接盘古大模型或三方大
单击“下一步”。在“已选择数据集配比”中,用户可以设置从数据集中抽取指定数量的数据用于训练。进行数据配比的目的是为了确保模型能够更全面地学习和理解数据的多样性,提升模型的泛化能力和性能。 图4 发布方式2 图5 数据集配比 设置发布格式。由于数据工程需要支持对接盘古大模型或三方大