检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
评估视频类数据集 发布视频类数据集前,ModelArts Studio大模型开发平台支持对数据集进行评估操作,帮助用户优化数据质量,确保数据满足高标准,提升模型性能。 如果无需使用数据评估操作,可跳过此章节至发布视频类数据集。 创建视频类数据集评估标准 ModelArts Stu
在“创建发布任务”页面,选择数据集模态,如“预测 > 时序”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。 在“基本配置”中选择数据用途、数据集可见性、适用场景。当前预测类数据集仅支持发布标准格式。 填写数据集名称、描述,设置扩展信息后,单击“确定”执行数据集发布操作。 当任务
和代表性,避免因数据分布不均而引发的问题。 发布数据集 评估数据集 平台预置了多种数据类型的基础评估标准,包括NLP、视频和图片数据,用户可根据需求选择预置标准或自定义评估标准,从而精确优化数据质量,确保数据满足高标准,提升模型性能。 发布数据集 数据发布是将数据集发布为特定格式
频类数据集仅支持发布标准格式。 填写数据集名称、描述,设置扩展信息后,单击“确定”执行数据集发布操作。 当任务状态显示为“运行成功”时,说明数据发布任务执行成功,生成的“发布数据集”可在“数据工程 > 数据管理 > 数据集 > 发布数据集”中查看。 父主题: 发布视频类数据集
在“创建发布任务”页面,选择数据集模态,如“其他 > 自定义”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。 在“基本配置”中选择数据用途、数据集可见性、适用场景。当前其他类数据集仅支持发布标准格式。 填写数据集名称、描述,设置扩展信息后,单击“确定”执行数据集发布操作。 当任
配比文本类数据集 数据配比是将多个数据集按照特定比例关系组合并发布为“发布数据集”的过程,确保数据的多样性、平衡性和代表性。 如果单个数据集已满足您的需求,可跳过此章节至发布文本类数据集。 创建文本类数据集配比任务 创建文本类数据集配比任务步骤如下: 登录ModelArts St
在“创建发布任务”页面,选择数据集模态,如“气象 > 气象数据”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。 在“基本配置”中选择数据用途、数据集可见性、适用场景。当前气象类数据集仅支持发布标准格式。 填写数据集名称、描述,设置扩展信息后,单击“确定”执行数据集发布操作。 当
加工图片类数据集 加工图片类数据集 标注图片类数据集 配比图片类数据集 父主题: 加工数据集
发布图片类数据集 评估图片类数据集 发布图片类数据集 父主题: 发布数据集
在完成数据加工后,在“加工任务”页面单击操作列“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据管理 > 数据集 > 加工数据集”中查看。 父主题: 加工数据集
在完成数据加工后,如果无需使用数据标注、数据合成功能,可直接在“加工任务”页面单击操作列“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据管理 > 数据集 > 加工数据集”中查看。 父主题: 加工文本类数据集
在完成数据加工后,如果无需使用数据标注功能,可直接在“加工任务”页面单击操作列“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据管理 > 数据集 > 加工数据集”中查看。 父主题: 加工视频类数据集
使用数据工程构建科学计算大模型数据集 科学计算大模型支持接入的数据集类型 盘古科学计算大模型仅支持接入气象类数据集,该数据集格式要求请参见气象类数据集格式要求。 训练科学计算大模型训练数据要求所需数据量 构建科学计算大模型进行训练的数据要求见表1。 表1 科学计算大模型训练数据要求
jsonl 训练NLP大模型所需数据量 使用数据工程构建盘古NLP大模型数据集进行模型训练时,所需数据量见表2。 表2 构建NLP大模型所需数据量 模型规格 训练类型 推荐数据量 最小数据量(数据条数) 单场景推荐训练数据量 单条数据Token长度限制 N1 微调 - 1000条/每场景
在左侧导航栏中选择“数据工程 > 数据发布 > 发布任务”,单击界面右上角“创建发布任务”。 在“创建发布任务”页面,选择数据集模态,如“文本 > 预训练文本”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。 在“基本配置”中选择数据用途、数据集可见性、适用场景。
文本类数据集格式要求 ModelArts Studio大模型开发平台支持创建文本类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 文本类数据集格式要求 文件内容 文件格式 文件要求 文档 txt、mobi、epub、docx、pdf 单个文件大小不超过50GB,文件数量最多1000个。
务成功的提示。 在完成数据标注后,如果无需进行标注审核,可直接在“标注任务 > 任务管理”页签单击“生成”,生成加工数据集。 生成的加工数据集可在“数据工程 > 数据管理 > 数据集 > 加工数据集”中查看。 审核标注后的文本类数据集 如果在创建文本类数据集标注任务时启用了标注审
在完成数据标注后,如果无需进行标注审核,可直接在“数据标注 > 任务管理”页面单击“生成”,生成加工数据集。 生成的加工数据集可在“数据工程 > 数据管理 > 数据集 > 加工数据集”中查看。 审核标注后的视频类数据集 如果在创建视频类数据集标注任务时启用了标注审核功能,则在完成标注后
成任务。 当数据合成任务运行成功后,状态将从“运行中”变为“运行成功”,表示数据已经完成合成操作。 在完成数据合成后,若无需使用数据标注、数据配比功能,可直接在“合成任务”页面单击操作列“生成”,生成加工数据集。 生成的加工数据集可在“数据工程 > 数据管理 > 数据集 > 加工数据集”中查看。
异常值。 通过可视化方法,数据可视化或者使用箱线图进行异常值的排查。 结合数据自身特征,进行异常数据的筛选。 对于异常值,视情况进行删除、替换、保留等操作,兼顾模型的收敛与鲁棒性。 优化举例: 某数据集中,盐度(S)变量在下载过程中存在数据块缺失与数据块偏移的问题,如图1、图2,