检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据工程常见报错与解决方案 数据工程常见报错及解决方案请详见表1。 表1 数据工程常见报错与解决方案 功能模块 常见报错 解决方案 数据获取 File format mismatch, require [{0}]. 请检查创建数据集时使用的数据,与平台要求的文件内容格式是否一致。
数据工程使用流程 高质量数据是推动大模型不断迭代和优化的根基,它的质量直接决定了模型的性能、泛化能力以及应用场景的适配性。只有通过系统化地准备和处理数据,才能提取出有价值的信息,从而更好地支持模型训练。因此,数据的获取、加工、合成、标注、配比、评估、发布等环节,成为数据开发中不可或缺的重要步骤。
使用数据工程构建NLP大模型数据集 NLP大模型支持接入的数据集类型 盘古NLP大模型仅支持接入文本类数据集,数据集文件内容包括:预训练文本、单轮问答、多轮问答、带人设单轮问答、带人设多轮问答等,不同训练方式所需要使用的数据见表1,该数据集格式要求请参见文本类数据集格式要求。 表1
数据工程介绍 数据工程介绍 数据工程是ModelArts Studio大模型开发平台(下文简称“平台”)为用户提供的一站式数据处理与管理功能,旨在通过系统化的数据获取、加工、发布等过程,确保数据能够高效、准确地为大模型的训练提供支持,帮助用户高效管理和处理数据,提升数据质量和处理效率,为大模型开发提供坚实的数据基础。
使用数据工程构建科学计算大模型数据集 科学计算大模型支持接入的数据集类型 盘古科学计算大模型仅支持接入气象类数据集,该数据集格式要求请参见气象类数据集格式要求。 训练科学计算大模型训练数据要求所需数据量 构建科学计算大模型进行训练的数据要求见表1。 表1 科学计算大模型训练数据要求