检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据工程使用流程 高质量数据是推动大模型不断迭代和优化的根基,它的质量直接决定了模型的性能、泛化能力以及应用场景的适配性。只有通过系统化地准备和处理数据,才能提取出有价值的信息,从而更好地支持模型训练。因此,数据的获取、加工、合成、标注、配比、评估、发布等环节,成为数据开发中不可或缺的重要步骤。
预置插件:平台当前为用户提供了“Python解释器”插件,支持开发者直接将插件添加到Agent中,丰富Agent的能力。 自定义插件:平台支持开发者创建自定义插件。支持开发者将工具、Function或者API通过配置方式快速创建为一个插件,并供Agent调用。 自定义知识库:平台提供了知识库功能来管理和存储数据,支持
管理盘古工作空间成员 如果您需要为企业员工设置不同的访问权限,以实现功能使用权限和资产的权限隔离,可以为不同员工配置相应的角色,以确保资产的安全和管理的高效性。 如果华为云账号已经能满足您的要求,不需要创建独立的IAM用户(子用户)进行权限管理,您可以跳过本章节,不影响您使用盘古的其他功能。
数据工程介绍 数据工程介绍 数据工程是ModelArts Studio大模型开发平台(下文简称“平台”)为用户提供的一站式数据处理与管理功能,旨在通过系统化的数据获取、加工、发布等过程,确保数据能够高效、准确地为大模型的训练提供支持,帮助用户高效管理和处理数据,提升数据质量和处理效率,为大模型开发提供坚实的数据基础。
使用数据工程构建科学计算大模型数据集 科学计算大模型支持接入的数据集类型 盘古科学计算大模型仅支持接入气象类数据集,该数据集格式要求请参见气象类数据集格式要求。 训练科学计算大模型训练数据要求所需数据量 构建科学计算大模型进行训练的数据要求见表1。 表1 科学计算大模型训练数据要求