检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
合成文本类数据集 当前,数据合成功能支持合成单轮问答、单轮问答(人设)类型的数据。 创建文本类数据集合成任务 合成文本类数据集任务前,请先完成数据导入操作,具体步骤请参见导入数据至盘古平台。 创建文本类数据集合成任务步骤如下: 登录ModelArts Studio大模型开发平台,在
相关的数据格式包括但不限于:在线网页、离线word文档、离线txt文件、离线excel表格、离线PDF文件、扫描版word文档、扫描版PDF文件等。 微调数据要求: 数据格式样例:JSONL格式,每行是一条JSON,包含“context”和“target”两个字段。
加工文本类数据集 加工文本类数据集 合成文本类数据集 标注文本类数据集 配比文本类数据集 父主题: 加工数据集
加工文本类数据集 加工文本类数据集任务前,请先完成数据导入操作,具体步骤请参见导入数据至盘古平台。 创建文本类数据集加工任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据加工 > 加工任务
使用数据工程构建NLP大模型数据集 NLP大模型支持接入的数据集类型 盘古NLP大模型仅支持接入文本类数据集,数据集文件内容包括:预训练文本、单轮问答、多轮问答、带人设单轮问答、带人设多轮问答等,不同训练方式所需要使用的数据见表1,该数据集格式要求请参见文本类数据集格式要求。 表1
管理加工后的数据集 完成数据加工、数据合成、数据标注或数据配比任务的数据集,在对应任务列表执行“生成”操作,将生成“加工数据集”被平台统一管理,并用于后续的发布任务。 平台支持对加工数据集查看基本信息、数据血缘等管理操作,具体步骤如下: 登录ModelArts Studio大模型开发平台
数据集加工场景介绍 数据加工介绍 ModelArts Studio大模型开发平台提供数据加工功能,涵盖了数据加工、数据合成和数据标注关键操作,旨在确保原始数据符合业务需求和模型训练的标准,是数据工程中的核心环节。 数据加工 通过专用的加工算子对数据进行预处理,确保数据符合模型训练的标准和业务需求
优化训练数据的质量 在数据科学和机器学习领域,数据的质量和多样性对模型的效果至关重要。通过有效的数据预处理和数据优化方法,通过提升训练数据的质量可以显著提升训练所得模型的效果。以下是一些关键的数据优化方法及其具体过程: 数据加工 错误数据过滤 :在大规模数据集中,噪声和错误数据是不可避免的
什么是盘古大模型 盘古大模型服务致力于深耕行业,打造多领域行业大模型和能力集。ModelArts Studio大模型开发平台是盘古大模型服务推出的集数据管理、模型训练和模型部署为一体的一站式大模型开发平台及大模型应用开发平台,盘古NLP大模型、科学计算大模型、专业大模型能力通过ModelArts
加工图片类数据集 加工图片类数据集任务前,请先完成数据导入操作,具体步骤请参见导入数据至盘古平台。 创建图片类数据集加工任务 创建图片类数据集加工任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程
优化提示词 模型训练完成之后,优化提示词是一种可以继续优化模型效果的有效策略,一个好的提示词能极大地激发模型的潜能,使其在特定任务上表现出色。接下来,我们将深入探讨提示词优化的方法和技巧,帮助您更好地驾驭模型,实现高质量的任务完成。 优化提升词一般可以从以下几个方面开始: 选择合适的提示词模板
Ubuntu系统 在线安装: sudo apt install nfs-kernel-server Euler OS系统 在线安装: sudo yum install nfs-utils 若需离线安装,请联系盘古客服。
使用“能力调测”调用科学计算大模型 能力调测功能支持用户调用预置或训练后的科学计算大模型。使用该功能前,请完成模型的部署操作,步骤详见创建科学计算大模型部署任务。 使用“能力调测”调用科学计算大模型可实现包括全球中期天气要素预测、全球中期降水预测、全球海洋要素、区域海洋要素、全球海洋生态
数据工程使用流程 高质量数据是推动大模型不断迭代和优化的根基,它的质量直接决定了模型的性能、泛化能力以及应用场景的适配性。只有通过系统化地准备和处理数据,才能提取出有价值的信息,从而更好地支持模型训练。因此,数据的获取、加工、合成、标注、配比、评估、发布等环节,成为数据开发中不可或缺的重要步骤
数据工程 ModelArts Studio开发平台提供了全面的数据工程功能。该模块涵盖数据获取、加工、标注、评估和发布等关键环节,帮助用户高效构建高质量的训练数据集,推动AI应用的成功落地。具体功能如下: 数据获取:用户可以轻松将多种类型的数据导入ModelArts Studio大模型开发平台
数据工程介绍 数据工程介绍 数据工程是ModelArts Studio大模型开发平台(下文简称“平台”)为用户提供的一站式数据处理与管理功能,旨在通过系统化的数据获取、加工、发布等过程,确保数据能够高效、准确地为大模型的训练提供支持,帮助用户高效管理和处理数据,提升数据质量和处理效率
管理发布后的数据集 完成数据配比、或数据流通任务的数据集,在对应任务列表执行“生成”操作,将生成“发布数据集”被平台统一管理,并用于后续的发布任务。 平台支持对发布数据集查看基本信息、数据血缘等管理操作,具体步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间
查询推理作业详情 功能介绍 根据创建推理作业的作业ID获取科学计算大模型的结果数据。 URI 获取URI方式请参见请求URI。 GET /tasks/{task_id} 调用查询推理作业详情API所需要的域名与创建推理作业API一致,可以参考创建推理作业获取。获取完整的创建推理作业
权限管理 如果您需要对华为云上购买的盘古大模型资源,为企业中的员工设置不同的访问权限,以达到不同员工之间的权限隔离,您可以使用统一身份认证服务(IAM)和盘古角色管理功能进行精细的权限管理。 如果华为云账号已经能满足您的要求,不需要创建独立的IAM用户(子用户)进行权限管理,您可以跳过本章节
功能总览 功能总览 全部 数据工程工具链 模型开发工具链 应用开发工具链 能力调测 应用百宝箱 数据工程工具链 数据是大模型训练的基础,为大模型提供了必要的知识和信息。数据工程工具链作为盘古大模型服务的重要组成部分,具备数据获取、清洗、数据合成、数据标注、数据评估、数据配比、数据流通和管理等功能