检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据保护技术 盘古大模型服务通过多种数据保护手段和特性,保障存储在服务中的数据安全可靠。 表1 盘古大模型的数据保护手段和特性 数据保护手段 简要说明 传输加密(HTTPS) 盘古服务使用HTTPS传输协议保证数据传输的安全性。 基于OBS提供的数据保护 基于OBS服务对用户的数
获取数据清洗模板 在清洗数据时,用户可以通过组合不同的数据清洗算子来实现数据清洗功能。平台提供了多种数据清洗模板,用户可以直接套用这些模板进行数据清洗。 数据清洗模板获取方式如下: 登录盘古大模型套件平台。 在左侧导航栏中选择“数据工程 > 数据清洗”,进入“清洗模板”页面,在该页面查看预置的数据清洗模板。
发布数据集 刚创建的数据集在未发布状态下,无法应用于模型训练,数据集创建、清洗完成后需要执行“发布”操作才可以将该数据集用于后续的任务中。 登录盘古大模型套件平台。 在左侧导航栏中选择“数据工程 > 数据管理”,在“我的数据集”页签找到未发布的数据集,单击操作列“版本发布”执行发布数据集操作。
模型训练所需数据量与数据格式要求 盘古大模型套件平台支持NLP大模型的训练。不同模型训练所需的数据量和数据格式有所差异,请基于数据要求提前准备训练数据。 数据量要求 自监督训练 在单次训练任务中,一个自监督训练数据集内,上传的数据文件数量不得超过1000个,单文件大小不得超过1G
检测数据集质量 数据集创建成功后,平台将对数据集中的数据进行质量校验,并给出健康度评分、合规度评分与数据长度分布。 检测数据集质量 在“数据工程 > 数据管理”页面,选择“我的数据集”或者“训练数据集”页签。 单击数据集名称,进入数据集详情页,查看详细的数据质量。 其中,数据长度
清洗数据集(可选) 清洗算子功能介绍 获取数据清洗模板 创建数据集清洗任务 父主题: 准备盘古大模型训练数据集
创建数据集清洗任务 数据集创建完成后,可以使用数据清洗功能,对异常数据进行清理,或进行数据转换、过滤和去重等操作。 登录盘古大模型套件平台。 在左侧导航栏中选择“数据工程 > 数据清洗”,单击界面右上角“创建任务”。 图1 数据清洗 依据需要清洗的数据类型,选择对应的数据集和数据集
训练数据集创建流程 数据是大模型训练的基础,提供了模型学习所需的知识和信息。大模型通过对大量数据的学习,能够理解并抽象出其中的复杂模式,从而进行精准的预测和决策。在训练过程中,数据的质量和多样性至关重要。高质量的数据能够提升模型对任务的理解,而多样化的数据则帮助模型更好地应对各种
数据量很少,可以微调吗 不同规格的模型对微调的数据量都有相应要求。 如果您准备用于微调的数据量很少,无法满足最小的量级要求,那么不建议您直接使用该数据进行微调,否则可能会存在如下问题: 过拟合:当微调数据量很小时,为了能充分学习这些数据的知识,可能会训练较多的轮次,因而模型会过分
创建一个训练数据集 训练数据集是用于模型训练的实际数据集。通常,通过创建一个新的数据集步骤,可以生成包含某个特定场景数据的数据集。例如,这个数据集可能只包含用于训练摘要提取功能的数据。然而,在实际模型训练中,通常需要结合多种任务类型的数据,而不仅限于单一场景的数据。因此,实际的训
上传文件限xlsx格式。 数据行数不小于10行,不大于50行。 数据不允许相同表头,表头数量小于20个。 数据单条文本长度不超过1000。 创建数据集时会对相关限制条件进行校验。 数据参考格式 图1 数据参考格式 图2 数据示例 创建提示词评估数据集 登录盘古大模型套件平台。 在左侧导航栏中选择“数据工程
图8 创建数据集 在新建数据集页面,依据需要进行的训练任务,选择导入数据,填写基本信息。 导入数据 选择模型类型、训练类型、数据类型、导入格式以及数据来源。 表1 数据集路径说明 数据集训练类型 数据集所在OBS路径 自监督训练数据集 创建数据集时,需要指定数据文件所在的文件夹。
创建模型评估数据集 在收集评估数据集时,应确保数据集的独立性和随机性,并使其能够代表现实世界的样本数据,以避免对评估结果产生偏差。对评估数据集进行分析,可以帮助了解模型在不同情境下的表现,从而得到模型的优化方向。 在“数据工程 > 数据管理”中创建“评测”类型的数据集作为评估数据集,数据集创建完成后需要执行发布操作。
准备盘古大模型训练数据集 训练数据集创建流程 模型训练所需数据量与数据格式要求 创建一个新的数据集 检测数据集质量 清洗数据集(可选) 发布数据集 创建一个训练数据集
数据量足够,但质量较差,可以微调吗 对于微调而言,数据质量非常重要。一份数据量少但质量高的数据,对于模型效果的提升要远大于一份数据量多但质量低的数据。若微调数据的质量较差,那么可能会导致模型学习到一些错误或者不完整的信息,从而影响模型的准确性和可靠性。因此,不建议您直接使用低质量数据进行微调。
数据量满足要求,为什么微调后的效果不好 这种情况可能是由于以下原因导致的,建议您排查: 数据质量:请检查训练数据的质量,若训练样本和目标任务不一致或者分布差异较大、样本中存在异常数据、样本的多样性较差,都将影响模型训练的效果,建议提升您的数据质量。 父主题: 典型训练问题和优化策略
数据量和质量均满足要求,Loss也正常收敛,为什么微调后的效果不好 这种情况可能是由于以下几个原因导致的,建议您依次排查: Prompt设置:请检查您使用的Prompt,对于同一个目标任务,建议在推理阶段使用和训练数据相同或相似的PROMPT,才能发挥出模型的最佳效果。 模型规格
AK/SK认证:通过AK(Access Key ID)/SK(Secret Access Key)加密调用请求。 Token认证 Token在计算机系统中代表令牌(临时)的意思,拥有Token就代表拥有某种权限。Token认证就是在调用API的时候将Token加到请求消息头,从而通过身份认证,获得操作API的权限。
清洗算子功能介绍 数据清洗是提高数据质量的重要环节,包括去除异常的字符、去除表情符号和去除个人敏感内容等,经过清洗的数据可以提升训练阶段的稳定性。 平台支持通过以下清洗能力: 表1 清洗算子说明 算子类型 功能 说明 数据转换 全角转半角 将文本中的所有全角字符转换成半角字符。 中文繁简体互转
json解析报错 服务端返回的数据格式不符合json格式,导致sdk侧解析json数据报错。 服务端返回的json数据不符合json反序列化的规则,和sdk定义的数据结构不一致,导致反序列化失败。 sdk json数据解析问题。 建议排查服务端返回的数据是否和服务SDK设计的结构、字段一致。