检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据保护技术 盘古大模型服务通过多种数据保护手段和特性,保障存储在服务中的数据安全可靠。 表1 盘古大模型的数据保护手段和特性 数据保护手段 简要说明 传输加密(HTTPS) 盘古服务使用HTTPS传输协议保证数据传输的安全性。 基于OBS提供的数据保护 基于OBS服务对用户的数
注册华为账号并开通华为云 注册华为账号并开通华为云 在使用华为云服务之前,您需要先注册华为账号并开通华为云。通过此账号,您可以按需付费,灵活使用所有华为云提供的服务。 进入华为云官网,参考账号注册指导及界面提示信息,完成账号注册。 注册成功后即可自动登录华为云,您需要完成“实名认
清洗数据集(可选) 清洗算子功能介绍 获取数据清洗模板 创建数据集清洗任务 父主题: 准备盘古大模型训练数据集
模型训练所需数据量与数据格式要求 盘古大模型套件平台支持NLP大模型的训练。不同模型训练所需的数据量和数据格式有所差异,请基于数据要求提前准备训练数据。 数据量要求 自监督训练 在单次训练任务中,一个自监督训练数据集内,上传的数据文件数量不得超过1000个,单文件大小不得超过1G
准备盘古大模型训练数据集 训练数据集创建流程 模型训练所需数据量与数据格式要求 创建一个新的数据集 检测数据集质量 清洗数据集(可选) 发布数据集 创建一个训练数据集
基于给定的正则表达式,进行文本过滤。 数据读取 单栏文字版PDF文档读取 解析PDF文档。数据集文件类型为PDF时显示。 word文本读取 解析WORD文档,支持doc和docx格式。 html格式读取 解析HTML文件。 父主题: 清洗数据集(可选)
获取数据清洗模板 在清洗数据时,用户可以通过组合不同的数据清洗算子来实现数据清洗功能。平台提供了多种数据清洗模板,用户可以直接套用这些模板进行数据清洗。 数据清洗模板获取方式如下: 登录盘古大模型套件平台。 在左侧导航栏中选择“数据工程 > 数据清洗”,进入“清洗模板”页面,在该页面查看预置的数据清洗模板。
发布数据集 刚创建的数据集在未发布状态下,无法应用于模型训练,数据集创建、清洗完成后需要执行“发布”操作才可以将该数据集用于后续的任务中。 登录盘古大模型套件平台。 在左侧导航栏中选择“数据工程 > 数据管理”,在“我的数据集”页签找到未发布的数据集,单击操作列“版本发布”执行发布数据集操作。
检测数据集质量 数据集创建成功后,平台将对数据集中的数据进行质量校验,并给出健康度评分、合规度评分与数据长度分布。 检测数据集质量 在“数据工程 > 数据管理”页面,选择“我的数据集”或者“训练数据集”页签。 单击数据集名称,进入数据集详情页,查看详细的数据质量。 其中,数据长度
图8 创建数据集 在新建数据集页面,依据需要进行的训练任务,选择导入数据,填写基本信息。 导入数据 选择模型类型、训练类型、数据类型、导入格式以及数据来源。 表1 数据集路径说明 数据集训练类型 数据集所在OBS路径 自监督训练数据集 创建数据集时,需要指定数据文件所在的文件夹。
创建数据集清洗任务 数据集创建完成后,可以使用数据清洗功能,对异常数据进行清理,或进行数据转换、过滤和去重等操作。 登录盘古大模型套件平台。 在左侧导航栏中选择“数据工程 > 数据清洗”,单击界面右上角“创建任务”。 图1 数据清洗 依据需要清洗的数据类型,选择对应的数据集和数据集
训练数据集创建流程 数据是大模型训练的基础,提供了模型学习所需的知识和信息。大模型通过对大量数据的学习,能够理解并抽象出其中的复杂模式,从而进行精准的预测和决策。在训练过程中,数据的质量和多样性至关重要。高质量的数据能够提升模型对任务的理解,而多样化的数据则帮助模型更好地应对各种
上传文件限xlsx格式。 数据行数不小于10行,不大于50行。 数据不允许相同表头,表头数量小于20个。 数据单条文本长度不超过1000。 创建数据集时会对相关限制条件进行校验。 数据参考格式 图1 数据参考格式 图2 数据示例 创建提示词评估数据集 登录盘古大模型套件平台。 在左侧导航栏中选择“数据工程
算,实现对数据的语义理解和检索。 Vector向量存储:是一种将数据转换为数学表示的方法,它可以度量数据之间的关系和相似度。向量存储可以根据不同的词向量模型进行初始化、更新、查找和清理操作。向量存储还可以支持多种相似算法,如余弦相似度、欧氏距离、曼哈顿距离等,实现对数据的相似度评分和排序。
算,实现对数据的语义理解和检索。 Vector向量存储:是一种将数据转换为数学表示的方法,它可以度量数据之间的关系和相似度。向量存储可以根据不同的词向量模型进行初始化、更新、查找和清理操作。向量存储还可以支持多种相似算法,如余弦相似度、欧氏距离、曼哈顿距离等,实现对数据的相似度评分和排序。
数据量很少,可以微调吗 不同规格的模型对微调的数据量都有相应要求。 如果您准备用于微调的数据量很少,无法满足最小的量级要求,那么不建议您直接使用该数据进行微调,否则可能会存在如下问题: 过拟合:当微调数据量很小时,为了能充分学习这些数据的知识,可能会训练较多的轮次,因而模型会过分
报错原因:模型训练过程中,训练日志出现“no such file or directory”报错,表示当前数据集格式、数据命名、数据存储路径不满足训练要求。 解决方案:请参考数据格式要求校验数据集格式。 请检查数据集路径是否设置正确。 图2 no such file or directory报错 The
创建一个训练数据集 训练数据集是用于模型训练的实际数据集。通常,通过创建一个新的数据集步骤,可以生成包含某个特定场景数据的数据集。例如,这个数据集可能只包含用于训练摘要提取功能的数据。然而,在实际模型训练中,通常需要结合多种任务类型的数据,而不仅限于单一场景的数据。因此,实际的训
doc in doc_list: print(doc.page_content) 向量库 向量库用于向量数据存储,提供向量数据检索能力。 初始化,以使用华为CSS示例。 from pangukitsappdev.api.memory.vector.factory import
创建模型评估数据集 在收集评估数据集时,应确保数据集的独立性和随机性,并使其能够代表现实世界的样本数据,以避免对评估结果产生偏差。对评估数据集进行分析,可以帮助了解模型在不同情境下的表现,从而得到模型的优化方向。 在“数据工程 > 数据管理”中创建“评测”类型的数据集作为评估数据集,数据集创建完成后需要执行发布操作。