检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
一个与目标任务同属的问题,回答的结果却不理想。这种情况可能是由于以下几个原因导致的,建议您依次排查: 测试集质量:请检查测试集的目标任务和分布与实际场景是否一致,质量较差的测试集无法反映模型的真实结果。 数据质量:请检查训练数据的质量,若训练样本和目标任务不一致或者分布差异较大,
训练效果,确认训练过程是否出现了过拟合或欠拟合等异常情况。 模型评估:使用平台的“模型评估”功能,“模型评估”将对您之前上传的测试集进行评估。通过查看测试集样本的PPL、BLEU和ROUGE等指标,进行横向(相同训练数据+不同规格的通用模型)或纵向(不同训练数据训练的多个模型版本)对比来判断训练过程是否出现了问题。
使用“能力调测”调用科学计算大模型 平台提供的“能力调测”功能支持用户直接调用预置模型或经过训练的模型。使用该功能前,需完成模型的部署操作,详见创建科学计算大模型部署任务。 科学计算大模型支持全球中期天气要素预测、全球中期降水预测、全球海洋要素、区域海洋要素、全球海洋生态、全球海
目录下只有1个数据文件时,文件无命名要求。 目录下有多个数据文件时,需要通过命名的方式指定数据是训练数据集、验证数据集还是测试数据集。训练数据名称需包含train字眼,如train01.csv;验证数据名称需包含eval字眼;测试数据名称需包含test字眼。文件的命名不能同时包含train、eval和test中的两个或三个。
使用数据工程构建科学计算大模型数据集 科学计算大模型支持接入的数据集类型 盘古科学计算大模型仅支持接入气象类数据集,该数据集格式要求请参见气象类数据集格式要求。 构建科学计算大模型训练数据要求 构建科学计算大模型进行训练的数据要求见表1。 表1 科学计算大模型训练数据要求 模型类别
数据集中若存在异常数据,可通过数据集加工功能去除异常字符、表情符号、个人敏感内容等。 说明: 盘古NLP大模型仅支持接入文本类数据集。 若数据类型为文档、网页,则加工数据集为必选项,否则为可选项。 创建文本类数据集加工任务 上线加工后的数据集 对加工后的数据集执行上线操作。 上线加工后的文本类数据集
文件格式 文件要求 文档 txt、mobi、epub、docx、pdf 数据集最大100万个文件,单文件最大10GB,整个数据集最大10TB。 网页 html 数据集最大100万个文件,单文件最大10GB,整个数据集最大10TB。 预训练文本 jsonl jsonl格式:text表示预
平台支持的数据类型 数据类型 数据内容 数据文件格式要求 文本类 文档 支持txt、mobi、epub、docx、pdf,详见文本类数据集格式要求。 网页 支持html,详见文本类数据集格式要求。 预训练文本 支持jsonl,详见文本类数据集格式要求。 单轮问答 支持jsonl、csv,详见文本类数据集格式要求。
数据转换 图文异常字符过滤 将文本数据中携带的异常字符替换为空值,数据条目不变。 不可见字符,比如U+0000-U+001F 表情符六 网页标签符号<p> 特殊符号,比如● █ ◆ 乱码和无意义的字符����� 图片类加工算子能力清单 表2 图片类加工算子功能表 算子分类 算子名称
avi或.mp4格式,标注格式为.json。必须包含两个及以上后缀名字为avi或mp4的文件。 每个视频时长要大于128s,FPS>=10,且测试集训练集都要有视频。数据集最大100万个文件,单文件最大10GB,整个数据集最大10TB。 支持视频的格式包括常见的mp4和或avi格式文
科学计算大模型训练流程与选择建议 科学计算大模型训练流程介绍 科学计算大模型主要用于。 科学计算大模型的训练主要分为两个阶段:预训练与微调。 预训练阶段:预训练是模型学习基础知识的过程,基于大规模通用数据集进行。例如,在区域海洋要素预测中,可以重新定义深海变量、海表变量,调整深度
查找数据集每一条数据中携带的异常字符,并将异常字符替换为空值,数据条目不变。 不可见字符,比如U+0000-U+001F。 表情符六。 网页标签符号<p>。 特殊符号,比如● █ ◆。 乱码和无意义的字符�����。 自定义正则过滤 删除符合自定义正则表达式的数据。 自定义关键词过滤
来源一:互联网开源数据集,如政府网站网页、政府在线问答公开数据、政务百科等。 来源二:特定的私域数据,针对于具体场景和项目需求,收集相关的文本数据。比如通过与当地政府的政数局进行合作,获取政府部门提供的内部脱敏数据等。相关的数据格式包括但不限于:在线网页、离线word文档、离线txt文