检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据量和质量均满足要求,为什么盘古大模型微调效果不好 这种情况可能是由于以下原因导致的,建议您排查: 训练参数设置:您可以通过绘制Loss曲线查询来确认模型的训练过程是否出现了问题,这种情况大概率是由于训练参数设置的不合理而导致了欠拟合或过拟合。请检查训练参数中的 “训练轮次”或“
视频类数据集格式要求 ModelArts Studio大模型开发平台支持创建视频类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 视频类数据集格式要求 文件内容 文件格式 文件要求 视频 mp4或avi 支持mp4、avi视频格式上传,所有视频可以放在多个文件夹
预设的人设风格回答问题。 以下示例要求模型以幼儿园老师的风格回答问题: { "messages": [ { "role": "system", "content": "请用幼儿园老师的口吻回答问题,注意语气温和亲切,通过
文本类数据集格式要求 ModelArts Studio大模型开发平台支持创建文本类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 文本类数据集格式要求 文件内容 文件格式 文件要求 文档 txt、mobi、epub、docx、pdf 编码格式为UTF-8,单个文
预测类数据集格式要求 平台支持创建预测类数据集,创建时可导入时序数据、回归分类数据。 时序数据:时序预测数据是一种按时间顺序排列的数据序列,用于预测未来事件或趋势,过去的数据会影响未来的预测。 回归分类数据:回归分类数据包含多种预测因子(特征),用于预测连续变量的值,与时序数据不
置为符合要求的段落。 扩写:根据段落的其中一句或者一段续写成完整的段落。 若您的无监督文档没有任何结构化信息,可以将有监督的问题设置为“以下是一篇文章的某个句子:xxx/某个段落:xxx。请根据以上的句子/段落,扩写成一段不少于xx个字的文本。”,再将回答设置为符合要求的段落。
对特定区域,旨在提供完整、一致且高精度的气象数据。 再分析数据为二进制格式,具体格式要求详见表1。 表1 气象类数据集格式要求 文件内容 文件格式 文件样例 气象-天气数据 nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2
解并捕捉预期风格。 可以在提示词中,明确描述回复风格的要求。例如,若希望模型回答更精炼,可以提示: 你的回复“需要简洁精炼”、“仅包括最重要的信息”或“专注于主要结论”。 若希望模型输出遵循特定格式,可以在提示词中明确格式要求,或使用占位符和模板结构,让模型填充内容。例如: 请按照以下格式输出:
使用数据工程构建CV大模型数据集 CV大模型支持接入的数据集类型 盘古CV大模型支持接入图片类、视频类、其他类数据集,,不同模型所需数据见表1,数据集格式要求请参见图片类数据集格式要求、视频类数据集格式要求、其他类数据集格式要求。 表1 训练CV大模型数据集类型要求 基模型 训练场景 文件内容 文件格式
其他类数据集格式要求 除文本、图片、视频、气象、预测类数据集外,平台还支持导入其他类数据集,即用户训练模型时使用的自定义数据集。 其他类数据集支持发布其他类数据集操作,不支持数据加工操作。 父主题: 数据集格式要求
其中,before文件夹:包含变化前的图片,每幅图片需与变化后的图片同名、同尺寸。 after文件夹:包含变化后的图片,每幅图片需与变化前的图片同名、同尺寸。 label文件夹:包含与变化前和变化后图片同名、同尺寸的PNG文件。每个像素值代表该位置对应的类别信息,类别应是连续的且从0开始。 视频分类
数据集格式要求 文本类数据集格式要求 图片类数据集格式要求 视频类数据集格式要求 气象类数据集格式要求 预测类数据集格式要求 其他类数据集格式要求 父主题: 使用数据工程构建数据集
科学计算大模型支持接入的数据集类型 盘古科学计算大模型仅支持接入气象类数据集,该数据集格式要求请参见气象类数据集格式要求。 训练科学计算大模型训练数据要求所需数据量 构建科学计算大模型进行训练的数据要求见表1。 表1 科学计算大模型训练数据要求 模型类别 特征要求 水平分辨率要求 区域范围要求
训练预测大模型时,所需的数据通常为表格格式,即由行和列组成的扁平化数据。具体要求如下: 行:每行代表一个样本。每行与其他行具有相同的列,并且顺序相同,这些行通常按照某种特定顺序排列。 列:每列表示一种特征。每列的数据类型应保持一致,不同列可以具有不同的数据类型。 顺序:表格中的行通常按照特定顺序排列。
</dependency> jackson版本要求请见pom.xml。 使用java sdk出现json解析报错 图1 json解析报错 服务端返回的数据格式不符合json格式,导致sdk侧解析json数据报错。 服务端返回的json数据不符合json反序列化的规则,和sdk定义的数据结构不一致,导致反序列化失败。
数据配比是将多个数据集按特定比例组合并发布为“发布数据集”的过程。通过合理的配比,确保数据集的多样性、平衡性和代表性,避免因数据分布不均而引发的问题。 配比文本类数据集 流通文本类数据集 数据流通是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。 平台支持发布的数据集格式为默认格式、盘古格式。
如果您需要为企业员工设置不同的访问权限,以实现功能使用权限和资产的权限隔离,可以为不同员工配置相应的角色,以确保资产的安全和管理的高效性。 如果华为云账号已经能满足您的要求,不需要创建独立的IAM用户(子用户)进行权限管理,您可以跳过本章节,不影响您使用盘古的其他功能。 您可以使用统
态。 检查开发环境要求,确认本地已具备开发环境。 登录“我的凭证 > 访问密钥”页面,依据界面操作指引获取Access Key(AK)和Secret Access Key(SK)。下载的访问密钥为credentials.csv文件,包含AK/SK信息。 认证用的ak和sk硬编码到
盘古推理SDK简介 推理SDK概述 盘古大模型推理SDK是对REST API进行的封装,通过该SDK可以处理用户的输入,生成模型的回复,从而实现自然流畅的对话体验。 表1 推理SDK清单 SDK分类 SDK功能 支持语言 使用场景 推理SDK 对话问答(/chat/completions)
数据发布功能通过数据评估和配比,确保发布的数据集满足大模型训练的高标准。这不仅包括数据规模的要求,还涵盖了数据质量、平衡性和代表性的保证,避免数据不均衡或不具备足够多样性的情况,进而提高模型的准确性和鲁棒性。 提高数据的多样性和代表性 通过合理的数据配比,帮助用户按特定比例组合多个数