检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
图片类数据集格式要求 ModelArts Studio大模型开发平台支持创建图片类数据集,创建时可导入图片、图片+Caption、图片+QA对三种类型的数据,具体格式要求详见表1。 表1 图片类数据集格式要求 文件内容 文件格式 文件要求 图片 tar、图片目录 图片:支持jpg
文本类数据集格式要求 ModelArts Studio大模型开发平台支持创建文本类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 文本类数据集格式要求 文件内容 文件格式 文件要求 文档 txt、mobi、epub、docx、pdf 数据集最大100万个文件,单
视频类数据集格式要求 ModelArts Studio大模型开发平台支持创建视频类数据集,创建时支持导入mp4或avi格式文件,同一文件夹下mp4或avi格式的所有视频文件会被同时上传导入,具体格式要求详见表1。 表1 视频类数据集格式要求 文件内容 文件格式 文件要求 视频 mp4或avi
filename 是 被标注文件的文件名。 size 是 表示图像的像素信息。 width:必选字段,图像的宽度。 height:必选字段,图像的高度。 depth:必选字段,图像的通道数。 图像的通道数是指图像中每个像素的颜色信息的维度。常用的RGB图像默认有3个通道。3通道表
预测类数据集格式要求 平台支持创建预测类数据集,创建时可导入时序数据、回归分类数据。 时序数据:时序预测数据是一种按时间顺序排列的数据序列,每个数据点都有一个时间戳,表示数据在时间上的位置。它用于预测未来事件或趋势,过去的数据会影响未来的预测。 回归分类数据:回归分类数据包含多种
对特定区域,旨在提供完整、一致且高精度的气象数据。 再分析数据为二进制格式,具体格式要求详见表1。 表1 气象类数据集格式要求 文件内容 文件格式 文件要求 海洋气象 nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2
数据集格式要求 文本类数据集格式要求 视频类数据集格式要求 图片类数据集格式要求 气象类数据集格式要求 预测类数据集格式要求 其他类数据集格式要求 父主题: 使用数据工程准备与处理数据集
数据量和质量均满足要求,为什么盘古大模型微调效果不好 这种情况可能是由于以下原因导致的,建议您排查: 训练参数设置:您可以通过绘制Loss曲线查询来确认模型的训练过程是否出现了问题,这种情况大概率是由于训练参数设置的不合理而导致了欠拟合或过拟合。请检查训练参数中的 “训练轮次”或“
科学计算大模型支持接入的数据集类型 盘古科学计算大模型仅支持接入气象类数据集,该数据集格式要求请参见气象类数据集格式要求。 构建科学计算大模型训练数据要求 构建科学计算大模型进行训练的数据要求见表1。 表1 科学计算大模型训练数据要求 模型类别 特征要求 水平分辨率要求 区域范围要求 时间要求
限制。 不同模型请求的最大Token数有所不同,具体信息请参见模型能力与规格。 关于模型支持的训练数据量要求,例如NLP大模型,请参考《用户指南》“开发盘古NLP大模型 > 训练NLP大模型 > NLP大模型训练流程与选择建议”。 关于平台接入的数据格式要求,请参考《用户指南》“使用数据工程准备与处理数据集
置为符合要求的段落。 扩写:根据段落的其中一句或者一段续写成完整的段落。 若您的无监督文档没有任何结构化信息,可以将有监督的问题设置为“以下是一篇文章的某个句子:xxx/某个段落:xxx。请根据以上的句子/段落,扩写成一段不少于xx个字的文本。”,再将回答设置为符合要求的段落。
构建外,也可能会使用开源的数据集。数据版权功能主要用于记录和管理数据集的版权信息,确保数据的使用合法合规,并清晰地了解数据集的来源和相关的版权授权。通过填写这些信息,可以追溯数据的来源,明确数据使用的限制和许可,从而保护数据版权并避免版权纠纷。 图3 设置数据版权 单击页面右下角
</dependency> jackson版本要求请见pom.xml。 使用java sdk出现json解析报错 图1 json解析报错 服务端返回的数据格式不符合json格式,导致sdk侧解析json数据报错。 服务端返回的json数据不符合json反序列化的规则,和sdk定义的数据结构不一致,导致反序列化失败。
的人设风格回答问题。例如,以下示例要求模型以幼儿园老师的风格回答问题。 { "messages": [ { "role": "system", "content": "请用幼儿园老师的口吻回答问题,注意语气温和亲切,通过
创建文本类数据集加工任务 上线加工后的数据集 对加工后的数据集执行上线操作。 上线加工后的文本类数据集 标注数据集(可选) 创建文本类数据集标注任务 创建数据集标注任务,对数据集执行标注操作,标注后的数据可以用于模型训练或评测。 创建文本类数据集标注任务 审核数据集标注结果 对数据集的标注结果进行审核
盘古推理SDK简介 推理SDK概述 盘古大模型推理SDK是对REST API进行的封装,通过该SDK可以处理用户的输入,生成模型的回复,从而实现自然流畅的对话体验。 表1 推理SDK清单 SDK分类 SDK功能 支持语言 使用场景 推理SDK 对话问答(/chat/completions)
考察模型逻辑 虽然模型的思考过程是个黑盒,但可以通过反问模型答案生成的逻辑或提问模型是否理解任务要求,考察模型生成的逻辑,提升模型思维过程的可解释性。 对于模型答案的反问 如果模型给出了错误的答案,可以反问模型回答的逻辑,有时可以发现错误回答的根因,并基于此修正提示词。 在反问时
态。 检查开发环境要求,确认本地已具备开发环境。 登录“我的凭证 > 访问密钥”页面,依据界面操作指引获取Access Key(AK)和Secret Access Key(SK)。下载的访问密钥为credentials.csv文件,包含AK/SK信息。 认证用的ak和sk硬编码到
如果您需要为企业员工设置不同的访问权限,以实现功能使用权限和资产的权限隔离,可以为不同员工配置相应的角色,以确保资产的安全和管理的高效性。 如果华为云账号已经能满足您的要求,不需要创建独立的IAM用户(子用户)进行权限管理,您可以跳过本章节,不影响您使用盘古的其他功能。 您可以使用统
理解底层任务 需要站在模型的角度理解相关任务的真实底层任务,并清晰描述任务要求。 例如,在文档问答任务中,任务本质不是生成,而是抽取任务,需要让模型“从文档中抽取出问题的答案,不能是主观的理解或解释,不能修改原文的任何符号、字词和格式”, 如果使用“请阅读上述文档,并生成以下问题