检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
功能限制 功能类型 使用限制 数据工程-数据格式要求 ModelArts Studio平台支持接入的数据需要满足格式要求,包括文件格式、单个文件大小、所有文本大小以及文件数量等,请参考《用户指南》“使用数据工程构建数据集 > 数据集格式要求”。 模型开发-训练、评测最小数据量要求
提示词评估数据集约束限制 上传文件限xlsx格式。 数据行数不小于10行,不大于50行。 数据不允许相同表头,表头数量小于20个。 数据单条文本长度不超过1000。 创建数据集时会对相关限制条件进行校验。 数据参考格式如下: 图1 数据参考格式 图2 数据示例 创建提示词评估数据集 登录ModelArts
类型类别特征的列表。格式为["列名1","列名2"],默认设置为[],表示没有需要处理的类别特征。 LabelEncoder的作用是将类别特征转换为数值型特征,使模型能够处理这些特征。 非特征列 列出不需要输入到模型中的特征列,用于排除冗余或无意义的特征。格式为["列名1","列
全角转半角:将文本中的全角字符转换为半角字符。 标点符号归一化,支持统一格式的符号如下: {"?": "\?\?"} {"[":"〖"} {"]":"〗"} 数字符号归一化,例如将⓪|||⓿|统一为0.。支持统一格式的符号如下: {"0.": "⓪|||⓿|"} {"1.":
创建文本类数据集评估标准 ModelArts Studio大模型开发平台针对文本类数据集预设了一套基础评估标准,涵盖了数据准确性、完整性、一致性、格式规范等多个维度,用户可以直接使用该标准或在该标准的基础上创建评估标准。 若您希望使用平台预置的评估标准,可跳过此章节至创建文本类数据集评估任务。
在“创建流通任务”页面,选择数据集模态,如“视频 > 仅视频”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。 在“格式配置”选择发布格式。当前视频类数据集仅支持发布默认格式。 填写数据集名称、描述,设置数据集“资产可见性”,设置扩展信息后,单击“确定”执行数据集流通操作。 当任务状态
撰写提示词 提示词是用来引导模型生成的一段文本。撰写的提示词应该包含任务或领域的关键信息,如主题、风格、格式等。 撰写提示词时,可以设置提示词变量。即在提示词中通过添加占位符{{ }}标识表示一些动态的信息,让模型根据不同的情况生成不同的文本,增加模型的灵活性和适应性。例如,将提
作,获取政府部门提供的内部脱敏数据等。相关的数据格式包括但不限于:在线网页、离线word文档、离线txt文件、离线excel表格、离线PDF文件、扫描版word文档、扫描版PDF文件等。 微调数据要求: 数据格式样例:JSONL格式,每行是一条JSON,包含“context”和“target”两个字段。示例如下:
om-2.0.0 2024年12月发布的版本,支持识别数据集中不符合预期模式或行为的数据点。 Pangu-Predict-Table-TimSeries-2.0.0 2024年12月发布的版本,支持根据历史时间序列数据来预测未来的值,广泛应用于金融、销售预测、天气预报、能源消耗预测等领域。
</dependency> jackson版本要求请见pom.xml。 使用java sdk出现json解析报错 图1 json解析报错 服务端返回的数据格式不符合json格式,导致sdk侧解析json数据报错。 服务端返回的json数据不符合json反序列化的规则,和sdk定义的数据结构不一致,导致反序列化失败。
数据流通是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。 平台支持发布的数据集格式为默认格式、盘古格式。 默认格式:平台默认的格式。 盘古格式:训练盘古大模型时,需要发布为该格式。当前仅文本类、图片类数据集支持发布为盘古格式。 NLP大模型开发流程 ModelArts
参数名称 参数说明 插件URL 插件服务的请求URL地址。 URL协议只支持HTTP和HTTPS。 系统会校验URL地址是否为标准的URL格式。 URL对应的IP默认不应为内网,否则会导致注册失败。仅在非商用环境部署时,才允许支持内网URL,且需要通过相关的服务的启动配置项关闭内网屏蔽。
正负向要求不要掺杂着写,可以先全部列完正向要求,再列负向要求,比如“你必须xxx;你必须xxx;你不能xxx;你不能xxx”。 规范输出格式 如果需要约束输出格式,可以在提示词里体现。请注意输出格式中的key不要有语义重复,并且需要与前文要求中的key名字保持一致,否则模型会不理解是同一个key。 恰当的表述
为越南语,zh为中文。请注意:不要使用任何工具、不用理会问题的具体含义,并保证你的输出仅有json格式的结果数据,以保证返回结果可以被json.dumps直接解析。你的返回格式格式示例为:{\"text\":\"a\",\"from\":\"b \",\"to\":\"c\"}。
宣传文案样例2: YYYY 注意:宣传文案中需要包含产品名称;需要突出产品特性;不超过40个字。 输出格式:宣传文案:xxx 微调数据要求: 数据格式样例:JSONL格式,每行是一条JSON,包含“context”和“target”两个字段。示例如下: {"context":
当您的目标任务是多轮问答,并且使用了多轮问答数据进行微调,微调后却发现多轮回答的效果不理想。这种情况可能是由于以下几个原因导致的,建议您依次排查: 数据格式:多轮问答场景需要按照指定的数据格式来构造,问题需要拼接上历史所有轮对话的问题和回答。比如,当前是第三轮对话,数据中的问题字段需要包含第一轮的问题、第一轮的
在“调用路径”页面,单击“复制路径”即可获取调用路径。 其中,conversation_id参数为会话ID,唯一标识每个会话的标识符,可将会话ID设置为任意值,使用标准UUID格式。 图2 获取工作流调用路径-2 使用Postman调用API 获取Token。参考《API参考》文档“如何调用REST API > 认证鉴权”章节获取Token。
不均而引发的问题。 数据流通 数据流通是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。支持的发布格式为默认格式、盘古格式(适用于训练盘古大模型时)。目前,仅文本类和图片类数据集支持发布为“盘古格式”。 通过这些功能,平台能够帮助用户科学管理和发布数据集,确保
在“创建导入任务”页面选择所需要的“文件内容”、“文件格式”、“导入来源”,并单击“选择路径”上传数据文件。 NLP大模型评测数据集支持的格式见表1。 表1 评测数据集格式 模型类型 评测数据集格式 NLP大模型 文本-单轮问答-jsonl格式 上传数据文件后,填写“数据集名称”与“描述”,单击“立即创建”。
参数类型:输出参数的类型,可选String、Integer、Number、Boolean。 描述:对于该输出参数的描述。 输出格式:支持输出的格式包括文本、Markdown、JSON。 模型配置 模型选择 选择已部署的模型。 核采样 模型在输出时会从概率最高的词汇开始选择,直