检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
选择导入的数据 填写“数据集名称”和“描述”,可选择填写“拓展信息”。 拓展信息包括“数据集属性”与“数据集版权”: 数据集属性。可以给数据集添加行业、语言和自定义信息。 数据集版权。训练模型的数据集除用户自行构建外,也可能会使用开源的数据集。数据集版权功能主要用于记录和管理数据集的
钥值,安全性较低。 请求头 插件服务的请求头。添加请求的数据格式等说明,敏感信息请通过权限校验的方式实现。 自定义插件使用HTTP服务,或不增加鉴权方式可能存在安全风险。 单击“下一步”,在“参数信息”页面,参照表2完成参数配置。 表2 插件参数配置说明 参数类型 参数名称 参数说明
公有云API同时支持使用AK/SK认证,AK/SK认证是使用SDK对请求进行签名,签名过程会自动往请求中添加Authorization(签名认证信息)和X-Sdk-Date(请求发送的时间)请求头。AK/SK认证的详细说明请参见:AK/SK。 添加消息头后的请求如下所示: POST https://{endpoin
在左侧导航栏中选择“模型开发 > 模型训练”,单击右上角“创建训练任务”。 在“创建训练任务”页面,参考表1完成训练参数设置。 其中,“训练参数”展示了各场景涉及到的全部参数,请根据具体前端页面展示的参数进行设置。 表1 CV大模型微调参数说明 参数分类 训练参数 说明 训练配置 模型来源 选择“盘古大模型”。
CV大模型支持接入的数据集类型 盘古CV大模型支持接入图片类、视频类、其他类数据集,,不同模型所需数据见表1,数据集格式要求请参见图片类数据集格式要求、视频类数据集格式要求、其他类数据集格式要求。 表1 训练CV大模型数据集类型要求 基模型 训练场景 文件内容 文件格式 盘古-CV-物体检测-N
练。通过数据加工,用户能够快速构建高质量的数据集,推动大模型的成功开发。 支持数据加工的数据集类型 当前支持数据加工操作的数据集类型见表1。 表1 支持数据加工操作的数据集类型 数据类型 数据清洗 数据合成 数据标注 文本类 √ √ √ 图片类 √ - √ 视频类 √ - √ 气象类
集文件内容包括:预训练文本、单轮问答、多轮问答、带人设单轮问答、带人设多轮问答等,不同训练方式所需要使用的数据见表1,该数据集格式要求请参见文本类数据集格式要求。 表1 训练NLP大模型数据集类型要求 基模型 训练场景 数据集类型 数据集内容 文件格式 NLP 预训练 文本 预训练文本
盘古大模型的用户可以被赋予不同的角色,对平台资源进行精细化的控制。 表2 角色定义 角色名称 角色描述 超级管理员 订购服务的用户,具备当前平台下对所有工作空间的所有权限。 管理员 对工作空间有完全访问权,包括查看、创建、编辑或删除(适用时)工作空间中的资产,同时拥有添加、移除所在空间成员以及编辑所在空间成员角色的权限。
参数-类型-解释表中\n\n以下是你的思考过程:\n步骤1.根据用户问题从指标-解释表中得到metrics中caption的值,格式为:\"metrics\":[{\"caption\":\"xx\"}],不要超过两个\n步骤2.根据用户问题从参数-类型-解释表中得到dimens
org/project/rouge-score/)进行问答对的过滤。 下表列举了该场景常见的数据质量问题,以及相对应的清洗策略,供您参考: 表1 微调数据问题与清洗策略 序号 数据问题 清洗步骤与方式 1 问题或回答中带有不需要的特定格式内容或者时间戳等。 通过编写代码、正则表达式等进行处理,删除或者修改对应的内容,或者直接过滤掉整条数据。
能够根据用户输入的问题自动生成Python代码,并执行该代码获取结果。此插件为Agent提供了强大的计算、数据处理和分析功能,用户只需将其添加到应用中,即可扩展功能。 自定义插件:为了满足更个性化的需求,平台允许开发者创建自定义插件,支持将API通过配置方式快速创建为插件,并供A
、平衡性和代表性需求,并促进数据的高效流通与应用。 数据评估:数据评估通过对数据集进行系统的质量检查,依据评估标准评估数据的多个维度,旨在发现潜在问题并加以解决。 数据配比:将多个数据集按照特定比例关系组合并发布为“发布数据集”的过程,确保数据的多样性、平衡性和代表性。 数据流通
这种方式不局限于预设的分类标签,能够灵活地记录视频中一些更复杂的内容。 图3 文本描述示例-视频片段描述 单击“下一步”,参考表1配置标注分配与审核。 表1 标注分配与审核配置 参数类型 参数名称 参数说明 标注分配 启用多人标注 关闭时,默认管理员单人标注。 启用时,可以指定参与标注的人员及标注数量。
在左侧导航栏中选择“空间资产 > 模型”。 单击“预置”页签,在预置模型列表,单击模型,可对预置的模型资产执行以下操作: 查看模型历史版本。在“版本列表”页面,可查看模型的各个版本。 训练、压缩、部署操作。在“版本列表”页面,可对不同版本模型执行训练、压缩或部署操作。单击相应按钮,将跳转至相关操作页面。
发 > 模型部署”,在“我的服务”页签,模型部署列表单击模型名称,在“详情”页签中,可获取模型的部署ID。 图3 部署后的模型调用路径 若调用预置模型,可在左侧导航栏中选择“模型开发 > 模型部署”,在“预置服务”页签,模型列表单击“调用路径”,获取该模型的部署ID。 图4 预置模型的调用路径
模型可处理最大Token长度,选择合适的模型,从而提高模型的整体效果,详见表1。 此外,不同类型的NLP大模型在训练过程中,读取中文、英文内容时,字符长度转换为Token长度的转换比有所不同,详见表2。 表1 不同系列NLP大模型对处理文本的长度差异 模型名称 可处理最大Token长度
中展现出卓越的性能。无论是文本分类、情感分析、机器翻译,还是问答系统,模型都能以高准确率完成任务,为用户提供高质量的输出结果。 这种卓越的表现源于其先进的算法和深度学习架构。盘古大模型能够深入理解语言的内在逻辑与语义关系,因此在处理复杂语言任务时展现出更高的精准度和效率。这不仅提
过数据合成技术,可以生成大量高质量的训练数据,这些数据可以用于大模型的预训练,增强模型的泛化能力和性能。 数据标注:平台支持对无标签的数据添加标签或对现有的标签进行重新标注,以提升数据集的标注质量。用户可以针对不同的数据集灵活地选择对应的标注项,还可以自定义选择多人标注、审核以及
Studio大模型开发平台可以辅助用户进行提示词撰写、比较和评估等操作,并对提示词进行保存和管理。 表1 功能说明 功能 说明 提示词工程任务管理 提示词工程平台以提示词工程任务为管理维度,一个任务代表一个场景或一个调优需求,在提示词工程任务下可以进行提示词的调优、比较和评估。 提示词工程任
5汉字。不同模型的具体情况详见表1。 表1 token比 模型规格 token比(token/英文单词) token比(token/汉字) N1系列模型 0.75 1.5 N2系列模型 0.88 1.24 N4系列模型 0.75 1.5 训练相关概念 表2 训练相关概念说明 概念名