检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
附录 状态码 错误码 获取项目ID 获取模型调用API地址
能引发的问题,从而构建高质量、适应性强的数据集,为后续的模型训练、验证和应用提供坚实的数据支持。 数据发布意义 数据发布不仅包括数据的格式转换,还涉及数据比例的调整,以确保数据在规模、质量和内容上满足训练标准。具体而言,数据集发布具有以下重要意义: 数据比例和结构调整:平台提供灵
decrypt token fail:token解析失败。 token expires:token过期。 verify aksk signature fail:AK/SK认证失败。 x-auth-token not found:未找到x-auth-token参数。 token解析
训练任务。 平台支持发布的数据集格式为默认格式、盘古格式,可按需进行数据集格式转换。 默认格式:平台默认的格式。 盘古格式:训练盘古大模型时,需要进行数据集格式转换。当前仅文本类、图片类数据集支持转换为盘古格式。 NLP大模型开发流程 ModelArts Studio大模型开发平
Studio大模型开发平台,平台支持数据工程、模型开发、Agent开发等功能。 如果用户具备多个空间的访问权限,可在页面左上角单击切换空间。 图2 切换空间 管理盘古工作空间 盘古工作空间支持用户查看当前空间详情,修改空间名称与描述,还可以对不需要的空间实现删除操作。 登录ModelArts
获取Token。参考《API参考》文档“如何调用REST API > 认证鉴权”章节获取Token。 在Postman中新建POST请求,并填入API请求地址。 参考图4填写2个请求Header参数。 参数名为Content-Type,参数值为application/json。 参数名为X-Au
风险提示:自定义插件使用HTTP服务,或不增加鉴权方式可能存在安全风险。 表2 插件配置信息表 参数名称 说明 插件URL 插件服务的请求URL地址。 URL协议只支持HTTP和HTTPS。 系统会校验URL地址是否为标准的URL格式。 URL对应的IP默认不应为内网,否则会导致注册失败。仅在非商用环境部署时,才允许
String 项目ID,获取方法请参见获取项目ID。 deployment_id 是 String 模型的部署ID,获取方法请参见获取模型调用API地址。 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 用户Token。 用
获取Token。参考《API参考》文档“如何调用REST API认证鉴权”章节获取Token。 在Postman中新建POST请求,并填入API请求地址。 参考图3填写2个请求Header参数。 参数名为Content-Type,参数值为application/json。 参数名为X-Au
获取Token。参考《API参考》文档“如何调用REST API > 认证鉴权”章节获取Token。 在Postman中新建POST请求,并填入步骤2的API请求地址。 参考图3填写2个请求Header参数。 参数名为Content-Type,参数值为application/json。 参数名为X-Au
训练前的高质量标准。 数据发布:平台支持将处理后的数据集发布为多种格式,包括默认格式和盘古格式。尤其对于文本类和图片类数据集,平台支持将其转换为专门用于训练盘古大模型的盘古格式,为后续模型训练提供高效的数据支持。 通过整合上述功能,数据工程模块不仅帮助用户高效构建高质量的训练数据
数据加工:数据加工是确保数据质量的关键步骤。平台提供一系列数据清洗、过滤、转换等加工操作,旨在确保原始数据能够满足各种业务需求和模型训练的标准。针对不同类型的数据集,平台设计了专用的加工算子(即为特定数据处理任务预定义的操作模块,如文本去重、格式转换、异常处理等),通过这些算子能够高效地处理各类数据。
去除重复数据:确保数据集中每条数据的唯一性。 填补缺失值:填充数据中的缺失部分,常用方法包括均值填充、中位数填充或删除缺失数据。 数据标准化:将数据转换为统一的格式或范围,特别是在处理数值型数据时(如归一化或标准化)。 去噪处理:去除无关或异常值,减少对模型训练的干扰。 数据预处理的目的是
name、project id 打开Postman,新建一个POST请求,并输入“西南-贵阳一”区域的“获取Token”接口。并填写请求Header参数。 接口地址为:https://iam.cn-southwest-2.myhuaweicloud.com/v3/auth/tokens 请求Heade
微调数据清洗: 以下是该场景中实际使用的数据清洗策略,供您参考: 原始文本处理。基于爬虫、数据处理平台批量处理收集到的原始数据,需要将文件统一转换成纯文本的txt文件,对错误格式数据进行删除。 构建微调数据。生成垂域微调(问答对)数据,将问答对数据分为:单轮问答数据、多轮问答数据、检
大模型的计量单位token指的是什么 令牌(Token)是指模型处理和生成文本的基本单位。token可以是词或者字符的片段。模型的输入和输出的文本都会被转换成token,然后根据模型的概率分布进行采样或计算。 例如,在英文中,有些组合单词会根据语义拆分,如overweight会被设计为2个to
按需计费是一种后付费模式,即先使用再付费,按照实际使用时长计费。 在购买后,如果发现当前计费模式无法满足业务需求,您还可以变更计费模式。详细介绍请参见变更计费模式。 计费项 盘古大模型的计费项由模型订阅服务、训练服务和推理服务费用组成。了解每种计费项的详细信息,请参考计费项。 续费
Agent Operator 拥有该权限的用户可以切换角色到委托方账号中,访问被授权的服务。 Tenant Administrator 全部云服务管理员(除IAM管理权限)。 Security Administrator 统一身份认证服务(除切换角色外)所有权限。 图3 添加用户组权限 设置最小授权范围。
您也可以鼠标单击已有应用右上角的,进行应用的复制、删除、复制ID操作。 在“创建应用”窗口中,填写应用名称与应用描述,单击左下角的图片可更换应用图标,单击“确定”,进入应用详情页面。 图1 填写应用名称与应用描述 图2 创建应用 配置Prompt builder,详见配置Prompt
Studio大模型开发平台,进入所需空间。 在左侧导航栏“空间资产 > 数据”中可以查看当前空间内的数据资产,如果有多个空间的访问权限,可切换空间查看其他空间内的资产。 在“数据发布”页签可查看数据资产,并可对数据集进行删除操作。单击数据集名称可进入详情页面查看数据集的基础信息和操作概览。