检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
操作,旨在确保原始数据能够满足各种业务需求和模型训练的标准,生成“加工数据集”。 数据加工:数据加工旨在通过使用数据集加工算子对数据进行预处理操作,针对不同类型的数据集,平台设计了专用的加工算子,以确保数据符合模型训练的标准和业务需求。 数据合成:数据合成利用预置或自定义的数据指
平台预置了多种数据类型的基础评估标准,包括NLP、视频和图片数据,用户可根据需求选择预置标准或自定义评估标准,从而精确优化数据质量,确保数据满足高标准,提升模型性能。 发布数据集 数据发布是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。 平台支持发布的数据集格式为标准格式、盘古格式。
的接口名称、接口地址、请求体、响应体等信息。 请求体支持openai、tgi、自定义三种格式。openai格式即是由OpenAI公司开发并标准化的一种大模型请求格式;tgi格式即是Hugging Face团队推出的一种大模型请求格式。 接口的响应体需要按照jsonpath语法要求
模型调优方法介绍 在实际应用中,首次微调所得的模型往往无法取得最佳效果,为了让模型能更好地解决特定场景任务,通常需要根据微调所得模型的效果情况来进行几轮的模型微调优化迭代。 在大模型的微调效果调优过程中,训练数据优化、训练超参数优化、提示词优化以及推理参数优化是最重要的几个步骤。
提示词写作常用方法论 提示工程是一项将知识、技巧和直觉结合的工作,需要通过不断实践实现模型输出效果的提升。提示词和模型之间存在着密切关系,本指南结合了大模型通用的提示工程技巧以及盘古大模型的调优实践经验,总结的一些技巧和方法更为适合基于盘古大模型的提示工程。 本文的方法论及技巧部分
与其他服务的关系 与对象存储服务的关系 盘古大模型使用对象存储服务(Object Storage Service,简称OBS)存储数据和模型,实现安全、高可靠和低成本的存储需求。 与ModelArts服务的关系 盘古大模型使用ModelArts服务进行算法训练部署,帮助用户快速创建和部署模型。
在“调用路径”页面,单击“复制路径”即可获取调用路径。 其中,conversation_id参数为会话ID,唯一标识每个会话的标识符,可将会话ID设置为任意值,使用标准UUID格式。 图2 获取工作流调用路径-2 使用Postman调用API 获取Token。参考《API参考》文档“如何调用REST API
去除重复数据:确保数据集中每条数据的唯一性。 填补缺失值:填充数据中的缺失部分,常用方法包括均值填充、中位数填充或删除缺失数据。 数据标准化:将数据转换为统一的格式或范围,特别是在处理数值型数据时(如归一化或标准化)。 去噪处理:去除无关或异常值,减少对模型训练的干扰。 数据预处理的目的
数据通算单元 中文简繁转换 将中文简体和中文繁体进行转换。 数据通算单元 符号标准化 查找文本中携带的非标准化符号进行标准化、统一化转换。 统一空格:将所有Unicode空格(如U+00A0、U+200A)转换为标准空格(U+0020)。 全角转半角:将文本中的全角字符转换为半角字符。
裁剪视频中字幕/Logo/水印/黑框等无用信息,生成新视频。 数据智算单元 视频元数据过滤 基于视频元数据进行过滤,包括帧率、分辨率和视频时长。注:电影标准帧率为24或30FPS。 数据智算单元 宽高比过滤 根据视频的宽高比进行过滤。 数据智算单元 数据打标 视频鉴黄评分 对视频的涉黄程度进行评分,分数越高越危险。评分范围(0
要是确定且唯一的,建议降低“温度”或“核采样”的值(二者选其一调整)。若需要每次生成完全相同的回答,可以将“温度”置为0。 参数的选择没有标准答案,您需要根据任务的实际情况进行调整,以上建议值仅供参考。 父主题: 大模型微调训练类
插件信息配置说明 参数名称 参数说明 插件URL 插件服务的请求URL地址。 URL协议只支持HTTP和HTTPS。 系统会校验URL地址是否为标准的URL格式。 URL对应的IP默认不应为内网,否则会导致注册失败。仅在非商用环境部署时,才允许支持内网URL,且需要通过相关的服务的启动配置项关闭内网屏蔽。
/completions 请求方法 HTTP请求方法,表示服务正在请求操作类型,包括: GET:请求服务器返回指定资源。 PUT:请求服务器更新指定资源。 POST:请求服务器新增资源或执行特殊操作。 DELETE:请求服务器删除指定资源,如删除对象等。 HEAD:请求服务器资源头部。
于后续加工或发布操作。 导入数据至盘古平台 加工气象类数据集 加工气象类数据集 通过专用的加工算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子,例如去除噪声、冗余信息等,提升数据质量。 加工气象类数据集 发布气象类数据集 发布气象类数据集
应用”,在所需Agent中单击“ > 复制ID”。 conversation_id 是 String 会话ID,唯一标识每个会话的标识符,可将会话ID设置为任意值,使用标准UUID格式。 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 用户Token。
{conversation_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方法请参见获取项目ID。 workflow_id 是 String Workflow ID,获取方式如下: 在“Agent开发”页面,左侧导航栏选择“工作台
为什么大家都说熊爪面包贼好吃? 熊爪面包,松软的秘密在哪里? 让你欲罢不能的熊爪面包,了解一下! 熊爪面包,松软得让人无法抗拒! 参数的选择没有标准答案,您需要根据任务的实际情况进行调整,以上建议值仅供参考。 父主题: 盘古NLP大模型调优实践
String 存储类型,取值为obs。 data 是 Array of ObsStorageDto objects 输入数据的OBS信息。 表5 ObsStorageDto 参数 是否必选 参数类型 描述 bucket 是 String 输入数据的OBS桶名称。 path 是 String
盘古服务使用HTTPS传输协议保证数据传输的安全性。 基于OBS提供的数据保护 基于OBS服务对用户的数据进行存储和保护。请参考OBS数据保护技术说明:https://support.huaweicloud.com/productdesc-obs/obs_03_0375.html 父主题: 安全
type String 存储类型。 data Array of ObsStorageDto objects 输入数据的OBS信息。 表4 ObsStorageDto 参数 参数类型 描述 bucket String 输入数据的OBS桶名称。 path String 初始场数据的存放路径。