检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
为什么微调后的盘古大模型的回答中会出现乱码 当您将微调的模型部署以后,输入一个与目标任务同属的问题,模型生成的结果中出现了其他语言、异常符号、乱码等字符。
"], "target": "好的,以下是修改后的xxxx"} 多轮问答场景的输入(“context”字段)请务必使用“[问题, 回答, 问题, 回答, 问题, ……]”的方式来构造,若您的数据是同一个角色连续多次对话的“多轮问题”,可以将同一个角色的对话采用某个分隔符拼接到一个字符串中
全角转半角:将文本中的全角字符转换为半角字符。 标点符号归一化,支持统一格式的符号如下: {"?": "\?\?"} {"[":"〖"} {"]":"〗"} 数字符号归一化,例如将⓪|||⓿|统一为0.。支持统一格式的符号如下: {"0.
一个比较常见的方法是,将无监督的文本按照章节、段落、字符数进行切片,让模型基于这个片段生成问答对,再将段落、问题和答案三者组装为有监督数据。使用模型构建的优点是数据丰富度更高,缺点是成本较高。 当您将无监督数据构建为有监督数据时,请尽可能保证数据的多样性。
with_prompt 否 Boolean 是否仅统计输入字符的Token数 true:仅统计输入字符串的Token数; false:统计输入字符串和推理过程产生字符的总Token数。
响应参数 非流式 状态码: 200 表6 响应Body参数 参数 参数类型 描述 id String 用来标识每个响应的唯一字符串。 created Integer 响应生成的时间。
在“数据集选择”页签选择需要评估的加工数据集,并设置抽样样本的数量与字符数。 单击“下一步”,选择评估标准。单击“下一步”设置评估人员,单击“下一步”填写任务名称。 单击“完成创建”,将返回至“数据评估”页面,评估任务创建成功后状态将显示为“已创建”。
数据转换 图文异常字符过滤 将文本数据中携带的异常字符替换为空值,数据条目不变。 不可见字符,例如U+0000-U+001F 表情符六 网页标签符号<p> 特殊符号,比如● █ ◆ 乱码和无意义的字符����� 父主题: 数据集清洗算子介绍
保证微调数据内容干净,不包含异常字符。 保证输出(target字段)内容符合业务场景需求。例如,短视频口播场景要求文风可以引起观众兴趣、不丢失产品特点且可以引导观众购买。
表2 插件参数配置说明 参数类型 参数名称 参数说明 请求参数 参数名称 参数的名称,长度为1 ~ 50个字符,参数名称会作为大模型解析参数含义的依据。 参数描述 参数的描述,长度为1 ~ 200个字符,参数描述会作为大模型解析参数含义的依据。
参数名称:参数的名称长度必须大于等于1个字符,并且字符只允许为下面三种类型: 字母(A-Z或a-z) 数字(0-9) 特殊字符:_ 说明: 用户自定义输出参数名称不允许与内置输出参数rawOutput同名。
若请求消息体中参数支持中文,则中文字符必须为UTF-8编码。 每个接口的请求消息体内容不同,也并不是每个接口都需要有请求消息体(或者说消息体为空),GET、DELETE操作类型的接口就不需要消息体,消息体具体内容需要根据具体接口而定。
类别特征列 指定使用LabelEncoder处理的字符串类型类别特征的列表。格式为["列名1","列名2"],默认设置为[],表示没有需要处理的类别特征。 LabelEncoder的作用是将类别特征转换为数值型特征,使模型能够处理这些特征。
token可以是词或者字符的片段。模型的输入和输出的文本都会被转换成token,然后根据模型的概率分布进行采样或计算。 例如,在英文中,有些组合单词会根据语义拆分,如overweight会被设计为2个token:“over”、“weight”。
此外,不同类型的NLP大模型在训练过程中,读取中文、英文内容时,字符长度转换为Token长度的转换比有所不同,详见表2。