检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
基本概念 训练相关概念 表1 训练相关概念说明 概念名 说明 Token 令牌(Token)是指模型处理和生成文本的基本单位。Token可以是词或者字符的片段。模型的输入和输出的文本都会被转换成Token,然后根据模型的概率分布进行采样或者计算。 例如,在英文中,有些组合单词会根
持AppCode鉴权和华为云的APIG简易认证方式。配置文件需要指定url和key,配置项为: sdk.llm.openai.url=https://infer-app-modelarts-cn-southwest-2.myhuaweicloud.com/v1/infers/..
参数类型 描述 error_msg String 错误信息。 error_code String 错误码。 请求示例 非流式 POST https://{endpoint}/v1/{project_id}/deployments/{deployment_id}/text/completions
低质量SFT数据过滤。包括:对回答过短的问答对、回答风格不适宜的问答对进行过滤。同时,针对利用大模型从原始文档中抽取出来的问答对数据,您可以基于rouge-score值(https://pypi.org/project/rouge-score/)进行问答对的过滤。 下表列举了该场景常见的数据质量问题,以及相对应的清洗策略,供您参考: