检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
评估文本类数据集 创建文本类数据集评估标准 ModelArts Studio大模型开发平台针对文本类数据集预设了一套基础评估标准,涵盖了数据准确性、完整性、一致性、格式规范等多个维度,用户可以直接使用该标准或在该标准的基础上创建评估标准。
图6 创建插件 为保证插件检索的效果,平台限制插件名称必须为英文、下划线组合,插件描述会影响插件的选用。 填写“插件URL”(步骤1:获取文本翻译服务Token与调用地址中获取的文本翻译API调用地址),选择请求方式为“POST”。
文件的命名不能同时包含train、eval和test中的两个或三个。
补说明 对任务进行补充说明,如补充任务要求、规范输出的格式等。将想要的逻辑你梳理表达出来,会让生成效果更加符合预期。说明需要逻辑清晰、无歧义。 设计任务要求 要求分点列举: 要求较多时需要分点列举,可以使用首先\然后,或1\2\3序号分点提出要求。
tar包存储原始的图片,每张图片命名要求唯一(如abc.jpg)。图片支持jpg、jpeg、png、bmp格式。
同时,平台支持数据集的删除等管理操作,使用户能够统一管理数据集资源,以便在模型训练和分析时灵活调用,确保数据资产的规范性与安全性。 模型资产:平台提供的模型资产涵盖了预置或训练后发布的模型,所有这些模型将存放于空间资产中进行统一管理。
这些资产是用户在平台上进行开发和管理的基础,集中存储和统一管理的方式有助于提升操作效率,并确保资源的规范性与安全性。 数据资产:数据资产是指用户在平台上发布的所有数据集。
参数校验:可自定义参数校验规则对输出参数规范性进行校验。规则包括参数名称、校验类型及校验规则。 是否提取:开启后该参数必须提取到或使用默认值,关闭则该参数允许为空或者使用默认值。
此外,不同类型的NLP大模型在训练过程中,读取中文、英文内容时,字符长度转换为Token长度的转换比有所不同,详见表2。
选择“对话型工作流”,输入工作流名称、英文名称及描述,单击“确定”,进入工作流编排页面。 图2 创建工作流 在工作流编排页面,平台已预先编排了开始、大模型与结束节点。 单击节点右上角的,可以对当前节点执行重命名、复制、删除操作。开始和结束节点为必选节点,无法删除。
在盘古大模型中,以N1系列模型为例,盘古1token≈0.75个英文单词,1token≈1.5汉字。不同模型的具体情况详见表1。
数据打标 预训练文本分类 针对预训练文本进行内容分类,例如新闻、教育、健康等类别,支持分析语种包括:中文、英文。 通用质量评估 针对文本进行通用质量的评估,例如流畅度、清晰度、丰富度等。
管理人员应建立责任所在意识,制定科学规范的使用办法,强化使用过程的监测和评估。必须严格按照项目运作方案来确定资金使用范围,确保所有使用资金都是经过规范操作和审批的,必须严格按照使用资金的监管属性,统一管理各类资金,精细、规范、稳健。
例如降低“温度”参数的值,可以起到规范模型输出,使结果不再多样化。 父主题: 从基模型训练出行业大模型
一个中文汉字或一个英文字母,文本长度均计数为1。 图文文本语言过滤 通过语种识别模型得到图文对的文本语种类型,“待保留语种”之外的图文对数据将被过滤。 图文去重 基于结构化图片去重 判断相同文本对应不同的图片数据是否超过阈值,如果超过则去重。
101097 意图识别调用大模型的prompt不符合模型输入的规范。 检查输入的prompt格式,消息的角色和内容。 101096 意图识别调用大模型失败。 检查消息的格式,内容以及大模型服务是否正常。 101095 意图识别用户query输入/引用解析失败。
例如:prompt可以设计为:请将以下中文句子翻译成英文:“我喜欢吃苹果”。通过这种明确的指令,更容易生成准确的翻译结果。 运用提示词技巧:可参考提示词写作实践进行Prompt写作。 父主题: 低代码构建多语言文本翻译工作流