检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如果需要将该审核任务移交给其他人员,可以单击操作列“移交”设置移交人员以及移交的数量。 图3 移交审核任务 进入审核页面后,可通过单击“通过”或“不通过”逐一对数据进行审核,直至所有数据审核完成,期间可对不满足要求的数据进行驳回,驳回后将分给标注人员重新标注。 父主题: 标注文本类数据集
如果需要将该审核任务移交给其他人员,可以单击操作列“移交”设置移交人员以及移交的数量。 图3 移交审核任务 进入审核页面后,可通过单击“通过”或“不通过”逐一对数据进行审核,直至所有数据审核完成,期间可对不满足要求的数据进行驳回,驳回后将分给标注人员重新标注。 父主题: 标注图片类数据集
如果需要将该审核任务移交给其他人员,可以单击操作列“移交”设置移交人员以及移交的数量。 图3 移交审核任务 进入审核页面后,可通过单击“通过”或“不通过”逐一对数据进行审核,直至所有数据审核完成,期间可对不满足要求的数据进行驳回,驳回后将分给标注人员重新标注。 父主题: 标注视频类数据集
关键步骤。通过压缩模型,能够有效减少推理过程中的显存占用,节省推理资源,同时提高计算速度。当前,平台支持对NLP大模型进行压缩。 模型部署:平台提供了一键式模型部署功能,用户可以轻松将训练好的模型部署到云端或本地环境中。平台支持多种部署模式,能够满足不同场景的需求。通过灵活的API接口,模型可以无缝集成到各类应用中。
性。 通过这些功能,平台不仅降低了标注成本,还为用户提供了灵活的定制化服务,满足不同业务场景的标注需求,确保为后续模型训练和优化提供高质量的数据支持。 数据标注意义 数据标注在数据工程中的作用是不可忽视的。它不仅是模型训练的基础,还直接影响到训练结果的准确性与有效性。通过标注,平
计,旨在为开发者提供简单、高效的大模型开发和部署方式。平台配备数据工程、模型开发、应用开发三大工具链,帮助开发者充分利用盘古大模型的功能。通过该平台,企业可根据需求选择合适的盘古NLP大模型、科学计算大模型等服务,便捷地构建自己的模型和应用 数据工程工具链:数据是大模型训练的核心
评估任务创建成功后,单击操作列“评估”进入评估页面。 图6 评估数据集质量 在评估页面,可参考评估项对当前数据的问题进行标注,且不满足时需要单击“不通过”,满足则单击“通过”。 全部数据评估完成后,评估状态显示为“100%”,表示当前数据集已经评估完成,可以回退到“评估任务”页面,查看,单击操作列“报告”,获取数据集质量评估报告。
大模型服务的重要组成部分,具备数据获取、清洗、配比和管理等功能。 该工具链能够高效收集和处理各种格式的数据,满足不同训练和评测任务的需求。通过提供自动化的质量检测和数据清洗能力,对原始数据进行优化,确保其质量和一致性。同时,数据工程工具链还提供强大的数据存储和管理能力,为大模型训练提供高质量的数据支撑。
评估任务创建成功后,单击操作列“评估”进入评估页面。 图6 评估数据集质量 在评估页面,可参考评估项对当前数据的问题进行标注,且不满足时需要单击“不通过”,满足则单击“通过”。 图7 标记数据集问题 全部数据评估完成后,评估状态显示为“100%”,表示当前数据集已经评估完成,可以回退到“评估任务”页
本场景不涉及自监督训练,无需准备自监督数据。 微调数据来源: 来源一:真实业务场景数据。 来源二:基于大模型的数据泛化。基于目标场任务的分析,通过人工标注部分数据样例,然后利用大模型(如盘古提供的任意规格的基础功能模型)采用self-instruct等方式,泛化出更多的业务场景数据。
评估任务创建成功后,单击操作列“评估”进入评估页面。 图6 评估数据集质量 在评估页面,可参考评估项对当前数据的问题进行标注,且不满足时需要单击“不通过”,满足则单击“通过”。对于文本类数据集而言,可选择问题内容后,单击鼠标右键进行数据问题的标注。 图7 标记数据集问题 全部数据评估完成后,评估状态
言模型交互、对接,以及理解大语言模型能力方面都起着重要作用。用户可以通过提示词工程来提高大语言模型的安全性,还可以赋能大语言模型,如借助专业领域知识和外部工具来增强大语言模型的能力。 提示词基本要素 您可以通过简单的提示词(Prompt)获得大量结果,但结果的质量与您提供的信息数
表11 流式输出的数据单元 参数 参数类型 描述 suggestion String 审核结果:block表示未通过。 reply String 兜底回复:审核未通过时兜底回复为有效回复,兜底策略。 状态码: 400 表12 响应Body参数 参数 参数类型 描述 error_msg
输出参数的类型,当前可选类型只有String。 描述 对于该输出参数的描述。 如下场景时,可以通过配置输出参数来解析大模型组件的输出: 当大模型组件的输出为json格式的数据时,可以通过配置输出参数来解析出json中对应字段的值。例如大模型组件的输出为json数据'{"result":
下两种方式: 选择“可部分审核”:审核人员确认部分数据达到标注要求后,可以一键通过所有的标注。 选择“全部审核”:审核员在审核一部分数据后,发现标注质量均很高,则可以一键提交剩余待审核数据,默认审核通过,即可完成审核任务。 图4 设置标注人员、标注信息示例 在“标注管理”页面,单
查看评估进展 评估完成后,可以查看每条数据的评估结果。 在评估结果中,“预期结果”表示变量值(问题)所预设的期望回答,“生成结果”表示模型回复的结果。通过比对“预期结果”、“生成结果”的差异可以判断提示词效果。 父主题: 批量评估提示词效果
"role": "system", "content": "请用幼儿园老师的口吻回答问题,注意语气温和亲切,通过提问、引导、赞美等方式,激发学生的思维和想象力。" }, { "role": "user",
数据过滤 图文文本长度过滤 过滤文本长度不在“文本长度范围”内的图文对。一个中文汉字或一个英文字母,文本长度均计数为1。 图文文本语言过滤 通过语种识别模型得到图文对的文本语种类型,“待保留语种”之外的图文对数据将被过滤。 图文去重 基于结构化图片去重 判断相同文本对应不同的图片数据是否超过阈值,如果超过则去重。
数据评估 > 评估任务”。 单击操作列“报告”可以查看详细的质量评估报告。 图2 查看数据集评估报告 在“查看评估报告”页面,可以查看评估概览、通过率、评估类别分布等信息。 如果数据集未完成全部评估,可以单击右上角“继续评估”,评估剩余的数据。 图3 查看评估报告详情 父主题: 评估视频类数据集
数据评估 > 评估任务”。 单击操作列“报告”可以查看详细的质量评估报告。 图2 查看数据集评估报告 在“查看评估报告”页面,可以查看评估概览、通过率、评估类别分布等信息。 如果数据集未完成全部评估,可以单击右上角“继续评估”,评估剩余的数据。 图3 查看评估报告详情 父主题: 评估图片类数据集