检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建图片类数据集标注任务 创建图片类数据集标注任务前,请先完成创建图片类数据集加工任务。 创建图片类数据集标注任务步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。
表1 图片类数据集格式要求 文件内容 文件格式 文件要求 图片 tar、图片目录 图片:支持jpg、jpeg、png、bmp类型,单张图片大小不能超过5M,图片总大小不能超过500MB。
创建图片类数据集评估任务 创建图片类数据集评估任务前,请先完成创建图片类数据集评估标准。 创建图片类数据集评估任务步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。
创建图片类数据集加工任务 创建图片类数据集加工任务前,请先完成“原始数据集”的创建与上线,具体步骤请参见导入数据至盘古平台。 创建图片类数据集加工任务步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。
父主题: 标注图片类数据集
图文文本语言过滤 通过语种识别模型得到图文对的文本语种类型,“待保留语种”之外的图文对数据将被过滤。 图文去重 基于结构化图片去重 判断相同文本对应不同的图片数据是否超过阈值,如果超过则去重。 数据转换 图文异常字符过滤 将文本数据中携带的异常字符替换为空值,数据条目不变。
图3 评估标准列表 父主题: 评估图片类数据集
若对当前标注数据集已执行发布操作发布图片类数据集,则不可将该标注数据集下线。 父主题: 标注图片类数据集
评估图片类数据集 创建图片类数据集评估标准 创建图片类数据集评估任务 获取图片类数据集评估报告 父主题: 评估数据集
标注图片类数据集 创建图片类数据集标注任务 审核图片类数据集标注结果 上线标注后的图片类数据集 父主题: 标注数据集
图3 查看评估报告详情 父主题: 评估图片类数据集
父主题: 加工图片类数据集
加工图片类数据集 创建图片类数据集加工任务 上线加工后的图片类数据集 父主题: 加工数据集
在“创建发布数据集”页面,选择“图片”类型的数据集,并根据训练任务场景选择“图片+Caption”、“图片+QA对”类型的数据。 图2 创建图片类数据集发布任务 设置发布方式。图片类数据集可选两种发布方式:“单个数据集”、“混合数据集”。
在训练和推理过程中,通过数据脱敏、隐私计算等技术手段识别并保护敏感数据,有效防止隐私泄露,保障个人隐私数据安全。 内容安全:通过预训练和强化学习价值观提示(prompt),构建正向的意识形态。通过内容审核模块过滤违法及违背社会道德的有害信息。
更多 技术专题 技术、观点、课程专题呈现 云图说 通过云图说,带您了解华为云 OCR基础课程 介绍文字识别服务的产品、技术指导和使用指南 OCR系列介绍 文字识别服务在计算机视觉的重要性、基本技术和最新进展 智能客服 您好!
difficult:必选字段,取值0或1,表示标注目标是否难以识别(0表示容易识别、1表示难易识别)。 confidence:可选字段,标注目标的置信度,取值范围0-1之间,越接近1,表示标注越可信。 bndbox:必选字段,标注框的类型,可选值请参见表5。
中控模块:盘古-NLP-N1-基础功能模型 说明:该模块需要实现意图识别分类的功能。当输入意图识别模块的是政务问题时,控制下游调用检索模块;当输入不需要调用检索的非政务问题时,不调用检索,直接模型回答问题。实现方法为通过微调获得一个具有二分类能力的模型。
水印识别 识别视频中是否包含水印。 字幕识别 识别视频中是否包含字幕。 Logo识别 识别视频中是否包含Logo。 视频黑边识别 识别视频中是否包含黑边。
因此,希望借助大模型消除语义歧义性,识别用户查询意图,并直接生成支持下游操作的结构化JSON信息。大模型的NL2JSON能力可以从自然语言输入抽取关键信息并转换为JSON格式输出,以供下游操作,从而满足该场景下客户需求。