检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Pro>自然语言处理套件”控制台选择“我的工作流>通用实体抽取工作流”新建应用,详细操作请见新建应用。您可以开发实体抽取应用,通过训练实体抽取模型,实现从文本中抽取实体的功能。 图1 通用实体抽取流程 表1 通用实体抽取流程说明 流程 说明 详细指导 准备数据 在使用通用实体抽取工作流开发应用之前,您需要
新建应用 在工业智能体使用预置工作流开发应用之前,需要新建应用,填写应用基本信息、选择工作流。 前提条件 使用工业智能体之前请先参考帐号注册注册华为帐号并开通华为云。 保证华为云帐号不欠费。在工业智能体控制台开发应用时,会占用OBS资源,需要收取一定费用,收费规则请参见对象存储服务OBS。
进入“新建应用”页面。 图3 新建应用 您也可以单击“我的工作流”,切换至“我的工作流”页签,选择工作流并单击卡片中的“新建应用”。 根据业务需求填写“应用名称”、“应用负责人”和“应用描述”,仅支持英文、中文、数字、下划线、中划线。选择“所属行业”及工作流。 图4 新建应用 确认信息后,单击“确定”。
确认信息后,单击“确定”。 成功新建应用。 后续操作 根据所选的预置工作流开发应用。 零售商品识别工作流 热轧钢板表面缺陷检测工作流 云状识别工作流 刹车盘识别工作流 无监督车牌检测工作流 父主题: 视觉套件
确认信息后,单击“确定”。 进入“应用开发”页面,您可以根据流程指引,基于您选择的工作流开发应用。 图4 开发应用 后续操作 根据所选的预置工作流开发应用。 通用文本分类工作流 多语种文本分类工作流 通用实体抽取工作流 父主题: 自然语言处理套件
准备数据 在使用零售商品识别工作流开发应用之前,您需要提前准备用于模型训练的数据,上传至OBS服务中。 设计商品标签 首先需要考虑好商品标签,即希望识别出商品的一种结果。例如识别蛋糕店蛋糕的种类,则可以以“cream_cake”、“fruit_cake”、“cheese_cake
上传模板图片 在使用单模板工作流开发应用之前,必须要明确文字识别的模板类型,明确以哪张图片作为模板训练文字识别模型,基于自己的业务需求制定针对性的文字识别模型。例如上传某一格式的发票图片作为模板,训练的文字识别模型就能识别并提取同格式发票上的关键字段。 前提条件 已授权ModelArts服务和对象存储服务(OBS)。
文字识别套件提供预置工作流供您选择,全流程可视化完成AI应用开发以及持续迭代。 选择预置工作流 单模板工作流 通过工作流指引构建文字识别模板,识别单个板式图片中的文字,快速实现文档、票证等场景的文字识别。详情请见使用单模板工作流开发应用。 多模板工作流 通过工作流指引支持自定义多个文字识别模板,通过模型训练,自动识别
每个分类标签准备100个以上的数据。 针对未标注数据,将待标注的内容放在一个文本文件内,通用文本分类工作流仅支持中文文本内容的分类,其他语种的文本分类请使用多语种文本分类工作流。 针对已标注数据,文本分类的标注对象和标签在一个文本文件内,标注对象与标签之间,采用Tab键分隔,多个标签之间采用英文逗号分隔。
准备数据 在使用云状识别工作流开发应用之前,您需要提前准备用于模型训练的数据,上传至OBS服务中。 设计云状标签 首先需要考虑好云状标签,即希望识别出云状的一种结果。例如可以以“cumulus”(积云)、“stratus”(层云)、“cumulonimbus”(积雨云)等分别作为云状的种类。
准备数据 在使用多语种文本分类工作流开发应用之前,您需要提前准备用于模型训练的数据,上传至OBS服务中。 设计分类标签 首先需要确定好文本分类的标签,即希望识别出文本的一种结果。例如分类用户对商品的评论,则可以以“positive”、“neutral”、“negative”等作为
准备数据 在使用无监督车牌检测工作流开发应用之前,您需要提前准备用于模型训练的数据,上传至OBS服务中。 设计车牌标签 首先需要考虑好车牌的标签类型,即希望识别出图片中车牌的一种结果。例如“plate”。 数据集要求 文件名规范,不能有中文,不能有+、空格、制表符。 保证图片质量
准备数据 在使用刹车盘识别工作流开发应用之前,您需要提前准备用于模型训练的数据,上传至OBS服务中。 设计刹车盘标签 首先需要考虑好刹车盘的标签类型,即希望识别出图片中刹车盘的一种结果。例如可以以“ventilation”(通风)、“physical”(实体)等分别作为刹车盘的类别。
准备数据 在使用通用实体抽取工作流开发应用之前,您需要提前准备用于模型训练的数据,上传至OBS服务中。 设计实体标签 首先需要确定好文本实体的标签,即希望抽取出文本的一种结果。例如“时间”、“地点”、“人物”等。 数据集要求 文件格式要求为txt或者csv,且编码格式为“UTF-8”格式,文件大小不能超过8MB。
使用多模板工作流开发应用 ModelArts Pro的文字识别套件提供了多模板工作流,通过工作流指引支持自定义多个文字识别模板,通过模型训练,自动识别图片所属模板,从而支持从大量不同板式图像中提取结构化信息。 本章节提供一个票证类型的样例,帮助您快速熟悉使用文字识别套件中的多模板
准备数据 在使用通用图像分类工作流开发应用之前,您需要提前准备用于模型训练的数据,上传至OBS服务中。 设计图像分类标签 首先使用的数据需要考虑好分类的标签类型,即希望识别出图片中的一种结果。例如对天气现象图片进行分类时,标签可以以“snow”(雪)、“rainy”(雨)等作为分类的类别。
文本分类工作流支持对英语、法语、德语、西班牙语、葡萄牙语、阿拉伯语等语种文本进行分类。使用两种工作流开发应用的流程相同。 由于通用文本分类工作流和多语种文本分类工作流开发应用的流程相同,因此本章节以通用文本分类工作流为例,介绍如何使用自然语言处理套件中的文本分类工作流开发应用,通
上传模板图片 在使用多模板分类工作流开发应用之前,必须要明确文字识别的模板类型,明确以哪几种板式图片作为模板训练文字识别模型,基于自己的业务需求制定针对性的文字识别模型。例如上传两种不同格式的发票图片作为模板,训练的文字识别模型就能识别并提取这两种格式发票上的关键字段。 前提条件
流,开发应用时需要上传模板图片,明确以哪张图片作为模板训练文字识别模型。 上传图片的要求如表1所示。 表1 文字识别套件数据集要求 工作流 数据集要求 单模板工作流 保证图片质量:不能有损坏的图片;目前支持的格式包括JPG、JPEG、PNG、BMP。 图片最大边不大于4096px
识别和结构化提取。 前提条件 已在文字识别套件控制台选择“多模板分类工作流”新建应用,并框选添加的多个模板的识别区,详情请见框选识别区。 添加已有模板 针对已经发布的模板,您可以添加至当前“多模板分类工作流”中,参与模板分类的模型训练。 在“应用开发>训练分类器”页面,单击“添加已有模板”。