检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用多模板工作流开发应用 ModelArts Pro的文字识别套件提供了多模板工作流,通过工作流指引支持自定义多个文字识别模板,通过模型训练,自动识别图片所属模板,从而支持从大量不同板式图像中提取结构化信息。 本章节提供一个票证类型的样例,帮助您快速熟悉使用文字识别套件中的多模板
编辑应用 对于已经创建的模板应用,您可以修改模板的配置信息以匹配业务变化。 前提条件 已存在创建的模板应用。 编辑模板配置信息 登录“ModelArts Pro>文字识别套件”控制台。 默认进入“应用开发>工作台”页面。 在“我的应用”页签下,选择应用并单击“操作”列的“查看”。
评估应用 训练模板分类模型后,需要对模板分类器和模板图片进行评估和考察。您可以通过上传测试图片,在线评估模板分类情况和模板的文字识别情况,保证能在多个模板情况下正确分类测试图片的模板,并且能正确识别测试图片中的识别区文字。 前提条件 已在文字识别套件控制台选择“多模板分类工作流”
编辑应用 对于已经创建的模板应用,您可以修改模板的配置信息以匹配业务变化。 前提条件 已存在创建的模板应用。 编辑模板配置信息 登录“ModelArts Pro>文字识别套件”控制台。 默认进入“应用开发>工作台”页面。 在“我的应用”页签下,选择应用并单击“操作”列的“查看”。
训练模型 针对已标注完成的训练数据,开始训练模型,您可以查看训练的模型准确率和误差变化。 前提条件 已在视觉套件控制台选择“零售商品识别工作流”新建应用,并已执行到“数据标注”步骤确认标注结果,详情请见自动标注数据。 训练模型 在“模型训练”页面,单击“训练”。 模型训练一般需要
训练模型 针对已标注完成的训练数据,开始训练模型,您可以查看训练的模型准确率和误差变化。 前提条件 已在“工业智能体控制台>工业AI开发>工业AI开发工作流”选择“通用图像分类工作流”新建应用,并已执行完“数据选择”步骤,详情请见选择数据。 训练模型 在“模型训练”页面,单击“开始训练”。
工作流介绍 工作流简介 功能介绍 支持构建文字识别模板,识别单个板式图片中的文字,提供高精度的文字识别模型,保证结构化信息提取精度。 适用场景 用户认证识别 识别证件中关键信息,节省人工录入,提升效率,降低用户实名认证成本,准确快速便捷。 快递单自动填写 识别图片中联系人信息并自动填写快递单,减少人工输入。
适用场景 通用图像分类场景。 优势 模型精度高,识别速度快;更新模型简便。 工作流流程 在“工业视觉平台”控制台页面选择“工业AI开发>工业AI开发工作流”新建应用,详细操作请见新建应用。您可以开发通用图像分类模型,自主上传数据训练模型,实现图像分类功能。 图1 通用图像分类工作流流程
自动标注数据 针对已经选择的数据和SKU,在应用开发的“数据标注”页面,ModelArts Pro会自动标注数据,自动标注完成后,可对每个数据的标注结果进行核对和确认。 前提条件 已在视觉套件控制台选择“零售商品识别工作流”新建应用,并已执行到“SKU创建”步骤,详情请见创建SKU。
训练模型 选择训练数据后,基于已标注的训练数据,选择预训练模型、配置参数,用于训练实体抽取模型。 前提条件 已在自然语言处理套件控制台选择“通用实体抽取工作流”新建应用,并选择训练数据集,详情请见选择数据。 训练模型 图1 模型训练 在“模型训练”页面配置训练参数,开始训练模型。
准备数据 在使用第二相面积含量测定工作流开发应用之前,您需要提前准备用于模型训练的数据,上传至OBS服务中。 数据标签 标注基于ModelArts的图像分割标注基础能力,由于第二相边界多为不规则形状,目前采用多边形标注第二相,标签为“second_phase”。 数据集要求 文件
标注数据 针对已经选择的数据,在应用开发的“数据标注”页面,ModelArts Pro会自动标注数据,自动标注完成后,可对每个数据的标注结果进行核对和确认。 前提条件 已在视觉套件控制台选择“第二相面积含量测定工作流”新建应用,详情请见标注数据。 自动标注数据 在“数据标注”页面
按照上述要求准备训练数据集和SKU数据集,文件夹分别命名为“Training-Dataset”和“SKU-Dataset”,并保存至本地。 登录OBS服务,创建桶和文件夹,用于存放数据集。 创建名称为“mapro-vison”的OBS桶。 创建名称为“training-data-in”的文件夹用于存放训练数据集。
定义预处理 使用通用单模板工作流上传模板图片后,需要对模板图片进行预处理,通过旋转、裁剪、降噪等操作。图片预处理的目的是保留图片的关键内容,去掉冗余部分,保持图片内容清晰可见,保证模型识别的准确性。 前提条件 已在文字识别套件控制台选择“通用单模板工作流”新建应用,并上传模板图片,详情请见上传模板图片。
定义预处理 使用多模板分类工作流上传模板图片后,需要对模板图片进行预处理,通过旋转、裁剪、降噪等操作。图片预处理的目的是保留图片的关键内容,去掉冗余部分,保持图片内容清晰可见,保证模型识别的准确性。 前提条件 已在文字识别套件控制台选择“多模板分类工作流”新建应用,并上传模板图片,详情请见上传模板图片。
创建SKU 在商品识别场景下,如果上传的数据含有未标注数据,您需要创建SKU,即商品各类单品的图片,方便后续针对数据集中的数据进行自动标注。 前提条件 新建训练数据需要获取访问OBS权限,在未进行委托授权之前,无法使用此功能。您需要提前获得OBS授权,详情请见配置访问授权。 需要
评估模型 训练得到模型之后,整个开发过程还不算结束,需要对模型进行评估和考察。一次性很难获得一个满意的模型,需要反复的调整算法参数、数据,不断评估训练生成的模型。 一些常用的指标,如精准率、召回率、F1值等,能帮助您有效的评估,最终获得一个满意的模型。 前提条件 已在自然语言处理
选择数据 在使用第二相面积含量测定工作流开发应用时,您需要选择训练数据集,后续训练模型操作是基于您选择的训练数据集。 训练数据集可以选择创建一个新的数据集,也可以选择导入基于第二相面积含量测定工作流创建的其他应用中已创建的数据集。 新建训练数据集 导入数据集 前提条件 已在视觉套
训练模型 针对已标注完成的训练数据,开始训练模型,您可以查看训练的模型交并比和误差变化。 前提条件 已在视觉套件控制台选择“第二相面积含量测定工作流”新建应用,并已执行完“数据标注”步骤,详情请见标注数据。 训练模型 在“模型训练”页面配置训练参数,开始训练模型。 在“参数配置”
上传模板图片 在使用单模板工作流开发应用之前,必须要明确文字识别的模板类型,明确以哪张图片作为模板训练文字识别模型,基于自己的业务需求制定针对性的文字识别模型。例如上传某一格式的发票图片作为模板,训练的文字识别模型就能识别并提取同格式发票上的关键字段。 前提条件 已授权ModelArts服务和对象存储服务(OBS)。