检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
获取AK、SK。 AK/SK(Access Key ID/Secret Access Key)即访问密钥,包含访问密钥ID(AK)和秘密访问密钥(SK)两部分,华为云通过AK识别用户的身份,通过SK对请求数据进行签名验证,用于确保请求的机密性、完整性和请求者身份的正确性。 登录访问密钥页面,
针对未标注数据,将待标注的内容放在一个文本文件内,通用文本分类工作流仅支持中文文本内容的分类。 针对已标注数据,文本分类的标注对象和标签在一个文本文件内,标注对象与标签之间,采用Tab键分隔,多个标签之间采用英文逗号分隔。 例如,文本文件的内容如下所示。标注对象与标注内容之间采用Tab键分隔。 华为通过
训练分类器 确定模板图片的参照字段和识别区后,多模板分类工作流在模板数量较多,或版式相似度较高的情况下,建议针对不同的模板上传对应的训练集数据,用于训练模板分类模型,使服务能够精准地分类多个模板图片,然后对多个模板图片进行文字识别和结构化提取。 前提条件 已在文字识别套件控制台选
理,最终提取内容为“2020.1.1”。 提取 对经过“预处理”的文字进行关键字符提取。 在输入框中填写查找关键字符的正则表达式。 不填写时,默认提取全部字段。 如果需要多个提取规则,单击新增提取规则。提取时按从上到下优先级规则提取,选择第一个非空的提取内容作为提取后的内容。 后处理
理,最终提取内容为“2020.1.1”。 提取 对经过“预处理”的文字进行关键字符提取。 在输入框中填写查找关键字符的正则表达式。 不填写时,默认提取全部字段。 如果需要多个提取规则,单击新增提取规则。提取时按从上到下优先级规则提取,选择第一个非空的提取内容作为提取后的内容。 后处理
多模板分类工作流可以通过追加训练分类器,用于训练模板分类模型,使服务能够精准地分类多个模板图片,然后对多个模板图片进行文字识别和结构化提取。 训练分类器 评估应用 通过上传测试图片,在线评估模板分类情况和模板的文字识别情况,保证能在多个模板情况下正确分类测试图片的模板,并且能正确识别测试图片中的识别区文字。
评估应用 训练模板分类模型后,需要对模板分类器和模板图片进行评估和考察。您可以通过上传测试图片,在线评估模板分类情况和模板的文字识别情况,保证能在多个模板情况下正确分类测试图片的模板,并且能正确识别测试图片中的识别区文字。 前提条件 已在文字识别套件控制台选择“多模板分类工作流”
选择本地环境中需要上传的文件,可以一次性选择多个文件。文件格式只支持“txt”或“csv”,且一次上传文件的总大小不能超过8MB。“文本与标签分割符”与“多标签分割符”不能选同一个。 “模式”:选择“文本和标注合并”或“文本和标注分离”模式。界面中已给出示例,请参考示例判断需添加的文件属于哪一种模式。
列的“查看”。 进入应用详情页,默认进入“应用资产”页面,查看应用资产。 您也可以单击“应用开发”,切换至“应用开发”页面,查看应用开发配置。 图1 进入应用详情 查看应用资产 在“应用资产”页面下,可以查看当前应用的资产信息。 使用预置工作流开发应用,“应用资产”可查看“模板列表”和“自定义字段类型”。
<filename>bike_1_1593531469339.png</filename> <source> <database>Unknown</database> </source> <size> <width>554</width>
<filename>bike_1_1593531469339.png</filename> <source> <database>Unknown</database> </source> <size> <width>554</width>
模型训练完成后,可在“应用开发>评估”页面评估分类器和模板,详情请见步骤8:评估模板。 步骤8:评估模板 在“应用开发>评估”页面包含分类器评估和模板评估 ,其中分类器评估用于识别模板类型,模板评估用于识别对应模板中的文字。 分类器评估 默认进入“本地上传”页签,打开“分类模式”和“动态识别”开关。 单击“
过程、设置当前版本、删除数据集版本。 查看数据集演进过程 在数据集“版本管理”页面,您可以查看数据集的基本信息,并在左侧查看版本及其发布时间。 图2 查看数据集版本 设置当前版本 在“版本管理”页面中,选择对应的数据集版本,在数据集版本基本信息区域,单击“设置为当前版本”。设置完
在“我的应用”页签下,选择应用并单击“操作”列的“查看”。 进入“应用资产”页面。 图1 进入应用资产 单击“创建分类器”。 进入“应用开发”页面,开始开发应用。 图2 创建分类器 填写基本信息 在“应用开发>上传模板图片”页面,输入多模板分类器的“名称”和“描述”。 图3 上传模板图片 然后
<filename>bike_1_1593531469339.png</filename> <source> <database>Unknown</database> </source> <size> <width>554</width>
height:必选字段,图片的高度。 depth:必选字段,图片的通道数。 segmented 是 表示是否用于分割。 object 是 表示物体检测信息,多个物体标注会有多个object体。 name:必选字段,标注内容的类别。 pose:必选字段,标注内容的拍摄角度。 truncated:必选字段,标注内容是否被截断(0表示完整)。
segmented 是 表示是否用于分割。 mask_source 否 表示图像分割保存的mask路径。 object 是 表示物体检测信息,多个物体标注会有多个object体。 name:必选字段,标注内容的类别。 pose:必选字段,标注内容的拍摄角度。 truncated:必选字段,标注内容是否被截断(0表示完整)。
文字识别套件 文字识别套件基于丰富的文字识别算法和行业知识积累,帮助客户快速构建满足不同业务场景需求的文字识别服务,实现多种版式图像的文字信息结构化提取。 文字识别套件当前提供了单模板工作流和多模板工作流,自主构建文字识别模板,识别模板图片中的文字,提供高精度的文字识别模型,保证结构化信息提取精度。
ModelArts Pro 是为企业级AI应用打造的专业开发套件。基于华为云的先进算法和快速训练能力,提供预置工作流和模型,提升企业AI应用的开发效率,降低开发难度。文字识别套件基于丰富的文字识别算法和行业知识积累,帮助客户快速构建满足不同业务场景需求的文字识别服务,实现多种版式图像的文字信息结构化提取。
根据工作流指引,创建多模板服务,通过多模板训练模板分类器和文字识别模型,实现多模板图像的文字信息结构化提取。 创建多模板 调用API和SDK 部署服务后,支持通过调用API和SDK调用当前模板服务。 调用API和SDK 父主题: 文字识别套件