检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
保证图片质量:不能有损坏的图片;目前支持的格式包括JPG、JPEG、PNG、BMP。 图片最大边不大于4096px,最小边不小于100px,且大小不超过4M。 训练分类器的数据集要求将图片放在一个目录里,并压缩成zip文件,文件大小不应大于10M。 进入应用开发页面 登录“ModelArts
降低开发难度。文字识别套件基于丰富的文字识别算法和行业知识积累,帮助客户快速构建满足不同业务场景需求的文字识别服务,实现多种版式图像的文字信息结构化提取。 文字识别套件提供预置工作流供您选择,全流程可视化完成AI应用开发以及持续迭代。 选择预置工作流 单模板工作流 通过工作流指引
查看应用开发配置 在“应用开发”页签,您可以查看应用开发过程中各个步骤的配置信息,包括“数据选择”、“模型训练”、“模型评估”、“服务部署”。 您也可以在“应用开发”页签下,单击左上角版本号右侧的“更新版本”,重新编辑应用开发的配置信息,将更新的应用设置成新的版本。 查看应用历史版本 在“历史版
在“应用开发>上传模板图片”页面,配置如下信息: 图2 上传模板图片 “模板名称”:输入模板名称。 “上传图片”:单击“上传图片”区域,或鼠标直接拖拽图片至“上传图片”区域,上传本地一张图片作为模板,用于业务场景的文字结构化识别。 确认信息后,单击“下一步”,进入定义预处理步骤,对上传的模板图片进行自动旋转预处理。
编辑应用 对于已经创建的模板应用,您可以修改模板的配置信息以匹配业务变化。 前提条件 已存在创建的模板应用。 编辑模板配置信息 登录“ModelArts Pro>文字识别套件”控制台。 默认进入“应用开发>工作台”页面。 在“我的应用”页签下,选择应用并单击“操作”列的“查看”。
在“应用详情”页,默认进入“应用开发”页签,您可以查看应用开发过程中各个步骤的配置信息,包括“数据选择”、“模型训练”、“模型评估”、“服务部署”。 您也可以在“应用开发”页签下,重新编辑应用开发的配置信息,并单击左上角版本号右侧的“更新版本”,将当前的应用设置成新的版本。 图2 开发版本列表
更新应用版本 在模型构建过程中,您可能需要根据训练结果,不停的调整数据、训练参数或模型,以获得一个满意的模型。 因此您可以修改模型的配置信息以匹配业务变化。每修改一次,更新成一个版本,不同的作业版本之间,能快速进行对比,获得对比结果。 前提条件 已在HiLens套件控制台选择“H
框选参照字段 在文字识别过程中,套件会检查所识别图片与模板图片是否为同一种模板,并将识别图片校正后再提取结构化信息,支持图片平移、旋转与拉伸变换。 为了检查并校正待识别的图片,这就需要在模板图片中指定参照字段。通过参照字段的文字内容来判断是否属于同一种模板,通过参照字段的位置来校正待识别图片。
框选参照字段 在文字识别过程中,套件会检查所识别图片与模板图片是否为同一种模板,并将识别图片校正后再提取结构化信息,支持图片平移、旋转与拉伸变换。 为了检查并校正待识别的图片,这就需要在模板图片中指定参照字段。通过参照字段的文字内容来判断是否属于同一种模板,通过参照字段的位置来校正待识别图片。
弹出“创建字段类型”对话框。 填写字段类型信息。 图2 创建字段类型 “字段类型名称”:填写待创建的字段类型名称,如识别身份证照片,可新增字段类型“出生日期”。 “字段属性”:选择字段属性,可选择“自定义正则提取”和“自定义字典”,然后按表1填写相关信息。 表1 字段属性参数说明 字段属性
弹出“创建字段类型”对话框。 填写字段类型信息。 图3 创建字段类型 “字段类型名称”:填写待创建的字段类型名称,如识别身份证照片,可新增字段类型“出生日期”。 “字段属性”:选择字段属性,可选择“自定义正则提取”和“自定义字典”,然后按表1填写相关信息。 表1 字段属性参数说明 字段属性
弹出“创建字段类型”对话框。 填写字段类型信息。 图3 创建字段类型 “字段类型名称”:填写待创建的字段类型名称,如识别身份证照片,可新增字段类型“出生日期”。 “字段属性”:选择字段属性,可选择“自定义正则提取”和“自定义字典”,然后按表1填写相关信息。 表1 字段属性参数说明 字段属性
择“技能开发>技能管理”。 默认进入“基础技能”页签。 单击“可训练技能”,切换至“可训练技能”页签。 选择技能单击操作列的“删除”,确认信息后单击“确定”,删除技能。 图1 删除可训练技能 删除后无法恢复,请谨慎操作。 父主题: HiLens套件
在“应用开发”页面,您可以查看应用开发过程中各个步骤的配置信息。 您也可以对工作流开发的配置信息进行编辑,通用单模板工作流操作指引请见工作流介绍,多模板工作流操作指引请见工作流介绍。 您也可以在“应用开发”页签下,重新编辑应用开发的配置信息,并单击左上角版本号右侧的“更新版本”,将当前的应用设置成新的版本。
针对当前发布的数据集版本的描述信息。 “开启难例属性” 仅“图像分类”和“物体检测”类型数据集支持难例属性。 默认不开启。启用后,会将此数据集的难例属性等信息写入对应的Manifest文件中。 图2 发布数据集 版本发布后,您可以前往版本管理查看详细信息。系统默认将最新的版本作为当前目录。
弹出“创建字段类型”对话框。 填写字段类型信息。 图2 创建字段类型 “字段类型名称”:填写待创建的字段类型名称,如识别身份证照片,可新增字段类型“出生日期”。 “字段属性”:选择字段属性,可选择“自定义正则提取”和“自定义字典”,然后按表1填写相关信息。 表1 字段属性参数说明 字段属性
在“模型训练”页面配置训练参数,开始训练模型。 在“参数配置”填写“最大训练轮次”。“最大训练轮次”指模型迭代次数,即训练中遍历数据集的次数,参数范围[30,100]。 确认信息后,单击“训练”。 模型训练一般需要运行一段时间,等模型训练完成后,“模型训练”页面下方显示查看训练详情。 查看训练详情 模型训练完成后,
工作流”中,参与模板分类的模型训练。 在“应用开发>训练分类器”页面,单击“添加已有模板”。 弹出添加已有模板对话框。 勾选模板,确认模板信息后,单击“确定”。 “应用开发>训练分类器”页面会显示新添加的模板。 训练分类器 单击“开始训练”。服务进入“应用开发>评估”页面,开始训
同意《公测使用服务协议》”。 确认信息后,单击“确定”。 跳至“应用开发”页面,开始开发技能。 步骤3:选择数据 在“数据选择”页面,单击“新建训练数据集”,右侧弹出“新建数据集”页面。 根据数据存储位置和数据标注情况,按表1填写数据集基本信息,然后单击“确定”。 图2 新建数据集
识别单个板式图片中的文字,实现自定义结构化信息识别。 已发布北京四区域 通用单模板工作流 OBS 2.0支持多模板分类工作流 文字识别套件提供多模板分类器开发的工作流,通过工作流指引同时制作多张模板,实现多版式模板并存场景下的结构化信息识别。 已发布北京四区域 多模板分类工作流 OBS