检查是否存在训练数据过少的情况,建议每个类别的图片量不少于100个,如果低于这个量级建议扩充。 检查不同标签的样本数是否均衡,建议不同标签的样本数量级相同,并尽量接近,如果有的类别数据量很高,有的类别数据量较低,会影响模型整体的识别效果。 选择适当的学习率和训练轮次。 通过详细评估中的错误识别示例,有针对性地扩充训练数据。
待新建的数据集名称。 描述 数据集简要描述。 数据集输入位置 训练数据存储至OBS的位置。 单击“数据集输入位置”右侧输入框,在弹出的“数据集输入位置”对话框中,选择“OBS桶”和“文件夹”,然后单击“确定”。 数据集输出位置 待新建的数据集存储至OBS的位置。 待新建的数据集有
待新建的数据集名称。 描述 数据集简要描述。 数据集输入位置 训练数据存储至OBS的位置。 单击“数据集输入位置”右侧输入框,在弹出的“数据集输入位置”对话框中,选择“OBS桶”和“文件夹”,然后单击“确定”。 数据集输出位置 待新建的数据集存储至OBS的位置。 待新建的数据集有
统自动旋转文字方向不正确的图片,保持图片中的文字方向正确。 单击预处理区域左上方的操作图标,调整模板图片的大小、方向等。 :单击图标重置图片为初始状态,即未进行任何处理的状态。 :单击图标,在“图片裁剪”窗口调整图片裁剪范围,然后单击“裁剪”,调整图片的大小。 :单击图标,在“图
统自动旋转文字方向不正确的图片,保持图片中的文字方向正确。 单击预处理区域左上方的操作图标,调整模板图片的大小、方向等。 :单击图标重置图片为初始状态,即未进行任何处理的状态。 :单击图标,在“图片裁剪”窗口调整图片裁剪范围,然后单击“裁剪”,调整图片的大小。 :单击图标,在“图
待新建的数据集名称。 描述 数据集简要描述。 数据集输入位置 训练数据存储至OBS的位置。 单击“数据集输入位置”右侧输入框,在弹出的“数据集输入位置”对话框中,选择“OBS桶”和“文件夹”,然后单击“确定”。 数据集输出位置 待新建的数据集存储至OBS的位置。 待新建的数据集有
待新建的数据集名称。 描述 数据集简要描述。 数据集输入位置 训练数据存储至OBS的位置。 单击“数据集输入位置”右侧输入框,在弹出的“数据集输入位置”对话框中,选择“OBS桶”和“文件夹”,然后单击“确定”。 数据集输出位置 待新建的数据集存储至OBS的位置。 待新建的数据集有
参照字段是文字内容、位置固定不变的文本框区域。 参照字段为单行文本框,不可以框选竖版文字或跨行框选。 框选参照字段个数须建议大于4个,越多越好,并尽量分散在图片的四周。 参考字段尽量沿着文字边缘框选,精确框住对应文本行为佳。 核对右侧“框选参照字段”中的参照字段是否与框选的参照字段一致。 框选
检查是否存在训练数据过少的情况,建议每个类别的图片量不少于100个,如果低于这个量级建议扩充。 检查不同标签的样本数是否均衡,建议不同标签的样本数量级相同,并尽量接近,如果有的类别数据量很高,有的类别数据量较低,会影响模型整体的识别效果。 选择适当的学习率和训练轮次。 通过详细评估中的错误识别示例,有针对性地扩充训练数据。
注册华为帐号并开通华为云 在使用华为云服务之前您需要注册华为帐号并开通华为云。通过此帐号,只需为使用的服务付费,即可使用所有华为云服务。 进入华为云官网,参考帐号注册指导及界面提示信息,完成帐号注册。 注册成功后即可自动登录华为云,您需要完成“实名认证”才可以正常使用服务。具体认证方式请参考帐号实名认证。
在“数据标注”页面,会显示自动标注的进度,如果自动标注完成,标注进度为100%。 图1 自动标注完成。 标注完成后,您可以单击“标注结果确认”中的“前往确认”,进入标注概览页。 在标注概览页单击右上方的“开始标注”,进入手动标注数据页面,针对“已标注”的数据进行核对和检查。针对标注错误的数据修改标注。
在“数据标注”页面,会显示自动标注的进度,如果自动标注完成,标注进度为100%。 图1 自动标注完成。 标注完成后,您可以单击“标注结果确认”中的“前往确认”,进入标注概览页。 在标注概览页单击右上方的“开始标注”,进入手动标注数据页面,针对“已标注”的数据进行核对和检查。针对标注错误的数据修改标注。
删除应用 如果已创建的模板应用不再使用,您可以删除模板释放资源。 操作步骤 登录“ModelArts Pro>文字识别套件”控制台。 默认进入“应用开发>工作台”页面。 在“我的应用”页签下,选择应用并单击“操作”列的“查看”。 进入“应用资产”页面。 图1 进入应用资产 在“模
删除应用 如果已创建的模板应用不再使用,您可以删除模板释放资源。 操作步骤 登录“ModelArts Pro>文字识别套件”控制台。 默认进入“应用开发>工作台”页面。 在“我的应用”页签下,选择应用并单击“操作”列的“查看”。 进入“应用资产”页面。 图1 进入应用资产 在“模
换。 为了检查并校正待识别的图片,这就需要在模板图片中指定参照字段。通过参照字段的文字内容来判断是否属于同一种模板,通过参照字段的位置来校正待识别图片。 基本概念 参照字段为模板图片和待识别图片中的公共文字部分,所有需要识别的图片中都要包含参照字段,且位置必须固定。 套件提供了自
数据集输出位置 待新建的数据集存储至OBS的位置。 单击“数据集输出位置”右侧的“修改”,在弹出的“数据集输出位置”对话框中,选择“OBS桶”和“文件夹”,然后单击“确定”。 说明: “数据集输出位置”不能与“数据集输入位置”为同一路径,且不能是“数据集输入位置”的子目录。“数据集输出位置”建议选择一个空目录。
单击框选操作图标,单击待识别文字的左上角,移动鼠标框选识别区,使得矩形框覆盖待识别的文字。 框选识别区应尽量扩大识别区范围,使所框选识别区覆盖字段值可能出现的区域。 在右侧“框选识别区”中填写“框选字段”,选择“字段类型”。 “字段类型”指待识别文字的内容,您可以在默认字段类型中选择,当前可选择的默认字段
标注数据 由于模型训练过程需要大量有标签的数据,如果开发应用时,上传的训练数据集是未标注的,需要对数据集中的数据进行标注。 针对文本分类场景,是对文本的内容按照标签进行分类处理,标签名是由中文、大小写字母、数字、中划线或下划线组成,且不超过32位的字符串。 进入数据标注页面 在“数据
操作列的“标注”,进入数据集概览页单击右上角的“开始标注”,在“数据标注”页面手动标注数据。 如果您上传的是未标注数据,您单击数据集操作列的“标注”,进入数据集概览页单击右上角的“开始标注”,在“数据标注”页面手动标注数据。 合并标签 针对所选择的训练数据集,如果每个标签的样本数量太少,可以选择合并标签。
取值,作为识别结果。 自定义正则提取 预过滤 对初始的待识别文字进行预处理。 左边输入框填写待识别文字中被替换字符的正则表达式。 右边输入框填写所替换的新字符。 不填写时,默认不做预处理。 如果需要多次预处理,可单击,填写新增的预处理规则。 例如: “字段类型名称”:“出生日期”
您即将访问非华为云网站,请注意账号财产安全