检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
文件名规范,不能有中文,不能含有空格、制表符及除中划线下划线外的特殊符号。 保证图片质量:不能有损坏的图片;目前支持的格式包括JPG、JPEG、PNG、BMP。 不要把明显不同的多个任务数据放在同一个数据集内。 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。 为保证模型的泛化能力,数据集尽量覆盖可能出现的各种场景。
保证图片质量:不能有损坏的图片。 目前支持的格式包括JPG、JPEG、PNG、BMP。 训练数据集 本样例训练数据集使用未标注数据。 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。 为保证模型的泛化能力,数据集尽量覆盖所有商品分类的图片,即覆盖所有标签的图片。 每个分类标签
文件名规范,不能有中文,不能有+、空格、制表符。 保证图片质量:不能有损坏的图片;目前支持的格式包括JPG、JPEG、PNG、BMP。 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。 为保证模型的泛化能力,数据集尽量覆盖所有标签的图片。 基于已设计好的热轧钢板表面缺陷标签准备图片数据。每个分类标签
保证图片质量:不能有损坏的图片;目前支持的格式包括JPG、JPEG、PNG、BMP。 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。 为保证模型的泛化能力,数据集尽量覆盖所有材质类型的待定级图片。 为保证训练效果,需要准备至少20张待训练的图片数据,低于20张工作流
图片中的多个商品。 数据集要求 文件名规范,不能有中文,不能有+、空格、制表符。 保证图片质量:不能有损坏的图片;目前支持的格式包括JPG、JPEG、PNG、BMP。 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。 为保证模型的泛化能力,数据集尽量覆盖所有标签的图片。
Browser+是一个比较常用的图形化工具,支持完善的桶管理和对象管理操作。推荐使用此工具创建桶或上传对象。obsutil是一款用于访问管理OBS的命令行工具,对于熟悉命令行程序的用户,obsutil是执行批量处理、自动化任务的好的选择。 如果您的业务环境需要通过API或SDK执
Pro控制台的行业套件时,在弹出的“访问授权”对话框中会提示删除密钥授权。 图2 访问授权 单击“访问授权”对话框上方的“删除”,删除旧的授权。 删除成功后,对话框中就没有删除密钥授权的提示了。 在“访问授权”对话框填写授权信息,然后单击“同意授权”,完成访问授权的配置。 “用户
单击框选操作图标,单击待识别文字的左上角,移动鼠标框选识别区,使得矩形框覆盖待识别的文字。 框选识别区应尽量扩大识别区范围,使所框选识别区覆盖字段值可能出现的区域。 在右侧“框选识别区”中填写“框选字段”,选择“字段类型”。 “字段类型”指待识别文字的内容,您可以在默认字段类型中选择,当前可选择的默认字段
对经过“预处理”的文字进行关键字符提取。 在输入框中填写查找关键字符的正则表达式。 不填写时,默认提取全部字段。 如果需要多个提取规则,单击新增提取规则。提取时按从上到下优先级规则提取,选择第一个非空的提取内容作为提取后的内容。 后处理 根据实际情况,对经过“提取”后的文字进行“后处理”。
ModelArts Pro的应用场景和用户群体 ModelArts Pro基于华为云的先进算法和快速训练能力,提供预置工作流和模型。用户可以使用ModelArts Pro套件中特定行业场景的预置行业工作流,满足快速定制的需求,快速进行应用开发。 当前ModelArts Pro开放的预置套件有文
申请公测操作完成后,单击“前往我的公测”,进入“我的公测”页面。当“审批状态”显示为“审批通过”时,表示您已经获得了该行业套件的公测权限。 申请行业套件的公测权限后,在ModelArts Pro控制台选择行业套件卡片并单击“进入套件”,即可进入行业套件的控制台。 例如单击自然语言处理套件卡片的“进入套件”,即可进入自然语言处理套件的控制台。
在“数据标注”页面,会显示自动标注的进度,如果自动标注完成,标注进度为100%。 图1 自动标注完成。 标注完成后,您可以单击“标注结果确认”中的“前往确认”,进入标注概览页。 在标注概览页单击右上方的“开始标注”,进入手动标注数据页面,针对“已标注”的数据进行核对和检查。针对标注错误的数据修改标注。
侧文本框中输入对应的分隔符。 图6 添加文件 在添加文件对话框中,单击“上传文件”,完成添加文件的操作。您添加的文件内容将自动呈现在“未标注”或“已标注”的文本列表中。 删除文件 通过数据删除操作,可将需要丢弃的文件数据快速删除。 在“未标注”页面中,单击选中需要删除的文本对象,
使用单模板工作流开发应用 ModelArts Pro的文字识别套件提供了通用单模板工作流,通过工作流指引可构建文字识别模板,识别单个板式图片中的文字,快速实现文档、票证等场景的文字识别。 本章节提供一个身份证样例,帮助您快速熟悉使用文字识别套件中的通用单模板工作流开发应用的过程。通过上传模板图片、框选参
更新应用版本 在模型构建过程中,您可能需要根据训练结果,不停的调整数据、训练参数或模型,以获得一个满意的模型。 因此您可以修改模型的配置信息以匹配业务变化。每修改一次,更新成一个版本,不同的作业版本之间,能快速进行对比,获得对比结果。 前提条件 已在HiLens套件控制台选择“H
检查图片标注是否准确,第二相区域标注工作量较大,建议基于自动标注的结果进一步优化标注精度。 可根据损失函数选择适当的训练轮次。 通过详细评估中的错误识别示例,有针对性地扩充训练数据。 后续操作 模型训练完成后,单击“下一步”,进入应用开发的“模型评估”步骤,详细操作指引请参见评估模型。 父主题:
上传模板图片后,需要对模板图片进行预处理,保留图片的关键内容,去掉冗余部分,保持图片内容清晰可见,保证模型识别的准确性。 定义预处理 框选参照字段 在图片模板中框选参照字段,用于矫正图片的方向,进而在正确的方向上,识别图片中的结构化信息。 框选参照字段 框选识别区 在图片模板中框选识别区,确定模板图片中需要识别的文字位置。
GiB”,适合纯CPU类型的负载运行的模型。 如果资源池选择专属资源池,勾选自己在ModelArts创建的专属资源池。 计算节点个数 设置当前版本模型的实例个数。如果节点个数设置为1,表示后台的计算模式是单机模式;如果节点个数设置大于1,表示后台的计算模式为分布式的。请根据实际编码情况选择计算模式。
步骤1:准备数据 在本地准备好用于制作模板的图片、用于训练多模板分类器的训练集、用于评估模板的图片,图片要求如下: 只支持PNG、JPG、JPEG、BMP、TIFF格式的图片。 图像各边的像素大小在100px到4096px之间。 图像中识别区域有效占比超过80%,保证所有文字及其边缘包含在图像内。
待新建的数据集名称。 描述 数据集简要描述。 数据集输入位置 训练数据存储至OBS的位置。 单击“数据集输入位置”右侧输入框,在弹出的“数据集输入位置”对话框中,选择“OBS桶”和“文件夹”,然后单击“确定”。 数据集输出位置 待新建的数据集存储至OBS的位置。 待新建的数据集有