检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
单击框选操作图标,单击待识别文字的左上角,移动鼠标框选识别区,使得矩形框覆盖待识别的文字。 框选识别区应尽量扩大识别区范围,使所框选识别区覆盖字段值可能出现的区域。 在右侧“框选识别区”中填写“框选字段”,选择“字段类型”。 “字段类型”指待识别文字的内容,您可以在默认字段类型中选择,当前可选择的默认字段
待新建的数据集存储至OBS的位置。 单击“数据集输出位置”右侧的“修改”,在弹出的“数据集输出位置”对话框中,选择“OBS桶”和“文件夹”,然后单击“确定”。 选择步骤1:准备数据中提前创建好的输出数据集的OBS路径“mapro-nlp/data-out”。 勾选已上传的数据集。
在商品识别场景下,如果上传的数据包含未标注数据,您需要创建SKU,即商品各类单品的图片,方便后续针对数据集中的数据进行自动标注。 如果数据集是已标注数据,您可以选择不创建SKU,直接执行下一步。 创建SKU 标注数据 针对已经选择的数据和SKU,在应用开发的“数据标注”页面,ModelArts
待新建的数据集名称。 描述 数据集简要描述。 数据集输入位置 训练数据存储至OBS的位置。 单击“数据集输入位置”右侧输入框,在弹出的“数据集输入位置”对话框中,选择“OBS桶”和“文件夹”,然后单击“确定”。 数据集输出位置 待新建的数据集存储至OBS的位置。 待新建的数据集有
由于模型训练过程需要有标签的数据,针对已上传的数据集,手动添加或修改标签。 单击数据集操作列的“标注”,进入数据集概览页单击右上角的“开始标注”,在“数据标注”页面手动标注数据。 查看标签解析 新建并选择训练数据集后,针对已标注的数据,在“标签解析”中查看标签样本的统计数据,横轴为“标签”,纵轴为标签对应的有效“样本数”。
文本框中输入对应的分隔符。 图6 添加文件 在添加文件对话框中,单击“上传文件”,完成添加文件的操作。您添加的文件内容将自动呈现在“未标注”或“已标注”的文本列表中。 删除文件 通过数据删除操作,可将需要丢弃的文件数据快速删除。 在“未标注”页面中,单击选中需要删除的文本对象,然
图2 标注数据 查看标注示例:单击新建训练数据集右侧的“标注示例”,可选择查看标注示例。 进入标注页面:单击数据集操作列的“标注”,进入数据集概览页单击右上角的“开始标注”,在“数据标注”页面手动标注数据。 查看标签解析 新建并选择训练数据集后,针对已标注的数据,您可以在“标签
单击框选操作图标,单击待识别文字的左上角,移动鼠标框选识别区,使得矩形框覆盖待识别的文字。 框选识别区应尽量扩大识别区范围,使所框选识别区覆盖字段值可能出现的区域。 在右侧“框选识别区”中填写“框选字段”,选择“字段类型”。 “字段类型”指待识别文字的内容,您可以在默认字段类型中选择,当前可选择的默认字段
数据集概览页单击右上角的“开始标注”,在“数据标注”页面手动标注数据。 勾选当前应用开发所需的训练数据集。 查看标签解析 新建并选择训练数据集后,针对已标注的数据,您可以在“标签解析”中查看标签样本的统计数据,横轴为“标签”,纵轴为标签对应的有效“样本数”。 后续操作 在“数据选
新建并选择训练数据集后,针对已标注的数据,在“标签解析”中查看标签样本的统计数据,横轴为“标签”,纵轴为标签对应的有效“样本数”。 图5 标签解析 后续操作 选择训练数据集后,单击右下角的“下一步”,进入应用开发的“模型训练”步骤,详细操作指引请参见训练模型。 父主题: 热轧钢板表面缺陷检测工作流
打开合并标签开关,在下方填入需要合并的标签样本数量“上限值”,以及合并标签后新的“标签名”。 图3 合并标签 查看标签解析 新建并选择训练数据集后,针对已标注的数据,您可以在“标签解析”中查看标签样本的统计数据,横轴为“标签”,纵轴为标签对应的有效“样本数”。 图4 标签解析 后续操作
单击“下一步”,创建SKU后,自动标注数据。 查看标签解析 新建并选择训练数据集后,针对已标注的数据,在“标签解析”中查看标签样本的统计数据,横轴为“标签”,纵轴为标签对应的有效“样本数”。 图5 标签解析 后续操作 在“数据选择”页面选择训练数据集,针对未标注的数据进行数据标注,您可以手动标注
签颜色。 单击文本框下方的添加标签。 鼠标移至文本框,单击文本框右侧的删除标签。 新建数据集后,勾选当前应用开发所需的训练数据集。 由于模型训练过程需要有标签的数据,如果您上传的是已标注数据,上传后可查看标签解析。如果您想手动修改标签,可单击数据集操作列的“标注”,进入数据集概览
训练得到模型之后,整个开发过程还不算结束,需要对模型进行评估和考察。 一些常用的指标,如精准率、召回率、F1值等,能帮助您有效的评估,最终获得一个满意的模型。 评估模型 部署服务 模型准备完成后,您可以部署服务,用于分类自己所上传的文字内容,也可直接调用对应的API。 部署服务 父主题: 通用实体抽取工作流
Pro 提供的原子组件(Atom)灵活编排新的行业工作流。基于AI 市场,用户还可以相互分享不同行业场景的行业AI 工作流。ModelArts Pro 以“授人以渔”的方式助力企业构建AI 能力,赋能不同行业的AI 应用开发者,让AI 变得触手可及。 与ModelArts的关系 ModelArts
训练得到模型之后,整个开发过程还不算结束,需要对模型进行评估和考察。 一些常用的指标,如精准率、召回率、F1值等,能帮助您有效的评估,最终获得一个满意的模型。 评估模型 部署服务 模型准备完成后,您可以部署服务,用于分类自己所上传的文字内容,也可直接调用对应的API。 部署服务 父主题: 多语种文本分类工作流
图3 零售场景 物流场景 物流场景需要处理各种格式的票据图片,用户可以通过简单的标注生成自己的专属模板,实现关键字段的自动识别和提取。 特点:对各种格式的票据图片,可制作模板实现关键字段的自动识别和提取。 优势:支持不同格式票据图片的自动识别和结构化提取。通过可视化界面操作,轻松指
试资源部署”,即用于数据处理、模型训练和在线测试的资源池和资源类型。 资源池可选“公共资源池”和“专属资源池”。 “公共资源池”:提供公共的大规模计算集群,资源按作业隔离。您可以按需选择不同的资源类型。 “专属资源池”:提供独享的计算资源,不与其他用户共享,更加高效。使用专属资源
模型训练的数据,上传至OBS中。 准备数据 选择数据 在使用通用文本分类工作流开发应用时,您需要新建或导入训练数据集,后续训练模型操作是基于您选择的训练数据集。 选择数据 标注数据(可选) 由于模型训练过程需要大量有标签的数据,如果开发应用时,上传的训练数据集是未标注的,需要对数据集中的数据进行标注。
字。 识别区是对应字段内容所在区域。在框选时,建议尽量扩大识别区的框选范围使其覆盖对应字段内容可能出现的区域,防止在不同图片识别时出现漏字。 本样例框选的识别区如图10所示。 图10 框选识别区 在右侧“框选识别区”中填写“框选字段”,选择“字段类型”。 本样例的框选字段可按框选