检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
制定针对性的文字识别模型。例如上传两种不同格式的发票图片作为模板,训练的文字识别模型就能识别并提取这两种格式发票上的关键字段。 前提条件 已授权ModelArts服务和对象存储服务(OBS)。 已在文字识别套件控制台选择“多模板分类工作流”新建应用,详情请见新建应用。 提前准备模
单击“开始训练”。服务进入“应用开发>评估”页面,开始训练模型。模型训练完成后,可在“应用开发>评估”页面评估分类器和模板,详情请见评估应用。 删除模板 如果已创建的模板应用不再使用,您可以删除模板释放资源。 在“应用开发>训练分类器”页面,选择模板,单击操作列的“删除”,弹出“确认删除”对话框,单击“确认”,删除模板。
应用。 已准备数据并上传至OBS,详情请见准备数据。 进入应用开发页面 方式一:首次进入 基于预置工作流新建应用后,直接进入“应用开发”v1版本页面。 方式二:新建应用后进入 登录“ModelArts Pro>视觉套件”控制台。 默认进入“应用开发>工作台”页面。 选择已新建的应用名称,单击“操作”列的“查看”。
建时间”等信息。 图4 导入数据集 勾选数据集,然后单击“确定”。 数据集导入后,“数据选择”页面会显示已导入的数据。 创建标注任务 由于模型训练过程需要有标签的数据,针对未标注的数据集,您可以创建标注任务,然后前往Modelarts页面对数据进行手工标注。 创建标注任务 单击数
新增标签 查看已标注文本 在数据集详情页,单击“已标注”页签,您可以查看已完成标注的文本列表。您也可以在右侧的“全部标签”中了解当前数据集支持的所有标签信息。 修改标注 当数据完成标注后,您还可以进入已标注页签,对已标注的数据进行修改。 基于文本修改 在数据集详情页,单击“已标注”页签,然后在文本列表中选中待修改的文本。
HiLens套件-管理应用 OBS 2.0支持应用版本 针对已创建的应用,根据训练结果调整数据、训练参数或模型,每修改一次,即更新成一个新的版本。ModelArts Pro支持通过开发新版本、对比不同版本的效果等功能对不同的应用版本进行管理。 已发布北京四区域 自然语言处理套件-更新应用版本 视觉套件-更新应用版本
不支持换行。 基于已设计好的分类标签准备文本数据。每个分类标签需要准备5个及以上数据,为了训练出效果较好的模型,建议每个分类标签准备100个以上的数据。 针对未标注数据,将待标注的内容放在一个文本文件内,通用文本分类工作流仅支持中文文本内容的分类。 针对已标注数据,文本分类的标
以换行符作为分隔符,每行数据代表一个样本数据,单个样本不能有分行显示,不支持换行。 基于已设计好的分类标签准备文本数据。每个分类标签需要准备5个及以上数据,为了训练出效果较好的模型,建议每个分类标签准备100个以上的数据。 针对未标注数据,将待标注的内容放在一个文本文件内,通用文本分类工作流仅支持中
为保证模型的泛化能力,数据集尽量覆盖所有标签的图片。 基于已设计好的热轧钢板表面缺陷标签准备图片数据。每个分类标签需要准备20个数据以上,为了训练出效果较好的模型,建议每个分类标签准备200个以上的数据。 针对未标注数据,要求将图片放在一个目录里,示例如下所示。 ├─dataset-import-example
为保证模型的泛化能力,数据集尽量覆盖可能出现的各种场景。 数据集样本数应大于100,用于测试的已标注数据应不少于20张,样本数达1万张以上性能更优。 为了准确率,建议数据集中标注数据占总数据量的10%,用于测试模型,其余90%无需标注。 针对未标注数据,要求将图片放在一个目录里,示例如下所示。 ├─dataset-import-example
的“进入套件”。 进入文字识别套件控制台。 在左侧导航栏选择“应用开发>工作台”。 默认进入“我的应用”页签。 在“我的应用”页签下,选择已创建的应用,单击操作列的“查看”。 进入应用详情页,默认进入“应用资产”页面,查看应用资产。 您也可以单击“应用开发”,切换至“应用开发”页面,查看应用开发配置。
上传的训练数据可以是已标注的数据,也可以是未标注的数据。 您可以根据自身业务选择“数据集状态”是“已标注数据集”还是“未标注数据集”。 数据集模板可在选择“数据集状态”后,单击下方的“文本分类已标注数据模板”或“文本分类未标注数据模板”,下载数据集模板至本地查看。 本样例使用已标注的数据集,所以选择“已标注数据集”。
以换行符作为分隔符,每行数据代表一个样本数据,单个样本不能有分行显示,不支持换行。 基于已设计好的实体标签准备文本数据。每个实体标签需要准备20个及以上数据,为了训练出效果较好的模型,建议每个实体标签准备100个以上的数据。 本工作流只支持上传未标注数据,将待标注的内容放在一个文本文件内。 上传数据至OBS
标注完成后,您可以单击“标注结果确认”中的“前往确认”,进入标注概览页。 在标注概览页单击右上方的“开始标注”,进入手动标注数据页面,针对“已标注”的数据进行核对和检查。针对标注错误的数据修改标注。 由于零售商品工作流标注数据时需要勾勒出商品形状,必须使用多边形标注框标注数据。 父主题:
量相似。 为保证模型的泛化能力,数据集尽量覆盖所有标签的图片。 基于已设计好的商品标签准备图片数据。每个商品标签需要准备20个数据以上,为了训练出效果较好的模型,建议每个商品标签准备200个以上的数据。 针对未标注数据,要求将图片放在一个目录里,示例如下所示。 ├─dataset-import-example
标注完成后,您可以单击“标注结果确认”中的“前往确认”,进入标注概览页。 在标注概览页单击右上方的“开始标注”,进入手动标注数据页面,针对“已标注”的数据进行核对和检查。针对标注错误的数据修改标注。 第二相面积含量测定工作流标注数据时必须使用多边形标注框标注数据。 后续操作 单击右
见评估应用。 操作步骤 在“应用开发>部署”页面完成模板评估后,单击“下一步”,进入“创建模板>部署”页面直接发布模板,页面显示“恭喜您,已发布成功”。 图1 部署模板 发布模板后,在“应用开发>部署”页面,您可以进行如下操作。 “评估”:单击“评估”,继续上传测试图片评估模板。
进入套件”。 进入HiLens套件控制台。 在左侧导航栏选择“应用开发>工作台”。 默认进入“我的应用”页签。 在“我的应用”页签下,选择已创建的应用,单击操作列的“查看”。 进入应用详情页,默认进入“应用开发”页签。 在“应用开发”页面版本右侧,单击“更新版本”,即可新增新的应用版本。
语种包括英语、法语、德语、西班牙语、葡萄牙语、阿拉伯语等。暂不支持对同一文本中含多语种的文本进行分类训练。 针对未标注数据,将待标注的内容放在一个文本文件内。 针对已标注数据,文本分类的标注对象和标签在一个文本文件内,标注对象与标签之间,采用Tab键分隔,多个标签之间采用英文逗号分隔。
首次使用可训练模板,弹出“访问授权”对话框,需要授权ModelArts。 图1 访问授权 仔细阅读ModelArts服务声明,勾选“我已详细阅读并同意《ModelArts服务声明》”,然后单击“同意授权”。 非首次使用可训练模板,请忽略此步骤,执行下一步。 在“新建技能”对话