检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
单模板服务,通过模板训练文字识别模型,实现单模板图像的文字信息结构化提取。 图1 创建单模板流程 表1 创建单模板流程说明 流程 说明 详细指导 上传模板图片 在使用单模板工作流开发应用之前,需要上传模板图片,明确以哪张图片作为模板训练文字识别模型。 上传模板图片 定义预处理 上
未标注的,需要对数据集中的数据进行标注。 标注数据 训练模型 选择训练数据后,基于已标注的训练数据,选择预训练模型、配置参数,用于训练文本分类模型。 训练模型 评估模型 训练得到模型之后,整个开发过程还不算结束,需要对模型进行评估和考察。 一些常用的指标,如精准率、召回率、F1值
通过中文分词、短文本相似度、命名实体识别等自然语言处理相关技术,计算两个问题对的相似度,可解决问答、对话、语料挖掘、知识库构建等问题。 内容推荐 通过文本分类预测模型,精确匹配出语义相似的内容,快速构建内容推荐场景。 视觉套件 商品识别 无人超市构建商品视觉自动识别模型,无需扫码,AI自主结账。 气象智能预测
本章节提供一个身份证样例,帮助您快速熟悉使用文字识别套件中的通用单模板工作流开发应用的过程。通过上传模板图片、框选参照字段和识别区,自动训练并生成文字识别模型,并将生成的模型部署为在线服务。部署完成后,用户可通过在线服务识别身份证模板中的文字。 首先,请仔细阅读准备工作罗列的要求,提前完成准备工作。使用
根据工作流指引,开发文本分类服务,通过上传训练数据,训练生成文本预测分类模型,自主更新和调整模型精度,实现高精度的文本预测分类。 通用文本分类工作流 多语种文本分类工作流 根据工作流指引,开发非中文语种的文本分类服务,通过上传训练数据,训练生成文本预测分类模型,自主更新和调整模型精度,实现高精度的文本预测分类。 多语种文本分类工作流
通过多模板训练模板分类模型和文字识别模型,实现多模板图像的文字信息结构化提取。 图1 创建多模板流程 表1 创建多模板流程说明 流程 说明 详细指导 上传模板图片 在使用多模板工作流开发应用之前,需要上传模板图片,明确以哪些图片作为模板训练文字识别模型。 上传模板图片 定义预处理
训练模型 评估模型 训练得到模型之后,整个开发过程还不算结束,需要对模型进行评估和考察。 一些常用的指标,如精准率、召回率、F1值等,能帮助您有效的评估,最终获得一个满意的模型。 评估模型 部署服务 模型准备完成后,您可以部署服务,用于分类自己所上传的文字内容,也可直接调用对应的API。
按版本进行区分,方便后续模型构建和开发过程中,选择对应的数据集版本进行使用。数据标注完成后,您可以将数据集当前状态进行发布,生成一个新的数据集版本。 关于数据集版本 针对刚创建的数据集(未发布前),无数据集版本信息,必须执行发布操作后,才能应用于模型开发或训练。 数据集版本,默
配置访问授权 在您使用ModelArts Pro过程中,ModelArts Pro需要访问ModelArts服务的云资源,如果没有授权,相关功能将不能正常使用。因此,没有进行访问授权的用户在使用ModelArts Pro之前,需要进行访问授权。ModelArts Pro当前仅支持使用委托授权。
自然语言处理套件为客户提供自然语言处理的自定制工具,旨在帮助客户高效地构建行业、领域的高精度文本处理模型,可应用于政府、金融、法律等行业。 自然语言处理套件提供了预置工作流,覆盖多种场景,支持自主上传训练数据,自主构建和升级高精度识别模型。用户自定义模型精度高,识别速度快。 通用文本分类工作流 多语种文本分类工作流 通用实体抽取工作流
分别选择“数据处理资源”、“模型训练资源”、“测试资源部署”,即用于数据处理、模型训练和在线测试的资源池和资源类型。 资源池可选“公共资源池”和“专属资源池”。 “公共资源池”:提供公共的大规模计算集群,资源按作业隔离。您可以按需选择不同的资源类型。 “专属资源池”:提供独享的计算资源,不与其他
分别选择“数据处理资源”和“模型训练资源”,即用于数据处理和模型训练的资源池和资源类型。 资源池可选“公共资源池”和“专属资源池”。 “公共资源池”:提供公共的大规模计算集群,资源按作业隔离。您可以按需选择不同的资源类型。 “专属资源池”:提供独享的计算资源,不与其他用户共享,更加
自然语言处理分类模型,将问询需求分发到对应的部门,显著提高工作效率。 特点:构建专有的自然语言处理分类模型,将大量的政务询问分发到对应的部门,显著提高工作效率。 优势:针对场景领域提供预训练模型,效果远好于通用自然语言处理模型。可根据使用过程中的反馈持续优化模型 。 图2 政务场景
使用流程 ModelArts Pro是为企业级AI应用打造的专业开发套件。基于华为云的先进算法和快速训练能力,提供预置工作流和模型,提升企业AI应用的开发效率,降低开发难度。当前ModelArts Pro开放了文字识别套件、自然语言处理套件、视觉套件、HiLens套件,详细介绍请
分别选择“数据处理资源”、“模型训练资源”、“测试资源部署”,即用于数据处理、模型训练和在线测试的资源池和资源类型。 资源池可选“公共资源池”和“专属资源池”。 “公共资源池”:提供公共的大规模计算集群,资源按作业隔离。您可以按需选择不同的资源类型。 “专属资源池”:提供独享的计算资源,不与其他
不要把明显不同的多个任务数据放在同一个数据集内。 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。 为保证模型的泛化能力,数据集尽量覆盖可能出现的各种场景。 每一类数据尽量多,尽量均衡。每个分类标签需要准备20个数据以上,为了训练出效果较好的模型,建议每个分类标签准备200个以上的数据。
纵轴为标签对应的有效“样本数”。 图5 标签解析 后续操作 选择训练数据集后,单击右下角的“下一步”,进入应用开发的“模型训练”步骤,详细操作指引请参见训练模型。 父主题: 刹车盘识别工作流
不要把明显不同的多个任务数据放在同一个数据集内。 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。 为保证模型的泛化能力,数据集尽量覆盖可能出现的各种场景。 每一类数据尽量多,尽量均衡。每个分类标签需要准备20个数据以上,为了训练出效果较好的模型,建议每个分类标签准备200个以上的数据。
分类的模型训练。 在“应用开发>训练分类器”页面,单击“添加已有模板”。 弹出添加已有模板对话框。 勾选模板,确认模板信息后,单击“确定”。 “应用开发>训练分类器”页面会显示新添加的模板。 训练分类器 单击“开始训练”。服务进入“应用开发>评估”页面,开始训练模型。模型训练完成
”。 后续操作 在“数据选择”页面选择训练数据集,并针对未标注的数据进行数据标注,然后单击“下一步”,进入应用开发的“模型训练”步骤,详细操作指引请参见训练模型。 父主题: 通用实体抽取工作流