检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
多语种文本分类工作流 工作流介绍 准备数据 选择数据 训练模型 评估模型 部署服务 父主题: 自然语言处理套件
方式二:新建应用后进入 登录“ModelArts Pro>自然语言处理套件”控制台。 默认进入“应用开发>工作台”页面。 选择已新建的应用名称,单击“操作”列的“查看”。 进入“应用总览”页面。 图1 查看应用 在开发版本列表中单击“操作”列的“查看”。 进入“应用开发”页面。
工作流流程 在“ModelArts Pro>自然语言处理套件”控制台选择“我的工作流>通用实体抽取工作流”新建应用,详细操作请见新建应用。您可以开发实体抽取应用,通过训练实体抽取模型,实现从文本中抽取实体的功能。
框选识别区 在文字识别过程中,需要确定图片中识别的文字位置,这就需要在图片模板中框选识别区。 识别区指图片中待识别的文字位置。所有需要识别的图片中都会包含此识别区的字段,且位置固定不变,因此模型可以通过识别区找到需要识别内容的位置。 前提条件 已在文字识别套件控制台选择“通用单模板工作流
框选识别区 在文字识别过程中,需要确定图片中识别的文字位置,这就需要在图片模板中框选识别区。 识别区指图片中待识别的文字位置。所有需要识别的图片中都会包含此识别区的字段,且位置固定不变,因此模型可以通过识别区找到需要识别内容的位置。 前提条件 已在文字识别套件控制台选择“多模板分类工作流
添加文件 除了数据集输入位置自动同步的数据外,您还可以在ModelArts界面中,直接添加文件,用于数据标注。 在数据集详情页面,单击“未标注”页签,然后单击左上角“添加文件”。 在弹出的“添加文件”对话框中,根据需上传文件的基本情况,完成设置后选择上传文件。
框选参照字段 在文字识别过程中,套件会检查所识别图片与模板图片是否为同一种模板,并将识别图片校正后再提取结构化信息,支持图片平移、旋转与拉伸变换。 为了检查并校正待识别的图片,这就需要在模板图片中指定参照字段。通过参照字段的文字内容来判断是否属于同一种模板,通过参照字段的位置来校正待识别图片
训练模型 选择训练数据后,基于已标注的训练数据,选择预训练模型、配置参数,用于训练文本分类模型。 前提条件 已在自然语言处理套件控制台选择“多语种文本分类工作流”新建应用,并选择训练数据集,详情请见选择数据。 训练模型 图1 模型训练 在“模型训练”页面,勾选模型训练所使用的“预训练模型
评估模型 训练得到模型之后,整个开发过程还不算结束,需要对模型进行评估和考察。往往不能一次性获得一个满意的模型,需要反复的调整算法参数、数据,不断评估训练生成的模型。 一些常用的指标,如精准率、召回率、F1值等,能帮助您有效的评估,最终获得一个满意的模型。 前提条件 已在自然语言处理套件控制台选择
工作流流程 在“ModelArts Pro>自然语言处理套件”控制台,选择“我的工作流>多语种文本分类工作流”新建应用,详细操作请见新建应用。您可以开发多语种的文本分类应用,通过训练其他语种的文本分类预测模型,实现文本分类功能。