检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Pro>自然语言处理套件”控制台,选择“我的工作流>多语种文本分类工作流”新建应用,详细操作请见新建应用。您可以开发多语种的文本分类应用,通过训练其他语种的文本分类预测模型,实现文本分类功能。 图1 多语种文本分类流程 表1 文本分类流程说明 流程 说明 详细指导 准备数据 在使用多语种文本分类工作流开发应用之前,
在“应用详情”页的“应用资产”页签下,可以查看当前应用的资产信息,比如通用文本分类工作流中的资产信息就是训练数据集,您可以查看“数据集名称”、“描述”、“数据量”、“标注进度”、“标签总数”、“创建时间”和“操作”,其中“操作”列可执行“管理”和“删除”操作。 “管理”:进入数据集管理页面,单击“开始标注”,可手动标注数据。
功能介绍 支持自主上传文本数据,构建高精度实体抽取模型,适配不同行业场景的业务数据,快速获得定制服务。 适用场景 知识图谱、文本理解、智能问答、舆情分析等实体抽取场景。 优势 针对多场景领域提供预训练模型,支持抽取文本中的实体,分类准确率高。 提供完善的文本处理能力,支持多种数据格式内容,适配不同场景的业务数据。
在“应用资产”页签下,可以查看当前应用的资产信息,比如通用文本分类工作流中的资产信息就是训练数据集,您可以查看“数据集名称”、“描述”、“数据量”、“标注进度”、“标签总数”、“创建时间”和“操作”,其中“操作”列可执行“管理”和“删除”操作。 “管理”:进入数据集管理页面,单击“开始标注”,可手动标注数据。
Arts Pro在同一区域,详情请见创建OBS桶。 已在视觉套件控制台选择“零售商品识别工作流”新建应用,并选择训练数据集,详情请见选择数据。 如果您选择的数据集均为已标注数据,可不用创建SKU,直接单击“下一步”,进入“数据标注”步骤,自动标注数据。 新建SKU 当一次性上传一
配额说明 本服务在使用数据集、在线服务、训练任务资源时涉及配额限制。 其配额查看及修改请参见关于配额。
在“应用开发>数据选择”页面,单击“新建训练数据集”。 右侧弹出“新建数据集”页面。 按表2填写数据集基本信息,然后单击“确定”。 图2 新建训练数据集 表2 新建训练数据集参数说明 参数 说明 推荐填写 数据集名称 待新建的数据集名称。 本样例填写“data-cake”。 描述 数据集简要描述。 - 数据上传方式
Pro控制台选择“HiLens安全帽检测”可训练模板新建技能,并选择训练数据集,详情请见选择数据。 训练模型 在“应用开发>模型训练”页面,配置训练参数,开始训练模型。 输出路径 模型训练后,输出的模型和数据存储在OBS的路径。单击输入框,在输出路径的对话框中选择OBS桶和文件夹,然后单击“确定”。 预训练模型
“新建数据集”页面。 根据数据存储位置和数据标注情况,按表1填写数据集基本信息,然后单击“确定”。 图2 新建数据集 表1 新建训练数据集参数说明 参数 说明 数据集名称 待新建的数据集名称。 描述 数据集简要描述。 数据集状态 按上传的数据是否标注分为“已标注数据集”和“未标注数据集”。数据格式请见准备数据。
通用文本分类工作流 工作流介绍 准备数据 选择数据 标注数据 训练模型 评估模型 部署服务 发布数据集 管理数据集版本 父主题: 自然语言处理套件
基于已设计好的分类标签准备文本数据。每个分类标签需要准备5个及以上数据,为了训练出效果较好的模型,建议每个分类标签准备100个以上的数据。 针对未标注数据,将待标注的内容放在一个文本文件内,通用文本分类工作流仅支持中文文本内容的分类,其他语种的文本分类请使用多语种文本分类工作流。 针对已
中。 数据集要求 文件名规范,不能有中文,不能有+、空格、制表符。 保证图片质量:不能有损坏的图片;目前支持的格式包括jpg、jpeg、bmp、png。 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。 为保证模型的泛化能力,数据集尽量覆盖所有标签的图片,且数据集中每个标签要有大于5个样本。
是训练数据集,您可以查看“数据集名称”、“描述”、“数据量”、“标注进度”、“创建时间”和“操作”,其中“操作”列可执行“管理”和“删除”操作。 图4 应用资产 “管理”:进入数据集管理页面,单击“开始标注”,可手动标注数据。 “删除”:单击“删除”,弹出“删除数据集”对话框,单击“确认”,即可删除当前数据集。
“删除模板”:单击图片右侧“删除”,在弹出的确认删除对话框中单击“确认”。 确认信息后,单击“下一步”,进入定义预处理步骤,对上传的模板图片进行自动旋转、去印章等预处理。 添加已有模板 单击“添加已有模板”,进入“添加已有模板”页签。 单击“添加已有模板”,弹出“添加已有模板”对话框。 对话框中仅显示已发布的模板。
阿拉伯语等。暂不支持对同一文本中含多语种的文本进行分类训练。 针对未标注数据,将待标注的内容放在一个文本文件内。 针对已标注数据,文本分类的标注对象和标签在一个文本文件内,标注对象与标签之间,采用Tab键分隔,多个标签之间采用英文逗号分隔。 例如,文本文件的内容如下所示。标注对象与标注内容之间采用Tab键分隔。
并选择训练数据集,详情请见选择数据。 训练模型 图1 模型训练 在“模型训练”页面配置训练参数,开始训练模型。 在“参数配置”填写“学习率”、“训练轮次”和“分批训练样本数”。 “学习率”用来控制模型的学习速度,范围为(0,1]。 “训练轮次”指模型训练中遍历数据集的次数。 “分批训练样本数”又叫批尺寸(Batch
与OBS关系 上传训练数据集 ModelArts Pro上传的训练数据集存储在OBS中。 标注数据 ModelArts Pro标注的数据存储在OBS中。 管理数据集 数据集存储在OBS中。 数据集的标注信息存储在OBS中。 支持从OBS中导入数据。 训练模型 训练模型使用的数据集存储在OBS中。
与OBS关系 上传训练数据集 ModelArts Pro上传的训练数据集存储在OBS中。 标注数据 ModelArts Pro标注的数据存储在OBS中。 管理数据集 数据集存储在OBS中。 数据集的标注信息存储在OBS中。 支持从OBS中导入数据。 训练模型 训练模型使用的数据集存储在OBS中。
图片中车牌的一种结果。例如“plate”。 数据集要求 文件名规范,不能有中文,不能有+、空格、制表符。 保证图片质量:不能有损坏的图片;目前支持的格式包括JPG、JPEG、PNG、BMP。 不要把明显不同的多个任务数据放在同一个数据集内。 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。
在使用通用实体抽取工作流开发应用之前,您需要提前准备用于模型训练的数据,上传至OBS服务中。 设计实体标签 首先需要确定好文本实体的标签,即希望抽取出文本的一种结果。例如“时间”、“地点”、“人物”等。 数据集要求 文件格式要求为txt或者csv,且编码格式为“UTF-8”格式,文件大小不能超过8MB。