检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
自然语言处理套件(使用文本分类工作流开发应用) ModelArts Pro的自然语言处理套件提供了通用文本分类工作流和多语种文本分类工作流,通过工作流指引支持自主上传文本数据,构建高精度文本分类预测模型,适配不同行业场景的业务数据,快速获得定制服务。 通用文本分类工作流仅支持中文文本分类,多语
部署服务 模型准备完成后,您可以部署服务,开发属于自己的文本分类应用,此应用用于分类自己所上传的文字内容,也可直接调用对应的API。 前提条件 已在自然语言处理套件控制台选择“通用文本分类工作流”新建应用,并评估模型,详情请见评估模型。 由于部署服务涉及ModelArts功能,需消耗资源,要确保账户未欠费。
服务自动停止 设置服务自动停止的时间,在线服务运行状态在所选的时间点后自动停止,同时在线服务也停止计费。 部署成功后,页面显示“服务部署成功”。您可以单击“查看应用监控”,进入应用监控页面查看监控信息,详情请见监控应用。 父主题: 多语种文本分类工作流
通用文本分类工作流 工作流介绍 准备数据 选择数据 标注数据 训练模型 评估模型 部署服务 发布数据集 管理数据集版本 父主题: 自然语言处理套件
基于已设计好的分类标签准备文本数据。每个分类标签需要准备5个及以上数据,为了训练出效果较好的模型,建议每个分类标签准备100个以上的数据。 针对未标注数据,将待标注的内容放在一个文本文件内,通用文本分类工作流仅支持中文文本内容的分类,其他语种的文本分类请使用多语种文本分类工作流。 针对已
在使用通用文本分类工作流开发应用时,您需要选择训练数据集,后续训练模型操作是基于您选择的训练数据集。 训练数据集可以选择创建一个新的数据集,也可以选择导入在自然语言处理套件其他应用中已创建的文本数据集。 新建数据集 导入数据集 前提条件 已在自然语言处理套件控制台选择“通用文本分类工作流”新建应用,详情请见新建应用。
在数据集详情页,单击“已标注”页签,然后在文本列表中选中待修改的文本。 在文本列表中,单击文本,当文本背景变为蓝色时,表示已选择。当文本有多个标签时,可以单击文本标签上方的删除单个标签。 基于标签修改 在数据集详情页,单击“已标注”页签,在图片列表右侧,显示全部标签的信息。 批量修改:在“全部标签”区
训练模型 选择训练数据后,基于已标注的训练数据,选择预训练模型、配置参数,用于训练文本分类模型。 前提条件 已在自然语言处理套件控制台选择“通用文本分类工作流”新建应用,并选择训练数据集,详情请见选择数据。 训练模型 图1 模型训练 在“模型训练”页面,勾选模型训练所使用的“预训
Pro>自然语言处理套件”控制台,选择“我的工作流>通用文本分类工作流”新建应用,详细操作请见新建应用。您可以开发文本分类应用,通过训练文本分类预测模型,实现文本分类功能。 图1 文本分类流程 表1 文本分类流程说明 流程 说明 详细指导 准备数据 在使用通用文本分类工作流开发应用之前,您需要提前准备用于模型训练的数据,上传至OBS中。
训练模型 选择训练数据后,基于已标注的训练数据,选择预训练模型、配置参数,用于训练文本分类模型。 前提条件 已在自然语言处理套件控制台选择“多语种文本分类工作流”新建应用,并选择训练数据集,详情请见选择数据。 训练模型 图1 模型训练 在“模型训练”页面,勾选模型训练所使用的“预
Pro>自然语言处理套件”控制台,选择“我的工作流>多语种文本分类工作流”新建应用,详细操作请见新建应用。您可以开发多语种的文本分类应用,通过训练其他语种的文本分类预测模型,实现文本分类功能。 图1 多语种文本分类流程 表1 文本分类流程说明 流程 说明 详细指导 准备数据 在使用多语种文本分类工作流开发应用之前,
一些常用的指标,如精准率、召回率、F1值等,能帮助您有效的评估,最终获得一个满意的模型。 前提条件 已在自然语言处理套件控制台选择“通用文本分类工作流”新建应用,并训练模型,详情请见训练模型。 整体评估 在“模型评估”页面,您可以针对当前版本的模型进行整体评估。 “整体评估”左
阿拉伯语等。暂不支持对同一文本中含多语种的文本进行分类训练。 针对未标注数据,将待标注的内容放在一个文本文件内。 针对已标注数据,文本分类的标注对象和标签在一个文本文件内,标注对象与标签之间,采用Tab键分隔,多个标签之间采用英文逗号分隔。 例如,文本文件的内容如下所示。标注对象与标注内容之间采用Tab键分隔。
目录。“数据集输出位置”建议选择一个空目录。 添加标签集 添加标签名称,选择标签颜色。 在文本框中输入标签名称,在右侧单击选择标签颜色。 单击文本框下方的添加标签。 鼠标移至文本框,单击文本框右侧的删除标签。 新建数据集后,勾选当前应用开发所需的训练数据集。 由于模型训练过程需要
多语种文本分类工作流 工作流介绍 准备数据 选择数据 训练模型 评估模型 部署服务 父主题: 自然语言处理套件
一些常用的指标,如精准率、召回率、F1值等,能帮助您有效的评估,最终获得一个满意的模型。 前提条件 已在自然语言处理套件控制台选择“多语种文本分类工作流”新建应用,并训练模型,详情请见训练模型。 整体评估 在“模型评估”页面,您可以针对当前版本的模型进行整体评估。 “整体评估”左
开头的命令时,为了安全考虑,ModelArts会自动加上Tab键,并对双引号进行转义处理。 “数据切分” 仅“图像分类”、“物体检测”、“文本分类”和“声音分类”类型数据集支持进行数据切分功能。 默认不启用。启用后,需设置对应的训练验证比例。 输入“训练集比例”,数值只能是0~1
存在于对应的OBS目录下。但是,执行删除操作后,无法在ModelArts Po管理控制台清晰的管理数据集版本,请谨慎操作。 父主题: 通用文本分类工作流
开发应用 通用文本分类工作流 根据工作流指引,开发文本分类服务,通过上传训练数据,训练生成文本预测分类模型,自主更新和调整模型精度,实现高精度的文本预测分类。 通用文本分类工作流 多语种文本分类工作流 根据工作流指引,开发非中文语种的文本分类服务,通过上传训练数据,训练生成文本预测分类
功能介绍 支持自主上传文本数据,构建高精度实体抽取模型,适配不同行业场景的业务数据,快速获得定制服务。 适用场景 知识图谱、文本理解、智能问答、舆情分析等实体抽取场景。 优势 针对多场景领域提供预训练模型,支持抽取文本中的实体,分类准确率高。 提供完善的文本处理能力,支持多种数据格式内容,适配不同场景的业务数据。