检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
多语种文本分类工作流 工作流介绍 准备数据 选择数据 训练模型 评估模型 部署服务 父主题: 自然语言处理套件
数据集输入位置 训练数据存储至OBS的位置。 单击“数据集输入位置”右侧输入框,在弹出的“数据集输入位置”对话框中,选择“OBS桶”和“文件夹”,然后单击“确定”。 数据集输出位置 待新建的数据集存储至OBS的位置。 单击“数据集输出位置”右侧的“修改”,在弹出的“数据集输出位置”对话框中
行业场景的业务数据,快速获得定制服务。 适用场景 知识图谱、文本理解、智能问答、舆情分析等实体抽取场景。 优势 针对多场景领域提供预训练模型,支持抽取文本中的实体,分类准确率高。 提供完善的文本处理能力,支持多种数据格式内容,适配不同场景的业务数据。 可根据使用过程中的反馈持续优化模型。
片的“进入套件”。 进入自然语言处理套件控制台。 在左侧导航栏选择“应用开发>工作台”。 默认进入“我的应用”页签。 在“我的应用”页签下,选择已创建的应用,单击操作列的“查看”。 进入应用详情页,默认进入“应用开发”页签。 单击“应用资产”,在“应用资产”页签下,选择数据集,单击“管理”。
检查是否存在训练数据过少的情况,建议每个标签的样本数不少于100个,如果低于这个量级建议扩充。 检查不同标签的样本数是否均衡,建议不同标签的样本数量级相同,并尽量接近,如果有的类别数据量很高,有的类别数据量较低,会影响模型整体的识别效果。 选择适当的学习率和训练轮次。 通过详细评估中的错误识别示例,有针对性地扩充训练数据。
需要对模型进行评估和考察。往往不能一次性获得一个满意的模型,需要反复的调整算法参数、数据,不断评估训练生成的模型。 一些常用的指标,如精准率、召回率、F1值等,能帮助您有效的评估,最终获得一个满意的模型。 前提条件 已在自然语言处理套件控制台选择“多语种文本分类工作流”新建应用,并训练模型,详情请见训练模型。
标注数据 由于模型训练过程需要大量有标签的数据,如果开发应用时,上传的训练数据集是未标注的,需要对数据集中的数据进行标注。 针对文本分类场景,是对文本的内容按照标签进行分类处理,标签名是由中文、大小写字母、数字、中划线或下划线组成,且不超过32位的字符串。 进入数据标注页面 在“数据
支持换行。 基于已设计好的分类标签准备文本数据。每个分类标签需要准备5个及以上数据,为了训练出效果较好的模型,建议每个分类标签准备100个以上的数据。 针对未标注数据,将待标注的内容放在一个文本文件内,通用文本分类工作流仅支持中文文本内容的分类,其他语种的文本分类请使用多语种文本分类工作流。
GiB”,适合纯CPU类型的负载运行的模型。 如果资源池选择专属资源池,勾选自己在ModelArts创建的专属资源池。 计算节点个数 设置当前版本模型的实例个数。如果节点个数设置为1,表示后台的计算模式是单机模式;如果节点个数设置大于1,表示后台的计算模式为分布式的。请根据实际编码情况选择计算模式。
在ModelArts Pro控制台界面,单击“自然语言处理”套件卡片的“进入套件”。 进入自然语言处理套件控制台。 在左侧导航栏选择“应用开发>工作台”。 默认进入“我的应用”页签。 在“我的应用”页签下,选择已创建的应用,单击操作列的“查看”。 进入应用详情页,默认进入“应用开发”页签。
模型训练的数据,上传至OBS中。 准备数据 选择数据 在使用通用文本分类工作流开发应用时,您需要新建或导入训练数据集,后续训练模型操作是基于您选择的训练数据集。 选择数据 标注数据(可选) 由于模型训练过程需要大量有标签的数据,如果开发应用时,上传的训练数据集是未标注的,需要对数据集中的数据进行标注。
文本数据至少包含2个及以上的标签。每个分类标签需要准备5个及以上数据,为了训练出效果较好的模型,建议每个分类标签准备100个以上的数据。 多语种文本分类工作流仅支持对单语种的文本分类,当前支持文本分类的语种包括英语、法语、德语、西班牙语、葡萄牙语、阿拉伯语等。暂不支持对同一文本中含多语种的文本进行分类训练。
可根据使用过程中的反馈持续优化模型。 工作流流程 在“ModelArts Pro>自然语言处理套件”控制台,选择“我的工作流>多语种文本分类工作流”新建应用,详细操作请见新建应用。您可以开发多语种的文本分类应用,通过训练其他语种的文本分类预测模型,实现文本分类功能。 图1 多语种文本分类流程
依赖服务计费 由于使用自然语言处理套件的过程中依赖对象存储服务(Object Storage Service,OBS)的使用,OBS服务会产生相应的费用。 自然语言处理套件涉及OBS收费的功能如表2所示,价格详情请见OBS价格详情。 表2 自然语言处理套件涉及OBS收费功能 功能
依赖服务计费 由于使用自然语言处理套件的过程中依赖对象存储服务(Object Storage Service,OBS)的使用,OBS服务会产生相应的费用。 自然语言处理套件涉及OBS收费的功能如表2所示,价格详情请见OBS价格详情。 表2 自然语言处理套件涉及OBS收费功能 功能
申请公测操作完成后,单击“前往我的公测”,进入“我的公测”页面。当“审批状态”显示为“审批通过”时,表示您已经获得了该行业套件的公测权限。 申请行业套件的公测权限后,即可进入套件使用相关功能。 进入套件 登录ModelArts Pro控制台,选择行业套件卡片并单击“进入套件”,即可进入行业套件的控制台。
ModelArts Pro的应用场景和用户群体 ModelArts Pro基于华为云的先进算法和快速训练能力,提供预置工作流和模型。用户可以使用ModelArts Pro套件中特定行业场景的预置行业工作流,满足快速定制的需求,快速进行应用开发。 当前ModelArts Pro开放的预置套件有文
SK)两部分,华为云通过AK识别用户的身份,通过SK对请求数据进行签名验证,用于确保请求的机密性、完整性和请求者身份的正确性。 登录访问密钥页面,依据界面操作指引,获取AK、SK。下载得到的访问密钥为credentials.csv文件,文件中的B列和C列分别是AK、SK信息。 图4
Pro是为企业级AI应用打造的专业开发套件。基于华为云的先进算法和快速训练能力,提供预置工作流和模型,提升企业AI应用的开发效率,降低开发难度。当前ModelArts Pro开放了文字识别套件、自然语言处理套件、视觉套件、HiLens套件,详细介绍请见产品介绍。用户基于自身行业、场景的需求,快速自
可以构建专有的自然语言处理分类模型,将问询需求分发到对应的部门,显著提高工作效率。 特点:构建专有的自然语言处理分类模型,将大量的政务询问分发到对应的部门,显著提高工作效率。 优势:针对场景领域提供预训练模型,效果远好于通用自然语言处理模型。可根据使用过程中的反馈持续优化模型 。