检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
OBS 2.0支持通用文本分类工作流 自然语言处理套件提供文本分类项目的通用工作流,仅适用于中文文本的分类场景,支持单标签分类和多标签分类。 已发布北京四区域 通用文本分类工作流 OBS 2.0支持多语种文本分类工作流 自然语言处理套件提供多语种文本分类项目的通用工作流,支持包括英
新建应用后,您可以在ModelArts Pro控制台查看应用详情,包括应用开发的配置信息、应用的历史版本、应用资产、应用监控。 前提条件 已在自然语言处理套件控制台选择“通用文本分类工作流”新建应用,详情请见新建应用。 进入应用详情页 登录ModelArts Pro管理控制台,单击“自然语言处理”套件卡片的“进入套件”。
Gallery,用户还可以相互分享不同行业场景的行业AI 工作流。ModelArts Pro以“授人以渔”的方式助力企业构建AI 能力,赋能不同行业的AI 应用开发者,让AI 变得触手可及。 与ModelArts的关系 ModelArts Pro底层依托一站式AI 开发管理平台ModelArts 提供的领先算法技术,保证AI
ModelArts Pro的应用场景和用户群体 ModelArts Pro基于华为云的先进算法和快速训练能力,提供预置工作流和模型。用户可以使用ModelArts Pro套件中特定行业场景的预置行业工作流,满足快速定制的需求,快速进行应用开发。 当前ModelArts Pro开放
业开发、调参等。 ModelArts Pro根据预置工作流生成指定场景模型,无需深究底层模型开发细节。ModelArts Pro致力于解决通用API局限性、AI算法开发门槛高等难题,提供行业AI定制化开发套件,沉淀行业知识,让开发者聚焦自身业务,底层依托ModelArts平台。 图1
文字识别套件当前提供了单模板工作流和多模板工作流,自主构建文字识别模板,识别模板图片中的文字,提供高精度的文字识别模型,保证结构化信息提取精度。 通用单模板工作流 通过构建文字识别模板,识别单个板式图片中的文字,提供高精度的文字识别模型,保证结构化信息提取精度。 多模板分类工作流 支持用
自然语言处理套件 行业套件介绍 新建应用 通用文本分类工作流 多语种文本分类工作流 通用实体抽取工作流 更新应用版本 查看应用详情 监控应用 删除应用
数据集要求 通用文本分类工作流 文件格式要求为txt或者csv,且编码格式为“UTF-8”格式,文件大小不能超过8MB。 以换行符作为分隔符,每行数据代表一个样本数据,单个样本不能有分行显示,不支持换行。 基于已设计好的分类标签准备文本数据。每个分类标签需要准备5个及以上数据,为
根据业务需求填写“应用名称”、“应用负责人”和“应用描述”,仅支持英文、中文、数字、下划线、中划线。选择“所属行业”及工作流。 图4 新建应用 确认信息后,单击“确定”。 成功新建应用。 后续操作 根据所选的预置工作流开发应用。 通用单模板工作流 多模板分类工作流 父主题: 文字识别套件
包括“应用名称”(必填项)、“应用负责人”和“应用描述”。 工作流配置 选择“所属行业”和“选择工作流”。当前自然语言处理提供“通用文本分类工作流”、“多语种文本分类工作流”、“通用实体抽取工作流”等。 资源配置 分别选择“数据处理资源”和“模型训练资源”,即用于数据处理和模型训练的资源池和资源类型。
段类型,详情请见2.4.8-自定义字段类型(通用单模板分类工作流)、自定义字段类型(多模板分类工作流)。 查看应用开发配置 在“应用开发”页面,您可以查看应用开发过程中各个步骤的配置信息。 您也可以对工作流开发的配置信息进行编辑,通用单模板工作流操作指引请见工作流介绍,多模板工作流操作指引请见工作流介绍。
文字识别套件 行业套件介绍 新建应用 通用单模板工作流 多模板分类工作流 调用API和SDK 查看应用详情 删除应用
新建应用 零售商品识别工作流 热轧钢板表面缺陷检测工作流 云状识别工作流 刹车盘识别工作流 无监督车牌检测工作流 第二相面积含量测定工作流 通用图像分类工作流 更新应用版本 查看应用详情 监控应用 管理设备 删除应用
支持开发属于自己的文字识别应用,服务自动生成“API URI”,您可以调用当前模板服务。调用方式请见API调用指南。错误码请参见错误码。 通用单模板工作流 多模板分类工作流 通用单模板工作流 功能介绍 支持构建文字识别模板,识别单个板式图片中的文字,提供高精度的文字识别模型,保证结构化信息提取精度。
回率”、“F1值”、“更新时间”和可执行的“操作”。 图1 历史版本 查看应用资产 在“应用资产”页签下,可以查看当前应用的资产信息,比如通用文本分类工作流中的资产信息就是训练数据集,您可以查看“数据集名称”、“描述”、“数据量”、“标注进度”、“标签总数”、“创建时间”和“操作
好的模型效果。 每修改一次,更新成一个版本,不同的作业版本之间,能快速进行对比,获得对比结果。 前提条件 已在自然语言处理套件控制台选择“通用文本分类工作流”新建应用,详情请见新建应用。 更新应用版本 登录ModelArts Pro管理控制台,单击“自然语言处理”套件卡片的“进入套件”。
在使用第二相面积含量测定工作流开发应用之前,您需要提前准备用于模型训练的数据,上传至OBS服务中。 数据标签 标注基于ModelArts的图像分割标注基础能力,由于第二相边界多为不规则形状,目前采用多边形标注第二相,标签为“second_phase”。 数据集要求 文件名规范,不能有中文,不能有+、空格、制表符。
保证图片质量:不能有损坏的图片;目前支持的格式包括jpg、jpeg、bmp、png。 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。 为保证模型的泛化能力,数据集尽量覆盖所有标签的图片,且数据集中每个标签要有大于5个样本。 针对未标注数据,要求将图片放在一个目录里,示例如下所示。 ├─dataset-import-example
如果不正确,单击“上一步”,对当前模板进行修改。 如果识别结果正确,可对模板作进一步评估,详情请见评估模板。 评估模板 通过上传测试图片,在线评估模板识别并提取结构化文字的能力。 首先在“应用开发>评估”页面右侧选择与待评估模板对应的原模板,然后选择本地上传测试图片或者上传在线图片,评估模板。 图4 评估模板 本地上传图片
、BMP。 不要把明显不同的多个任务数据放在同一个数据集内。 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。 为保证模型的泛化能力,数据集尽量覆盖可能出现的各种场景。 数据集样本数应大于100,用于测试的已标注数据应不少于20张,样本数达1万张以上性能更优。 为了准确