检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Pro上传的训练数据集存储在OBS中。 标注数据 ModelArts Pro标注的数据存储在OBS中。 管理数据集 数据集存储在OBS中。 数据集的标注信息存储在OBS中。 支持从OBS中导入数据。 训练模型 训练模型使用的数据集存储在OBS中。 训练模型的运行脚本存储在OBS中。 训练模型输出的模型存储在指定的OBS中。
框选参照字段 在文字识别过程中,套件会检查所识别图片与模板图片是否为同一种模板,并将识别图片校正后再提取结构化信息,支持图片平移、旋转与拉伸变换。 为了检查并校正待识别的图片,这就需要在模板图片中指定参照字段。通过参照字段的文字内容来判断是否属于同一种模板,通过参照字段的位置来校正待识别图片。
本次样例以蛋糕商品为例,设计“cream_cake”、“fruit_cake”、“cheese_cake”这三类标签。 数据格式 保证图片质量:不能有损坏的图片。 目前支持的格式包括JPG、JPEG、PNG、BMP。 训练数据集 本样例训练数据集使用未标注数据。 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。
您也可以单击“我的工作流”,切换至“我的工作流”页签,选择工作流并单击卡片中的“新建应用”。 根据业务需求填写“应用名称”、“应用负责人”和“应用描述”,仅支持英文、中文、数字、下划线、中划线。选择“所属行业”及工作流。 图4 新建应用 确认信息后,单击“确定”。 成功新建应用。 后续操作 根据所选的预置工作流开发应用。
“在线服务”:将服务部署为在线服务,进而在线使用服务,也可以直接调用对应的API。 “HiLens部署”:将服务部署至HiLens设备。当前部署支持的HiLens设备为Atlas 500。使用HiLens部署开发应用前,需要提前在华为HiLens控制台注册Atlas 500设备,详细注册方式请前往华为云论坛参与讨论。
新增标签 查看已标注文本 在数据集详情页,单击“已标注”页签,您可以查看已完成标注的文本列表。您也可以在右侧的“全部标签”中了解当前数据集支持的所有标签信息。 修改标注 当数据完成标注后,您还可以进入已标注页签,对已标注的数据进行修改。 基于文本修改 在数据集详情页,单击“已标注
以换行符作为分隔符,每行数据代表一个样本数据,单个样本不能有分行显示,不支持换行。 文本数据至少包含2个及以上的标签。每个分类标签需要准备5个及以上数据,为了训练出效果较好的模型,建议每个分类标签准备100个以上的数据。 多语种文本分类工作流仅支持对单语种的文本分类,当前支持文本分类的语种包括英语、法语、德语、西
默认按V001、V002递增规则进行命名,您也可以自定义版本名称。版本名称只能包含字母、数字、中划线或下划线。 “版本格式” 仅“表格”类型数据集支持设置版本格式,支持“CSV”和“CarbonData”两种。 说明: 如果导出的CSV文件中存在以“=”“+”“-”和“@”开头的命令时,为了安全考
“专属资源池”:提供独享的计算资源,不与其他用户共享,更加高效。使用专属资源池需要在ModelArts创建专属资源池。 “部署方式”:选择应用的部署方式,当前仅支持“在线部署”。 确认信息后,单击“确定”。 进入“应用开发”页面,您可以根据流程指引,基于您选择的工作流开发应用。 图4 开发应用 后续操作
以换行符作为分隔符,每行数据代表一个样本数据,单个样本不能有分行显示,不支持换行。 基于已设计好的实体标签准备文本数据。每个实体标签需要准备20个及以上数据,为了训练出效果较好的模型,建议每个实体标签准备100个以上的数据。 本工作流只支持上传未标注数据,将待标注的内容放在一个文本文件内。 上传数据至OBS
见AI开发平台Modelarts。 与华为HiLens的关系 ModelArts Pro的部分预置工作流支持部署服务至边缘设备,华为HiLens为边缘设备提供云上管理平台,支持海量设备管理、模型管理和技能管理。华为HiLens的更多信息请参见《华为HiLens用户指南》。
通过构建文字识别模板,识别单个板式图片中的文字,提供高精度的文字识别模型,保证结构化信息提取精度。 多模板分类工作流 支持用户自定义多个文字识别模板,通过模型训练,自动识别图片所需使用的模板,从而支持从大量不同板式图像中提取结构化信息。 详细介绍请见产品介绍>文字识别套件。 使用预置工作流开发应用流程
单个样本不能有分行显示,不支持换行。 基于已设计好的分类标签准备文本数据。每个分类标签需要准备5个及以上数据,为了训练出效果较好的模型,建议每个分类标签准备100个以上的数据。 针对未标注数据,将待标注的内容放在一个文本文件内,通用文本分类工作流仅支持中文文本内容的分类,其他语种的文本分类请使用多语种文本分类工作流。
字,快速实现文档、票证等场景的文字识别。详情请见使用单模板工作流开发应用。 多模板工作流 通过工作流指引支持自定义多个文字识别模板,通过模型训练,自动识别图片所属模板,从而支持从大量不同板式图像中提取结构化信息。通常适用于物流行业,实现多样化快递单场景的文字识别。详情请见使用多模板工作流开发应用。
通用文本分类工作流 提供文本分类项目的通用工作流,仅适用于中文文本的分类场景,支持单标签分类和多标签分类。 多语种文本分类工作流 提供多语种文本分类项目的通用工作流,支持包括英语,法语,德语,西班牙语,葡萄牙语,阿拉伯语等语种的文本,支持单标签分类和多标签分类。 通用实体抽取工作流 提供实体抽取项
新建应用,详情请见新建应用。 提前准备模板图片以及训练分类器的数据集,其要求请见数据要求。 数据要求 保证图片质量:不能有损坏的图片;目前支持的格式包括JPG、JPEG、PNG、BMP。 图片最大边不大于4096px,最小边不小于100px,且大小不超过4M。 训练分类器的数据集
数据集状态 按上传的数据是否标注分为“已标注数据集”和“未标注数据集”。数据格式请见数据集要求。 数据上传方式 训练数据上传的方式,当前仅支持把数据上传至OBS,默认为“选择obs文件”。 数据集输入位置 训练数据存储至OBS的位置。 单击“数据集输入位置”右侧输入框,在弹出的“
服务部署参数说明 参数 说明 服务名称 待部署的服务名称,首次部署服务请单击可修改默认服务名称。 如果在不同版本非首次部署服务,服务名称不支持修改。 描述 待部署服务的简要说明。 资源池 用于部署服务的资源池和资源类型。资源池可选“公共资源池”和“专属资源池”。 “公共资源池”:
服务部署参数说明 参数 说明 服务名称 待部署的服务名称,首次部署服务请单击可修改默认服务名称。 如果在不同版本非首次部署服务,服务名称不支持修改。 描述 待部署服务的简要说明。 资源池 用于部署服务的资源池和资源类型。资源池可选“公共资源池”和“专属资源池”。 “公共资源池”:
服务部署参数说明 参数 说明 服务名称 待部署的服务名称,首次部署服务请单击可修改默认服务名称。 如果在不同版本非首次部署服务,服务名称不支持修改。 描述 待部署服务的简要说明。 资源池 用于部署服务的资源池和资源类型。资源池可选“公共资源池”和“专属资源池”。 “公共资源池”: