检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
”变为“运行成功”,表示数据已经完成清洗。 在完成数据清洗后,如果无需使用数据合成与数据标注功能,可直接在“数据清洗”页面单击操作列“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据加工 > 加工数据集”中查看。 父主题: 加工文本类数据集
在“创建流通任务”页面,选择数据集模态,如“预测 > 时序”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。 在“格式配置”选择发布格式。当前预测类数据集仅支持发布默认格式。 填写数据集名称、描述,设置数据集“资产可见性”,设置扩展信息后,单击“确定”执行数据集流通操作。 当任务
节至创建文本类数据集评估任务。 创建文本类数据集评估标准步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据评估”,在“人工评估标准”页签,平台预置了文本类数据集评估标准“NLP数据质量标准
在左侧导航栏中选择“数据工程 > 数据发布 > 数据评估”,单击界面右上角“创建评估任务”。 在“数据集选择”页签选择需要评估的加工数据集,并设置抽样样本的数量。 单击“下一步”,选择评估标准。单击“下一步”设置评估人员,单击“下一步”填写任务名称。 单击“完成创建”,将返回至“数据评估”页
发布文本类数据集 评估文本类数据集 配比文本类数据集 流通文本类数据集 父主题: 发布数据集
加工文本类数据集 清洗文本类数据集 合成文本类数据集 标注文本类数据集 父主题: 加工数据集
发布视频类数据集 评估视频类数据集 流通视频类数据集 父主题: 发布数据集
数据集清洗算子介绍 文本类清洗算子能力清单 视频类清洗算子能力清单 图片类清洗算子能力清单 气象类清洗算子能力清单 父主题: 加工数据集
文本类清洗算子能力清单 数据清洗算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持文本类数据集的清洗操作,分为数据提取、数据转换、数据过滤三类,文本类加工算子能力清单见表1。
可部分标注”,则可在标注部分数据后,单击右上角的“提交全部标注数据”,让AI大模型自动标注剩余数据。 在完成数据标注后,如果无需进行标注审核,可直接在“数据标注 > 任务管理”页面单击“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据加工 > 加工数据集”中查看。 审核标注后的视频类数据集
进入审核页面后,可通过单击“通过”或“不通过”逐一对数据进行审核,直至所有数据审核完成。 审核过程中可开启“标注前后对比”功能,查看当前数据标注前后的内容。 在完成数据标注审核后,需在“数据标注 > 任务管理”页面单击“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据加工 > 加工数据集”中查看。 父主题:
文本类数据集格式要求 ModelArts Studio大模型开发平台支持创建文本类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 文本类数据集格式要求 文件内容 文件格式 文件要求 文档 txt、mobi、epub、docx、pdf 单个文件大小不超过50GB,文件数量最多1000个。
加工视频类数据集 清洗视频类数据集 标注视频类数据集 父主题: 加工数据集
加工气象类数据集 清洗气象类数据集 父主题: 加工数据集
视频类数据集格式要求 ModelArts Studio大模型开发平台支持创建视频类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 视频类数据集格式要求 文件内容 文件格式 文件要求 视频 mp4或avi 支持mp4、avi视频格式上传,所有视频可以放在多个文件夹
在左侧导航栏中选择“数据工程 > 数据发布 > 发布数据集”。 单击数据集名称查看发布数据集的基本信息、数据预览、数据血缘以及操作记录。 在“基本信息”页签可查看数据集的详细信息。 在“数据预览”页签可查看发布后的数据内容。 在“数据血缘”页签查看该数据集所经历的操作,如导入、合成等操作。
配比图片类数据集 数据配比是将多个数据集按照特定比例关系组合并发布为“发布数据集”的过程,确保数据的多样性、平衡性和代表性。 如果单个数据集已满足您的需求,可跳过此章节至流通图片类数据集。 创建图片类数据集配比任务 创建图片类数据集配比任务步骤如下: 登录ModelArts St
可部分标注”,则可在标注部分数据后,单击右上角的“提交全部标注数据”,让AI大模型自动标注剩余数据。 在完成数据标注后,如果无需进行标注审核,可直接在“数据标注 > 任务管理”页面单击“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据加工 > 加工数据集”中查看。 审核标注后的图片类数据集
盘古大模型的安全性主要从以下方面考虑: 数据安全和隐私保护:大模型涉及大量训练数据,这些数据是重要资产。为确保数据安全,需在数据和模型训练的全生命周期内,包括数据提取、加工、传输、训练、推理和删除的各个环节,提供防篡改、数据隐私保护、加密、审计和数据主权保护等机制。在训练和推理过程中,通过数据脱敏、隐私计算
当数据清洗任务运行成功后,状态将从“运行中”变为“运行成功”,表示数据已经完成清洗。 在完成数据清洗后,如果无需使用数据标注功能,可直接在“数据清洗”页面单击操作列“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据加工 > 加工数据集”中查看。 父主题: 加工图片类数据集