检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在“基本信息”页签可查看数据集的详细信息。 在“数据预览”页签可查看加工后的数据内容。 在“数据血缘”页签查看该数据集所经历的操作,如导入、合成等操作。 在“操作记录”页签可以查看数据集所经历的操作及状态等信息。 单击操作列的“删除”,可删除不需要的数据集。 如果需要恢复删除的数据集,可单击右上角“显示已删除数据
在“基本信息”页签可查看数据集的详细信息。 在“数据预览”页签可查看发布后的数据内容。 在“数据血缘”页签查看该数据集所经历的操作,如导入、合成等操作。 在“操作记录”页签可以查看数据集所经历的操作及状态等信息。 单击操作列的“删除”,可删除不需要的数据集。 如果需要恢复删除的数据集,可单击右上角“显示已删除数据
0个。 网页 html 单个文件大小不超过50GB,文件数量最多1000个。 预训练文本 jsonl jsonl格式:text表示预训练所使用的文本数据,具体格式示例如下: {"text":"盘古大模型,是华为推出的盘古系列AI大模型,包括NLP大模型、多模态大模型、CV大模型、科学计算大模型、预测大模型。"}
海洋气象数据通常来源于气象再分析。气象再分析是通过现代气象模型和数据同化技术,重新处理历史观测数据,生成高质量的气象记录。这些数据既可以覆盖全球范围,也可以针对特定区域,旨在提供完整、一致且高精度的气象数据。 再分析数据为二进制格式,具体格式要求详见表1。 表1 气象类数据集格式要求
原始数据往往包含噪声、缺失值或不一致性,这会直接影响模型训练效果。通过数据清洗操作,可以有效去除无效信息、填补缺失数据,确保数据的准确性与一致性,从而提高数据质量,为模型训练提供可靠的输入。 扩展数据集的多样性和泛化能力 在数据量不足或样本不平衡的情况下,数据合成可以生成新数据,扩展数据集的规模和多样性。通过增加数
Studio大模型开发平台为用户提供了灵活且高效的空间资产管理方式。平台支持用户根据不同的使用场景、项目类别或团队需求,自定义创建多个工作空间。每个工作空间都是完全独立的,确保了工作空间内的资产不受其他空间的影响,从而保障数据和资源的隔离性与安全性。用户可以根据需求灵活划分工作空间,实现资源的有序管理与优化配置,
加工视频类数据集 清洗视频类数据集 标注视频类数据集 父主题: 加工数据集
加工气象类数据集 清洗气象类数据集 父主题: 加工数据集
数据集清洗算子介绍 文本类清洗算子能力清单 视频类清洗算子能力清单 图片类清洗算子能力清单 气象类清洗算子能力清单 父主题: 加工数据集
发布文本类数据集 评估文本类数据集 配比文本类数据集 流通文本类数据集 父主题: 发布数据集
发布视频类数据集 评估视频类数据集 流通视频类数据集 父主题: 发布数据集
加工文本类数据集 清洗文本类数据集 合成文本类数据集 标注文本类数据集 父主题: 加工数据集
每个工作空间在资产层面完全隔离,确保资产的安全性和操作的独立性,有效避免交叉干扰或权限错配带来的风险。用户可以结合实际使用场景,如不同的项目管理、部门运营或特定的研发需求,划分出多个工作空间,实现资产的精细化管理与有序调配,帮助用户高效地规划和分配任务,使团队协作更加高效。 此外,平
本生成问答对。 图1 预训练文本类数据集合成指令参数配置示例 其中,各参数介绍如下: 变量取值:输入参数的各个变量取值。取值可以是数据集中的字段变量,也可以自定义变量值。 保存至任务输出参数(可选):该参数为输出的结果。由于输出结果为问答对形式,因此生成的问题必须选择context参数,回答必须选择target参数。
发布图片类数据集 评估图片类数据集 配比图片类数据集 流通图片类数据集 父主题: 发布数据集
加工图片类数据集 清洗图片类数据集 标注图片类数据集 父主题: 加工数据集
其他类数据集格式要求 除文本、图片、视频、气象、预测类数据集外,平台还支持导入其他类数据集,即用户训练模型时使用的自定义数据集。 其他类数据集支持发布其他类数据集操作,不支持数据加工操作。 其他类数据集要求单个文件大小不超过50GB,单个压缩包大小不超过50GB,文件数量最多1000个。
发布其他类数据集 其他类数据集当前仅支持发布为“默认格式”,操作步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据流通”,单击界面右上角“创建流通任务”。 在“创建流通任务”页面,选择数据集模态,如“其他
发布预测类数据集 预测类数据集当前仅支持发布为“默认格式”,操作步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据流通”,单击界面右上角“创建流通任务”。 在“创建流通任务”页面,选择数据集模态,如“预测
单击创建好的空间,进入ModelArts Studio大模型开发平台。 如果用户具备多个空间的访问权限,可在页面左上角单击切换空间。 图2 切换空间 管理盘古工作空间 盘古工作空间支持用户查看当前空间详情,修改空间名称与描述,还可以对不需要的空间实现删除操作。 登录ModelArts Studio