检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
据如下特征过滤: 待保留的词个数。 待保留的平均词长度。 段落结尾不完整句子过滤 按照句子的过滤粒度,自动识别段落结尾处的内容是否完整,如果不完整,则过滤。 广告数据过滤 按照句子的过滤粒度,删除文本中包含广告数据的句子。 QA对过滤 过滤包含以下情况的QA对: 问题不是string格式。
数据集清洗算子介绍 文本类清洗算子能力清单 视频类清洗算子能力清单 图片类清洗算子能力清单 气象类清洗算子能力清单 父主题: 加工数据集
发布文本类数据集 评估文本类数据集 配比文本类数据集 流通文本类数据集 父主题: 发布数据集
发布视频类数据集 评估视频类数据集 流通视频类数据集 父主题: 发布数据集
加工文本类数据集 清洗文本类数据集 合成文本类数据集 标注文本类数据集 父主题: 加工数据集
加工视频类数据集 清洗视频类数据集 标注视频类数据集 父主题: 加工数据集
加工气象类数据集 清洗气象类数据集 父主题: 加工数据集
"target":"当然可以,基于你的兴趣,我推荐你阅读《自动驾驶的未来》。"}] 单个文件大小不超过50GB,文件数量最多1000个。 问答排序 jsonl、csv jsonl格式:context表示问题,targets答案1、2、3表示答案的优劣顺序,最好的答案排在最前面。 { "context":"context内容"
致性等多个质量维度,用户可以直接使用该标准或在该标准的基础上创建评估标准。 若您希望使用平台预置的评估标准,可跳过此章节至创建图片类数据集评估任务。 创建图片类数据集评估标准步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程
发布图片类数据集 评估图片类数据集 配比图片类数据集 流通图片类数据集 父主题: 发布数据集
加工图片类数据集 清洗图片类数据集 标注图片类数据集 父主题: 加工数据集
登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据流通”,单击界面右上角“创建流通任务”。 在“创建流通任务”页面,选择数据集模态,如“气象 > 气象数据”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。
登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据流通”,单击界面右上角“创建流通任务”。 在“创建流通任务”页面,选择数据集模态,如“其他 > 自定义”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。
登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据流通”,单击界面右上角“创建流通任务”。 在“创建流通任务”页面,选择数据集模态,如“预测 > 时序”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。
图1 算子编排 在编排过程中,可单击右上角“保存为新模板”将当前编排流程保存为模板。后续创建新的数据清洗任务时,可直接单击“选择加工模板”进行使用。 若选择使用加工模板,将删除当前已编排的清洗步骤。 图2 选择加工模板 清洗步骤编排完成后,单击右下角“启动清洗”,将启动清洗任务。
模型,为了使这些数据集能够被这些大模型正常训练,平台支持发布不同格式的数据集。 当前支持默认格式、盘古格式: 默认格式:数据工程功能支持的原始格式。 盘古格式:使用盘古大模型训练时所需要使用的数据格式。 如果使用该数据集训练盘古大模型,请将选择格式配置为盘古格式。 填写数据集名称
图1 算子编排 在编排过程中,可单击右上角“保存为新模板”将当前编排流程保存为模板。后续创建新的数据清洗任务时,可直接单击“选择加工模板”进行使用。 若选择使用加工模板,将删除当前已编排的清洗步骤。 图2 选择加工模板 清洗步骤编排完成后,单击右下角“启动清洗”,将启动清洗任务。
图1 算子编排 在编排过程中,可单击右上角“保存为新模板”将当前编排流程保存为模板。后续创建新的数据清洗任务时,可直接单击“选择加工模板”进行使用。 若选择使用加工模板,将删除当前已编排的清洗步骤。 图2 选择加工模板 清洗步骤编排完成后,单击右下角“启动清洗”,将启动清洗任务。
"V", "Z"]} geo_range:定义了数据覆盖的地理范围,纬度(lat)从-90.0到90.0,经度(lon)从0.0到360.0。 time_range:数据的时间范围,时间戳格式为毫秒数。 total_size:数据文件的总大小,单位为字节。 surface_featur
平台支持创建预测类数据集,创建时可导入时序数据、回归分类数据。 时序数据:时序预测数据是一种按时间顺序排列的数据序列,用于预测未来事件或趋势,过去的数据会影响未来的预测。 回归分类数据:回归分类数据包含多种预测因子(特征),用于预测连续变量的值,与时序数据不同,回归分类数据不要求数据具有时间顺序。 具体格式要求详见表1。