检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
C地址、IMEI、护照、车架号等个人敏感信息进行数据脱敏,或直接删除敏感信息。 中文简繁转换 将中文简体和中文繁体进行转换。 符号标准化 查找文本中携带的非标准化符号进行标准化、统一化转换。 统一空格:将所有Unicode空格(如U+00A0、U+200A)转换为标准空格(U+0020)。
数据工程操作流程见图1、表1。 图1 数据集构建流程图 表1 数据集构建流程表 流程 子流程 说明 导入数据至盘古平台 创建导入任务 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 加工数据集 清洗数据集 通过专用的清洗算子对数据进行预处理,确保数据符合模型训练
AgEwgguVBgkqhkiG... stream: true Request Body: { "query": "查询A12会议室在9:00到10:00的状态" } 响应示例 data:{"event":"start","createdTime":1735558575017}
V大模型数据集流程见表2。 表2 盘古CV大模型数据集构建流程 流程 子流程 说明 操作指导 导入数据至盘古平台 创建导入任务 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 导入数据至盘古平台 加工图片、视频类数据集 清洗图片、视频类数据集 通过专用的清
> 插件”,在所需插件中单击“ > 复制ID”。 plugin_configs 是 Map<String, String> 插件配置,对应查询需要运行时传值的参数。 响应参数 流式(Header中的stream参数为true) 状态码: 200 表5 流式输出的数据单元 参数 参数类型
大模型数据集流程见表3。 表3 盘古NLP大模型数据集构建流程 流程 子流程 说明 操作指导 导入数据至盘古平台 创建导入任务 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 导入数据至盘古平台 加工文本类数据集 清洗文本类数据集 通过专用的清洗算子对数据
据基础。 数据工程包含的具体功能如下: 数据获取:数据获取是数据工程的第一步,支持将不同来源和格式的数据导入平台。 支持的接入方式:通过OBS服务导入数据。 支持的数据类型:文本、图片、视频、气象、预测、其他。 自定义格式:用户可以根据业务需求上传自定义格式的数据,提升数据获取的灵活性和可扩展性。