检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据质量 数据质量检测算子,是用户在进行离线计算之前使用原始初始格式数据(离线数据源中的离线数据)或者通用格式数据检测输入数据是否合法。包括离线数据中是否包含特殊字符,数据类型是否正确,是否缺少必备信息等。 前提条件 已将离线数据上传至OBS桶中。
数据质量管理 数据结构 数据导入 数据探索 父主题: 数据源管理
宽表:推荐系统内部格式,以行为数据为主,将行为数据中涉及到的用户数据和物品数据整合成一条数据。 画像:画像分为用户画像和物品画像,分别用于存储用户输入的用户特征和物品特征。如果同一用户或物品有多条记录,将会按照用户ID或者物品ID去重。
数据探索 数据探索介绍 数据探索是针对当前数据源的数据进行挖掘和分析,主要聚焦在特征的分布范围、统计以及特征齐全度等,使用户能够更了解数据,进而指导在特征工程以及相关算法的配置。
数据源如何收费? 数据源的收费包括三项。 “OBS存储”:将离线数据源上传至OBS进行存储,根据存储空间大小进行计费。详见OBS计费详情。 “画像数据”:在数据源导入数据成功后,按每小时每百万条画像进行计费,在删除数据源后,将停止计费。
创建离线数据源 在使用RES之前,首先您需要创建一个数据源,后续的操作,如修改数据源、创建自定义推荐,都是基于您创建的数据源进行的。 前提条件 已创建用于存储数据的OBS桶及文件夹,并且数据存储的OBS桶与RES在同一区域。 需要使用的数据已上传至OBS。
表1 基础数据表 数据类型 表名 用户类数据 用户属性表 物品类数据 物品属性表 行为类数据 用户操作行为表 用户需要自己手工创建整理这些表并存储到OBS上。 每张表的表结构必须符合推荐系统的要求,列名和字段类型需要和规范中保持一致(参考下面的表结构说明)。
数据结构 当数据源创建完成,您可以进入数据源详情页面进行数据质量管理操作。数据质量管理操作可以将离线数据源经过数据特征抽取,生成推荐系统内部通用的数据格式。经过数据质量检测来确保数据的合法性。
上传离线数据源至OBS RES使用对象存储服务(Object Storage Service,简称OBS)进行数据源的存储。因此,在使用RES之前您需要开通OBS服务并创建桶,然后在OBS桶中上传用户数据用于推荐作业的计算。
近线数据可实时更新、增加用户和物品表数据,同时实时行为数据,可作为后续近线召回计算,这些近线行为数据也会和离线行为数据进行汇总存储,供离线计算。
如何上传数据至OBS 使用RES进行推荐时,您需要将数据上传至对象存储服务(OBS)桶中。您可以登录OBS管理控制台创建OBS桶,并在您创建的OBS桶中创建文件夹,然后再进行数据的上传。创建OBS桶和上传文件夹的操作指导请参见创建桶和上传对象。
表7 algorithm_parameters参数说明-DATA_QUALITY_INSPECTION算子 参数名称 是否必选 参数类型 说明 输出路径(result_path) 是 String 所有输出数据(错误数据以及错误信息)的存储路径,文件夹。
数据源 创建数据源 查询数据源列表 查询数据源详情 修改数据源内容 修改数据源特征 删除数据源 查询数据源任务结果 父主题: API
数据探索是什么?近线实时数据如何在数据探索中的报告体现? 数据探索是针对当前数据源的数据进行挖掘和分析,主要聚焦在特征的分布范围、统计以及特征齐全度等,使用户能够更了解数据,进而指导在特征工程以及相关算法的配置。
用户画像实时导入 通过SDK导入通道中存储的用户画像实时数据。详情参见上传实时数据。在“用户画像实时导入”右侧,单击打开按钮,在弹出的对话框中进行确认。 物品画像实时导入 通过SDK导通道中存储的物品画像实时数据。
上传实时数据 RES通过DIS SDK上传实时数据,用户实时日数据并做近线处理。当前仅支持Java语言的SDK,示例请参见《数据接入服务SDK参考》。
数据源 RES的离线数据源包括什么? 如何上传数据至OBS 如何上传实时数据? 离线数据和近线实时数据如何配合使用? 数据探索是什么?近线实时数据如何在数据探索中的报告体现? 如何确定近线数据源导入实时数据成功? 实时数据能否立即应用到推荐场景?
创建数据源 功能介绍 在指定的工作空间下面创建一个新的数据源。 调试 您可以在API Explorer中调试该接口。
离线数据和近线实时数据如何配合使用? 在推荐系统初始化阶段,需要用户提供批量的离线数据源并按照推荐系统要求的数据格式上传至OBS,完成数据的检测和导入。 近线实时数据源推荐使用RES SDK上传,此操作所有的数据更新都是实时生效的。 父主题: 数据源
单击离线数据源右侧的“编辑”,在页面下方单击选择目标文件在OBS中的存储位置。 图1 修改离线数据源 单击“确认”,完成修改。 删除数据源 前提条件 已存在创建成功的数据源。 注意事项 数据源中的数据结构、数据导入或数据探索有任务在运行,该数据源不支持删除。