推荐系统 RES-特征工程:初始用户画像-物品画像-标准宽表生成

时间:2024-09-07 16:00:55

初始用户画像-物品画像-标准宽表生成

初始用户画像-物品画像-标准宽表生成,是将初始格式数据(离线数据)处理成用户画像、物品画像以及内部通用格式数据。

表1 初始用户画像-物品画像-标准宽表生成参数说明

参数名称

说明

数据源

数据在OBS的存放路径。包括用户属性表、物品属性表、用户操作行为表。

全局特征信息文件

用户在使用特征工程之前,需要提供一份全局的特征信息文件,后续的特征工程、在线模块都会用到该文件。

文件数据信息请参见全局特征信息文件

当上传的数据中的特征有变化时,用户需要同步更新该文件。该文件为JSON格式,包含特征名、特征大类、特征值类型。

保留已有宽表

对结果保存路径中已有宽表数据的保留方式:

  • 否,不保留任何已有的数据。
  • 是,保留全部已有的数据。
  • 覆盖,将相同日期下的数据覆盖掉,保留不同日期下的数据。

结果保存路径

行为-用户-物品(通用格式)的保存路径。

说明:

使用初始用户画像-物品画像-标准宽表生成的数据时,其路径具体到文件夹即可。

结果存储平台

存储类型有用户画像表和物品画像表两种。

  • 用户画像表:用户自定义CloudTable集群名称和表名,用于存储生成的用户数据。
  • 物品画像表:用户自定义CloudTable集群名称和表名,用于存储生成的物品数据。
  • 设置数据版本:您可以单击设置数据版本。RES的数据版本有两种,“V1”版本即数据按照原有格式存储,未做过分区处理。“V2”版本则会依照用户的分区设置做分区处理,当分区合理时,数据将均匀分布在各个节点,有效利用Cloudtable的高并发特性,提升读写效率。其中“预分区数量”“索引分区数量”可以根据数据量进行设置,如果读写性能达不到要求,可以增加Cloudtable的RS单元数量提升性能。
support.huaweicloud.com/usermanual-res/res_01_0023.html