推荐系统 RES-近线作业:基于用户数据更新用户画像

时间:2024-09-07 16:00:55

基于用户数据更新用户画像

基于用户数据更新候选集可以持续更新用户画像,更新频率可达秒级。以DIS中的实时用户数据为数据源,实时捕捉用户数据近线,持续更新或添加用户画像数据,使用户画像处于最新状态。

表3 基于用户数据更新用户画像参数说明

参数名称

说明

默认值

策略别名

策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。

默认基于用户数据更新用户画像。

数据源

  • 服务名:DIS。将实时近线任务需要的实时用户日志数据添加到DIS中,推荐系统通过读取该数据进行近线计算。
  • 通道名称:数据通道名称,不同类型的数据需要创建不同的通道。
  • 起始位置:读取DIS数据的起始位置,latest表示从最新的数据开始读取,earliest表示从最旧的数据开始读取。

服务名默认DIS。

通道名无。

起始位置默认为latest。

窗口间隔(秒)

近线策略处理的窗口间隔,单位为秒,10代表每隔10s进行一次算。

10s。

全局特征信息文件

用户在使用近线策略之前,需要提供全局特征信息文件,该文件为JSON格式,包含特征名、特征大类、特征值类型。当上传的数据中的特征有变化时,需要同步更新该文件。全局特征信息文件示例请参考全局特征信息文件

-

异常数据输出路径

单击右侧的按钮,选择数据在OBS中的存放路径,此路径下会记录不符合任务要求的输入数据。

-

用户画像存储

指定存储用户画像的存储平台信息。

  • 服务名:默认CloudTable,用于存储更新后的用户画像。
  • 集群名称:指定对应的集群名称。
  • 表名:选择对应表名称。您可以单击设置数据版本。RES的数据版本有两种,“V1”版本即数据按照原有格式存储,未做过分区处理。“V2”版本则会依照用户的分区设置做分区处理,当分区合理时,数据将均匀分布在各个节点,有效利用Cloudtable的高并发特性,提升读写效率。其中“预分区数量”“索引分区数量”可以根据数据量进行设置,如果读写性能达不到要求,可以增加Cloudtable的RS单元数量提升性能。

-

support.huaweicloud.com/usermanual-res/res_01_0051.html