推荐系统 RES-近线作业:基于行为数据的用户画像更新
基于行为数据的用户画像更新
基于行为数据的用户画像更新可以对用户画像进行持续更新,更新频率可达秒级。以DIS中的实时行为日志为数据源,从中分析出用户画像更新信息,并实时更新用户画像,使用户画像随着用户行为的发生而不断变化。
通过此任务可以更新的用户画像内容有:用户标签等动态信息,以及用户年龄、位置、联系方式等上下文信息。
参数名称 |
说明 |
默认值 |
---|---|---|
策略别名 |
策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 |
默认基于行为数据的用户画像更新。 |
服务名 |
DIS。将实时近线任务需要的实时行为日志数据添加到DIS中,推荐系统通过读取该数据进行近线计算。 |
DIS。 |
通道名称 |
数据通道名称,不同类型的数据需要创建不同的通道。 |
无。 |
起始位置 |
读取DIS数据的起始位置,latest表示从最新的数据开始读取,earliest表示从通道中现存最旧的数据开始读取。 |
默认为latest。 |
行为类型 |
用户行为包含如下几种类型:
|
默认选取所有行为。 |
窗口间隔(秒) |
近线策略处理的窗口间隔,单位为秒,10代表每隔10s进行一次算。 |
10 |
结果保存路径 |
根据行为日志,及cloudtable中已存在的用户画像和物品画像实时构造出样本通用数据,以供其他功能使用。 |
- |
更新上下文 |
用户操作行为表中的“context ”字段代表动作发生的上下文信息。更新上下文就是将这些信息写入到Cloudtable中进行实时的更新。 |
默认关闭。 |
是否更新物品的热度值 |
根据行为日志,计算物品的热度值。近线召回策略中(如利用兴趣标签搜索候选集),召回的候选集按何种顺序排列,如要选择根据热度排序,则需要打开该功能。 |
默认关闭。 |
是否保存历史记录 |
根据行为日志,统计用户的历史记录。近线召回策略中(如利用兴趣标签搜索候选集),召回的候选集中过滤掉用户的历史记录依赖于此项,保存了历史记录才可使用。 |
默认关闭。 |
兴趣标签衰减参数 |
兴趣标签的衰减参数,数值越小,衰减能力越强。数值越大,衰减能力越弱。如果值为0,则代表不衰减。 |
0.99 |
兴趣标签维护长度 |
各标签体系下,兴趣标签的最大长度。 |
20 |
全局特征信息文件 |
用户在使用近线策略之前,需要提供全局特征信息文件,该文件为JSON格式,包含特征名、特征大类、特征值类型。当上传的数据中的特征有变化时,需要同步更新该文件。全局特征信息文件示例请参考全局特征信息文件。 |
- |
异常数据输出路径 |
单击右侧的按钮,选择数据在OBS中的存放路径,此路径下会记录不符合任务要求的输入数据。 |
- |
用户画像存储 |
该数据来源于基于用户数据更新用户画像更新后的用户画像数据。服务名默认为绑定的CloudTable资源信息。指定集群名称和表名用于存储更新后的用户画像。 |
不涉及。 |
物品画像存储 |
该数据来源于基于物品数据更新物品画像更新后的物品画像数据。服务名默认为绑定的CloudTable资源信息。 |
不涉及。 |
过滤存储 |
过滤出用户发生过某行为的物品,并保存在此表中。例如,过滤出用户看过的物品,并存储在此表中。指定集群名称和表名用于存储更新后的用户画像。 |
不涉及。 |