推荐系统 RES-近线作业:基于用户的标签搜索候选集
基于用户的标签搜索候选集
基于用户的标签搜索候选集可以持续为用户召回新的候选集,召回频率可达秒级。以DIS中的实时行为日志为数据源,分析用户喜好,并以此为依据为用户召回候选集。此任务包含两种召回方式:
- 根据兴趣标签召回候选集
- 根据实时标签召回候选集
参数名称 |
说明 |
默认值 |
---|---|---|
策略别名 |
策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 |
默认基于用户的标签搜索候选集。 |
数据源 |
|
服务名默认DIS。 通道名无。 起始位置默认为latest。 |
行为类型 |
用户行为包含如下几种类型:
|
默认选取所有行为。 |
窗口间隔(秒) |
近线策略处理的窗口间隔,单位为秒,10代表每隔10s进行一次算。 |
10 |
过滤历史记录 |
生成的候选集中是否过滤历史记录,如需要过滤历史记录,则开启此项。 |
默认关闭。 |
候选集的排序策略 |
生成候选集的排列规则,其排列顺序包括:
|
默认热度排序。 |
候选集最大长度 |
生成候选集的最大长度,每次计算更新的候选集中的个数不会超过最大值。 |
默认50。 |
候选集的召回策略 |
召回候选集的策略。
|
默认兴趣标签召回候选集。 |
兴趣宽度 |
生成候选集中的兴趣宽度,值越小候选集中的类型越少。
说明:
选择兴趣宽度数量对应的,权重值最高的兴趣标签个数进行检索,得到与标签匹配的物品候选集。 |
默认3。 |
全局特征信息文件 |
用户在使用近线策略之前,需要提供全局特征信息文件,该文件为JSON格式,包含特征名、特征大类、特征值类型。当上传的数据中的特征有变化时,需要同步更新该文件。全局特征信息文件示例请参考全局特征信息文件。 |
- |
异常数据输出路径 |
单击右侧的按钮,选择数据在OBS中的存放路径,此路径下会记录不符合任务要求的输入数据。 |
- |
自定义搜索 |
改变默认搜索条件,按照所选自定义搜索规则进行搜索。自定义搜索的内容来自于全局特征信息文件。您可以单击添加自定义搜索,在下拉选项中选择用户的兴趣标签,单击转换为另外的标签体系进行召回。
说明:
存在不同标签体系时可使用此功能,自定义搜索条件。一般情况下不建议使用。 |
- |
用户画像存储 |
指定存储用户画像的存储平台信息。服务名默认CloudTable,指定集群名称和表名用于存储更新后的用户画像。 |
不涉及。 |
物品画像存储 |
指定存储物品画像的存储平台信息。服务名默认CloudTable,指定集群名称和表名用于存储更新后的用户画像。 |
不涉及。 |
过滤存储 |
指定存储过滤集合的存储平台信息。服务名默认CloudTable,指定集群名称和表名用于存储更新后的用户画像。 |
不涉及 |
候选集存储 |
指定存储候选集的存储平台信息。服务名默认CloudTable,指定集群名称和表名用于存储更新后的用户画像。 |
不涉及。 |