云服务器内容精选

  • 删除工作空间 如果工作空间不再使用,您可以删除工作空间释放资源。具体操作如下: 登录RES管理控制台,在左侧导航栏单击进入“工作空间”页面。 单击目标工作空间“操作”列的“删除”。 单击“确定”完成删除。 默认生成的“default”工作空间不支持删除。 删除工作空间后会默认清理该工作空间下所有资源。删除操作无法恢复,请谨慎操作。 如果工作空间绑定了企业项目,在删除工作空间时,对应的企业项目不会被删除或修改。
  • 创建工作空间 登录RES管理控制台。 您可以通过两种方式创建工作空间,进入“创建工作空间”页面,填写工作空间参数信息。详请参见表1。 在左侧导航栏“当前工作空间”下拉框中选择“创建工作空间”。 图1 创建工作空间 在左侧导航栏单击进入“工作空间”页面。单击“创建”。 表1 参数说明 参数 说明 名称 工作空间名称。例如,工作空间workspace1。 名称不能为空。 名称不超过64个字符,只能由中文、英文字母、数字、下划线、中划线组成,且不能使用任何大小写形式的“default”。 描述 工作空间描述。例如,我的第一个工作空间。 描述不超过256个字符。 企业项目 如果您未开通企业项目,则不会有此参数。 如果您开通了企业项目,可以从下拉选项选择企业项目,并确保该项目处于“已启用”状态。如果您无可选企业项目,则可以通过单击右侧“新建企业项目”进行创建。具体操作请参见创建企业项目。 单击“确定”,完成RES工作空间的创建。 您可以在工作空间列表页面查看创建的工作空间,当显示为“状态正常”时,该工作空间可正常使用。也可以左侧导航栏“当前工作空间”下拉框中选择您需要使用的工作空间。
  • 效果评估 创建效果评估可以对线上服务设置指标,查看推荐效果的反馈,可以根据系统提供的指标添加。 表1 效果评估参数说明 参数名称 说明 名称 自定义名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 对于该效果评估作业的描述信息。 开启调度 默认开启调度。开启调度后,默认每天凌晨00:05开始执行。您也可以关闭调度手动执行效果评估作业。 指标类型 推荐服务效果评估指标,通过指标后的下拉框选择系统自置指标或自定义指标。您可以单击添加指标,单击该指标后的删除指标。 点击PV 推荐点击PV率 自定义指标 自定义指标包含参数设置和指标设置两部分。 参数设置 参数别名:用户指定参数别名应用于指标公式。 行为类型:选择需要进行评估的行为类型,如物品曝光。 阈值:阈值是用来衡量用户行为有效性的标准, 当数据源的actionMeasure的值大于阈值时, 当前用户行为有效。 去重:您可以单击勾选,根据用户对行为记录去重。 指标设置 指标名称:请您定义评估的指标名称。 指标公式:用户指定自定义指标公式,如:A/(A+B),参数A、B代表自定义参数的参数别名。只支持+、-、*、/。 父主题: 算法介绍及参数说明
  • 在线服务 在线服务用来做线上推荐时的应用,每个服务之间是独立的。即根据不同的离线计算得到的候选集以及相关参数,提供不同的推荐服务。 表1 在线服务参数说明 参数名称 子参数 说明 召回池 “推荐候选集” “添加推荐候选集” 选择表名:添加离线、近线任务或者在线自定义检索召回策略生成的候选集进行融合。您可以单击添加推荐候选集,单击右侧的删除该候选集。 离线、近线召回:该策略候选集都可以通过下拉框直接选取。 在线检索召回:支持在线检索候选集召回,检所请求通过预测接口(参考获取推荐结果中的search_info字段使用方法)传入,生成一路召回对应候选集。该策略默认名称为“dynamic-search”。 融合方式 优先级:根据优先级和百分比计算多个召回候选集融合。优先级高的推荐结果将确保在优先级低的之前。P1优先级最高,P1优先级如果没有用户对应的推荐物品,由配置的低优先级补充,以此类推。优先级相同的推荐候选集,根据百分占比确认召回策略推荐数量,同优先级下的数据占比之和需要等于100%。 权重:根据权重加权融合计算多个召回候选集融合。分数计算规则:每个策略的所占权重和物品在每个召回候选集中所得的分数加权融合,多个策略中相同的物品会进行分数累加。权重大小之和要等于1。 过滤(黑名单) 离线过滤 对离线过滤规则作业产生的结果进行过滤,使之不进入候选集。 单击打开按钮,在下拉框中选择目标过滤规则的作业结果。 行为过滤 对用户行为进行过滤使之不进入候选集。 单击打开按钮,进行行为过滤设置。例如对于用户过去3天内有过曝光行为的物品过滤,使之不进入候选集。可以对曝光过但是有购买行为的物品进行排除,使之依旧在候选集里。 时间区间:指定用户行为时间,取值1-7,默认为1。 行为类型:指定行为类型,对有该行为类型的物品进行过滤。最多选五种。 排除行为类型:将有此行为类型的物品排除掉,使之依旧在候选集中。 属性去重 单击增加属性去重。 “属性名”:从下拉列表中选择属性名进行去重。如“product_color”,则对产品颜色相同的物品进行去重。 “去重位置”:可选择“排序前”或者“排序后”。 属性值过滤 指定定制化用户属性以及物品属性过滤规则,属性过滤规则用于过滤最终用户的推荐结果。例如,对于一线城市的用户过滤敏感信息物品,使之不进入候选集。单击增加属性过滤规则。 “用户属性”:指定在用户属性中需要过滤的字段,包含属性名和属性值。如过滤籍贯是广东且性别为男性的用户。 “物品属性”:指定在物品属性中需要过滤的字段,包含属性名和属性值。如过滤产品颜色为红色且产品品牌为华为的物品。 “应用于”:将该规则应用于哪些路召回候选集,默认会作用于所有在召回池中选中的所有路候选集。 属性对过滤 指定定制化用户属性以及物品属性过滤规则,属性过滤规则用于过滤最终用户的推荐结果。例如,对于一线城市的用户过滤敏感信息物品,使之不进入候选集。单击增加属性对过滤规则。 “用户-物品”:指定用户属性或者物品属性中需要过滤的字段。如过滤籍贯是广东且性别为男性的用户。 “应用于”:该过滤规则应用于所选的候选集,默认会作用于所有在召回池中选中的所有路候选集。 过滤(白名单) 属性值保留 指定定制化用户属性、物品属性和应用于某个召回策略属性过滤规则,保留该选定的属性值,使之进入候选集。例如,对于保留一线城市的用户物品信息物品。单击增加属性值保留。 “用户属性”:指定在用户属性中需要过滤的字段,包含属性名和属性值。如保留籍贯是广东且性别为男性的用户。 “物品属性”:指定在物品属性中需要过滤的字段,包含属性名和属性值。如保留产品颜色为红色且产品品牌为华为的物品。 “应用于”:该过滤规则应用于所选的候选集,默认会作用于所有在召回池中选中的所有路候选集。 属性对保留 指定定制化用户属性以及物品属性过滤规则,保留该选定的属性对,使之进入候选集。例如,对于保留一线城市用户的物品信息。单击增加属性对保留。 “用户-物品”:指定用户属性或者物品属性中需要保留的字段。如保留籍贯是广东且性别为男性的用户。 “应用于”:该过滤规则应用于所选的候选集,默认会作用于所有在召回池中选中的所有路候选集。 排序 点击率预估 点击率预估默认关闭。打开按钮之后,在“排序”下拉选项中选择计算成功的排序策略名称。 综合排序 综合排序即根据客体和主体的相关属性进行重排序处理。 属性匹配,单击添加匹配特征对,如用户特征名为city,物品特征名选择tags,权重值设置为1,其意思为根据选定的主体和客体相关属性对的匹配情况累计权重值。 数值比较,单击添加属性权重,在下拉列表中选择属性名称,设置权重,根据客体相关数值属性的大小进行重排序。 统计方式,根据数值属性的大小顺序(ORDER)或者绝对值进行权重累加(ABS)统计。 点击率权重:当同时选择点击率预估和综合排序进行重排序时,汇总分数时点击率相关得分的权重值。 综合排序权重:当同时选择点击率预估和综合排序进行重排序时,汇总分数时综合排序相关得分的权重值。 融合方式:当同时选择点击率预估和综合排序进行重排序时,汇总分数时的统计方式。根据数值属性的大小顺序(ORDER)或者绝对值进行权重累加(ABS)统计。 高级类型选项 打散 打散是指推荐的结果集中根据客体的选择的字符串类型的属性进行打散,避免推荐结果集过于集中,增加推荐结果的新颖性。 您可以在下拉列表中选择打散属性。 置顶 置顶功能则人为的将选定的某一路或多路候选集放在推荐结果前面。您可以在下拉列表中选择需要置顶的推荐候选集。 降权 降权是指定时间区间内用户对物品有过指定的行为类型记录时,将对相应物品进行降权处理。 例如对于用户过去3天内有过曝光行为的物品降权,但是可以对曝光过但是有购买行为的物品进行排除,不对其降权。 时间区间:指定用户行为时间,取值1-7,默认为3。 行为类型:指定行为类型,对有该行为类型的物品进行降权。最多选五种。 排除行为类型:将有此行为类型的物品排除掉,不对其进行降权。 父主题: 算法介绍及参数说明
  • Logistic Regression (LR) LR算法是一种广义的线性回归分析模型,常用于数据挖掘、疾病自动诊断、经济预测等领域。LR算法通过在线性回归的基础上叠加一个sigmoid激活函数将输出值映射到[0,1]之间,是机器学习领域里常用的二分类算法。 表1 逻辑斯蒂回归参数说明 参数名称 说明 名称 自定义策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 对于该策略的描述信息。 最大迭代轮数 模型训练的最大迭代轮数,默认50。 提前终止训练轮数 在测试集上连续N轮迭代AUC无提高时,迭代停止,训练提前结束,默认5。 初始化方法 模型参数的初始化方法。 normal:正态分布 平均值:默认0 标准差:0.001 uniform :均匀分布 最小值:默认-0.001,均匀分布的最小值,必须小于最大值。 最大值:默认0.001,均匀分布的最大值,必须大于最小值。 xavier: 初始化初始值为 均值为0,方差为 Var(wi)=1/nin 的均匀分布(高斯或者随机分布)。其中 nin 是该神经元的输入数目。 优化器类型 grad:梯度下降算法 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 adam:自适应矩估计算法 结合AdaGrad和 RMS Prop两种优化算法的优点,对梯度的一阶矩估计(First Moment Estimation,即梯度的均值)和二阶矩估计(Second Moment Estimation,即梯度的未中心化的方差)进行综合考虑,依次计算出更新步长。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 数值稳定常量:为保证数值稳定而设置的一个微小常量。默认1e-8。 adagrad:自适应梯度算法 对每个不同的参数调整不同的学习率,对频繁变化的参数以更小的步长进行更新,而稀疏的参数以更大的步长进行更新。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。 ftrl:Follow The Regularized Leader 适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.1。 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。 L1正则项系数:叠加在模型的1范数之上,用来对模型值进行限制防止过拟合。默认0。 L2正则项系数:叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。 L2正则项系数 叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。 正则损失计算方式 正则损失计算当前有两种方式。 full:指针对全量参数计算。 batch:则仅针对当前批数据中出现的参数计算 说明: batch模式计算速度快于full模式。 重新训练 对第一次训练无影响,仅影响任务重跑。 “是”:清空上一轮的模型结果后重新开始训练。 “否”:导入上一轮的训练结果继续训练。适用于欠拟合的情况。 批量大小 一次训练所选取的样本数。 训练数据集切分数量 将整个数据集切分成多个子数据集,依次训练,每个epoch训练一个子数据集。
  • DeepFM DeepFM,结合了FM和深度神经网络对于特征表达的学习,同时学习高阶和低阶特征组合,从而达到准确地特征组合学习,进行精准推荐。 表2 深度网络因子分解机参数说明 参数名称 说明 名称 自定义策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 对于该策略的描述信息。 最大迭代轮数 模型训练的最大迭代轮数,默认50。 提前终止训练轮数 在测试集上连续N轮迭代AUC无提高时,迭代停止,训练提前结束,默认5。 初始化方法 模型参数的初始化方法。 normal:正态分布 平均值:默认0 标准差:0.001 uniform :均匀分布 最小值:默认-0.001,均匀分布的最小值,必须小于最大值。 最大值:默认0.001,均匀分布的最大值,必须大于最小值。 xavier: 初始化初始值为 均值为0,方差为 Var(wi)=1/nin 的均匀分布(高斯或者随机分布)。其中 nin 是该神经元的输入数目。 优化器类型 grad:梯度下降算法 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 adam:自适应矩估计算法 结合AdaGrad和RMSProp两种优化算法的优点,对梯度的一阶矩估计(First Moment Estimation,即梯度的均值)和二阶矩估计(Second Moment Estimation,即梯度的未中心化的方差)进行综合考虑,依次计算出更新步长。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 数值稳定常量:为保证数值稳定而设置的一个微小常量。默认1e-8。 adagrad:自适应梯度算法 对每个不同的参数调整不同的学习率,对频繁变化的参数以更小的步长进行更新,而稀疏的参数以更大的步长进行更新。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。 ftrl:Follow The Regularized Leader 适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.1。 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。 L1正则项系数:叠加在模型的1范数之上,用来对模型值进行限制防止过拟合。默认0。 L2正则项系数:叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。 L2正则项系数 叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。 正则损失计算方式 正则损失计算当前有两种方式。 full:指针对全量参数计算。 batch:则仅针对当前批数据中出现的参数计算 说明: batch模式计算速度快于full模式。 隐向量长度 分解后的表示特征的向量的长度。默认10。 神经网络结构 神经网络的层数与每一层的神经元节点个数。默认400,400,400。 激活函数 神经网络中的激活函数,将一个(或一组)神经元的值映射为一个输出值。 relu tanh sigmoid 神经元值保留概率 神经网络前向传播过程中以该概率保留神经元的值。默认0.8。 重新训练 对第一次训练无影响,仅影响任务重跑。 “是”:清空上一轮的模型结果后重新开始训练。 “否”:导入上一轮的训练结果继续训练。适用于欠拟合的情况。 批量大小 一次训练所选取的样本数。 训练数据集切分数量 将整个数据集切分成多个子数据集,依次训练,每个epoch训练一个子数据集。
  • AutoGroup AutoGroup,使用自动分组技术探索高阶特征交互组合,更深层次地挖掘出多个特征间联系,增强模型排序效果。 表3 AutoGroup参数说明 参数名称 说明 名称 自定义策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 对于该策略的描述信息。 最大交互阶数 算法探索的最大的特征交互阶数。例如,当设定最大交互阶数为4时,算法会探索2阶、3阶、4阶的特征交互组合。默认3。 各阶隐向量长度 各阶特征交互使用的隐向量长度,数量需对应最大交互阶数。默认10,60,80。 哈希长度 每阶特征交互所选择的group数量,数量需对应最大交互阶数。默认10,60,80。 特征交互层惩罚项系数 特征交互层输出值的惩罚项系数,用来防止过拟合。默认0.0001,0.0001,0.0001。 神经网络结构 神经网络的层数与每一层的神经元节点个数。默认400,400,400。 激活函数 神经网络中的激活函数,将一个(或一组)神经元的值映射为一个输出值。 relu tanh sigmoid 神经元值保留概率 神经网络前向传播过程中以该概率保留神经元的值。默认0.8。 优化器类型 grad:梯度下降算法 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 adam:自适应矩估计算法 结合AdaGrad和RMSProp两种优化算法的优点,对梯度的一阶矩估计(First Moment Estimation,即梯度的均值)和二阶矩估计(Second Moment Estimation,即梯度的未中心化的方差)进行综合考虑,依次计算出更新步长。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 数值稳定常量:为保证数值稳定而设置的一个微小常量。默认1e-8。 adagrad:自适应梯度算法 对每个不同的参数调整不同的学习率,对频繁变化的参数以更小的步长进行更新,而稀疏的参数以更大的步长进行更新。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。 ftrl:Follow The Regularized Leader 适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.1。 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。 L1正则项系数:叠加在模型的1范数之上,用来对模型值进行限制防止过拟合。默认0。 L2正则项系数:叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。 结构部分优化器 详细参数请参见优化器类型。 正则损失计算方式 正则损失计算当前有两种方式。 full:指针对全量参数计算。 batch:则仅针对当前批数据中出现的参数计算 说明: batch模式计算速度快于full模式。 L2正则项系数 叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。 隐向量层L2正则化系数 隐向量层使用的L2正则化系数,作用如“L2正则项系数”描述。默认0.001。 wide部分L2正则化系数 wide层使用的L2正则化系数,作用如“L2正则项系数”描述。默认0.001。 最大迭代轮数 模型训练的最大迭代轮数,默认50。 提前终止训练轮数 在测试集上连续N轮迭代AUC无提高时,迭代停止,训练提前结束,默认5。 重新训练 对第一次训练无影响,仅影响任务重跑。 “是”:清空上一轮的模型结果后重新开始训练。 “否”:导入上一轮的训练结果继续训练。适用于欠拟合的情况。 批量大小 一次训练所选取的样本数。 训练数据集切分数量 将整个数据集切分成多个子数据集,依次训练,每个epoch训练一个子数据集。 融合多值特征 将多值特征的多个embedding融合成一个embedding。 融合线性部分 是否使用模型架构中的线性部分。 固定哈希结构 是否固定结构参数。默认值为“否”,非特殊情况建议使用默认值。
  • 排序策略-离线特征工程 表1 特征工程参数说明 参数名称 说明 名称 自定义离线特征工程名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 对于特征工程的描述信息。 待提取用户特征 排序模型需要经特征工程处理后的数据, 选择排序模型需要的用户特征, 未选择的用户特征将不会被处理,即排序模块将忽略这些特征。 说明: 离散的区间个数不能超过100个,请您根据业务需求合理分配参数值。 单击,增加用户特征。在下拉选项中勾选特征参数名称并进行配置。当“特征值类型”为“多值枚举型”时,您可以根据需求自定义枚举个数。其他类型可选的参数信息如下: “等距离散”:根据业务需求限定数值“最小值”、“最大值”和“距离”。例如,根据age进行等距离散,设置年龄最小值为1,最大值为100,离散距离为10。等距离散会按照age将1-10岁,11-20岁等作为一个区间进行离散。 “归一化”:归一化,根据业务需求限定数值“最小值”和“最大值”。例如,根据weight进行归一化,设置weight最小值为50,最大值为200。如果给定的数值x在该区间范围内则采用以下计算公式处理:“x_new = (x - 50) / (200-50)”,不在区间内的则按异常值处理,如x=80时,x_new = 0.2。 “用户自定义离散”:根据业务需求限定“离散点”。例如,根据age进行离散,设置年龄离散点分别为3、9、15即年龄会按照0-3、3-9、9-15进行散;单击添加离散点。 “不离散”:(默认)不做归一化,不对数据做处理。 待提取物品特征 排序模型需要经特征工程处理后的数据, 选择排序模型需要的物品特征,未选择的物品特征将不会被处理,即排序模块将忽略这些特征。 说明: 离散的区间个数不能超过100个,请您根据业务需求合理分配参数值。 单击,增加物品特征。在下拉选项中勾选特征参数名称并进行配置。当“特征值类型”为“多值枚举型”时,您可以根据需求自定义枚举个数。其他类型可选的参数信息如下: “等距离散”:根据业务需求限定数值“最小值”、“最大值”和“距离”。例如,根据order_price进行等距离散,设置价格最小值为1,最大值为100,离散距离为10。那么等距离散会按照价格将1-10元,11-20元等为一个区间进行离散。 “归一化”:归一化,根据业务需求限定数值“最小值”和“最大值”。例如,根据weight进行归一化,设置weight最小值为50,最大值为200。如果给定的数值x在该区间范围内则采用以下计算公式处理:“x_new = (x - 50) / (200-50)”,不在区间内的则按异常值处理,如x=80时,x_new = 0.2。 “用户自定义离散”:根据业务需求限定“离散点”。例如,根据order_price进行离散,设置价格离散点分别为150、200、250即价格会按照0-150、151-200、201-250进行散;单击添加离散点。 “不离散”:(默认)不做归一化,不对数据做处理。 自定义行为类型 如果开启“自定义行为类型”, 算法则按用户设置的行为类型及权重进行排序预处理任务,否则默认使用数据源中的行为类型及权重进行任务。 “正向行为类型”:设置正向行为的类型及权重值。 “负向行为类型”:设置负向行为的类型及权重值。 行为去重方式 将行为数据中某个用户对某个物品的多条记录进行去重,目前支持按行为权重去重(正向行为且权重越大的优先)和按时间去重(每天、每星期、每个月保留一条数据)。 “权重绝对值”:保留行为权重绝对值最高的一条数据。 “日期”:按照"时间类型", 保留指定区间的一条最新数据。 时间类型 将行为数据中某个用户对某个物品的多条记录进行去重, 只保留每个时间区间内的一条最新数据。您可以根据数据实际情况选择去重的时间周期,可选天、周、月。默认为“天”。 周一是第一天:行为数据按周去重,是否周一是第一天。 如果选择否, 则认为周日是第一天,保留每个时间区间内的一条最新数据。 训练集测试集划分方式 数据划分方式按时间比例或个数比例划分训练集测试集。 “时间比例”:将全部数据的时间跨度按照时间比例划分成两段数据,训练数据为前一段时间中的数据,测试数据为后一段时间的数据,取值TIME。 “个数比例”:个数比例是将全部数据按个数比例随机划分成训练集和测试集传入值。取值 RAM DOM。 训练数据占比 生成的结果中,训练集占整个训练集和测试集的比例,默认0.7。 测试数据占比 生成的结果中,训练集占整个训练集和测试集的比例,默认0.3。 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “选择时间”:当 调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “具体时间”:选择具体的调度时间。 父主题: 算法介绍及参数说明
  • 过滤规则 过滤规则用于配置候选集的过滤方式,使之不进入候选集。对于每个需要过滤的行为,生成用户具有该行为的物品的列表。再对同用户的每种行为的物品列表进行“与”或者“或”的关系,最终生成用户-物品过滤表。 表1 过滤规则参数说明 参数名称 说明 名称 自定义过滤规则名称。由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 过滤规则的相关描述信息。 频次 指定与用户个性化的物品候选集过滤准则。例如对于用户过去3天内有过view行为的物品(如新闻)过滤,使之不进入候选集。单击增加历史行为过滤,单击后方的删除过滤行为。相关参数解释如下: 相对时间间隔:与数据源内的行为数据记录最后的一条时间相差天数。 最小次数:某用户对某物品产生某行为的最小次数。 行为类型:指定行为类型。 绝对时间间隔:与当前时间相差天数。 最大次数:某用户对某物品产生某行为的最大次数。 系统默认行为类型包括: view:物品曝光 click:用户点击物品 collect:用户收藏了某个物品 uncollect:用户取消收藏某个物品 search_click:用户点击搜索结果中的物品 comment:用户对物品的评论 share:分享 like:点赞 dislike:点衰 grade:评分 consume:消费 use:观看视频/听音乐/阅读 download:下载 tip:打赏 subscribe:关注 行为过滤逻辑 各个频次之间的逻辑。 “AND”逻辑为在7天内点赞超过3次且在7天内消费超过3次的物品。 “OR”逻辑为在7天内点赞超过3次或在7天内消费超过3次的物品。 最大推荐结果数 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。 父主题: 算法介绍及参数说明
  • 基于物品相似度的实时召回 基于物品相似度的实时召回策略是根据用户短时间内行为数据(如购买,收藏,内容评论或分享),通过牛顿冷却定律对相关行为的初始权重进行衰减和汇总,从而找出用户该时间段内感兴趣的物品,结合物品的相似度信息进行关联推荐。 表10 基于物品相似度的实时召回参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 依赖作业名称 已经完成的可以提供物品和物品相似度关系的作业,用来进行物品的关联推荐。 topK 用户最感兴趣的排序在前K个的物品。 行为 行为类型:用户感兴趣的行为类型。 权重值:行为的初始权重。 衰减系数:用于衰减行为初始权重的系数。 有效时间:用户配置的行为发生时间与当前时间的间隔,以小时为单位。系统只处理在该时间范围内的行为记录。
  • 基于用户相似度的实时召回 基于用户相似度的实时召回策略是根据用户间的相似度信息,找到相似用户短时间内行为数据(如购买,收藏,内容评论或分享),通过牛顿冷却定律对相关行为的初始权重进行衰减和汇总,从而找出相似用户该时间段内感兴趣的物品,加权汇总后推荐给该用户。 表11 基于用户相似度的实时召回参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 依赖作业名称 已经完成的可以提供用户和用户相似度关系的作业,用来进行用户的关联推荐。 topK 用户最感兴趣的排序在前K个的物品。 行为 行为类型:用户感兴趣的行为类型。 权重值:行为的初始权重。 衰减系数:用于衰减行为初始权重的系数。 有效时间:用户配置的行为发生时间与当前时间的间隔,以小时为单位。系统只处理在该时间范围内的行为记录。
  • 基于UCB的召回策略 基于UCB的召回策略综合考虑了用户操作行为表中,物品发生的某几种行为类型及次数,然后给每一个物品都计算一个得分,最终返回得分最高的若干个物品。 表8 基于UCB的召回策略参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 最小行为次数 在物品上产生过行为的最小用户数,其中一个用户在一个物品上只计算一次行为。默认为30。 折中参数 令alpha为Exploration 和 Exploitation之间的折中参数,其取值范围为[0,1],alpha越趋近于0,则物品的得分对历史得分高的物品越有利,即 Exploitation。反之,alpha越趋近于1,则物品的得分越倾向于探索新物品,即Exploration。默认为0.5。 最大推荐结果数 最多生成多少个推荐结果。默认为100。 该参数会运用在“输出数据”的推荐候选集上。 时间跨度(天) 用于指定从数据源中取最近多少天的行为数据计算热度。默认取全部数据。 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。
  • 基于特征匹配的召回策略 基于特征匹配的召回策略会用用户画像和物品画像的相关属性进行匹配,为用户召回属性匹配程度高的若干个物品。 表7 基于特性匹配的召回策略参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 匹配类型 通过匹配数据的特征,生成推荐候选集。 例如,通过用户匹配物品生成给用户推荐物品的候选集,物品自匹配生成给物品推荐物品的候选集。可选: 用户匹配物品 物品自匹配 匹配特征对 用户和物品相关联特征。请根据实际情况配置参数,如果属性匹配特征对相似度较高内存不够时需提升配置。 用户特征名:字符串,长度1-20。 物品特征名:字符串,长度1-20。 权重值:权重影响不同物品属性匹配的程度,取值0.01-1,2位小数。 匹配个数度量:如果开启匹配个数度量, 同个特征匹配个数多的数据有优势。例如博客标签中,匹配5个标签(tags)比匹配1个标签(tags)更相关。如果不开启, 多值特征匹配时,匹配特征个数无关,都被视为匹配。 操作:可以单击操作列下面的进行删除某个匹配特征对。 您可以单击进入“添加匹配特征对”页面进行配置。设置特征对的用户特征名、物品特征名和权重。 最近邻域数 机器学习中的概念, 例如协同过滤计算中,需要计算物品之间,用户之间的相似度。最近邻域数是x,就是一个物品/用户找出x个和他相似的物品/用户。默认为100。 最大推荐结果数 最多生成多少个推荐结果。默认为100。 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。
  • 基于物品的协同过滤推荐 基于物品的协同过滤推荐采用经典推荐算法基于物品的协同过滤ItemCF进行召回。 表2 基于物品的协同过滤推荐参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 最近邻域数 在ItemCF算法中使用,生成的相似度矩阵中为每个物品保留的若干个最相似物品。默认100。 用户活跃度 用来过滤用户的活跃度阈值。 取值范围:1-10000。 默认值:1。 效用阈值 用户对物品综合打分的阈值。 取值范围:0.000001-10。 最小交叉度 物品和物品之间被同一用户行为记录的数量,计算相似度时,过滤掉共同记录小于最小交叉度的item。 默认值:1。 最大推荐结果数 最多生成多少个推荐结果。 默认值:100。 开启时间跨度 不开启取全部数据,开启则指定从数据源中取最近天数的行为数据计算相似度。 时间跨度(天) 用于指定从数据源中取最近多少天的行为数据计算相似度。默认取全部数据。 上传物品相似度 支持客户通过obs导入自定义的相似度信息。相似度文件格式为json, 其中subject为用户或物品, relations为与subject相似的用户或物品及其相似度。例如, { "subject": "item108", "relations": [ { "id": "item115", "score": 0.699357793663589 }, { "id": "item60", "score": 0.659905609639582 }, { "id": "item61", "score": 0.640305447750641 }, { "id": "item18", "score": 0.614275316537666 } ] } 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。
  • 基于交替最小二乘的矩阵分解推荐 基于交替最小二乘的矩阵分解推荐:基于用户-物品的行为信息作为原始矩阵,利用ALS优化算法对原始矩阵进行矩阵分解,分解之后的用户隐向量矩阵和物品隐向量矩阵可以用来生成预估的新的用户-物品评分矩阵,提取出评分最高的若干个物品作为召回结果。 表4 基于交替最小二乘的矩阵分解推荐参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 隐向量维度 在ALS算法中使用,指定用户隐向量、物品隐向量的隐含因子的维度大小。如果离线计算失败,建议调小至10以下。默认为10。 迭代次数 指定迭代优化的最大迭代次数。如果离线计算失败,建议调小至10以下。默认为10。 优化正则化系数 在ALS算法中使用,指定正则化系数,作为优化目标中参数项代价的系数,用于避免过拟合现象发生。默认为0.01。 最大推荐结果数 最多生成多少个推荐结果。默认为100。 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。