推荐系统 RES-近线作业:流式训练

时间:2025-01-26 10:36:05

流式训练

流式训练接入用户行为数据,进行在线训练,以分钟级更新在线服务依赖的排序模型,减少排序模型的效果衰减。

前提条件

  1. 已存在运行成功的排序策略。建议“优化器类型”选择“ftrl”
  2. 已存在运行成功的在线服务。该在线服务“排序方式”“点击率预估”并且“模型文件路径”1排序策略生成的模型存储路径。
    • 流式训练仅支持2019年12月4日0点之后创建的排序策略和在线服务。
    • 流式训练使用到的排序策略不支持“核函数特征交互神经网络-PIN”算法。
    • 建议您定期“重新执行”条件1对应的离线排序任务。重新执行排序策略后,在线服务和流式训练作业将自动同步新产生的模型,无需重新配置或重新执行在线服务和流式训练作业。
    • 在线服务可以减少排序模型的效果衰减,但仍需定期重新执行离线任务。
表5 流式训练参数说明

参数名称

说明

默认值

策略别名

策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。

默认流式训练。

数据源

  • 服务名:添加已经进行资源绑定的DIS资源。
  • 输入流位置:行为数据流的输入配置。将实时近线任务需要的实时物品日志数据添加到输入流指定的DIS通道中,推荐系统通过读取该数据进行近线计算。
    • 通道名称:DIS的数据通道名称,不同类型的数据需要创建不同的通道。
    • 起始位置:读取DIS数据的起始位置,latest表示从最新的数据开始读取,earliest表示从最旧的数据开始读取。
  • 输出流位置:行为数据流处理后的输出配置。选择对应的DIS通道名称进行存放。输出流存放的数据属于流式训练作业的中间数据,用户无需获取或发送数据到输出流绑定的数据通道,只需确保该通道仅供本作业作为输出流使用。

服务名默认DIS。

通道名无。

起始位置默认为latest。

窗口间隔(秒)

近线策略处理的窗口间隔,单位为秒,10代表每隔10s进行一次算。

10s。

算子参数

  • 在线服务名:使用的在线服务的名称。该在线服务需满足前提条件的要求。
  • 流程名:在线服务对应的在线流程名称。
  • 异常数据输出路径:单击右侧的按钮,选择数据在OBS中的存放路径,此路径下会记录不符合任务要求的输入数据。

-

训练设置

  • 计算节点规格:您可以根据业务需求选择节点规格,“8核|16GiB”“8核|32GiB”“8核|64GiB”“16核|128GiB”
  • 模型更新间隔:模型更新时间间隔,更新模型文件。

默认“8核|16GiB”

时间间隔10min

优化策略相关参数

  • 优化器类型:ftrl。适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法
  • 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.1。
  • 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。
  • L1正则项系数:叠加在模型的1范数之上,用来对模型值进行限制防止过拟合。默认0。
  • L2正则项系数:叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。

-

support.huaweicloud.com/usermanual-res/res_01_0051.html