推荐系统 RES-组合作业:资源选择

时间:2024-09-07 16:00:54

资源选择

您在使用RES时需要选择计算引擎、存储平台和数据源。计算引擎对数据进行计算,存储平台将处理的数据进行存储。其选择的服务资源即为“资源中心”绑定的资源。

  1. 在RES管理控制台完成“基本配置”之后,进入“资源选择”页签。
  2. 填写组合作业相关配置参数,请参见表1
    表1 创建组合作业参数说明

    模块

    参数名称

    说明

    计算引擎

    服务名

    计算引擎用于推荐系统的离线计算和近线计算。默认 DLI

    集群名称

    选择“资源中心”绑定的DLI集群名称。

    任务配置地址

    在创建作业时, 会自动生成一个JSON格式的配置源文件,该文件存储在指定的OBS路径中,计算引擎可以通过读取配置源文件来进行离线计算。

    资源名

    指定DLI运行作业的资源规格。

    可选择“全局配置”添加的计算资源或默认值。

    存储平台

    服务名称

    CloudTable作为存储平台,用于用户推荐在线数据和推荐候选集的存储。此处选择已经完成资源绑定的CloudTable。

    集群名称

    选择“资源中心”绑定的CloudTable集群名称。

    表名

    存储的表格名称。

    您可以单击设置数据版本。RES的数据版本有两种,“V1”版本即数据按照原有格式存储,未做过分区处理。“V2”版本则会依照用户的分区设置做分区处理,当分区合理时,数据将均匀分布在各个节点,有效利用Cloudtable的高并发特性,提升读写效率。其中“预分区数量”“索引分区数量”可以根据数据量进行设置,如果读写性能达不到要求,可以增加Cloudtable的RS单元数量提升性能。

    数据源

    初始格式

    1. 选择提前已经存储在OBS上的如下数据源:
      • 用户属性表
      • 物品属性表
      • 用户操作行为表

      如上数据表的数据格式规范请参见离线数据源

    2. 在对应表的“数据源”列中,单击选择数据的OBS存储路径。
    3. 在对应表的“数据格式”列中,数据格式可选:csv/json。
      当选择数据格式为csv时,在弹框中设置数据参数,具体参数如下:
      • 表头,有或无,根据用户数据格式选取。
      • 分隔符,选择逗号(,)、竖线(|)、制表符(\t)和自定义。
      • 引用字符,单引号(')、双引号(")和自定义。
      • 转义字符,反斜杠(\)和自定义。
    4. 在对应表的“操作”列中,单击“清除数据”可以删除对应表的数据源。

    通用格式

    通用数据由特征工程“初始用户画像-物品画像-标准宽表生成”算子生成。其路径与“初始用户画像-物品画像-标准宽表生成”结果保存路径一致。

    说明:

    在使用通用格式数据之前,需要先进行特征工程算子计算。

    1. 通用格式数据:从用户属性表、物品属性表和用户操作行为表中提取用户、物品特征和用户行为,并生成JSON数据,即内部通用格式。
    2. 通用格式时间:用户行为数据时间范围,可只有起始时间、结束时间或为空。
  3. 完成该项配置后,单击“下一步”
support.huaweicloud.com/usermanual-res/res_01_0007.html