检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
实时日志 RES根据实时发送到DIS上的日志,进行数据计算和处理,更新用户的相关数据。用户发送到DIS上的数据具体如下: 实时行为日志 实时行为日志的作用包括: 更新用户的兴趣标签。 记录所选行为类型的历史记录。 更新用户的上下文信息。 召回候选集。 表1 实时行为日志字段描述 字段名
流式训练 可上传3份数据至DIS:实时行为日志、实时用户日志和实时物品日志,如实时日志所示。 实时行为日志会被“基于行为数据的用户画像更新”和“基于用户的标签搜索候选集”使用; 实时用户日志会被“基于用户数据更新用户画像”使用; 实时物品日志会被“基于物品数据更新物品画像”使用。 创建近线作业
用于存放全局特征文件,例如放入名为“global_feature_info.json”的文件。 │ obs-general-data 用于存放经过特征工程处理的宽表,又名通用格式数据。 │ obs-pretrain-data 用于存放排序预处理任务生成的预训练数据。 │ obs-error-data
itemType String 物品的类型。 是 itemId String 对应行为发生的对象的值。如果是和物品发生关系,则是物品的id(itemId)的值。 是 actionType String 行为类型,包括正向行为和负向行为。下面为预置的行为类型和对应的权重,权重有默认分数,默认
用户需要自己手工创建整理这些表并存储到OBS上。 每张表的表结构必须符合推荐系统的要求,列名和字段类型需要和规范中保持一致(参考下面的表结构说明)。 每张表中填充的数据,必须符合推荐引擎的要求。 对于业务数据中无法提供的字段可以填NULL。 用户属性表 用户属性表记录用户的属性信息,例如地域、爱好等,属性名和属性值成对出现。
新执行”、“删除”等操作。您也可以通过查看服务的详细信息判读作业训练状态和查询训练结果。 复制离线作业 用户可以通过复制组合作业再次创建新的作业进行离线计算。生成的数据和原来的作业生成的数据相互独立,复制的离线作业会生成新的线上指定的UUID。 操作步骤如下: 登录RES管理控制
置页面创建的场景。 填写参数配置,参数说明请参见表1。 图1 创建数据质量检测作业 表1 数据质量检测算子参数说明 参数名称 说明 结果保存路径 数据质量检测日志的保存路径。包括错误数据输出及定位等。 全局特征信息文件 用户在使用数据质量检测算子之前,需要提供一份全局的特征信息文
解机。 核函数特征交互神经网络是深度网络因子分解机的改进版本,深度网络因子分解机通过向量点乘来计算特征之间的关系,而核函数特征交互神经网络使用不同的核(kernel)来对特征交互进行建模,以此来计算两个域中特征的相互关系,其中核的种类包括向量内积外积、矩阵乘法、神经网络等。利用核
候选集兴趣宽度(值越大召回的候选集中不同类型的物品越多,值越小则召回的类型越单一)。若algorithm_type为NEARLINE_UPDATE_USER_CANDIDATE_SET,则此字段必填。 time_name 否 String 物品数据中代表时间特征的字段名。若rank_type值为TIME,则此字段必填。
数值稳定常量:为保证数值稳定而设置的一个微小常量。默认1e-8。 adagrad:自适应梯度算法 对每个不同的参数调整不同的学习率,对频繁变化的参数以更小的步长进行更新,而稀疏的参数以更大的步长进行更新。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 初
Service,简称OBS)存储RES的推荐数据源,实现安全、高可靠和低成本的存储需求。OBS的更多信息请参见《对象存储服务文档》。 数据接入服务 数据接入服务(Data Ingestion Service,简称DIS)提供推荐数据源的实时日志。DIS的更多信息请参见《数据接入服务文档》。
推荐系统提供了重新执行作业的API,用来将任务以相同的配置重新执行一次,实现对离线任务生成结果的更新。以固定的周期定时调用此API,可保持结果处于一个较新的状态,以获得更好的推荐结果。 以上功能,我们也可以使用数据治理中心 DataArts Studio,通过拖拽的方式完成配置。具体操作步骤如下:
Service,简称OBS)存储RES的推荐数据源,实现安全、高可靠和低成本的存储需求。OBS的更多信息请参见《对象存储服务文档》。 数据接入服务 数据接入服务(Data Ingestion Service,简称DIS)提供推荐数据源的实时日志。DIS的更多信息请参见《数据接入服务文档》。
保留已有宽表 对结果保存路径中已有宽表数据的保留方式: 否,不保留任何已有的数据。 是,保留全部已有的数据。 覆盖,将相同日期下的数据覆盖掉,保留不同日期下的数据。 结果保存路径 行为-用户-物品(通用格式)的保存路径。 说明: 使用初始用户画像-物品画像-标准宽表生成的数据时,其路径具体到文件夹即可。
作业监控及任务异常重新启动节点配置 对第一个节点进行查询作业详情的配置。查询作业详情参数请参见查询作业详情API。 对第二节点进行重新执行作业的配置。重新执行作业详情参数请参见重新执行作业的API。 当检测到近线任务(实时流任务)失败时,才会进行第二个节点的作业。 单击“保存”后,进行“测试运行”。确保功能正常。
需要您准备包含用户类数据,物品类数据,行为数据以及推荐候选列表的离线数据源用于推荐系统的离线计算。 离线数据源 准备实时日志数据 RES根据实时发送到DIS上的日志,进行数据计算和处理,更新用户的相关数据。 实时日志 运行推荐策略 创建离线作业 创建离线作业包括进行数据质量检测、
数据格式规范 推荐系统OBS文件夹规范 离线数据源 实时日志 全局特征信息文件 父主题: 用户指南(旧版)
在使用RES时需使用到其他的资源,因此需要先开通相关服务才可以正常使用RES。包含服务如下: 开通计算引擎DLI、ModelArts 存储平台CloudTable (可选)数据接入资源DIS 各服务的计费请参见:产品价格详情。 开通计算引擎DLI、ModelArts DLI用于推荐系统的离线计算和
输出流DIS通道名称。该通道用于存放由行为数据和画像库计算生成的排序预处理数据,以供模型训练。通道中的数据属于流式训练作业产生的中间数据,使用者只需指定通道名称,无需往该通道发送或获取数据。 starting_offsets 是 String 读取DIS数据的起始位置,LATEST表示从最新的数据开始读取。 表10 data_source_config
离线数据和近线实时数据如何配合使用? 在推荐系统初始化阶段,需要用户提供批量的离线数据源并按照推荐系统要求的数据格式上传至OBS,完成数据的检测和导入。 近线实时数据源推荐使用RES SDK上传,此操作所有的数据更新都是实时生效的。 父主题: 数据源