检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据源的数据格式和近线数据导入的格式要求一致,包括用户数据、物品数据和行为数据。 用户数据 用户数据包括数据源中的“用户属性表”和用于近线计算的“用户画像”数据。用户数据记录用户的属性信息,例如地域、爱好等。 物品数据 物品数据包括数据源中的“物品属性表”和用于近线计算的“物品画
离线数据和近线实时数据如何配合使用? 在推荐系统初始化阶段,需要用户提供批量的离线数据源并按照推荐系统要求的数据格式上传至OBS,完成数据的检测和导入。 近线实时数据源推荐使用RES SDK上传,此操作所有的数据更新都是实时生效的。 父主题: 数据源
Service,简称OBS)进行数据源的存储。因此,在使用RES之前您需要开通OBS服务并创建桶,然后在OBS桶中上传用户数据用于推荐作业的计算。 需要存放在OBS桶中的数据包括: 离线数据源:包含用户类数据,物品类数据,行为数据以及推荐候选列表。 人工推荐策略的候选集(可选):您可以将人工编辑推荐结果的列表c
批处理、近线流处理、在线实时处理的三种数据处理方式,提供完备的一站式推荐平台,可快速设置运营规则进行AB测试。 功能优势: 全开放推荐流程,用户根据业务自定义推荐流程。 特征工程,特征处理多样化,支持自定义特征散列等。 丰富的推荐策略,提供丰富的召回、过滤、排序算子。 运营助手,
用户需要自己手工创建整理这些表并存储到OBS上。 每张表的表结构必须符合推荐系统的要求,列名和字段类型需要和规范中保持一致(参考下面的表结构说明)。 每张表中填充的数据,必须符合推荐引擎的要求。 对于业务数据中无法提供的字段可以填NULL。 用户属性表 用户属性表记录用户的属性信息,例如地域、爱好等,属性名和属性值成对出现。
“非法条目数”、“重复度”和“合法率”信息。 类型包括生成的用户、物品、行为数据。您可以通过单击左侧的查看具体报告信息。 “名称”项显示具体参数的名称。 “条目数”显示各种类型数据的具体数量。 图1 查看报告 如果导入错误,会生成“数据导入错误报告”,显示数据“类型”、“数量”和“原因”,方便您定位问题原因。
品ID的形式在OBS上存储。 操作步骤 登录OBS管理控制台,创建OBS桶。例如,创建名称为“obs-res”的OBS桶。 创建桶的区域需要与RES所在的区域一致。例如:当前RES在华北-北京一区域,在对象存储服务创建桶时,请选择华北-北京一。 通过OBS创建用于存放数据的文件夹
宽表条目数,行为数据去重以后的数目。 user_complete_degree Double 用户齐全度,一条行为中的用户是否在产生这条行为的时候拥有画像。 item_complete_degree Double 物品齐全度,一条行为中的物品是否在这条行为产生的时候拥有画像。 bhv_count
得超过行为数据的时间范围。 测试数据时间:测试数据起始时间和终止时间,该起始时间和终止时间不得超过行为数据的时间范围。 “RATE” 训练数据占比:生成的结果中,训练集占整个训练集和测试集的比例,默认0.7。 测试数据占比:生成的结果中,训练集占整个训练集和测试集的比例,默认0.3。
“添加推荐候选集”(选择离线或近线任务所生成的推荐候选集进行排序) 任务别名和UUID:单击操作列表的“选择”添加离线或近线的任务名称和候选集ID。 优先级:优先级高的推荐结果将确保展示在优先级低的之前。 同优先级数据占比:优先级相同的推荐候选集,该占比展示推荐数量,同优先级下的数据占比之和需要等于100%。
RES服务支持按需和购买套餐包,根据用户选择使用的资源进行收费。一个完整的推荐场景需要下面三种资源,均为必选项。套餐的数量可以根据实际业务按需购买。 计算资源:用于推荐作业的计算规格。涉及计费功能包含:数据源、自定义场景、智能场景中的离线计算和模型训练。 存储资源:用于推荐系统数据存储规格。涉及计费功能包括:数据源。
均需要选取训练规格,根据训练规格大小进行计费。 如果需要数据源停止计费,请先终止近线数据源的导入,删除对应数据源和对应OBS中的数据存储。 父主题: 计费相关
实时日志 RES根据实时发送到DIS上的日志,进行数据计算和处理,更新用户的相关数据。用户发送到DIS上的数据具体如下: 实时行为日志 实时行为日志的作用包括: 更新用户的兴趣标签。 记录所选行为类型的历史记录。 更新用户的上下文信息。 召回候选集。 表1 实时行为日志字段描述 字段名
登录RES管理控制台。在左侧菜单栏中选择“离线作业”下的目标推荐作业,进入作业列表。 在作业列表页面,您可以单击目标作业“操作”列的“删除”。 在删除页面,您可以直接单击“是”只删除该作业。也可以勾选下方的“同时删除作业产生的CloudTable数据”,选择该作业对应的数据进行离线删除。 图1 删除作业
本实践介绍用户在客户端浏览、点击过的某些商品,在规定的时间内,重复请求推荐接口,不会被再次推荐。 功能说明 该功能使用涉及两部分:实时行为数据的接入和在线服务配置行为过滤。当数据源部分开启近线行为实时接入之后,并且用户通过上传实时行为数据,系统才具备根据实时行为进行曝光过滤的功能,该部分可参考上传实时数据进行配置和对接。
在数据源列表单击目标数据源名称,进入数据源详情页面。 单击离线数据源右侧的“编辑”,在页面下方单击选择目标文件在OBS中的存储位置。 图1 修改离线数据源 单击“确认”,完成修改。 删除数据源 前提条件 已存在创建成功的数据源。 注意事项 数据源中的数据结构、数据导入或数据探索有任务在运行,该数据源不支持删除。
如何确定近线数据源导入实时数据成功? 近线数据源上传成功后,可在推荐系统控制台的“数据源”直接查看。 父主题: 数据源
新执行”、“删除”等操作。您也可以通过查看服务的详细信息判读作业训练状态和查询训练结果。 复制离线作业 用户可以通过复制组合作业再次创建新的作业进行离线计算。生成的数据和原来的作业生成的数据相互独立,复制的离线作业会生成新的线上指定的UUID。 操作步骤如下: 登录RES管理控制
特征工程常用于抽取用户、物品的特征和特定算法的特征生成,一般作为某些算法的前置输入条件。 特征工程 召回策略 召回策略用于生成推荐的候选集,在原始数据中通过算法和规则匹配用户的候选集。 召回策略 排序策略 排序策略根据不同的算法模型对召回策略或者近线策略生成的候选集进行重排序,得到推荐候选集列表。
推荐系统提供了重新执行作业的API,用来将任务以相同的配置重新执行一次,实现对离线任务生成结果的更新。以固定的周期定时调用此API,可保持结果处于一个较新的状态,以获得更好的推荐结果。 以上功能,我们也可以使用数据治理中心 DataArts Studio,通过拖拽的方式完成配置。具体操作步骤如下: