检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
类型,输出错误报告。如果数据完全符合要求,会生成推荐系统所需要的宽表和画像数据。 宽表:推荐系统内部格式,以行为数据为主,将行为数据中涉及到的用户数据和物品数据整合成一条数据。 画像:画像分为用户画像和物品画像,分别用于存储用户输入的用户特征和物品特征。如果同一用户或物品有多条记录,将会按照用户ID或者物品ID去重。
基于行为数据的用户画像更新 基于行为数据的用户画像更新可以对用户画像进行持续更新,更新频率可达秒级。以DIS中的实时行为日志为数据源,从中分析出用户画像更新信息,并实时更新用户画像,使用户画像随着用户行为的发生而不断变化。 通过此任务可以更新的用户画像内容有:用户标签等动态信息,
成”时,完成数据格式的转化。 执行完成在页面下方会显示数据探索报告,包括“用户报表”、“物品报表”、“行为报表”和“画像查询”。 单击目标报表名称查看具体报表信息。 图1 查看报表 用户报表:根据不同数据格式展示用户数据的类型、最大值和最小值。您可以单击相关数据后的查看数据的详细信息。
问题。 初始用户画像-物品画像-标准宽表生成 初始用户画像-物品画像-标准宽表生成,是将初始格式数据(离线数据)处理成用户画像、物品画像以及内部通用格式数据。 表1 初始用户画像-物品画像-标准宽表生成参数说明 参数名称 说明 数据源 数据在OBS的存放路径。包括用户属性表、物品属性表、用户操作行为表。
用户指南(旧版) 准备工作 RES操作流程 管理资源 全局配置 离线作业 近线作业 在线服务 服务总览信息 数据格式规范
数据探索是什么?近线实时数据如何在数据探索中的报告体现? 数据探索是针对当前数据源的数据进行挖掘和分析,主要聚焦在特征的分布范围、统计以及特征齐全度等,使用户能够更了解数据,进而指导在特征工程以及相关算法的配置。 数据探索是一个离线分析任务,任务有对应的启动时间,由于近线实时数据会
则用于过滤最终用户的推荐结果。例如,对于一线城市的用户过滤敏感信息物品,使之不进入候选集。单击增加属性过滤规则。 用户属性:指定在用户属性中需要过滤的字段,包含属性名和属性值。来源于画像数据,即特征工程中初始用户画像-物品画像-标准宽表生成算子作业输出的数据,用户属性来自于公共配
示例流程 图1 给用户授权RES权限流程 创建用户组并授权 在IAM控制台创建用户组,并授予推荐系统服务只读权限“RES ReadOnlyAccess”。 创建用户并加入用户组 在IAM控制台创建用户,并将其加入1中创建的用户组。 用户登录并验证权限 新创建的用户登录控制台,切换至授权区域,验证权限:
"actionDateTime": "1512689700" } 实时用户日志 实时用户日志用于在实时流中对用户画像表进行写入。 表2 用户实时日志字段描述 字段名 类型 描述 是否必选 userId String 全局唯一用户ID。 是 BASICINFO Json 用户基本属性值。其中字段的值只能是数值型,字符串或字符串数组。
及定位等。 全局特征信息文件 用户在使用数据质量检测算子之前,需要提供一份全局的特征信息文件,后续的特征工程、排序算法、在线服务都会用到该文件。全局特征信息文件需要和画像中字段一致,其中BASIC_INFO为画像表中定义的基本属性字段,TAGS为画像表中定义的带权重的标签,Con
导入的格式要求一致,包括用户数据、物品数据和行为数据。 用户数据 用户数据包括数据源中的“用户属性表”和用于近线计算的“用户画像”数据。用户数据记录用户的属性信息,例如地域、爱好等。 物品数据 物品数据包括数据源中的“物品属性表”和用于近线计算的“物品画像”数据。物品数据记录物品的属性信息,例如类别、长度等。
该值越小筛选相似项条件越严格。 4 用户画像存储 该数据来源于基于用户数据更新用户画像更新后的用户画像数据或者初始用户画像-物品画像-标准宽表生成的用户画像。 - 物品画像存储 该数据来源于基于物品数据更新物品画像更新后的物品画像数据或者初始用户画像-物品画像-标准宽表生成的物品画像。 - 最大推荐结果数
和“32CU”四种规格。 用户画像实时导入 通过SDK导入通道中存储的用户画像实时数据。详情参见上传实时数据。在“用户画像实时导入”右侧,单击打开按钮,在弹出的对话框中进行确认。 物品画像实时导入 通过SDK导通道中存储的物品画像实时数据。在“物品画像实时导入”右侧,单击打开按钮,在弹出的对话框中进行确认。
数据源的收费包括三项。 “OBS存储”:将离线数据源上传至OBS进行存储,根据存储空间大小进行计费。详见OBS计费详情。 “画像数据”:在数据源导入数据成功后,按每小时每百万条画像进行计费,在删除数据源后,将停止计费。 “训练作业”:在创建离线作业和导入实时数据均需要选取训练规格,根据训练规格大小进行计费。
在线作业 1年 “计算型GPU(P100)实例” 300小时 “计算型GPU(V100)实例” 300小时 存储资源 “画像存储(一百万)” 9000小时 画像存储 在线服务 “在线并发9000TPS-时” - 在线服务调用API - 购买套餐包 登录RES管理控制台,在“总览”
数据源类型有初始格式和通用格式可以选择。 “初始格式” 用户操作行为表:初始数据中的用户操作行为表。 “通用格式” 通用格式数据:特征工程“初始用户画像-物品画像-标准宽表生成”算子生成的用户推荐系统的数据。从用户特征表、物品特征表以及用户行为表中提取用户、物品特征和用户行为,并生成json数据,即内部通用格式。
绑定或解绑资源 在RES管理控制台界面,资源中心列表中会提供当前账号创建的DLI集群、CloudTable开启IAM认证的集群和DIS通道供用户选择进行绑定或解绑。 背景信息 绑定资源之后,将该资源应用于RES的作业训练及在线作业获取推荐结果。 解绑资源完成资源释放,已经解绑的资源不再应用于RES的相关计算。
通用数据由特征工程“初始用户画像-物品画像-标准宽表生成”算子生成。其路径与“初始用户画像-物品画像-标准宽表生成”结果保存路径一致。 说明: 在使用通用格式数据之前,需要先进行特征工程算子计算。 通用格式数据:从用户属性表、物品属性表和用户操作行为表中提取用户、物品特征和用户行为,并生成JSON数据,即内部通用格式。
过滤规则涉及历史行为过滤,则用到用户操作行为表,需要选取目标数据进行过滤。 “初始格式” 用户操作行为表:初始数据中的用户操作行为表。 “通用格式” 通用格式数据:特征工程“初始用户画像-物品画像-标准宽表生成”算子生成的用户推荐系统的数据。从用户特征表、物品特征表以及用户行为表中提取用户、物品特征和
配额说明 为防止资源滥用,平台限定了各服务资源的配额,对用户的资源数量和容量做了限制。 表1 RES服务配额 资源 限制条件 建议 推荐引擎预测接口中最多请求结果数量 20 可提工单支持更高规格。 单份画像数据中最多支持的特征数量 30 单场景在线服务最多支持每秒请求的次数(TPS)