检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
“行为次数统计方法”:选择“uv”,即相同的行为记录会进行去重。“pv”的意思是同样行为记录不会去重。 “用户分群”:数据源类型包括用户特征和物品特征,根据数据源筛选数据, 选出需要的属性。只能选择进行用户分组还是物品分组,分组内可配置多个特征。默认关闭。 “最大推荐数结果数”:指定召回的结果数量。
对于业务数据中无法提供的字段可以填NULL。 用户属性表 用户属性表记录用户的属性信息,例如地域、爱好等,属性名和属性值成对出现。 表2 字段描述 字段名 类型 描述 是否必选 userId String 被推荐用户的唯一标识符。例如,用户的登录账号、imei号等。 是 userProperties
属性过滤规则 指定定制化用户属性以及物品属性过滤规则,属性过滤规则用于过滤最终用户的推荐结果。例如,对于一线城市的用户过滤敏感信息物品,使之不进入候选集。单击增加属性过滤规则。 用户属性:指定在用户属性中需要过滤的字段,包含属性名和属性值。来源于画像数据,即特征工程中初始用户画像-物品画像
开通OBS服务,确保您使用的OBS目录与RES在同一区域。 已经获取访问密钥(AK/SK)。 通过OBS管理上传数据 本文档中,采用管理控制台上传数据至OBS。 执行如下操作,将数据导入到您的数据集中,以便用于模型训练和构建。 登录OBS管理控制台,在RES同一区域内创建桶。如果已存在可用
、数据修改等操作,为智能场景推荐和自定义场景推荐做好数据准备。 数据类型 当前RES支持创建数据源和导入近线数据。创建数据源的数据格式和近线数据导入的格式要求一致,包括用户数据、物品数据和行为数据。 用户数据 用户数据包括数据源中的“用户属性表”和用于近线计算的“用户画像”数据。
聚焦在特征的分布范围、统计以及特征齐全度等,使用户能够更了解数据,进而指导在特征工程以及相关算法的配置。 数据探索是一个离线分析任务,任务有对应的启动时间,由于增量数据会实时入库,因此可以通过定时执行数据探索任务来覆盖增量数据。 操作步骤 在“执行步骤”页签,单击数据探索下的“执
且可以根据任务状态决定是否需要重新执行任务。 以上功能,我们也可以使用数据治理中心 DataArts Studio,通过拖拽的方式完成配置。具体操作步骤如下: 登录数据治理中心 DataArts Studio管理控制台,在控制台的左侧导航栏,选择“数据开发 > 作业开发”。 在“工作区”页面的右侧,单击“新建作业”。
您可以在RES管理控制台的总览页查看服务的最新动态、了解作业状态、快捷创建服务。 登录RES管理控制台,单击左侧导航栏上的“总览”,进入总览页面。 总览界面包括“最新动态”、“视频教程”和“常用链接”,如图1所示。其中,在最新动态可查看所创建“离线作业”、“近线作业”和“在线服务”的名称、状态和创建时间。
宽表:推荐系统内部格式,以行为数据为主,将行为数据中涉及到的用户数据和物品数据整合成一条数据。 画像:画像分为用户画像和物品画像,分别用于存储用户输入的用户特征和物品特征。如果同一用户或物品有多条记录,将会按照用户ID或者物品ID去重。 前提条件 已按照创建离线数据源操作指导完成数据源的创建。 已完成数据结构识别和人工复核确认。
在使用华为云服务之前您需要申请华为云帐号。通过此账号,您可以使用所有华为云服务,并且只需为您所使用的服务付费。 操作步骤 进入华为云首页,单击页面右上角的“注册”。 设置手机号、短信验证码、账号名、密码并勾选“我已阅读并同意《华为云用户协议》和《隐私政策声明》”,单击“同意协议并注册”。
删除离线作业即清理离线作业产生的数据,数据清理完成后删除元数据。操作必须确保流程中没有使用该作业产生的UUID,可以参考以下操作完成。 删除离线作业 您可以对“计算成功”、“计算失败”等状态的作业进行删除,“启动中”、“计算中”状态的作业不支持删除操作。 登录RES管理控制台。在左侧菜单栏中选择“离线作业”下的目标推荐作业,进入作业列表。
在请求时将签名信息添加到消息头,从而通过身份认证。 AK(Access Key ID):访问密钥ID。与私有访问密钥关联的唯一标识符;访问密钥ID和私有访问密钥一起使用,对请求进行加密签名。 SK(Secret Access Key):与访问密钥ID结合使用的密钥,对请求进行加密签名,可标识发送方,并防止请求被修改。
查看在线服务详情 当在线服务创建成功后,您可以进入“在线服务”页面,来查看服务详情。 登录RES管理控制台,在左侧菜单栏中选择“在线服务”,进入“在线服务”管理页面。 您可以在服务列表直接查看服务的“名称”、“状态”、“调用总次数”、“开通状态”和“服务类型”等。 当服务部署成功
建集群章节。 CloudTable创建集群操作详请参见表格存储服务用户指南> 集群模式> 集群操作指导> 创建集群章节。 DIS创建通道操作详请参见数据接入服务用户指南> 入门> 步骤1:开通DIS通道章节。 CloudTable集群需要开启IAM统一身份认证。 创建资源完成后,
直接使用得到满意的推荐候选集。 用户通过数据质量作业对离线数据进行质量检测,然后将检测合格的数据通过特征工程处理为可用于召回策略、过滤规则、排序策略、近线作业的数据。通过上述离线作业训练出可用于在线服务的推荐候选集。当在线服务运行完成,您可以通过效果评估检测推荐结果。 离线作业功能说明
训练作业描述,最大长度为256字符。 project_id 是 String 项目编号,用于资源隔离。 user_id 是 String 用户ID。 operating_time 是 Long 操作时间。 request_info 是 Object 请求体。 response_info 是 Object 返回体。
Logistic Regression (LR) LR算法是一种广义的线性回归分析模型,常用于数据挖掘、疾病自动诊断、经济预测等领域。LR算法通过在线性回归的基础上叠加一个sigmoid激活函数将输出值映射到[0,1]之间,是机器学习领域里常用的二分类算法。 表1 逻辑斯蒂回归参数说明
度的时间间隔。 基于用户的协同过滤推荐 基于用户的协同过滤推荐采用经典算法基于用户的协同过滤(UserCF)进行召回。基于用户的协同过滤算法是通过用户的历史行为数据发现用户对物品的喜欢(如购买,收藏,内容评论或分享),并对这些喜好进行度量和打分。根据不同用户对相同物品的态度和偏好
“用户操作行为表”:离线数据用户操作行为表的OBS路径。 图1 属性配置 删除场景 登录RES管理控制台,在“全局配置”页面的属性配置区域,单击场景右侧的“删除”,进入“场景列表”页面。 单击目标场景操作列的“删除”,即完成场景删除。 场景删除操作无法恢复,请谨慎操作。场景删除后,OBS路径下的文件依旧保留。
在使用RES之前,首先您需要创建一个数据源,后续的操作都是基于您创建的数据源进行的。 创建离线数据源 上传实时数据(可选) RES通过SDK上传实时数据,进行数据计算和处理,更新用户的相关数据。 上传实时数据 数据质量管理 数据质量管理操作可以将数据源经过数据特征抽取,生成推荐系统内部通用的数据格式。