检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
座两层的小木屋,和这里的大部分木质吊脚楼一样,小木屋依山而建。但这座木屋又很“特别”,它有一个“山东哥哥助学工作站”的名字。这座木屋,凝聚了“山东哥哥”与贵州山区儿童之间的情谊,也见证了一位名叫隋刚的淄博“80后”小伙18年来的坚守。", "绝大多数用户的需求往往
可以将离线数据源经过数据特征抽取,生成推荐系统内部通用的数据格式。经过数据质量检测来确保数据的合法性。 数据结构介绍 数据结构步骤的主要目的是读取用户上传的离线数据,解析用户特征和物品特征中每一个属性的数据格式、统计所有行为,然后保存解析生成的数据格式。 前提条件 已按照创建离线数据源操作指导完成数据源的创建。
需要配置调度的时间间隔。 基于交替最小二乘的矩阵分解推荐 基于交替最小二乘的矩阵分解推荐:基于用户-物品的行为信息作为原始矩阵,利用ALS优化算法对原始矩阵进行矩阵分解,分解之后的用户隐向量矩阵和物品隐向量矩阵可以用来生成预估的新的用户-物品评分矩阵,提取出评分最高的若干个物品作为召回结果。
非法条目数”、“重复度”和“合法率”信息。 类型包括生成的用户、物品、行为数据。您可以通过单击左侧的查看具体报告信息。 “名称”项显示具体参数的名称。 “条目数”显示各种类型数据的具体数量。 图1 查看报告 如果导入错误,会生成“数据导入错误报告”,显示数据“类型”、“数量”和“原因”,方便您定位问题原因。
过滤规则 过滤规则用于配置候选集的过滤方式,使之不进入候选集。对于每个需要过滤的行为,生成用户具有该行为的物品的列表。再对同用户的每种行为的物品列表进行“与”或者“或”的关系,最终生成用户-物品过滤表。 表1 过滤规则参数说明 参数名称 说明 名称 自定义过滤规则名称。由中文、英
创建离线数据源 在使用RES之前,首先您需要创建一个数据源,后续的操作,如修改数据源、创建自定义推荐,都是基于您创建的数据源进行的。 前提条件 已创建用于存储数据的OBS桶及文件夹,并且数据存储的OBS桶与RES在同一区域。 需要使用的数据已上传至OBS。 创建数据源 登录RES管
推荐系统提供了重新执行作业的API,用来将任务以相同的配置重新执行一次,实现对离线任务生成结果的更新。以固定的周期定时调用此API,可保持结果处于一个较新的状态,以获得更好的推荐结果。 以上功能,我们也可以使用数据治理中心 DataArts Studio,通过拖拽的方式完成配置。具体操作步骤如下:
CANDIDATES_SET UserCF算法生成的用户-物品列表候选集。 基于交替最小二乘的矩阵分解推荐 基于交替最小二乘的矩阵分解推荐:基于用户-物品的行为信息作为原始矩阵,利用ALS优化算法对原始矩阵进行矩阵分解,分解之后的用户隐向量矩阵和物品隐向量矩阵可以用来生成预估的新的用户-物品评分矩阵,提取出评分最高的若干个物品作为召回结果。
计算引擎用于推荐系统的离线计算和近线计算。默认DLI。 集群名称 选择“资源中心”绑定的DLI集群名称。 任务配置地址 在创建作业时, 会自动生成一个JSON格式的配置源文件,该文件存储在指定的OBS路径中,计算引擎可以通过读取配置源文件来进行离线计算。 资源名 指定DLI运行作业的资源规格。
“添加推荐候选集”(选择离线或近线任务所生成的推荐候选集进行排序) 任务别名和UUID:单击操作列表的“选择”添加离线或近线的任务名称和候选集ID。 优先级:优先级高的推荐结果将确保展示在优先级低的之前。 同优先级数据占比:优先级相同的推荐候选集,该占比展示推荐数量,同优先级下的数据占比之和需要等于100%。
自定义场景基于用户群体不同推荐场景的需求,提供了多种多样的推荐策略和算法,实现了端到端的自定义推荐场景搭建,使每一个推荐场景都能得到针对性的推荐效果提升。 前提条件 已经存在创建成功并完成数据探索的数据源。 由于训练作业运行需消耗资源,确保账户未欠费。 确保您使用的OBS目录与RES在同一区域。
得超过行为数据的时间范围。 测试数据时间:测试数据起始时间和终止时间,该起始时间和终止时间不得超过行为数据的时间范围。 “RATE” 训练数据占比:生成的结果中,训练集占整个训练集和测试集的比例,默认0.7。 测试数据占比:生成的结果中,训练集占整个训练集和测试集的比例,默认0.3。
多值枚举型(strArray):字符串数组型,每一个特征值都是一个不定长的字符串数组,例如商品的类别特征、用户的兴趣爱好等。排序预处理算子会将所有特征值规范到统一长度以便后续处理; KV数值型(map):Map[String,Double]型,每一个特征值都是一个不定长的key-value对,例如用
特征工程常用于抽取用户、物品的特征和特定算法的特征生成,一般作为某些算法的前置输入条件。 特征工程 召回策略 召回策略用于生成推荐的候选集,在原始数据中通过算法和规则匹配用户的候选集。 召回策略 排序策略 排序策略根据不同的算法模型对召回策略或者近线策略生成的候选集进行重排序,得到推荐候选集列表。
数据探索是什么?近线实时数据如何在数据探索中的报告体现? 数据探索是针对当前数据源的数据进行挖掘和分析,主要聚焦在特征的分布范围、统计以及特征齐全度等,使用户能够更了解数据,进而指导在特征工程以及相关算法的配置。 数据探索是一个离线分析任务,任务有对应的启动时间,由于近线实时数据会实时入库
特征工程常用于抽取用户、物品的特征和特定算法的特征生成,一般作为某些算法的前置输入条件。 排序策略-离线特征工程 排序策略 排序策略根据不同的算法模型对召回策略或者近线策略生成的候选集进行重排序,得到推荐候选集列表。 排序策略-离线排序模型 在线服务 在线服务用来做线上推荐时的应用,每个服务之
新执行”、“删除”等操作。您也可以通过查看服务的详细信息判读作业训练状态和查询训练结果。 复制离线作业 用户可以通过复制组合作业再次创建新的作业进行离线计算。生成的数据和原来的作业生成的数据相互独立,复制的离线作业会生成新的线上指定的UUID。 操作步骤如下: 登录RES管理控制
用户报表:根据不同数据格式展示用户数据的类型、最大值和最小值。您可以单击相关数据后的查看数据的详细信息。 百分位数:将数据进行排序,统计该数据在整个数据中所占的百分比。 图2 百分位数 分布统计:通过查看分布统计了解各参数下参数值的分布情况。如可以根据性别展示数据中的性别数据分布。可通过查看标签,了解数据中各种标签的分布情况。
通”、“停止”、“删除”等操作。您也可以通过单击在线服务名称查看在线服务的详细信息。 编辑服务 用户可以通过“编辑”在线服务修改该参数信息进行计算。生成的数据会覆盖原来的在线服务计算生成的数据。“部署中”的在线服务不支持编辑。操作步骤如下: 登录RES管理控制台,在左侧菜单栏中选择“在线服务”,进入服务列表。
在购物车场景,使用的召回候选集来自于离线计算基于物品的协同过滤生成的候选集,而为了尽可能保证推荐的匹配度,要求推荐出来的物品尽可能的与用户性别、体质和年龄等属性吻合,所以考虑基于用户性别、体质和年龄等属性用标签索引得到的满足条件物品列表item1, 对离线生成的items2进行如