华为云用户手册

  • 基于用户的协同过滤推荐 基于用户的协同过滤推荐采用经典算法基于用户的协同过滤(UserCF)进行召回。基于用户的协同过滤算法是通过用户的历史行为数据发现用户对物品的喜欢(如购买,收藏,内容评论或分享),并对这些喜好进行度量和打分。根据不同用户对相同物品的态度和偏好程度计算用户之间的关系。在有相同喜好的用户间进行物品推荐。 例如,A、B两个用户都购买了abc三本图书,并且给出了5星的好评。则A和B属于同一类用户。可以将A看过的图书d也推荐给用户B。 表3 基于用户的协同过滤推荐参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 最近邻域数 在UserCF算法中使用,生成的相似度矩阵中为每个用户保留的若干个最相似用户。默认为100。 最小交叉度 物品和物品之间被同一用户行为记录的数量,计算相似度时,过滤掉共同记录小于最小交叉度的item。 默认值:1。 物品活跃度 物品过滤用户的活跃度阈值。 取值范围:1-10000。 默认值:1。 效用阈值 用户对物品综合打分的阈值。 取值范围:0.000001-10。 最大推荐结果数 最多生成多少个推荐结果。 默认值:100。 开启时间跨度 不开启取全部数据,开启则指定从数据源中取最近天数的行为数据计算相似度。 时间跨度 用于指定从数据源中取最近多少天的行为数据计算相似度。默认取全部数据。 上传物品相似度 支持客户通过obs导入自定义的相似度信息。相似度文件格式为json, 其中subject为用户或物品, relations为与subject相似的用户或物品及其相似度。例如, { "subject": "item108", "relations": [ { "id": "item115", "score": 0.699357793663589 }, { "id": "item60", "score": 0.659905609639582 }, { "id": "item61", "score": 0.640305447750641 }, { "id": "item18", "score": 0.614275316537666 } ] } 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。
  • 业务规则-基于历史行为记忆生成候选集 业务规则-基于历史行为记忆生成候选集可以从用户历史行为数据中筛选出发生过某些行为的物品(例如,筛选出曾经点击过5次的物品)。此策略适用于“看了又看”,“买了又买”等推荐场景。 表5 业务规则-基于历史行为记忆生成候选集参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 频次 “相对时间间隔”:指定历史行为时间段,选取数据中每个用户最靠后的行为数据的时间往前N天的行为数据计算用户偏好。建议至少设置30天。 “绝对时间间隔”:指定历史行为时间段,选取数据中每个用户距离现在时间往前N天的行为数据计算用户偏好。建议至少设置30天。 “行为类型”:指定行为类型。 “最小次数”:行为次数下界,高于此的物品才会被选中。默认为1。 “最大次数”:行为次数上界,低于此的物品才会被选中。 单击,增加频次。你可以单击右侧的删除该频次。 最大推荐结果数 最多生成多少个推荐结果。默认为100。 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。
  • 业务规则-人工导入 业务规则-人工导入是指用户自定义物品列表,并将此列表作为候选集,以供在线服务调用。 表6 业务规则-人工导入参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 OBS地址 用户可从此OBS地址中选择自定义物品列表的csv文件。单击,从弹出的对话框中,选择数据存储的OBS桶及其文件夹。 导入候选集类型 选择导入候选集类型,目前支持以下三种。 物品-分数候选集:物品-分数候选集可以用于在线服务的推荐候选集。 用户相似度候选集:用户相似度候选集可用于实时召回。 物品相似度候选集:物品相似度候选集可用于实时召回与在线服务的推荐候选集。 最大推荐结果数 最多生成多少个推荐结果。默认为100。 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。 数据格式(.csv文件): itemId1 itemId2 itemId为物品id,算法将物品列表上传的物品作为候选集 用户可从OBS中选择保存有人工编辑推荐结果的列表(即物品ID)。
  • 基于综合行为热度推荐 基于综合行为热度推荐统计用户对物品所有行为的加权热度。如果选择用户分群,将生成每个分组的热度推荐;如果不选择,将生成全局热度推荐。 表1 基于综合行为热度推参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 行为次数统计方法 物品记录统计方式。 “pv”:page view,每个用户可对同个物品产生多条记录。 “uv”:unique visitor,每个用户只能对每个物品产生一条记录, 算法只保留权重最大的记录。 用户分群 数据源类型包括用户特征和物品特征,根据数据源筛选数据, 选出需要的属性。只能选择进行用户分组还是物品分组,分组内可配置多个特征。 “用户特征”:在用户特征下拉框中选择需要的特征参数进行召回计算。例" user_meta_list ": ["gender","age"] “物品特征”:在物品户特征下拉框中选择需要的特征参数进行召回计算。例" item_meta_list ": ["weight","score"] 最大推荐结果数 每个用户最多生成多少个推荐结果。 开启时间跨度 不开启取全部数据,开启则指定从数据源中取最近天数或小时数的行为数据计算相似度。 时间单位 开启时间跨度后,支持按照天或者小时为单位从指定从数据源中取行为数据计算相似度。 时间跨度 用于指定从数据源中取最近多少天或者多少小时的行为数据计算热度。默认取全部数据。 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。
  • 排序策略-近线排序策略 近线排序策略用于对在线实时数据排序。如果使用在线排序模型,需在排序策略-近线特征工程中创建完成后才可以正常使用排序策略。 在“创建自定义场景”页面,进入“排序策略”页签,单击“添加近线排序策略”。 进行在线学习参数配置。 名称:自定义在线排序策略名称。 离线排序策略:从下拉框中选择已经创建完成的排序策略-离线排序策略作业名称。 优化器类型:具体参数解释请参见Logistic Regression (LR)。 图6 添加近线排序策略 创建完成后在单击“确认”。保存后的策略会展示在下面的列表中。 (可选)在目标策略右侧,可以对所选策略进行“编辑”和“删除”操作。 参数配置完成后可单击“下一步:在线服务”。
  • (可选)效果评估 自定义场景创建完成后,页面自动跳转到自定义场景列表页面,您可以单击目标场景名称进入详情页,创建效果评估。 “效果评估”页签下单击,在弹出页面选择填写“名称”和“描述”。 效果评估名称:只能由字母、数字、中划线和下划线组成,并且长度小于64个字符。 图8 创建效果评估 配置创建效果评估相关参数,请参见表1。 配置完成后单击“确认”,该作业会出现在效果评估页签下的列表中。鼠标移动至该策略上方,可以对该策略作业进行“编辑”、“查看”、“执行”和“删除”操作。 您可以在自定义详情页面查看“已完成”状态的评估结果图表,方便您查看近期的评估效果。
  • 在线服务 在“在线服务”页面,填写基本信息。您可以根据实际情况填写“名称”、“描述”信息或“开启异常告警”。单击开启异常告警,在下拉选项中选择 SMN 主题名称。如果您还未有可选的主题,请前往 消息通知 服务创建主题。 单击“添加在线流程”,并进行命名,您最多可以部署5个在线流程。根据选择的服务类型配置在线流程,包括“召回池”、“过滤”、“排序”等关键信息。具体参数信息参见表1。 图7 创建在线服务 参数配置完成后单击“创建并完成”。作业创建完成后您可以在自定义场景列表页面目标场景的“操作”列单击“执行”,待场景状态为“运行中”时,作业运行完成。
  • 排序策略-离线排序策略 排序策略离线排序策略是用于对召回策略生成的候选集进行二次排序。如果离线使用排序模型,需在排序策略-离线特征工程中创建完成后才可以正常使用排序策略。 各个策略的详细参数设置和输入输出请单击下方链接查看。 Logistic Regression (LR) DeepFM AutoGroup 在“创建自定义场景”页面,进入“排序策略”页签,单击“离线排序策略”,如图5所示。用户可以根据业务需要在“添加排序策略”下拉框中选择一个合适的排序策略。 图5 添加离线排序策略 创建完成后在单击“确认”。保存后的策略会展示在下面的列表中。 (可选)在目标策略右侧,可以对所选策略进行“编辑”和“删除”操作。 具体策略的参数说明可单击上方策略名称进行查看。
  • 过滤规则 过滤规则是用于配置候选集的过滤方式,使相关内容不进入候选集。 如果您选择的是排序引擎,在配置完基本信息之后进入“过滤规则”页签。 如果您选择的是推荐引擎,在配置完召回策略之后,进入“过滤规则”页签。 “创建自定义场景”页面,进入“过滤规则”页签,单击“添加过滤策略”,如图3所示。策略的详细参数说明请参见过滤规则。 图3 创建过滤规则 表3 过滤规则参数说明 参数 说明 名称 根据业务自定义命名。 描述 根据业务自定义描述。 频次 筛选出每个用户的行为数据中满足要求的数据,使之不进入候选集。 相对时间间隔:与数据源内的行为数据记录最后的一条时间相差天数。 最小次数:某用户对某物品产生某行为的最小次数。 行为类型:指定行为类型。 绝对时间间隔:与当前时间相差天数。 最大次数:某用户对某物品产生某行为的最大次数。 行为过滤逻辑 设置为AND或者OR。AND即为在7天内点赞超过3次且在7天内消费超过3次的物品。 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。 创建完成后单击“确认”。保存后的策略会展示在下面的列表中。 (可选)在目标策略右侧,可以对所选策略进行“编辑”和“删除”操作。 具体策略的参数说明可单击上方策略名称进行查看,策略设置完成后,单击“下一步:排序策略”。
  • 召回策略 您可以根据业务需要,选择合适的召回策略。召回策略用于配置离线计算逻辑,通过启动离线计算任务进行候选推荐结果集的生成。 各个召回策略的详细介绍请参见: 基于综合行为热度推荐 基于物品的协同过滤推荐 基于用户的协同过滤推荐 基于交替最小二乘的矩阵分解推荐 业务规则-基于历史行为记忆生成候选集 业务规则-人工导入 基于特征匹配的召回策略 基于UCB的召回策略 近线召回 基于物品相似度的实时召回 基于用户相似度的实时召回 在“创建自定义场景”页面,进入“召回策略”页签,单击“添加召回策略”,根据业务需要在下拉框中选择一个合适的策略。本章节以“基于交替最小二乘的矩阵分解推荐”为例进行创建,如图2所示。 图2 召回策略 表2 基于交替最小二乘的矩阵分解推荐参数说明 参数 说明 名称 根据业务自定义命名。 描述 根据业务自定义。例如,这是一个测试策略。 隐向量维度 在ALS算法中使用,指定用户隐向量、物品隐向量的隐含因子的维度大小。如果离线计算失败,建议调小至10以下。 默认为10。 优化正则化系数 在ALS算法中使用,指定用户隐向量、物品隐向量的隐含因子的维度大小。 设置为默认参数0.01。 最大迭代次数 指定迭代优化的最大迭代次数。如果离线计算失败,建议调小至10以下。 默认为10。 最大推荐结果数 最多生成多少个推荐结果。 默认参数100。 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。 创建完成后单击“确认”。保存后的召回策略会展示在下面的列表中。 (可选)在目标召回策略右侧,可以对所选策略进行“编辑”和“删除”操作。 删除操作不可恢复,请您谨慎操作。 具体策略的参数说明可单击上方策略名称进行查看,策略设置完成后,单击“下一步:过滤规则”。
  • 自定义场景功能说明 表1 功能说明 功能 说明 详细指导 创建自定义场景 自定义场景作为一个包含多个子任务的作业,通常用于多个召回、过滤、排序等任务。 创建自定义场景 召回策略 召回策略通过大数据计算或深度训练生成推荐候选集。 召回策略 过滤规则 过滤规则用于生成推荐的过滤集,包含黑白名单、历史行为过滤等特性。支持用户在线上推理过程中完成对相关物品的过滤。 过滤规则 特征工程 特征工程常用于抽取用户、物品的特征和特定算法的特征生成,一般作为某些算法的前置输入条件。 排序策略-离线特征工程 排序策略 排序策略根据不同的算法模型对召回策略或者近线策略生成的候选集进行重排序,得到推荐候选集列表。 排序策略-离线排序模型 在线服务 在线服务用来做线上推荐时的应用,每个服务之间是独立的。即根据不同的离线计算得到的候选集以及相关参数,提供不同的推荐服务。 在线服务 效果评估 指用于通过推荐系统推荐出去的结果集并利用trace_id回流到推荐系统的行为的点击率、转化率等指标的计算。 效果评估
  • 修改离线数据源 前提条件 已存在的离线数据源有修改或者更新并已经上传至OBS。 只有在数据源数据结构特征抽取人工复核确认之前才允许修改数据源。 注意事项 修改编辑之后的离线数据源需要重新进行数据结构抽取和检测、探索等操作。 操作步骤 登录RES管理控制台,在左侧菜单栏中选择“数据源”,进入数据源列表页面。 在数据源列表单击目标数据源名称,进入数据源详情页面。 单击离线数据源右侧的“编辑”,在页面下方单击选择目标文件在OBS中的存储位置。 图1 修改离线数据源 单击“确认”,完成修改。
  • 操作步骤 在“执行步骤”页签,单击数据探索下的“执行”。进入“数据探索”页面,确认页面信息后单击“是”。待状态为“已完成”时,完成数据格式的转化。 执行完成在页面下方会显示数据探索报告,包括“用户报表”、“物品报表”、“行为报表”和“画像查询”。 单击目标报表名称查看具体报表信息。 图1 查看报表 用户报表:根据不同数据格式展示用户数据的类型、最大值和最小值。您可以单击相关数据后的查看数据的详细信息。 百分位数:将数据进行排序,统计该数据在整个数据中所占的百分比。 图2 百分位数 分布统计:通过查看分布统计了解各参数下参数值的分布情况。如可以根据性别展示数据中的性别数据分布。可通过查看标签,了解数据中各种标签的分布情况。 图3 分布统计 物品报表:根据不同数据格式展示物品数据的类型、最大值和最小值。您可以单击相关数据后的查看数据的详细信息。 行为报表:行为报表展示各种行为类型以及该数据中此行为出现的次数。 画像查询:可以查询指定的用户或物品画像信息,包括静态和动态。
  • 操作步骤 在“执行步骤”页签,单击数据导入下的“执行”。进入“导入”页面,确认页面信息后单击“确认”,允许推荐系统读取您OBS中存储的特征数据,生成画像和宽表。 确认完成单击“执行”,待状态为“已完成”时,生成推荐系统内部通用的画像和宽表数据。 执行完成在页面下方会生成数据相关报告。 “数据导入报告”,显示数据“类型”、“总条目数”、“合法条目数”、“非法条目数”、“重复度”和“合法率”信息。 类型包括生成的用户、物品、行为数据。您可以通过单击左侧的查看具体报告信息。 “名称”项显示具体参数的名称。 “条目数”显示各种类型数据的具体数量。 图1 查看报告 如果导入错误,会生成“数据导入错误报告”,显示数据“类型”、“数量”和“原因”,方便您定位问题原因。 (可选)如果用户更新了数据源,可以重新导入数据。 单击“数据导入报告”后的“执行”,重新进行数据导入。 图2 重新导入数据 表1 参数解释 参数 说明 导入画像 选择是否导入画像。 画像分为用户画像和物品画像, 分别用于存储客户输入的用户特征, 物品特征, 如果同一用户或物品有多条记录, 将会去重。 导入宽表 选择是否导入宽表。 宽表为推荐系统内部格式, 以行为数据为主, 将行为数据中涉及到的用户数据和物品数据整合成一条数据。 保留已有宽表 选择对已有宽表是否保留。目前支持覆盖、是、否。 开启调度 开启调度,可按照您所设置的时间周期性的提交任务。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。可在此下拉框中勾选具体的时间点。 “时间间隔(小时)”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。 设置完成后,单击“确定”,重新导入数据。
  • 数据导入介绍 数据导入即读取经过“数据结构”生成的数据,对每条数据进行校验。推荐系统保留字段需校验类型和数据合法性、自定义字段校验类型,输出错误报告。如果数据完全符合要求,会生成推荐系统所需要的宽表和画像数据。 宽表:推荐系统内部格式,以行为数据为主,将行为数据中涉及到的用户数据和物品数据整合成一条数据。 画像:画像分为用户画像和物品画像,分别用于存储用户输入的用户特征和物品特征。如果同一用户或物品有多条记录,将会按照用户ID或者物品ID去重。
  • 操作步骤 登录RES管理控制台,在左侧菜单栏中选择“数据源”,进入“数据源”列表页面。单击目标数据源名称进入数据源详情页面。 在“执行步骤”页签,单击“数据结构”下的“开始识别”,进入“识别”页面,确认页面信息后单击“是”进行特征抽取。 当执行完成“识别”状态为“已完成”时,进行“人工复核”确认操作。 在“特征抽取”页签确认识别出的数据信息。 如果复核抽取的数据信息无误,单击“确认”,在“复核特征抽取”页面单击“是”完成复核。如果复核抽取的数据信息不符合预期,可选择“重新识别” 。 该页面包含“用户特征”、“物品特征”、“正向行为类型”和“负向行为类型”等信息,具体描述请参见表1。 图1 确认特征抽取 表1 确认特征参数 参数名称 说明 用户特征 列表中展示抽取的用户特征和参数类型。您可以根据业务需求单击增加用户特征。单击特征后方的删除不需要的用户特征。 物品特征 列表中展示抽取的物品特征和参数类型,此特征会额外应用于所选字段的功能。您可以根据业务需求单击增加物品特征。单击特征后方的删除不需要的物品特征。 您可以从“应用于”右侧的下拉选项中设置该数据的使用维度是“兴趣属性”或者“关键词提取”。其中: 兴趣属性,此特征将会用于统计用户的兴趣标签,并生成特征名为“interested_原特征名”的特征。 关键词提取,只有当关键词为content和title时会进行关键词提取,并生成特征名为“keyword_原特征名”的特征。 正向行为类型 列表中展示抽取的正向行为类型。您可以根据业务需求单击增加正向行为类型。单击特征后方的删除不需要的正向行为类型。 您可以从“应用于”右侧的下拉选项中设置该数据的使用维度是“历史记录”或者“物品热度值”。其中: 历史记录:此特征将会用于统计用户此行为的历史记录,并生成特征名为“history_原特征名”的特征。 物品热度值:此行为将会被用于统计物品的热度值信息,并生成特征名为“statistics_hotValue”的特征。 说明: 如果您有自定义行为类型,系统识别后,会默认为正向行为类型,默认分数为0.5。您可以根据业务需求对其进行修改,也可以删除,直接添加为负向行为类型。 负向行为类型 列表中展示抽取的负向行为类型。您可以根据业务需求单击增加负向行为类型。单击特征后方的删除不需要的负向行为类型。 您可以从“应用于”右侧的下拉选项中设置该数据的使用维度是“历史记录”或者“物品热度值”,其相关说明与正向行为类型一致。
  • 导入近线数据源 登录RES管理控制台,在左侧菜单栏中选择“数据源”,进入“数据源”列表页面。 在数据源列表单击目标数据源名称,进入数据源详情页面。 在页面的“近线数据源”页签,进行参数配置。您可以根据业务需求选择导入数据类型。详请参见表1。 表1 近线数据源参数说明 参数名称 说明 实时计算规格 可选择“4CU”、“8CU”、“16CU”和“32CU”四种规格。 用户画像实时导入 通过SDK导入通道中存储的用户画像实时数据。详情参见上传实时数据。在“用户画像实时导入”右侧,单击打开按钮,在弹出的对话框中进行确认。 物品画像实时导入 通过SDK导通道中存储的物品画像实时数据。在“物品画像实时导入”右侧,单击打开按钮,在弹出的对话框中进行确认。 行为数据实时导入 通过SDK导入通道中存储的行为数据。在“行为数据实时导入”右侧,单击打开按钮,在弹出的对话框中进行确认。 说明: “用户画像实时导入”、“物品画像实时导入”以及“行为数据实时导入”可以单独进行导入。 打开目标数据右侧的导入按钮,确认“实时计算规格”信息和计费后并进行确认后,单击“是”进行实时导入。待数据状态成为“运行中”时,表示实时数据导入完成。每“执行”一次导入操作,之前的数据内容将被覆盖,请您谨慎操作。 图1 实时导入
  • 创建数据源 登录RES管理控制台,在左侧菜单栏中选择“数据源”,进入“数据源”列表页面。 单击“创建”,在创建数据源页面,参考表1配置相关参数。 表1 创建数据源参数说明 参数名称 说明 名称 数据源的名称,名称只能是字母、数字、下划线或者中划线组成的合法字符串。 用户属性表 从OBS桶中选择数据。在“用户属性表”右侧,单击,从弹出的对话框中,选择数据存储的OBS桶及其文件或文件夹。 如果选取文件夹,该文件夹下面的数据格式需保持一致,避免数据干扰。 物品属性表 从OBS桶中选择数据。在“物品属性表”右侧,单击,从弹出的对话框中,选择数据存储的OBS桶及其文件或文件夹。 如果选取文件夹,该文件夹下面的数据格式需保持一致,避免数据干扰。 用户操作行为表 从OBS桶中选择数据。在“用户操作行为表”右侧,单击,从弹出的对话框中,选择数据存储的OBS桶及其文件夹。 说明: “用户属性表”、“物品属性表”以及“用户操作行为表”不能为同一路径。 离线规格 可选择的规格有“4CU”、“8CU”、“16CU”、“32CU”、“64CU”、“128CU”。规格越大,计算越快。 单击“立即创建”。 数据源创建完成后,系统自动跳转至数据源列表页面并提示您数据源创建成功。针对创建好的数据源,您可以进行“删除”操作。您可以在数据源列表页面单击您创建的数据源名称进入数据源详情页面。
  • 行为数据 表3 行为数据字段描述 字段名 类型 描述 是否必选 userId String 用户ID。 是 itemType String 物品的类型。 是 itemId String 对应行为发生的对象的值。如果是和物品发生关系,则是物品的id(itemId)的值。 是 actionType String 行为类型,包括正向行为和负向行为。下面为预置的行为类型和对应的权重,权重有默认分数,默认分数代表该行为类型的权重,可做修改。同时支持自定义行为类型。 如果当前场景只有用户关注人这一种行为,则此参数表示用户关注的对象是人。 如果当前场景只有用户关注物品这一种行为,则此参数表示用户关注的对象是物品。 说明: 自定义行为类型,行为名称需要符合以下要求,由数字、字母、下划线组成,长度为4-32。 自定义行为类型接入系统后,初始默认为正向行为,分数为0.5,后续可通过人工复核进行修改。 正向行为: click :点击 ,默认分数0.3 collect:收藏,默认分数0.5 search_click:点击搜索,默认分数0.4 comment:评论,默认分数0.2 share:分享,默认分数0.5 like:点赞,默认分数0.8 consume:消费,默认分数1 use:观看视频/听音乐/阅读,默认分数 0.6 download:下载,默认分数0.6 tip:打赏,默认分数1 subscribe:关注,默认分数0.7 负向行为: view:曝光,默认分数0.1 dislike:点衰/踩,默认分数0.8 uncollect:取消收藏,默认分数0.4 是 actionMeasure Int 本次行为的度量,取值为正整数1-10。建议用户根据实际情况进行换算,如总视频15秒,观看视频duration超过10秒的7分,全看完得10分等。 是 actionTime Long 行为发生的时间,采用UTC标准时间,单位以秒计。 是 actionLocation Json 行为发生的位置,精度维度格式:{"lat": latitude, "lon": longitude }。例如:"location": {"lat": 41.12, "lon": -71.34}。 否 sceneId String 推荐场景 ID,用于场景维度的区分。 否 traceId String 用于追踪每个被推荐物品的唯一ID。用于推荐效果的计算。 否 flowId String 用于计算每一个在线服务的效果。flowId由推荐系统的API返回给用户,用户需把flowId写到用户行为日志中。 否
  • 物品数据 表2 物品数据字段描述 字段名 类型 描述 是否必选 itemId String 全局唯一物品ID。 是 itemType String 物品的类型,可用于对推荐结果集的多样性控制。包含: item article video audio image 是 category String 物品的类别,如“课程”、“零食”,可用于类别之间的打散。 否 status Long 物品是否可推荐、是否置顶、是否注销,默认值为0。 0:可推荐 1:不可推荐 2:置顶 -1:注销 否 title String 标题,可用于语义分析。 否 score Long 物品的权重,权重越高,被优先推荐的概率越高,取值范围:1-100。如不设置,默认值为1。 否 publishTime Long 发布时间,采用UTC标准时间,单位以秒计。对物品有实时性要求的则必填。 否 expireTime Long 失效时间,采用UTC标准时间,单位以秒计。当前服务器的时间大于该时间时,此物品将不会被推荐。如不设置,代表永不失效。 否 author List[String] 作者,一个作者一个元素,信息流推荐场景建议填写。 否 content String 物品的内容描述信息,例如简介/摘要/正文关键片段,最长支持5000个中英文字符,超过则截断处理。 否 tags List[String] 描述物品的标签,每个标签为独立的一个元素。 否 location Json 物品的地理位置信息,精度维度格式:{"lat": latitude, "lon": longitude }。例如:"location": {"lat": 41.12, "lon": -71.34}。 否 extend Json 扩展字段,由用户指定扩展字段的key和value。 其中: key,您可以按照业务需求自行命名。无需按照示例以“extend_”开头,key不能为中文。 value,支持long/float/String/strArray/location格式的数据。 否
  • 用户数据 表1 用户数据字段描述 字段名 类型 描述 是否必选 userId String 全局唯一用户ID。可输入的字符范围为1~64个字符。只能包含字母、数字、中划线、下划线和特殊字符(: . / # )并且不能以空格开始和结束。 是 age Long 年龄。 否 gender String 性别。取值为: male female unknown 否 location Json 根据业务而设定的用户关注的地理位置信息。如常驻地,精度维度格式:{"lat": latitude, "lon": longitude }。例如:"location": {"lat": 41.12, "lon": -71.34}。 否 tags List[String] 描述用户的标签,每个标签为独立的一个元素。如[“篮球”, “家庭”]。 否 interest_tags List[String] 兴趣标签,由系统自动更新,默认保留字段。 否 extend Json 扩展字段,由用户指定扩展字段的key和value。其中: key,您可以按照业务需求自行命名。无需按照示例以“extend_”开头,key不能为中文。 value,支持long/float/String/strArray/location格式的数据。 否
  • 数据源管理流程及功能简介 表1 功能介绍 功能 说明 准备离线数据源 请您按照推荐系统要求的数据格式准备用户数据,物品数据,行为数据。 上传离线数据源至OBS 将准备的离线数据源上传至 对象存储服务 (OBS)用于推荐系统的离线计算。 创建离线数据源 在使用RES之前,首先您需要创建一个数据源,后续的操作都是基于您创建的数据源进行的。 上传实时数据 RES通过SDK上传实时数据,进行数据计算和处理,更新用户的相关数据。 数据质量管理 数据质量管理操作可以将数据源经过数据特征抽取,生成推荐系统内部通用的数据格式。 修改或删除数据源 对您已经创建的数据源进行修改,对不需要的数据源进行删除。
  • 数据类型 当前RES支持创建数据源和导入近线数据。创建数据源的数据格式和近线数据导入的格式要求一致,包括用户数据、物品数据和行为数据。 用户数据 用户数据包括数据源中的“用户属性表”和用于近线计算的“用户画像”数据。用户数据记录用户的属性信息,例如地域、爱好等。 物品数据 物品数据包括数据源中的“物品属性表”和用于近线计算的“物品画像”数据。物品数据记录物品的属性信息,例如类别、长度等。 行为数据 行为数据包括数据源中的“用户操作行为表”和用于近线计算的“行为数据”。行为数据,每行记录用户的单次行为信息,包含用户标识符、行为对象标识符、行为类型和行为时间等信息。
  • 注意事项 每张表的表结构和填充的数据必须符合推荐系统的要求,列名和字段类型需要和规范保持一致。 创建数据源之前您需要自己手工创建整理这些表并存储到OBS,推荐数据目前支持JSON格式。 离线数据为初次对接RES的批量数据,供场景中的召回算法和排序算法进行计算。近线数据可实时更新、增加用户和物品表数据,同时实时行为数据,可作为后续近线召回计算,这些近线行为数据也会和离线行为数据进行汇总存储,供离线计算。
  • 操作流程 本章节介绍使用RES,从资源准备到在线服务完成推荐的全流程。RES流程图如图1所示。 图1 RES操作流程 表1 使用流程说明 流程 子任务 说明 详细指导 数据源 准备离线数据源 需要您准备包含用户数据,物品数据,行为数据上传至对象存储服务(OBS)用于推荐系统的离线计算。 准备离线数据源 上传离线数据源至OBS 创建离线数据源 在使用RES之前,首先您需要创建一个数据源,后续的操作都是基于您创建的数据源进行的。 创建离线数据源 上传实时数据(可选) RES通过SDK上传实时数据,进行数据计算和处理,更新用户的相关数据。 上传实时数据 数据质量管理 数据质量管理操作可以将数据源经过数据特征抽取,生成推荐系统内部通用的数据格式。 数据质量管理 选择并配置推荐业务 智能场景 针对对应的场景,由RES根据场景类型预置好对应的智能算法,为匹配的场景提供智能推荐服务。 智能场景简介 自定义场景 面向了解推荐算法等相关的用户,可自定义推荐中涉及算法的使用和组合,能够自定义开发推荐流程,提供推荐服务。 自定义场景简介 获取推荐结果 - 您可以通过管理控制台进行结果预测,也可以通过API接口获取最终的推荐结果。 智能场景 获取推荐结果 自定义场景 获取推荐结果 效果评估(可选) - 创建效果评估可以对服务设置指标,查看推荐结果的具体衡量指标。 智能场景 效果评估 自定义场景 效果评估
  • 购买套餐包 登录RES管理控制台,在“总览”页面,单击“购买套餐包”,进入“购买预付套餐包”页面。 在“购买预付套餐包”页面,您可以通过“计算类型”下的“计算资源”和“存储资源”和“在线服务”选择不同类型的套餐包。 根据业务需求选择套餐包和套餐包数量,单击“下一步”,进入规格确认。 规格确认无误后,单击“去支付”,然后在支付页面完成付款,付款成功后即完成套餐包的购买。 RES目前只支持华北-北京四区域。 计费时将优先使用套餐包的额度,超出额度部分将以当月累计使用量所在的阶梯价计费。套餐包的额度为购买日起一年内的可用资源数。套餐包的有效时长为一年。 已购买套餐包不支持退订,购买前请确认。
  • 套餐介绍 计算资源分为“计算型CPU(1U4G)实例”、“计算型GPU(P100)实例”、“计算型GPU(V100)实例”3种类型。存储资源支持“画像存储(一百万)”。在线服务支持“在线并发9000TPS-时”,“TPS-时”表示每小时平均TPS。 规格和支持功能请参见表1。 表1 计算资源 计算类型 资源名称 购买时长 支持功能 有效期 计算资源 “计算型CPU(1U4G)实例” 20000小时 离线作业 在线作业 1年 “计算型GPU(P100)实例” 300小时 “计算型GPU(V100)实例” 300小时 存储资源 “画像存储(一百万)” 9000小时 画像存储 在线服务 “在线并发9000TPS-时” - 在线服务调用API -
  • 进行服务授权 当您选择开通推荐系统,首次登录RES管理控制台系统会自动弹出“RES服务权限委托”的对话框,提示服务进行委托授权,即授权RES服务请求获取访问您在其他云产品中的资源,未授权将不能使用RES的完整功能。 图1 权限委托 单击“同意授权”系统会自动创建委托。由于RES与其他云服务之间存在业务交互关系,需要与这些云服务协同工作,因此需要您创建云服务委托,完成授权后将操作权限委托给RES,让RES以您的身份使用这些云服务,代替您进行一些任务调度、资源运维等工作。下次再进入RES管理控制台首页时,系统不会再弹出访问授权的对话框。 父主题: 准备工作
  • 创建计算资源 登录RES管理控制台,在“全局配置”页面的计算资源区域,单击“创建”添加计算资源。 在“创建计算资源”页面,填写计算资源相关配置,请参见表1。配置资源请勿超过集群资源最大限制,配置过大会导致计算失败。 表1 添加资源参数说明 参数名称 说明 资源名 资源名最大长度为10字符,只能由字母,数字,下划线,中划线组成。 Driver内存 Driver内存大于等于512MB。 DLI :默认7GB。 Driver核数 Driver核数,大于等于1。 DLI默认2。 Executor内存 Executor内存大于等于1GB。 DLI:默认8GB。 Executor核数 Executor核数,大于等于1。 DLI默认2。 Executor个数 个数,大于等于1。 DLI默认7。 完成该项配置后,单击“确定”,完成创建计算资源。
  • 创建场景 您可以根据自己的业务创建场景进行配置,最多可以创建10个场景。具体操作如下: 登录RES管理控制台,在“全局配置”页面的属性配置区域,您可以直接在默认场景进行配置。也可以单击场景右侧的“创建”,进入“创建场景”页面。 输入场景名称单击“确定”,即完成场景创建。 在场景下拉列表中选择目标场景进行配置,配置完毕单击属性操作列的“保存”。 “任务配置地址”:用于存放创建作业时自动生成的JSON格式的配置源文件存储路径。 “全局特征信息文件”:根据全局特征信息文件规范准备并上传的全局特征信息文件路径。 “通用格式数据”:经过特征工程处理的宽表路径。 “用户属性表”:离线数据用户属性表的OBS路径。 “物品属性表”:离线数据物品属性表的OBS路径。 “用户操作行为表”:离线数据用户操作行为表的OBS路径。 图1 属性配置
共100000条