华为云用户手册

  • 创建场景 您可以根据自己的业务创建场景进行配置,最多可以创建10个场景。具体操作如下: 登录RES管理控制台,在“全局配置”页面的属性配置区域,您可以直接在默认场景进行配置。也可以单击场景右侧的“创建”,进入“创建场景”页面。 输入场景名称单击“确定”,即完成场景创建。 在场景下拉列表中选择目标场景进行配置,配置完毕单击属性操作列的“保存”。 “任务配置地址”:用于存放创建作业时自动生成的JSON格式的配置源文件存储路径。 “全局特征信息文件”:根据全局特征信息文件规范准备并上传的全局特征信息文件路径。 “通用格式数据”:经过特征工程处理的宽表路径。 “用户属性表”:离线数据用户属性表的OBS路径。 “物品属性表”:离线数据物品属性表的OBS路径。 “用户操作行为表”:离线数据用户操作行为表的OBS路径。 图1 属性配置
  • OBS文件夹示例 自定义OBS桶名 │ obs-offline-data 用于存放用户行为表、用户属性表和物品属性表。 │ obs-customize-data 用于存放用户自定义列表“customize.csv”,该列表应用于召回策略的人工导入策略。 │ obs-filter-data 用于存放用户黑白名单,应用于过滤策略。 │ obs-global-data 用于存放全局特征文件,例如放入名为“global_feature_info.json”的文件。 │ obs-general-data 用于存放经过特征工程处理的宽表,又名通用格式数据。 │ obs-pretrain-data 用于存放排序预处理任务生成的预训练数据。 │ obs-error-data 用于存放异常数据输出路径,来源于近线策略。 │ obs-nearline-data 用于存放近线任务结果数据,宽表形式。 │ obs-model-data 排序模型保存路径。 └ obs-config-data 计算引擎配置地址,用来记录计算引擎的日志。
  • 查看在线服务详情 当在线服务创建成功后,您可以进入“在线服务”页面,来查看服务详情。 登录RES管理控制台,在左侧菜单栏中选择“在线服务”,进入“在线服务”管理页面。 您可以在服务列表直接查看服务的“名称”、“状态”、“调用总次数”、“开通状态”和“服务类型”等。 当服务部署成功:您可以单击服务名称左侧的查看预测接口、ID、在线流程名称、在线流程ID进行调用。 当服务部署失败:您可以单击服务名称左侧的查看失败原因,根据失败原因对服务配置进行调整,重新部署。常见的可能失败原因及解决方法请参见表1。 表1 部署失败解决方法 报错 失败原因 解决方法 Failed to deploy service(A maximum of (5) real-time service instances are allowed. 一个服务允许选择的节点个数不能超过5个。 减少使用的节点个数或者申请增加节点个数。 如有更多问题请提工单咨询技术人员为您解答。 单击目标服务名称,进入服务详情页面查看服务具体信息。 您可以查看服务的“名称”、“状态”、“描述”、“服务类型”、和“预测接口”。 您也可以通过单击预测接口右侧的,复制接口地址,调用服务。 图1 在线服务详情 您可以在如下页面查看服务相关参数信息,包括“在线流程”、“预测”、“配置更新记录”、“排序模型更新记录”。 表2 在线服务详情 参数 说明 在线流程 展示在线流程名称、在线流程ID以及在线流程关于融合、过滤、排序、公共配置和模型相关的参数信息。 预测 可对运行中状态的在线服务进行预测,输入预测代码,单击“预测”后显示预测结果。 配置更新记录 展示配置相关记录。 单击配置记录前方的可查看该记录下详细的模型信息,包括模型名称、版本、分流、计算节点规格和计算节点个数。 排序模型更新记录 展示模型的更新记录。包括模型名称、状态、更新时间和消息。 父主题: 在线服务
  • 获取预测接口 通过在线服务页面获取接口 登录RES管理控制台,在左侧菜单栏中选择“在线服务”,进入服务列表页面。 单击目标服务名称前方的查看预测接口,通过单击预测接口右侧的,复制接口地址,调用服务。 图2 获取预测接口 通过在线服务详情页面获取接口 登录RES管理控制台,在左侧菜单栏中选择“在线服务”,进入服务列表页面。 单击目标服务名称进入服务详情页面,通过单击预测接口右侧的,复制接口地址,调用服务。 图3 获取预测接口
  • 离线作业功能说明 表1 功能说明 离线作业 说明 详细指导 组合作业 组合作业作为一个包含多个子任务的作业,通常用于多个召回、过滤、排序等任务。 组合作业 数据质量 数据质量是用户在进行离线计算之前使用原始初始格式数据或者通用格式数据检测输入数据是否合法。 数据质量 特征工程 特征工程常用于抽取用户、物品的特征和特定算法的特征生成,一般作为某些算法的前置输入条件。 特征工程 召回策略 召回策略用于生成推荐的候选集,在原始数据中通过算法和规则匹配用户的候选集。 召回策略 排序策略 排序策略根据不同的算法模型对召回策略或者近线策略生成的候选集进行重排序,得到推荐候选集列表。 排序策略 过滤规则 过滤规则用于生成推荐的过滤集,包含黑白名单、历史行为过滤等特性。支持用户在线上推理过程中完成对相关物品的过滤。 过滤规则 效果评估 根据用户行为的数据回流,提供多维度的效果统计。 效果评估
  • 创建跨源链接 DLI 集群绑定完成后,创建跨源链接。步骤如下: 登录RES管理控制台,在“资源中心”页面,选择计算引擎DLI进入列表。 单击DLI集群名称,进入“跨源连接”页面。 在“跨源连接”页面,单击“创建跨源连接”,输入跨源连接名称、已创建并绑定的DLI资源名称和CloudTable资源名称,如图1所示。 跨源连接名称只能包含数字、英文字母、下划线和中划线。不能为空。输入长度不能超过64个字符。 图1 创建跨源连接 单击“确定”,完成连接创建。 在“跨源连接”页面,可单击操作列的“删除”,删除不需要的连接。 当连接状态为“创建中”时,连接不可删除。
  • 添加密钥 登录RES管理控制台,在左侧导航栏单击“全局配置”,进入“全局配置”页面。 单击“添加密钥””,填写获取的访问密钥。 访问密钥(AK):输入密钥文件中的Access Key Id字段内容。 私有访问密钥(SK):输入密钥文件中Secret Access Key字段内容。 在添加AK/SK前,需要在OBS至少创建一个桶,否则会校验失败。具体操作请参见创建OBS桶。 请确保所填写的AK、SK为当前账号所获取的。 如果您添加访问密钥时,提示“上传的AK/SK不可用”,可能账号状态异常,欠费或被冻结。如有欠费,请您为华为云账户充值。如有其它问题请您提工单联系工程师解决。 单击“确认”,完成访问密钥的添加。
  • RES自定义策略样例 示例1:拒绝用户删除作业 拒绝策略需要同时配合其他策略使用,否则没有实际作用。用户被授予的策略中,一个授权项的作用如果同时存在Allow和Deny,则遵循Deny优先原则。 如果您给用户授予RES FullAccess的系统策略,但不希望用户拥有RES FullAccess中定义的删除作业权限,您可以创建一条拒绝删除作业的自定义策略,然后同时将RES FullAccess和拒绝策略授予用户,根据Deny优先原则,则用户可以对RES执行除了删除作业外的所有操作。拒绝策略示例如下: { "Version": "1.1", "Statement": [ { "Action": [ "res:job:delete" ], "Effect": "Deny" } } 示例2:多个授权项策略,允许查看作业列表和作业详情。 { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "res:job:get" , "res:job:list" ] } ] }
  • 示例流程 图1 给用户授权RES权限流程 创建用户组并授权 在 IAM 控制台创建用户组,并授予推荐系统服务只读权限“RES ReadOnlyAccess”。 创建用户并加入用户组 在IAM控制台创建用户,并将其加入1中创建的用户组。 用户登录并验证权限 新创建的用户登录控制台,切换至授权区域,验证权限: 在“服务列表”中选择“推荐系统”,进入RES管理控制台,在左侧导航栏选择“数据源”,在页面右上角单击“创建”,尝试创建一个新的数据源,如果无法进行创建(假设当前权限仅包含RES ReadOnlyAccess),表示“RES ReadOnlyAccess”已生效。 在“服务列表”中选择除RES外的任一服务(假设当前策略仅包含RES ReadOnlyAccess),如果提示权限不足,表示“RES ReadOnlyAccess”已生效。
  • 全局配置功能说明 表1 功能说明 功能 说明 详细指导 密钥认证 在使用RES之前,需要获取添加访问密钥,用于授权使用OBS、DLI、Cloudtable、ModelArts等服务,如果没有添加访问密钥,则无法调用接口。 获取访问秘钥并添加RES全局配置 属性配置 以键值对的方式进行存储,配置后的配置项可以用于整个服务。 管理属性配置 计算资源 计算资源包括DLI服务,添加的计算资源需根据业务数据情况进行合理分配。 管理计算资源
  • 创建数据质量作业 创建数据质量操作步骤如下: 在“离线作业”下,单击“数据质量”页签,单击上方“创建”,进入“创建数据质量”页面。 在“创建数据质量”页面,单击“添加数据质量算子”选择“数据质量检测算子”。 填写基本信息并选择计算引擎。您可以根据实际情况填写“名称”、“场景”和“描述”信息。其中“场景”信息可选择您在全局配置页面创建的场景。 填写参数配置,参数说明请参见表1。 图1 创建数据质量检测作业 表1 数据质量检测算子参数说明 参数名称 说明 结果保存路径 数据质量检测日志的保存路径。包括错误数据输出及定位等。 全局特征信息文件 用户在使用数据质量检测算子之前,需要提供一份全局的特征信息文件,后续的特征工程、排序算法、在线服务都会用到该文件。全局特征信息文件需要和画像中字段一致,其中BASIC_INFO为画像表中定义的基本属性字段,TAGS为画像表中定义的带权重的标签,Context为上下文属性。该文件用于说明数据字段信息,以便推荐系统识别用户离线数据,通过特征工程将对应的数据写入到画像中,同时用于排序训练和线上推理服务中使用。 文件数据信息请参见全局特征信息文件数据格式。 当上传的数据中的特征有变化时,用户需要同步更新该文件。该文件为JSON格式,包含特征名、特征大类、特征值类型。 数据源 数据在OBS的存放路径。 “初始格式”:包括离线数据准备的用户属性表、物品属性表和用户操作行为表。 “通用格式”:通用格式数据为经过特征工程作业生成的数据。 (可选)单击页面右侧“删除”,可以删除该算子。 设置完成后,单击“确定”。数据质量检测作业一般需要运行一段时间,请您耐心等待。您可以前往数据质量作业列表,查看作业的基本情况。在作业列表中,刚创建的离线作业“状态”为“计算中”,当离线作业的“状态”变为“计算成功”时,表示作业运行结束,检测完的数据将使用于离线作业。当离线作业的“状态”变为“计算失败”时,您可以单击作业的名称,进入详情页面,通过查看日志等手段处理问题。
  • 创建效果评估 创建效果评估步骤如下: 在“离线作业”的“效果评估”页签,单击左上方“创建”,进入“创建效果评估”页面。 在“创建效果评估”页面,填写特征工程“名称”、“场景”和“描述”。 效果评估名称:请以“Evaluate-”开始,只能由字母、数字、中划线和下划线组成,并且长度小于64个字符。 “场景”信息可选择您在全局配置页面创建的场景。 图1 创建效果评估 配置创建效果评估相关参数,请参见表1。 表1 创建效果评估参数说明 参数名称 说明 计算引擎 计算引擎信息,选择指定服务名、集群名称、任务配置地址、资源名等信息。 数据源 数据源类型有初始格式和通用格式可以选择。 “初始格式” 用户操作行为表:初始数据中的用户操作行为表。 “通用格式” 通用格式数据:特征工程“初始用户画像-物品画像-标准宽表生成”算子生成的用户推荐系统的数据。从用户特征表、物品特征表以及用户行为表中提取用户、物品特征和用户行为,并生成json数据,即内部通用格式。 数据时间范围 被统计数据的起始时间和终止时间。 统计间隔(天) 统计间隔,以天为单位,每隔多少天计算一次指标,大于0。 在线服务 选择已发布的在线服务进行推荐效果指标计算。 结果保存路径 效果评估结果在OBS的文件输出路径。 指标 推荐服务效果评估指标,通过指标后的下拉框选择系统自置指标或自定义指标。您可以单击添加指标,单击该指标后的删除指标。 点击PV 推荐点击PV率 点击UV 推荐点击UV率 自定义指标 自定义指标包含参数设置和指标设置两部分。 参数设置 参数别名:用户指定参数别名应用于指标公式。 行为类型:选择需要进行评估的行为类型,如物品曝光。 阈值:阈值是用来衡量用户行为有效性的标准, 当数据源的actionMeasure的值大于阈值时, 当前用户行为有效。 去重:您可以单击勾选,根据用户对行为记录去重。 指标设置 指标名称:请您定义评估的指标名称。 指标公式:用户指定自定义指标公式,如:A/(A+B),参数A、B代表自定义参数的参数别名。只支持+、-、*、/。 选择计算引擎,完成配置后单击“确定”。在“效果评估”页面可以单击“指标图”查看效果评估结果。
  • 流式训练 流式训练接入用户行为数据,进行在线训练,以分钟级更新在线服务依赖的排序模型,减少排序模型的效果衰减。 前提条件 已存在运行成功的排序策略。建议“优化器类型”选择“ftrl”。 已存在运行成功的在线服务。该在线服务“排序方式”为“点击率预估”并且“模型文件路径”为1排序策略生成的模型存储路径。 流式训练仅支持2019年12月4日0点之后创建的排序策略和在线服务。 流式训练使用到的排序策略不支持“核函数特征交互神经网络-PIN”算法。 建议您定期“重新执行”条件1对应的离线排序任务。重新执行排序策略后,在线服务和流式训练作业将自动同步新产生的模型,无需重新配置或重新执行在线服务和流式训练作业。 在线服务可以减少排序模型的效果衰减,但仍需定期重新执行离线任务。 表5 流式训练参数说明 参数名称 说明 默认值 策略别名 策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 默认流式训练。 数据源 服务名:添加已经进行资源绑定的DIS资源。 输入流位置:行为数据流的输入配置。将实时近线任务需要的实时物品日志数据添加到输入流指定的DIS通道中,推荐系统通过读取该数据进行近线计算。 通道名称:DIS的数据通道名称,不同类型的数据需要创建不同的通道。 起始位置:读取DIS数据的起始位置,latest表示从最新的数据开始读取,earliest表示从最旧的数据开始读取。 输出流位置:行为数据流处理后的输出配置。选择对应的DIS通道名称进行存放。输出流存放的数据属于流式训练作业的中间数据,用户无需获取或发送数据到输出流绑定的数据通道,只需确保该通道仅供本作业作为输出流使用。 服务名默认DIS。 通道名无。 起始位置默认为latest。 窗口间隔(秒) 近线策略处理的窗口间隔,单位为秒,10代表每隔10s进行一次算。 10s。 算子参数 在线服务名:使用的在线服务的名称。该在线服务需满足前提条件的要求。 流程名:在线服务对应的在线流程名称。 异常数据输出路径:单击右侧的按钮,选择数据在OBS中的存放路径,此路径下会记录不符合任务要求的输入数据。 - 训练设置 计算节点规格:您可以根据业务需求选择节点规格,“8核|16GiB”、“8核|32GiB”、“8核|64GiB”、“16核|128GiB”。 模型更新间隔:模型更新时间间隔,更新模型文件。 默认“8核|16GiB” 时间间隔10min 优化策略相关参数 优化器类型:ftrl。适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.1。 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。 L1正则项系数:叠加在模型的1范数之上,用来对模型值进行限制防止过拟合。默认0。 L2正则项系数:叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。 -
  • 基于用户数据更新用户画像 基于用户数据更新候选集可以持续更新用户画像,更新频率可达秒级。以DIS中的实时用户数据为数据源,实时捕捉用户数据近线,持续更新或添加用户画像数据,使用户画像处于最新状态。 表3 基于用户数据更新用户画像参数说明 参数名称 说明 默认值 策略别名 策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 默认基于用户数据更新用户画像。 数据源 服务名:DIS。将实时近线任务需要的实时用户日志数据添加到DIS中,推荐系统通过读取该数据进行近线计算。 通道名称:数据通道名称,不同类型的数据需要创建不同的通道。 起始位置:读取DIS数据的起始位置,latest表示从最新的数据开始读取,earliest表示从最旧的数据开始读取。 服务名默认DIS。 通道名无。 起始位置默认为latest。 窗口间隔(秒) 近线策略处理的窗口间隔,单位为秒,10代表每隔10s进行一次算。 10s。 全局特征信息文件 用户在使用近线策略之前,需要提供全局特征信息文件,该文件为JSON格式,包含特征名、特征大类、特征值类型。当上传的数据中的特征有变化时,需要同步更新该文件。全局特征信息文件示例请参考全局特征信息文件。 - 异常数据输出路径 单击右侧的按钮,选择数据在OBS中的存放路径,此路径下会记录不符合任务要求的输入数据。 - 用户画像存储 指定存储用户画像的存储平台信息。 服务名:默认CloudTable,用于存储更新后的用户画像。 集群名称:指定对应的集群名称。 表名:选择对应表名称。您可以单击设置数据版本。RES的数据版本有两种,“V1”版本即数据按照原有格式存储,未做过分区处理。“V2”版本则会依照用户的分区设置做分区处理,当分区合理时,数据将均匀分布在各个节点,有效利用Cloudtable的高并发特性,提升读写效率。其中“预分区数量”和“索引分区数量”可以根据数据量进行设置,如果读写性能达不到要求,可以增加Cloudtable的RS单元数量提升性能。 -
  • 基于物品数据更新物品画像 基于物品数据更新物品画像可持续更新物品画像,更新频率可达秒级。以DIS中的实时物品日志为数据源,持续更新或添加物品画像数据,使物品画像处于最新的状态。 表4 基于物品数据更新物品画像参数说明 参数名称 说明 默认值 策略别名 策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 默认基于物品数据更新物品画像。 数据源 服务名:DIS。将实时近线任务需要的实时物品日志数据添加到DIS中,推荐系统通过读取该数据进行近线计算。 通道名称:数据通道名称,不同类型的数据需要创建不同的通道。 起始位置:读取DIS数据的起始位置,latest表示从最新的数据开始读取,earliest表示从最旧的数据开始读取。 服务名默认DIS。 通道名无。 起始位置默认为latest。 窗口间隔(秒) 近线策略处理的窗口间隔,单位为秒,10代表每隔10s进行一次算。 10s。 全局特征信息文件 用户在使用近线策略之前,需要提供全局特征信息文件,该文件为JSON格式,包含特征名、特征大类、特征值类型。当上传的数据中的特征有变化时,需要同步更新该文件。全局特征信息文件示例请参考全局特征信息文件。 - 异常数据输出路径 单击右侧的按钮,选择数据在OBS中的存放路径,此路径下会记录不符合任务要求的输入数据。 - 候选集 是否维护维新入库物品候选集。 时间特征名称:特征值为10位时间戳的特征名称。 候选集最大长度:维护的候选集的最大长度。 保留天数:保留时间为最近N天的候选集。 false 物品画像存储 指定存储物品画像的存储平台信息: 服务名:默认CloudTable,用于存储更新后的物品画像。 集群名称:指定对应的集群名称。 表名:选择对应表名称。您可以单击设置数据版本。RES的数据版本有两种,“V1”版本即数据按照原有格式存储,未做过分区处理。“V2”版本则会依照用户的分区设置做分区处理,当分区合理时,数据将均匀分布在各个节点,有效利用Cloudtable的高并发特性,提升读写效率。其中“预分区数量”和“索引分区数量”可以根据数据量进行设置,如果读写性能达不到要求,可以增加Cloudtable的RS单元数量提升性能。 -
  • 基于用户的标签搜索候选集 基于用户的标签搜索候选集可以持续为用户召回新的候选集,召回频率可达秒级。以DIS中的实时行为日志为数据源,分析用户喜好,并以此为依据为用户召回候选集。此任务包含两种召回方式: 根据兴趣标签召回候选集 根据实时标签召回候选集 表2 基于用户的兴趣标签搜索候选集参数说明 参数名称 说明 默认值 策略别名 策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 默认基于用户的标签搜索候选集。 数据源 服务名:DIS。将实时近线任务需要的实时行为日志数据添加到DIS中,推荐系统通过读取该数据进行近线计算。 通道名称:数据通道名称,不同类型的数据需要创建不同的通道。 起始位置:读取DIS数据的起始位置,latest表示从最新的数据开始读取,earliest表示从最旧的数据开始读取。 服务名默认DIS。 通道名无。 起始位置默认为latest。 行为类型 用户行为包含如下几种类型: view:物品曝光 click:用户点击物品 collect:用户收藏了某个物品 uncollect:用户取消收藏某个物品 search_click:用户点击搜索结果中的物品 comment:用户对物品的评论 share:分享 like:点赞 dislike:点衰 grade:评分 consume:消费 use:观看视频/听音乐/阅读。 默认选取所有行为。 窗口间隔(秒) 近线策略处理的窗口间隔,单位为秒,10代表每隔10s进行一次算。 10 过滤历史记录 生成的候选集中是否过滤历史记录,如需要过滤历史记录,则开启此项。 默认关闭。 候选集的排序策略 生成候选集的排列规则,其排列顺序包括: 随机排序:不对候选集排序。 热度排序:根据物品属性表里的物品热度排序,由基于行为数据的用户画像更新生成,热度越大排序越靠前。 时间排序:根据时间对候选集进行排序。时间排序需要指定特征名称和推荐天数。 特征名称:值为时间戳(10位)的特征的名称,任务会根据此特征对候选集进行排序。 推荐天数:推荐数据的时间段,该时间段从当前开始往前推N天,默认15天。 默认热度排序。 候选集最大长度 生成候选集的最大长度,每次计算更新的候选集中的个数不会超过最大值。 默认50。 候选集的召回策略 召回候选集的策略。 兴趣标签召回候选集:根据用户画像的兴趣标签召回候选集。 实时标签召回候选集:根据用户实时操作的物品的标签召回候选集。 默认兴趣标签召回候选集。 兴趣宽度 生成候选集中的兴趣宽度,值越小候选集中的类型越少。 说明: 选择兴趣宽度数量对应的,权重值最高的兴趣标签个数进行检索,得到与标签匹配的物品候选集。 默认3。 全局特征信息文件 用户在使用近线策略之前,需要提供全局特征信息文件,该文件为JSON格式,包含特征名、特征大类、特征值类型。当上传的数据中的特征有变化时,需要同步更新该文件。全局特征信息文件示例请参考全局特征信息文件。 - 异常数据输出路径 单击右侧的按钮,选择数据在OBS中的存放路径,此路径下会记录不符合任务要求的输入数据。 - 自定义搜索 改变默认搜索条件,按照所选自定义搜索规则进行搜索。自定义搜索的内容来自于全局特征信息文件。您可以单击添加自定义搜索,在下拉选项中选择用户的兴趣标签,单击转换为另外的标签体系进行召回。 说明: 存在不同标签体系时可使用此功能,自定义搜索条件。一般情况下不建议使用。 - 用户画像存储 指定存储用户画像的存储平台信息。服务名默认CloudTable,指定集群名称和表名用于存储更新后的用户画像。 不涉及。 物品画像存储 指定存储物品画像的存储平台信息。服务名默认CloudTable,指定集群名称和表名用于存储更新后的用户画像。 不涉及。 过滤存储 指定存储过滤集合的存储平台信息。服务名默认CloudTable,指定集群名称和表名用于存储更新后的用户画像。 不涉及 候选集存储 指定存储候选集的存储平台信息。服务名默认CloudTable,指定集群名称和表名用于存储更新后的用户画像。 不涉及。
  • 基于行为数据的用户画像更新 基于行为数据的用户画像更新可以对用户画像进行持续更新,更新频率可达秒级。以DIS中的实时行为日志为数据源,从中分析出用户画像更新信息,并实时更新用户画像,使用户画像随着用户行为的发生而不断变化。 通过此任务可以更新的用户画像内容有:用户标签等动态信息,以及用户年龄、位置、联系方式等上下文信息。 表1 基于行为数据的用户画像更新参数说明 参数名称 说明 默认值 策略别名 策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 默认基于行为数据的用户画像更新。 服务名 DIS。将实时近线任务需要的实时行为日志数据添加到DIS中,推荐系统通过读取该数据进行近线计算。 DIS。 通道名称 数据通道名称,不同类型的数据需要创建不同的通道。 无。 起始位置 读取DIS数据的起始位置,latest表示从最新的数据开始读取,earliest表示从通道中现存最旧的数据开始读取。 默认为latest。 行为类型 用户行为包含如下几种类型: view:物品曝光 click:用户点击物品 collect:用户收藏了某个物品 uncollect:用户取消收藏某个物品 search_click:用户点击搜索结果中的物品 comment:用户对物品的评论 share:分享 like:点赞 dislike:点衰 grade:评分 consume:消费 use:观看视频/听音乐/阅读。 默认选取所有行为。 窗口间隔(秒) 近线策略处理的窗口间隔,单位为秒,10代表每隔10s进行一次算。 10 结果保存路径 根据行为日志,及cloudtable中已存在的用户画像和物品画像实时构造出样本通用数据,以供其他功能使用。 - 更新上下文 用户操作行为表中的“context ”字段代表动作发生的上下文信息。更新上下文就是将这些信息写入到Cloudtable中进行实时的更新。 默认关闭。 是否更新物品的热度值 根据行为日志,计算物品的热度值。近线召回策略中(如利用兴趣标签搜索候选集),召回的候选集按何种顺序排列,如要选择根据热度排序,则需要打开该功能。 默认关闭。 是否保存历史记录 根据行为日志,统计用户的历史记录。近线召回策略中(如利用兴趣标签搜索候选集),召回的候选集中过滤掉用户的历史记录依赖于此项,保存了历史记录才可使用。 默认关闭。 兴趣标签衰减参数 兴趣标签的衰减参数,数值越小,衰减能力越强。数值越大,衰减能力越弱。如果值为0,则代表不衰减。 0.99 兴趣标签维护长度 各标签体系下,兴趣标签的最大长度。 20 全局特征信息文件 用户在使用近线策略之前,需要提供全局特征信息文件,该文件为JSON格式,包含特征名、特征大类、特征值类型。当上传的数据中的特征有变化时,需要同步更新该文件。全局特征信息文件示例请参考全局特征信息文件。 - 异常数据输出路径 单击右侧的按钮,选择数据在OBS中的存放路径,此路径下会记录不符合任务要求的输入数据。 - 用户画像存储 该数据来源于基于用户数据更新用户画像更新后的用户画像数据。服务名默认为绑定的CloudTable资源信息。指定集群名称和表名用于存储更新后的用户画像。 不涉及。 物品画像存储 该数据来源于基于物品数据更新物品画像更新后的物品画像数据。服务名默认为绑定的CloudTable资源信息。 不涉及。 过滤存储 过滤出用户发生过某行为的物品,并保存在此表中。例如,过滤出用户看过的物品,并存储在此表中。指定集群名称和表名用于存储更新后的用户画像。 不涉及。
  • RES操作流程 本章节介绍使用RES,从资源准备到在线服务完成推荐的全流程。RES流程图如图1所示。 图1 RES操作流程 表1 使用流程说明 流程 子任务 说明 详细指导 准备资源 开通相关资源 基于您的业务需求,您需要开通RES相关服务,包括: 计算引擎DLI、ModelArts 存储平台CloudTable (可选)数据接入资源DIS 开通相关资源 绑定资源 针对您创建的集群等资源,需要完成绑定,才可以在创建作业时可选择绑定的集群进行计算存储等操作。 绑定资源 创建跨源链接 在使用DLI进行推荐系统的离线和近线计算时,建议创建跨源连接,用于访问CloudTable的数据源,提高读写性能。 创建跨源连接 开启公共终端节点 推荐系统在需要使用CloudTable集群进行数据存储,需开启公共终端节点之后推荐才能正常使用CloudTable集群。 开启公共终端节点 上传数据 准备离线数据源 需要您准备包含用户类数据,物品类数据,行为数据以及推荐候选列表的离线数据源用于推荐系统的离线计算。 离线数据源 准备实时日志数据 RES根据实时发送到DIS上的日志,进行数据计算和处理,更新用户的相关数据。 实时日志 运行推荐策略 创建离线作业 创建离线作业包括进行数据质量检测、创建组合作业、特征工程、召回策略、排序策略、过滤规则等作业。 运行推荐作业 创建在线服务 - 创建在线服务用于部署上线服务、更新模型。配置实时计算的逻辑,包括设置在线流量、组装推荐结果和设置排序策略。根据策略做在线推荐结果融合、过滤、重排以及多流程之间的AB,并返回最终结果。 创建在线服务 获取推荐结果 - 您可以通过在线服务预测结果,也可以通过API接口获取最终的推荐结果。 获取推荐结果 (可选)效果评估 - 创建效果评估可以对线上服务设置指标,查看推荐结果的具体衡量指标。 效果评估 父主题: 用户指南(旧版)
  • 服务总览信息 您可以在RES管理控制台的总览页查看服务的最新动态、了解作业状态、快捷创建服务。 登录RES管理控制台,单击左侧导航栏上的“总览”,进入总览页面。 总览界面包括“最新动态”、“视频教程”和“常用链接”,如图1所示。其中,在最新动态可查看所创建“离线作业”、“近线作业”和“在线服务”的名称、状态和创建时间。 图1 总览 单击作业或服务名称,进入该详情页面,可以查看资源信息、策略信息和日志信息。您也可以通过页面快速创建作业或服务。单击“创建在线服务”,快速进入创建在线服务页面。 父主题: 用户指南(旧版)
  • 用户操作行为表 用户-物品行为表,每行记录用户的单次行为信息,包含用户标识符、行为对象标识符、行为类型和行为时间等信息。 表4 字段描述 字段名 类型 描述 是否必选 userId String 用户ID。 是 objectType String 发生行为对象的名称。 item:是用户和物品本身发生的行为。 是 actionObject String 对应行为发生对象的值,如果是和物品发生关系,则是物品的id(itemId)的值。 是 actionType String 行为类型: view:物品曝光 click:用户点击物品 collect:用户收藏了某个物品 uncollect:用户取消收藏某个物品 search_click:用户点击搜索结果中的物品 comment:用户对物品的评论 share:分享 like:点赞 dislike:点衰 grade:评分 consume:消费 use:观看视频/听音乐/阅读。 是 actionMeasure String 发生行为的度量,金额,评分,次数(整数)等。 默认值: 评分和观看视频/听音乐/阅读由用户根据实际情况自行定义,如观看两分钟,值为 “0.5”,观看5分钟,值为“0.8”。 其余行为的默认值为1.0。 是 actionContent String 发生行为为评论时,需要记录评论内容。 当是search_click时,需要记录搜索的关键字。 否 actionDateTime String 行为发生的时间,采用UTC标准时间,单位以秒计。 否 actionLocation String 行为发生的位置和精度维度。 格式:[latitude, longitude] 否 context String 动作发生的上下文信息,内容为json格式字符串,也可作为行为表的扩展字段。 例如,用户当前的设备id,ip地址等信息。 否 subSite String 行为发生的位置ID。例如,在首页推荐里面点击,在详情页里面浏览。 否 traceId String 用于追踪每个被推荐物品的唯一ID。用于效果的计算。 否 flowId String 用于计算每一个在线服务的效果。flowId由推荐系统的API返回给用户,用户需把flowId写到用户行为日志中。 否
  • 用户属性JSON格式示例 { "userId":"user1", "userProperties":"provinceId\u00035147\u0002cityId\u00035148\u0002districtId\u00035154\u0002streetId\u0003130533\u0002payment_type\u00031\u0002payment_method\u0003CMBLIFE_CMBLIFE\u0002payment_channel\u000312" }
  • 用户属性表 用户属性表记录用户的属性信息,例如地域、爱好等,属性名和属性值成对出现。 表2 字段描述 字段名 类型 描述 是否必选 userId String 被推荐用户的唯一标识符。例如,用户的登录账号、imei号等。 是 userProperties String 用户属性kv串。不同属性之间用\002(ASCII值)分隔,属性的key和value之间用\003(ASCII值)分隔,多值枚举型属性的不同值之间以\004(ASCII值)分隔,kv数值型属性的不同键值对同样以\004(ASCII值)分隔,每一个键值对内部用冒号(:)将键和值分隔。 基本格式:k1\003v1\002k2\003v2\k3\003v1\004v2\004v3\002k4\003\k1:v1\004k2:v2\004k3:v3 例子:比如用户有四个标签,分别是年龄、性别、爱好、画像,取值分别为18、1、[read,gym,music]、{morality:0.8,iq:0.7,art:0.9},则这条记录可编码为age\00318\002gender\0031\002hobbies\003read\004gym\004music\002profile\003morality:0.8\004iq:0.7\004art:0.9。 userProperties字段每个KV组中value的取值类型信息由user_meta_config给出。 否
  • 排序样本预处理 将内部通用格式数据处理成排序策略所要求的特定格式数据,同时进行离散化,数据编码等特征工程处理。 表2 排序样本预处理输入参数说明 参数名称 说明 全局特征信息文件 用户在使用特征工程之前,需要提供一份全局的特征信息文件,后续的特征工程、排序算法、在线模块都会用到该文件。 文件数据信息请参见全局特征信息文件。 当上传的数据中的特征有变化时,用户需要同步更新该文件。该文件为JSON格式,包含特征名、特征大类、特征值类型。 通用格式数据源根路径 通用格式生成所在的根目录,即用户提交初始初始用户画像-物品画像-标准宽表生成或基于行为数据的用户画像更新时所提供的结果保存路径。 行为起止日期 用户行为数据时间范围,可只有起始时间、结束时间或为空。 待提取用户特征 从全局特征信息文件中提取输入的用户特征进行排序模型训练。 说明: 离散的区间个数不能超过100个,请您根据业务需求合理分配参数值。 单击“”,增加用户特征。当“特征值类型”为“单值数值型”时,可选的参数信息如下: “等距离散”:根据业务需求限定数值“最小值”、“最大值”和“距离”。例如,根据age进行等距离散,设置年龄最小值为1,最大值为100,离散距离为10。等距离散会按照age将1-10岁,11-20岁等作为一个区间进行离散。 “等频离散”:根据业务需求限定数值“最小值”、“最大值”和“频率”。例如,根据weight进行等频离散,设置weight最小值为5,最大值为200,离散频率为200。等频离散会按照weight值的大小进行排序之后,以200个数值为一个区间进行离散。 “用户自定义离散”:根据业务需求限定数值“最小值”、“最大值”和“区间名称”。例如,根据age进行离散,设置年龄最小值为1,最大值为3,区间名称为“幼儿”;单击”添加区间,最小值为4,最大值为12,区间名称为“少儿”,则按照用户自定义的区间进行离散。 “不离散”:(默认)不做归一化,不对数据做处理。归一化,根据业务需求限定数值“最小值”和“最大值”。例如,根据weight进行归一化,设置weight最小值为50,最大值为200。如果给定的数值x在该区间范围内则采用以下计算公式处理:“x_new = (x - 50) / (200-50)”,不在区间内的则按异常值处理,如x=80时,x_new = 0.2。 待提取物品特征 从全局特征信息文件中提取输入的物品特征进行排序模型训练。 说明: 离散的区间个数不能超过100个,请您根据业务需求合理分配参数值。 单击“”,增加物品特征。当“特征值类型”为“单值数值型”时,可选的参数信息如下: “等距离散”:根据业务需求限定数值“最小值”、“最大值”和“距离”。例如,根据order_price进行等距离散,设置价格最小值为1,最大值为100,离散距离为10。那么等距离散会按照价格将1-10元,11-20元等为一个区间进行离散。 “等频离散”:根据业务需求限定数值“最小值”、“最大值”和“频率”。例如,根据weight进行等频离散,设置weight最小值为5,最大值为200,离散频率为200。那么等频离散会按照weight值的大小进行排序之后,以200个数值为一个区间进行离散。 “用户自定义离散”:根据业务需求限定数值“最小值”、“最大值”和“区间名称”。例如,根据order_price进行离散,设置价格最小值为1,最大值为156,区间名称为“低价区”;单击“”添加区间,最小值为157,最大值为500,区间名称为“中高价位区”,那么会按照用户自定义的区间进行离散。 “不离散”:(默认)不做归一化,不对数据做处理。归一化,根据业务需求限定数值“最小值”和“最大值”。例如,根据weight进行归一化,设置weight最小值为50,最大值为200。如果给定的数值x在该区间范围内则采用以下计算公式处理:“x_new = (x - 50) / (200-50)”,不在区间内的则按异常值处理,如x=80时,x_new = 0.2。 正反馈行为类型 用户自定义。行为类型来源于通用格式数据源中“behavior”字段中“actiontype”的值。单击“”,增加正反馈行为类型。您可以通过和来自定义权重。 负反馈行为类型 用户自定义。行为类型来源于通用格式数据源中“behavior”字段中“actiontype”的值。单击“”,增加负反馈行为类型。您可以通过和来自定义权重。 算子类型 排序数据处理算子类型。每一种排序算法都需要进行特定的数据处理,需要根据使用的排序算法来选择排序数据处理类型。LR、FM、FFM、DEEPFM、PIN这五种算法的数据处理互相通用。 训练集测试集划分方式 按时间或者比例来划分训练集测试集。 “TIME” 训练数据时间:训练数据起始时间和终止时间,该起始时间和终止时间不得超过行为数据的时间范围。 测试数据时间:测试数据起始时间和终止时间,该起始时间和终止时间不得超过行为数据的时间范围。 “RATE” 训练数据占比:生成的结果中,训练集占整个训练集和测试集的比例,默认0.7。 测试数据占比:生成的结果中,训练集占整个训练集和测试集的比例,默认0.3。 结果保存路径 单击选择所有输出数据在OBS的保存根路径,会在这个根路径下自动创建feature_map、features_info_online_use、fields_feature_size、test_data、train_data五个文件夹,分别保存特征映射、在线所需特征信息、域特征数量、测试集、训练集这五个文件。
  • 创建特征工程 创建特征工程操作步骤如下: 在“离线作业”下,单击“特征工程”页签,单击上方“创建”,进入“创建特征工程”页面。 在“创建特征工程”页面,填写特征工程“名称”、“场景”和“描述”。 特征工程名称:请以“ETL-”开始,只能由字母、数字、中划线和下划线组成,并且长度小于64个字符。 “场景”信息可选择您在全局配置页面创建的场景。 设置计算引擎信息,指定“服务名”、“集群名称”、“任务配置地址”、“资源规格”等信息。 单击“添加特征工程”,根据业务需要在下拉框中选择一个合适的策略。初始用户画像-物品画像-标准宽表生成和排序样本预处理策略参数说明请单击策略名称进行查看。 (可选)在目标策略右侧,单击“删除”,可以删除该策略。 具体策略的参数说明可单击上方策略名称进行查看,策略设置完成后,单击“确定”。作业一般需要运行一段时间,根据您的数据量和资源不同,将耗时几分钟到几十分钟不等。 您可以前往特征工程列表,查看作业的基本情况。在作业列表中,刚创建的作业“状态”为“计算中”,当作业“状态”变为“计算成功”时,表示作业运行结束,可以将经过处理的数据应用于离线作业。当作业“状态”变为“计算失败”时,您可以单击作业的名称,进入详情页面,通过查看日志等手段处理问题。
  • 初始用户画像-物品画像-标准宽表生成 初始用户画像-物品画像-标准宽表生成,是将初始格式数据(离线数据)处理成用户画像、物品画像以及内部通用格式数据。 表1 初始用户画像-物品画像-标准宽表生成参数说明 参数名称 说明 数据源 数据在OBS的存放路径。包括用户属性表、物品属性表、用户操作行为表。 全局特征信息文件 用户在使用特征工程之前,需要提供一份全局的特征信息文件,后续的特征工程、在线模块都会用到该文件。 文件数据信息请参见全局特征信息文件。 当上传的数据中的特征有变化时,用户需要同步更新该文件。该文件为JSON格式,包含特征名、特征大类、特征值类型。 保留已有宽表 对结果保存路径中已有宽表数据的保留方式: 否,不保留任何已有的数据。 是,保留全部已有的数据。 覆盖,将相同日期下的数据覆盖掉,保留不同日期下的数据。 结果保存路径 行为-用户-物品(通用格式)的保存路径。 说明: 使用初始用户画像-物品画像-标准宽表生成的数据时,其路径具体到文件夹即可。 结果存储平台 存储类型有用户画像表和物品画像表两种。 用户画像表:用户自定义CloudTable集群名称和表名,用于存储生成的用户数据。 物品画像表:用户自定义CloudTable集群名称和表名,用于存储生成的物品数据。 设置数据版本:您可以单击设置数据版本。RES的数据版本有两种,“V1”版本即数据按照原有格式存储,未做过分区处理。“V2”版本则会依照用户的分区设置做分区处理,当分区合理时,数据将均匀分布在各个节点,有效利用Cloudtable的高并发特性,提升读写效率。其中“预分区数量”和“索引分区数量”可以根据数据量进行设置,如果读写性能达不到要求,可以增加Cloudtable的RS单元数量提升性能。
  • 核函数特征交互神经网络-PIN 核函数特征交互神经网络是深度网络因子分解机的改进版本,深度网络因子分解机通过向量点乘来计算特征之间的关系,而核函数特征交互神经网络使用不同的核(kernel)来对特征交互进行建模,以此来计算两个域中特征的相互关系,其中核的种类包括向量内积外积、矩阵乘法、神经网络等。利用核函数建模特征交互,实现了参数共享,减小了模型复杂度。单击查看核函数特征交互神经网络详细信息。 表5 核函数特征交互神经网络参数说明 参数名称 说明 计算节点信息 用户可使用的计算资源种类。“8核|16GiB”、“8核|32GiB”、“8核|64GiB”、“16核|128GiB”。 训练数据的obs路径 特征工程排序样本预处理生成的训练数据所在的OBS路径。 即特征工程“排序样本预处理”结果保存路径下具体的训练文件路径。 测试数据的obs路径 特征工程排序样本预处理生成的测试数据所在的OBS路径。 即特征工程“排序样本预处理”结果保存路径下具体的测试文件路径。 特征值数量统计文件 该文件标识了每一个域下的特征数量,排序数据处理接口会生成这个文件,需要用户提供此文件完整路径。文件路径为特征工程中排序样本预处理作业输出数据的结果保存路径的“fields_feature_size”目录下文件名称是part-00000开头的文件,需要用户提供文件的OBS路径。 最大迭代轮数 模型训练的最大迭代轮数,默认50。 提前终止训练轮数 在测试集上连续N轮迭代AUC无提高时,迭代停止,训练提前结束,默认5。 初始化方法 模型参数的初始化方法。 normal:正态分布 平均值:默认0 标准差:0.001 uniform :均匀分布 最小值:默认-0.001,均匀分布的最小值,必须小于最大值。 最大值:默认0.001,均匀分布的最大值,必须大于最小值。 xavier: 初始化初始值为 均值为0,方差为 Var(wi)=1/nin 的均匀分布(高斯或者随机分布)。其中 nin 是该神经元的输入数目。 优化器类型 grad:梯度下降算法 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 adam:自适应矩估计算法 结合AdaGrad和 RMS Prop两种优化算法的优点,对梯度的一阶矩估计(First Moment Estimation,即梯度的均值)和二阶矩估计(Second Moment Estimation,即梯度的未中心化的方差)进行综合考虑,依次计算出更新步长。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 数值稳定常量:为保证数值稳定而设置的一个微小常量。默认1e-8。 adagrad:自适应梯度算法 对每个不同的参数调整不同的学习率,对频繁变化的参数以更小的步长进行更新,而稀疏的参数以更大的步长进行更新。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。 ftrl:Follow The Regularized Leader 适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.1。 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。 L1正则项系数:叠加在模型的1范数之上,用来对模型值进行限制防止过拟合。默认0。 L2正则项系数:叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。 L2正则项系数 叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。 正则损失计算方式 正则损失计算当前有两种方式。 full:指针对全量参数计算。 batch:则仅针对当前批数据中出现的参数计算 说明: batch模式计算速度快于full模式。 隐向量长度 分解后的表示特征的向量的长度。默认10。 神经网络结构 神经网络的层数与每一层的神经元节点个数。默认400,400,400。 激活函数 神经网络中的激活函数,将一个(或一组)神经元的值映射为一个输出值。 relu tanh sigmoid 神经元值保留概率 神经网络前向传播过程中以该概率保留神经元的值。默认0.8。 子网络结构 特征向量之间使用神经网络核来计算相互关系时,该神经网络的结构。默认40,5。 是否移除因子分解机 是否移除模型架构中的因子分解机部分,值为true则蜕变为带有核函数的DNN。默认关闭。 保存根路径 单击选择训练结果在OBS中的保存根路径,训练完成后,会将模型和日志文件保存在该路径下。该路径不能包含中文。
  • 域感知因子分解机-FFM 域感知因子分解机是因子分解机的改进版本,因子分解机每个特征对其他域的隐向量都一致,而域感知因子分解机每个特征对其他每个域都会学习一个隐向量,能够达到更高的精度,但也更容易出现过拟合。单击查看域感知因子分解机详细信息。 表3 域感知因子分解机参数说明 参数名称 说明 计算节点信息 用户可使用的计算资源种类。“8核|16GiB”、“8核|32GiB”、“8核|64GiB”、“16核|128GiB”。 训练数据的obs路径 特征工程排序样本预处理生成的训练数据所在的OBS路径。 即特征工程“排序样本预处理”结果保存路径下具体的训练文件路径。 测试数据的obs路径 特征工程排序样本预处理生成的测试数据所在的OBS路径。 即特征工程“排序样本预处理”结果保存路径下具体的测试文件路径。 特征值数量统计文件 该文件标识了每一个域下的特征数量,排序数据处理接口会生成这个文件,需要用户提供此文件完整路径。文件路径为特征工程中排序样本预处理作业输出数据的结果保存路径的“fields_feature_size”目录下文件名称是part-00000开头的文件,需要用户提供文件的OBS路径。 最大迭代轮数 模型训练的最大迭代轮数,默认50。 提前终止训练轮数 在测试集上连续N轮迭代AUC无提高时,迭代停止,训练提前结束,默认5。 初始化方法 模型参数的初始化方法。 normal:正态分布 平均值:默认0 标准差:0.001 uniform :均匀分布 最小值:默认-0.001,均匀分布的最小值,必须小于最大值。 最大值:默认0.001,均匀分布的最大值,必须大于最小值。 xavier: 初始化初始值为 均值为0,方差为 Var(wi)=1/nin 的均匀分布(高斯或者随机分布)。其中 nin 是该神经元的输入数目。 优化器类型 grad:梯度下降算法 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 adam:自适应矩估计算法 结合AdaGrad和RMSProp两种优化算法的优点,对梯度的一阶矩估计(First Moment Estimation,即梯度的均值)和二阶矩估计(Second Moment Estimation,即梯度的未中心化的方差)进行综合考虑,依次计算出更新步长。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 数值稳定常量:为保证数值稳定而设置的一个微小常量。默认1e-8。 adagrad:自适应梯度算法 对每个不同的参数调整不同的学习率,对频繁变化的参数以更小的步长进行更新,而稀疏的参数以更大的步长进行更新。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。 ftrl:Follow The Regularized Leader 适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.1。 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。 L1正则项系数:叠加在模型的1范数之上,用来对模型值进行限制防止过拟合。默认0。 L2正则项系数:叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。 L2正则项系数 叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。 正则损失计算方式 正则损失计算当前有两种方式。 full:指针对全量参数计算。 batch:则仅针对当前批数据中出现的参数计算 说明: batch模式计算速度快于full模式。 隐向量长度 分解后的表示特征的向量的长度。默认10。 保存根路径 单击选择训练结果在OBS中的保存根路径,训练完成后,会将模型和日志文件保存在该路径下。该路径不能包含中文。
  • 深度网络因子分解机-DeepFM 深度网络因子分解机,结合了因子分解机和深度神经网络对于特征表达的学习,同时学习高阶和低阶特征组合,从而达到准确地特征组合学习,进行精准推荐。单击查看深度网络因子分解机详细信息。 表4 深度网络因子分解机参数说明 参数名称 说明 计算节点信息 用户可使用的计算资源种类。“8核|16GiB”、“8核|32GiB”、“8核|64GiB”、“16核|128GiB”。 训练数据的obs路径 特征工程排序样本预处理生成的训练数据所在的OBS路径。 即特征工程“排序样本预处理”结果保存路径下具体的训练文件路径。 测试数据的obs路径 特征工程排序样本预处理生成的测试数据所在的OBS路径。 即特征工程“排序样本预处理”结果保存路径下具体的测试文件路径。 特征值数量统计文件 该文件标识了每一个域下的特征数量,排序数据处理接口会生成这个文件,需要用户提供此文件完整路径。文件路径为特征工程中排序样本预处理作业输出数据的结果保存路径的“fields_feature_size”目录下文件名称是part-00000开头的文件,需要用户提供文件的OBS路径。 最大迭代轮数 模型训练的最大迭代轮数,默认50。 提前终止训练轮数 在测试集上连续N轮迭代AUC无提高时,迭代停止,训练提前结束,默认5。 初始化方法 模型参数的初始化方法。 normal:正态分布 平均值:默认0 标准差:0.001 uniform :均匀分布 最小值:默认-0.001,均匀分布的最小值,必须小于最大值。 最大值:默认0.001,均匀分布的最大值,必须大于最小值。 xavier: 初始化初始值为 均值为0,方差为 Var(wi)=1/nin 的均匀分布(高斯或者随机分布)。其中 nin 是该神经元的输入数目。 优化器类型 grad:梯度下降算法 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 adam:自适应矩估计算法 结合AdaGrad和RMSProp两种优化算法的优点,对梯度的一阶矩估计(First Moment Estimation,即梯度的均值)和二阶矩估计(Second Moment Estimation,即梯度的未中心化的方差)进行综合考虑,依次计算出更新步长。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 数值稳定常量:为保证数值稳定而设置的一个微小常量。默认1e-8。 adagrad:自适应梯度算法 对每个不同的参数调整不同的学习率,对频繁变化的参数以更小的步长进行更新,而稀疏的参数以更大的步长进行更新。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。 ftrl:Follow The Regularized Leader 适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.1。 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。 L1正则项系数:叠加在模型的1范数之上,用来对模型值进行限制防止过拟合。默认0。 L2正则项系数:叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。 L2正则项系数 叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。 正则损失计算方式 正则损失计算当前有两种方式。 full:指针对全量参数计算。 batch:则仅针对当前批数据中出现的参数计算 说明: batch模式计算速度快于full模式。 隐向量长度 分解后的表示特征的向量的长度。默认10。 神经网络结构 神经网络的层数与每一层的神经元节点个数。默认400,400,400。 激活函数 神经网络中的激活函数,将一个(或一组)神经元的值映射为一个输出值。 relu tanh sigmoid 神经元值保留概率 神经网络前向传播过程中以该概率保留神经元的值。默认0.8。 保存根路径 单击选择训练结果在OBS中的保存根路径,训练完成后,会将模型和日志文件保存在该路径下。该路径不能包含中文。
  • 因子分解机-FM 因子分解机算法是一种基于矩阵分解的机器学习算法,能够自动进行二阶特征组合、学习特征之间的关系,无需人工经验干预,同时能够解决组合特征稀疏的问题。 表2 因子分解机参数说明 参数名称 说明 计算节点信息 用户可使用的计算资源种类。“8核|16GiB”、“8核|32GiB”、“8核|64GiB”、“16核|128GiB”。 训练数据的obs路径 特征工程排序样本预处理生成的训练数据所在的OBS路径。 即特征工程“排序样本预处理”结果保存路径下具体的训练文件路径。 测试数据的obs路径 特征工程排序样本预处理生成的测试数据所在的OBS路径。 即特征工程“排序样本预处理”结果保存路径下具体的测试文件路径。 特征值数量统计文件 该文件标识了每一个域下的特征数量,排序数据处理接口会生成这个文件,需要用户提供此文件完整路径。文件路径为特征工程中排序样本预处理作业输出数据的结果保存路径的“fields_feature_size”目录下文件名称是part-00000开头的文件,需要用户提供文件的OBS路径。 最大迭代轮数 模型训练的最大迭代轮数,默认50。 提前终止训练轮数 在测试集上连续N轮迭代AUC无提高时,迭代停止,训练提前结束,默认5。 初始化方法 模型参数的初始化方法。 normal:正态分布 平均值:默认0 标准差:0.001 uniform :均匀分布 最小值:默认-0.001,均匀分布的最小值,必须小于最大值。 最大值:默认0.001,均匀分布的最大值,必须大于最小值。 xavier: 初始化初始值为 均值为0,方差为 Var(wi)=1/nin 的均匀分布(高斯或者随机分布)。其中 nin 是该神经元的输入数目。 优化器类型 grad:梯度下降算法 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 adam:自适应矩估计算法 结合AdaGrad和RMSProp两种优化算法的优点,对梯度的一阶矩估计(First Moment Estimation,即梯度的均值)和二阶矩估计(Second Moment Estimation,即梯度的未中心化的方差)进行综合考虑,依次计算出更新步长。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 数值稳定常量:为保证数值稳定而设置的一个微小常量。默认1e-8。 adagrad:自适应梯度算法 对每个不同的参数调整不同的学习率,对频繁变化的参数以更小的步长进行更新,而稀疏的参数以更大的步长进行更新。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。 ftrl:Follow The Regularized Leader 适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.1。 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。 L1正则项系数:叠加在模型的1范数之上,用来对模型值进行限制防止过拟合。默认0。 L2正则项系数:叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。 L2正则项系数 叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。 正则损失计算方式 正则损失计算当前有两种方式。 full:指针对全量参数计算。 batch:则仅针对当前批数据中出现的参数计算 说明: batch模式计算速度快于full模式。 隐向量长度 分解后的特征向量的长度。默认10。 保存根路径 单击选择训练结果在OBS中的保存根路径,训练完成后,会将模型和日志文件保存在该路径下。该路径不能包含中文。
  • 创建排序策略 创建排序策略操作步骤详情请参见排序策略。 作业一般需要运行一段时间,根据您的数据量和资源不同,训练时间将耗时几分钟到几十分钟不等。 您可以前往排序策略列表,查看作业的基本情况。在作业列表中,刚创建的作业“状态”为“计算中”,当作业“状态”变为“计算成功”时,表示作业运行结束,生成的候选集ID将使用于在线服务,为用户生成推荐列表。当作业“状态”变为“计算失败”时,您可以单击作业的名称,进入详情页面,通过查看日志等手段处理问题。
共100000条