云服务器内容精选

华为云首页用户手册

推荐系统 RES

推荐系统 RES-数据源管理简介:注意事项

注意事项每张表的表结构和填充的数据必须符合推荐系统的要求，列名和字段类型需要和规范保持一致。创建数据源之前您需要自己手工创建整理这些表并存储到OBS，推荐数据目前支持JSON格式。离线数据为初次对接RES的批量数据，供场景中的召回算法和排序算法进行计算。近线数据可实时更新、增加用户和物品表数据，同时实时行为数据，可作为后续近线召回计算，这些近线行为数据也会和离线行为数据进行汇总存储，供离线计算。

推荐系统 RES
推荐系统 RES-排序策略-离线特征工程

排序策略-离线特征工程表1 特征工程参数说明参数名称说明名称自定义离线特征工程名称，由中文、英文、数字、下划线、空格或者中划线组成，并且不能以空格开始和结束，长度为1~64个字符。描述对于特征工程的描述信息。待提取用户特征排序模型需要经特征工程处理后的数据，选择排序模型需要的用户特征，未选择的用户特征将不会被处理，即排序模块将忽略这些特征。说明：离散的区间个数不能超过100个，请您根据业务需求合理分配参数值。单击，增加用户特征。在下拉选项中勾选特征参数名称并进行配置。当“特征值类型”为“多值枚举型”时，您可以根据需求自定义枚举个数。其他类型可选的参数信息如下： “等距离散”：根据业务需求限定数值“最小值”、“最大值”和“距离”。例如，根据age进行等距离散，设置年龄最小值为1，最大值为100，离散距离为10。等距离散会按照age将1-10岁，11-20岁等作为一个区间进行离散。 “归一化”：归一化，根据业务需求限定数值“最小值”和“最大值”。例如，根据weight进行归一化，设置weight最小值为50，最大值为200。如果给定的数值x在该区间范围内则采用以下计算公式处理：“x_new = (x - 50) / (200-50)”，不在区间内的则按异常值处理，如x=80时，x_new = 0.2。 “用户自定义离散”：根据业务需求限定“离散点”。例如，根据age进行离散，设置年龄离散点分别为3、9、15即年龄会按照0-3、3-9、9-15进行散；单击添加离散点。 “不离散”：（默认）不做归一化，不对数据做处理。待提取物品特征排序模型需要经特征工程处理后的数据，选择排序模型需要的物品特征，未选择的物品特征将不会被处理，即排序模块将忽略这些特征。说明：离散的区间个数不能超过100个，请您根据业务需求合理分配参数值。单击，增加物品特征。在下拉选项中勾选特征参数名称并进行配置。当“特征值类型”为“多值枚举型”时，您可以根据需求自定义枚举个数。其他类型可选的参数信息如下： “等距离散”：根据业务需求限定数值“最小值”、“最大值”和“距离”。例如，根据order_price进行等距离散，设置价格最小值为1，最大值为100，离散距离为10。那么等距离散会按照价格将1-10元，11-20元等为一个区间进行离散。 “归一化”：归一化，根据业务需求限定数值“最小值”和“最大值”。例如，根据weight进行归一化，设置weight最小值为50，最大值为200。如果给定的数值x在该区间范围内则采用以下计算公式处理：“x_new = (x - 50) / (200-50)”，不在区间内的则按异常值处理，如x=80时，x_new = 0.2。 “用户自定义离散”：根据业务需求限定“离散点”。例如，根据order_price进行离散，设置价格离散点分别为150、200、250即价格会按照0-150、151-200、201-250进行散；单击添加离散点。 “不离散”：（默认）不做归一化，不对数据做处理。自定义行为类型如果开启“自定义行为类型”, 算法则按用户设置的行为类型及权重进行排序预处理任务，否则默认使用数据源中的行为类型及权重进行任务。 “正向行为类型”：设置正向行为的类型及权重值。 “负向行为类型”：设置负向行为的类型及权重值。行为去重方式将行为数据中某个用户对某个物品的多条记录进行去重，目前支持按行为权重去重（正向行为且权重越大的优先）和按时间去重（每天、每星期、每个月保留一条数据）。 “权重绝对值”：保留行为权重绝对值最高的一条数据。 “日期”：按照"时间类型"，保留指定区间的一条最新数据。时间类型将行为数据中某个用户对某个物品的多条记录进行去重，只保留每个时间区间内的一条最新数据。您可以根据数据实际情况选择去重的时间周期，可选天、周、月。默认为“天”。周一是第一天：行为数据按周去重，是否周一是第一天。如果选择否，则认为周日是第一天，保留每个时间区间内的一条最新数据。训练集测试集划分方式数据划分方式按时间比例或个数比例划分训练集测试集。 “时间比例”：将全部数据的时间跨度按照时间比例划分成两段数据，训练数据为前一段时间中的数据，测试数据为后一段时间的数据，取值TIME。 “个数比例”：个数比例是将全部数据按个数比例随机划分成训练集和测试集传入值。取值 RAM DOM。训练数据占比生成的结果中，训练集占整个训练集和测试集的比例，默认0.7。测试数据占比生成的结果中，训练集占整个训练集和测试集的比例，默认0.3。开启调度开启调度，按照指定的调度策略定期执行作业。 “调度周期”：调度周期可选“天”或“周”。 “选择时间”：当调度周期选择为“周”时，可在此下拉框中勾选星期一到星期天的任一天进行调度。 “具体时间”：选择具体的调度时间。父主题：算法介绍及参数说明

推荐系统 RES
推荐系统 RES-数据源管理简介:数据类型

数据类型当前RES支持创建数据源和导入近线数据。创建数据源的数据格式和近线数据导入的格式要求一致，包括用户数据、物品数据和行为数据。用户数据用户数据包括数据源中的“用户属性表”和用于近线计算的“用户画像”数据。用户数据记录用户的属性信息，例如地域、爱好等。物品数据物品数据包括数据源中的“物品属性表”和用于近线计算的“物品画像”数据。物品数据记录物品的属性信息，例如类别、长度等。行为数据行为数据包括数据源中的“用户操作行为表”和用于近线计算的“行为数据”。行为数据，每行记录用户的单次行为信息，包含用户标识符、行为对象标识符、行为类型和行为时间等信息。

推荐系统 RES
推荐系统 RES-数据源管理简介:数据源管理流程及功能简介

数据源管理流程及功能简介表1 功能介绍功能说明准备离线数据源请您按照推荐系统要求的数据格式准备用户数据，物品数据，行为数据。上传离线数据源至OBS 将准备的离线数据源上传至对象存储服务（OBS）用于推荐系统的离线计算。创建离线数据源在使用RES之前，首先您需要创建一个数据源，后续的操作都是基于您创建的数据源进行的。上传实时数据 RES通过SDK上传实时数据，进行数据计算和处理，更新用户的相关数据。数据质量管理数据质量管理操作可以将数据源经过数据特征抽取，生成推荐系统内部通用的数据格式。修改或删除数据源对您已经创建的数据源进行修改，对不需要的数据源进行删除。

推荐系统 RES
推荐系统 RES-特征工程:创建特征工程

创建特征工程创建特征工程操作步骤如下：在“离线作业”下，单击“特征工程”页签，单击上方“创建”，进入“创建特征工程”页面。在“创建特征工程”页面，填写特征工程“名称”、“场景”和“描述”。特征工程名称：请以“ETL-”开始，只能由字母、数字、中划线和下划线组成，并且长度小于64个字符。 “场景”信息可选择您在全局配置页面创建的场景。设置计算引擎信息，指定“服务名”、“集群名称”、“任务配置地址”、“资源规格”等信息。单击“添加特征工程”，根据业务需要在下拉框中选择一个合适的策略。初始用户画像-物品画像-标准宽表生成和排序样本预处理策略参数说明请单击策略名称进行查看。（可选）在目标策略右侧，单击“删除”，可以删除该策略。具体策略的参数说明可单击上方策略名称进行查看，策略设置完成后，单击“确定”。作业一般需要运行一段时间，根据您的数据量和资源不同，将耗时几分钟到几十分钟不等。您可以前往特征工程列表，查看作业的基本情况。在作业列表中，刚创建的作业“状态”为“计算中”，当作业“状态”变为“计算成功”时，表示作业运行结束，可以将经过处理的数据应用于离线作业。当作业“状态”变为“计算失败”时，您可以单击作业的名称，进入详情页面，通过查看日志等手段处理问题。

推荐系统 RES
推荐系统 RES-特征工程:初始用户画像-物品画像-标准宽表生成

初始用户画像-物品画像-标准宽表生成初始用户画像-物品画像-标准宽表生成，是将初始格式数据(离线数据)处理成用户画像、物品画像以及内部通用格式数据。表1 初始用户画像-物品画像-标准宽表生成参数说明参数名称说明数据源数据在OBS的存放路径。包括用户属性表、物品属性表、用户操作行为表。全局特征信息文件用户在使用特征工程之前，需要提供一份全局的特征信息文件，后续的特征工程、在线模块都会用到该文件。文件数据信息请参见全局特征信息文件。当上传的数据中的特征有变化时，用户需要同步更新该文件。该文件为JSON格式，包含特征名、特征大类、特征值类型。保留已有宽表对结果保存路径中已有宽表数据的保留方式：否，不保留任何已有的数据。是，保留全部已有的数据。覆盖，将相同日期下的数据覆盖掉，保留不同日期下的数据。结果保存路径行为-用户-物品（通用格式）的保存路径。说明：使用初始用户画像-物品画像-标准宽表生成的数据时，其路径具体到文件夹即可。结果存储平台存储类型有用户画像表和物品画像表两种。用户画像表：用户自定义CloudTable集群名称和表名，用于存储生成的用户数据。物品画像表：用户自定义CloudTable集群名称和表名，用于存储生成的物品数据。设置数据版本：您可以单击设置数据版本。RES的数据版本有两种，“V1”版本即数据按照原有格式存储，未做过分区处理。“V2”版本则会依照用户的分区设置做分区处理，当分区合理时，数据将均匀分布在各个节点，有效利用Cloudtable的高并发特性，提升读写效率。其中“预分区数量”和“索引分区数量”可以根据数据量进行设置，如果读写性能达不到要求，可以增加Cloudtable的RS单元数量提升性能。

推荐系统 RES
推荐系统 RES-特征工程:排序样本预处理

排序样本预处理将内部通用格式数据处理成排序策略所要求的特定格式数据，同时进行离散化，数据编码等特征工程处理。表2 排序样本预处理输入参数说明参数名称说明全局特征信息文件用户在使用特征工程之前，需要提供一份全局的特征信息文件，后续的特征工程、排序算法、在线模块都会用到该文件。文件数据信息请参见全局特征信息文件。当上传的数据中的特征有变化时，用户需要同步更新该文件。该文件为JSON格式，包含特征名、特征大类、特征值类型。通用格式数据源根路径通用格式生成所在的根目录，即用户提交初始初始用户画像-物品画像-标准宽表生成或基于行为数据的用户画像更新时所提供的结果保存路径。行为起止日期用户行为数据时间范围，可只有起始时间、结束时间或为空。待提取用户特征从全局特征信息文件中提取输入的用户特征进行排序模型训练。说明：离散的区间个数不能超过100个，请您根据业务需求合理分配参数值。单击“”，增加用户特征。当“特征值类型”为“单值数值型”时，可选的参数信息如下： “等距离散”：根据业务需求限定数值“最小值”、“最大值”和“距离”。例如，根据age进行等距离散，设置年龄最小值为1，最大值为100，离散距离为10。等距离散会按照age将1-10岁，11-20岁等作为一个区间进行离散。 “等频离散”：根据业务需求限定数值“最小值”、“最大值”和“频率”。例如，根据weight进行等频离散，设置weight最小值为5，最大值为200，离散频率为200。等频离散会按照weight值的大小进行排序之后，以200个数值为一个区间进行离散。 “用户自定义离散”：根据业务需求限定数值“最小值”、“最大值”和“区间名称”。例如，根据age进行离散，设置年龄最小值为1，最大值为3，区间名称为“幼儿”；单击”添加区间，最小值为4，最大值为12，区间名称为“少儿”，则按照用户自定义的区间进行离散。 “不离散”：（默认）不做归一化，不对数据做处理。归一化，根据业务需求限定数值“最小值”和“最大值”。例如，根据weight进行归一化，设置weight最小值为50，最大值为200。如果给定的数值x在该区间范围内则采用以下计算公式处理：“x_new = (x - 50) / (200-50)”，不在区间内的则按异常值处理，如x=80时，x_new = 0.2。待提取物品特征从全局特征信息文件中提取输入的物品特征进行排序模型训练。说明：离散的区间个数不能超过100个，请您根据业务需求合理分配参数值。单击“”，增加物品特征。当“特征值类型”为“单值数值型”时，可选的参数信息如下： “等距离散”：根据业务需求限定数值“最小值”、“最大值”和“距离”。例如，根据order_price进行等距离散，设置价格最小值为1，最大值为100，离散距离为10。那么等距离散会按照价格将1-10元，11-20元等为一个区间进行离散。 “等频离散”：根据业务需求限定数值“最小值”、“最大值”和“频率”。例如，根据weight进行等频离散，设置weight最小值为5，最大值为200，离散频率为200。那么等频离散会按照weight值的大小进行排序之后，以200个数值为一个区间进行离散。 “用户自定义离散”：根据业务需求限定数值“最小值”、“最大值”和“区间名称”。例如，根据order_price进行离散，设置价格最小值为1，最大值为156，区间名称为“低价区”；单击“”添加区间，最小值为157，最大值为500，区间名称为“中高价位区”，那么会按照用户自定义的区间进行离散。 “不离散”：（默认）不做归一化，不对数据做处理。归一化，根据业务需求限定数值“最小值”和“最大值”。例如，根据weight进行归一化，设置weight最小值为50，最大值为200。如果给定的数值x在该区间范围内则采用以下计算公式处理：“x_new = (x - 50) / (200-50)”，不在区间内的则按异常值处理，如x=80时，x_new = 0.2。正反馈行为类型用户自定义。行为类型来源于通用格式数据源中“behavior”字段中“actiontype”的值。单击“”，增加正反馈行为类型。您可以通过和来自定义权重。负反馈行为类型用户自定义。行为类型来源于通用格式数据源中“behavior”字段中“actiontype”的值。单击“”，增加负反馈行为类型。您可以通过和来自定义权重。算子类型排序数据处理算子类型。每一种排序算法都需要进行特定的数据处理，需要根据使用的排序算法来选择排序数据处理类型。LR、FM、FFM、DEEPFM、PIN这五种算法的数据处理互相通用。训练集测试集划分方式按时间或者比例来划分训练集测试集。 “TIME” 训练数据时间：训练数据起始时间和终止时间，该起始时间和终止时间不得超过行为数据的时间范围。测试数据时间：测试数据起始时间和终止时间，该起始时间和终止时间不得超过行为数据的时间范围。 “RATE” 训练数据占比：生成的结果中，训练集占整个训练集和测试集的比例，默认0.7。测试数据占比：生成的结果中，训练集占整个训练集和测试集的比例，默认0.3。结果保存路径单击选择所有输出数据在OBS的保存根路径，会在这个根路径下自动创建feature_map、features_info_online_use、fields_feature_size、test_data、train_data五个文件夹，分别保存特征映射、在线所需特征信息、域特征数量、测试集、训练集这五个文件。

推荐系统 RES
推荐系统 RES-近线作业:基于用户数据更新用户画像

基于用户数据更新用户画像基于用户数据更新候选集可以持续更新用户画像，更新频率可达秒级。以DIS中的实时用户数据为数据源，实时捕捉用户数据近线，持续更新或添加用户画像数据，使用户画像处于最新状态。表3 基于用户数据更新用户画像参数说明参数名称说明默认值策略别名策略显示名称，由中文、英文、数字、下划线、空格或者中划线组成，并且不能以空格开始和结束，长度为1~60个字符。默认基于用户数据更新用户画像。数据源服务名：DIS。将实时近线任务需要的实时用户日志数据添加到DIS中，推荐系统通过读取该数据进行近线计算。通道名称：数据通道名称，不同类型的数据需要创建不同的通道。起始位置：读取DIS数据的起始位置，latest表示从最新的数据开始读取，earliest表示从最旧的数据开始读取。服务名默认DIS。通道名无。起始位置默认为latest。窗口间隔（秒）近线策略处理的窗口间隔，单位为秒，10代表每隔10s进行一次算。 10s。全局特征信息文件用户在使用近线策略之前，需要提供全局特征信息文件，该文件为JSON格式，包含特征名、特征大类、特征值类型。当上传的数据中的特征有变化时，需要同步更新该文件。全局特征信息文件示例请参考全局特征信息文件。 - 异常数据输出路径单击右侧的按钮，选择数据在OBS中的存放路径，此路径下会记录不符合任务要求的输入数据。 - 用户画像存储指定存储用户画像的存储平台信息。服务名：默认CloudTable，用于存储更新后的用户画像。集群名称：指定对应的集群名称。表名：选择对应表名称。您可以单击设置数据版本。RES的数据版本有两种，“V1”版本即数据按照原有格式存储，未做过分区处理。“V2”版本则会依照用户的分区设置做分区处理，当分区合理时，数据将均匀分布在各个节点，有效利用Cloudtable的高并发特性，提升读写效率。其中“预分区数量”和“索引分区数量”可以根据数据量进行设置，如果读写性能达不到要求，可以增加Cloudtable的RS单元数量提升性能。 -

推荐系统 RES
推荐系统 RES-近线作业:基于物品数据更新物品画像

基于物品数据更新物品画像基于物品数据更新物品画像可持续更新物品画像，更新频率可达秒级。以DIS中的实时物品日志为数据源，持续更新或添加物品画像数据，使物品画像处于最新的状态。表4 基于物品数据更新物品画像参数说明参数名称说明默认值策略别名策略显示名称，由中文、英文、数字、下划线、空格或者中划线组成，并且不能以空格开始和结束，长度为1~60个字符。默认基于物品数据更新物品画像。数据源服务名：DIS。将实时近线任务需要的实时物品日志数据添加到DIS中，推荐系统通过读取该数据进行近线计算。通道名称：数据通道名称，不同类型的数据需要创建不同的通道。起始位置：读取DIS数据的起始位置，latest表示从最新的数据开始读取，earliest表示从最旧的数据开始读取。服务名默认DIS。通道名无。起始位置默认为latest。窗口间隔（秒）近线策略处理的窗口间隔，单位为秒，10代表每隔10s进行一次算。 10s。全局特征信息文件用户在使用近线策略之前，需要提供全局特征信息文件，该文件为JSON格式，包含特征名、特征大类、特征值类型。当上传的数据中的特征有变化时，需要同步更新该文件。全局特征信息文件示例请参考全局特征信息文件。 - 异常数据输出路径单击右侧的按钮，选择数据在OBS中的存放路径，此路径下会记录不符合任务要求的输入数据。 - 候选集是否维护维新入库物品候选集。时间特征名称：特征值为10位时间戳的特征名称。候选集最大长度：维护的候选集的最大长度。保留天数：保留时间为最近N天的候选集。 false 物品画像存储指定存储物品画像的存储平台信息：服务名：默认CloudTable，用于存储更新后的物品画像。集群名称：指定对应的集群名称。表名：选择对应表名称。您可以单击设置数据版本。RES的数据版本有两种，“V1”版本即数据按照原有格式存储，未做过分区处理。“V2”版本则会依照用户的分区设置做分区处理，当分区合理时，数据将均匀分布在各个节点，有效利用Cloudtable的高并发特性，提升读写效率。其中“预分区数量”和“索引分区数量”可以根据数据量进行设置，如果读写性能达不到要求，可以增加Cloudtable的RS单元数量提升性能。 -

推荐系统 RES
推荐系统 RES-近线作业:基于用户的标签搜索候选集

基于用户的标签搜索候选集基于用户的标签搜索候选集可以持续为用户召回新的候选集，召回频率可达秒级。以DIS中的实时行为日志为数据源，分析用户喜好，并以此为依据为用户召回候选集。此任务包含两种召回方式：根据兴趣标签召回候选集根据实时标签召回候选集表2 基于用户的兴趣标签搜索候选集参数说明参数名称说明默认值策略别名策略显示名称，由中文、英文、数字、下划线、空格或者中划线组成，并且不能以空格开始和结束，长度为1~60个字符。默认基于用户的标签搜索候选集。数据源服务名：DIS。将实时近线任务需要的实时行为日志数据添加到DIS中，推荐系统通过读取该数据进行近线计算。通道名称：数据通道名称，不同类型的数据需要创建不同的通道。起始位置：读取DIS数据的起始位置，latest表示从最新的数据开始读取，earliest表示从最旧的数据开始读取。服务名默认DIS。通道名无。起始位置默认为latest。行为类型用户行为包含如下几种类型： view：物品曝光 click：用户点击物品 collect：用户收藏了某个物品 uncollect：用户取消收藏某个物品 search_click：用户点击搜索结果中的物品 comment：用户对物品的评论 share：分享 like：点赞 dislike：点衰 grade：评分 consume：消费 use：观看视频/听音乐/阅读。默认选取所有行为。窗口间隔（秒）近线策略处理的窗口间隔，单位为秒，10代表每隔10s进行一次算。 10 过滤历史记录生成的候选集中是否过滤历史记录，如需要过滤历史记录，则开启此项。默认关闭。候选集的排序策略生成候选集的排列规则，其排列顺序包括：随机排序：不对候选集排序。热度排序：根据物品属性表里的物品热度排序，由基于行为数据的用户画像更新生成，热度越大排序越靠前。时间排序：根据时间对候选集进行排序。时间排序需要指定特征名称和推荐天数。特征名称：值为时间戳(10位)的特征的名称，任务会根据此特征对候选集进行排序。推荐天数：推荐数据的时间段，该时间段从当前开始往前推N天，默认15天。默认热度排序。候选集最大长度生成候选集的最大长度，每次计算更新的候选集中的个数不会超过最大值。默认50。候选集的召回策略召回候选集的策略。兴趣标签召回候选集：根据用户画像的兴趣标签召回候选集。实时标签召回候选集：根据用户实时操作的物品的标签召回候选集。默认兴趣标签召回候选集。兴趣宽度生成候选集中的兴趣宽度，值越小候选集中的类型越少。说明：选择兴趣宽度数量对应的，权重值最高的兴趣标签个数进行检索，得到与标签匹配的物品候选集。默认3。全局特征信息文件用户在使用近线策略之前，需要提供全局特征信息文件，该文件为JSON格式，包含特征名、特征大类、特征值类型。当上传的数据中的特征有变化时，需要同步更新该文件。全局特征信息文件示例请参考全局特征信息文件。 - 异常数据输出路径单击右侧的按钮，选择数据在OBS中的存放路径，此路径下会记录不符合任务要求的输入数据。 - 自定义搜索改变默认搜索条件，按照所选自定义搜索规则进行搜索。自定义搜索的内容来自于全局特征信息文件。您可以单击添加自定义搜索，在下拉选项中选择用户的兴趣标签，单击转换为另外的标签体系进行召回。说明：存在不同标签体系时可使用此功能，自定义搜索条件。一般情况下不建议使用。 - 用户画像存储指定存储用户画像的存储平台信息。服务名默认CloudTable，指定集群名称和表名用于存储更新后的用户画像。不涉及。物品画像存储指定存储物品画像的存储平台信息。服务名默认CloudTable，指定集群名称和表名用于存储更新后的用户画像。不涉及。过滤存储指定存储过滤集合的存储平台信息。服务名默认CloudTable，指定集群名称和表名用于存储更新后的用户画像。不涉及候选集存储指定存储候选集的存储平台信息。服务名默认CloudTable，指定集群名称和表名用于存储更新后的用户画像。不涉及。

推荐系统 RES
推荐系统 RES-近线作业:流式训练

流式训练流式训练接入用户行为数据，进行在线训练，以分钟级更新在线服务依赖的排序模型，减少排序模型的效果衰减。前提条件已存在运行成功的排序策略。建议“优化器类型”选择“ftrl”。已存在运行成功的在线服务。该在线服务“排序方式”为“点击率预估”并且“模型文件路径”为1排序策略生成的模型存储路径。流式训练仅支持2019年12月4日0点之后创建的排序策略和在线服务。流式训练使用到的排序策略不支持“核函数特征交互神经网络-PIN”算法。建议您定期“重新执行”条件1对应的离线排序任务。重新执行排序策略后，在线服务和流式训练作业将自动同步新产生的模型，无需重新配置或重新执行在线服务和流式训练作业。在线服务可以减少排序模型的效果衰减，但仍需定期重新执行离线任务。表5 流式训练参数说明参数名称说明默认值策略别名策略显示名称，由中文、英文、数字、下划线、空格或者中划线组成，并且不能以空格开始和结束，长度为1~60个字符。默认流式训练。数据源服务名：添加已经进行资源绑定的DIS资源。输入流位置：行为数据流的输入配置。将实时近线任务需要的实时物品日志数据添加到输入流指定的DIS通道中，推荐系统通过读取该数据进行近线计算。通道名称：DIS的数据通道名称，不同类型的数据需要创建不同的通道。起始位置：读取DIS数据的起始位置，latest表示从最新的数据开始读取，earliest表示从最旧的数据开始读取。输出流位置：行为数据流处理后的输出配置。选择对应的DIS通道名称进行存放。输出流存放的数据属于流式训练作业的中间数据，用户无需获取或发送数据到输出流绑定的数据通道，只需确保该通道仅供本作业作为输出流使用。服务名默认DIS。通道名无。起始位置默认为latest。窗口间隔（秒）近线策略处理的窗口间隔，单位为秒，10代表每隔10s进行一次算。 10s。算子参数在线服务名：使用的在线服务的名称。该在线服务需满足前提条件的要求。流程名：在线服务对应的在线流程名称。异常数据输出路径：单击右侧的按钮，选择数据在OBS中的存放路径，此路径下会记录不符合任务要求的输入数据。 - 训练设置计算节点规格：您可以根据业务需求选择节点规格，“8核|16GiB”、“8核|32GiB”、“8核|64GiB”、“16核|128GiB”。模型更新间隔：模型更新时间间隔，更新模型文件。默认“8核|16GiB” 时间间隔10min 优化策略相关参数优化器类型：ftrl。适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法学习率：优化算法的参数，决定优化器在最优方向上前进步长的参数。默认0.1。初始梯度累加和：梯度累加和用来调整学习步长。默认0.1。 L1正则项系数：叠加在模型的1范数之上，用来对模型值进行限制防止过拟合。默认0。 L2正则项系数：叠加在模型的2范数之上，用来对模型值进行限制防止过拟合。默认0。 -

推荐系统 RES
推荐系统 RES-近线作业:基于行为数据的用户画像更新

基于行为数据的用户画像更新基于行为数据的用户画像更新可以对用户画像进行持续更新，更新频率可达秒级。以DIS中的实时行为日志为数据源，从中分析出用户画像更新信息，并实时更新用户画像，使用户画像随着用户行为的发生而不断变化。通过此任务可以更新的用户画像内容有：用户标签等动态信息，以及用户年龄、位置、联系方式等上下文信息。表1 基于行为数据的用户画像更新参数说明参数名称说明默认值策略别名策略显示名称，由中文、英文、数字、下划线、空格或者中划线组成，并且不能以空格开始和结束，长度为1~60个字符。默认基于行为数据的用户画像更新。服务名 DIS。将实时近线任务需要的实时行为日志数据添加到DIS中，推荐系统通过读取该数据进行近线计算。 DIS。通道名称数据通道名称，不同类型的数据需要创建不同的通道。无。起始位置读取DIS数据的起始位置，latest表示从最新的数据开始读取，earliest表示从通道中现存最旧的数据开始读取。默认为latest。行为类型用户行为包含如下几种类型： view：物品曝光 click：用户点击物品 collect：用户收藏了某个物品 uncollect：用户取消收藏某个物品 search_click：用户点击搜索结果中的物品 comment：用户对物品的评论 share：分享 like：点赞 dislike：点衰 grade：评分 consume：消费 use：观看视频/听音乐/阅读。默认选取所有行为。窗口间隔（秒）近线策略处理的窗口间隔，单位为秒，10代表每隔10s进行一次算。 10 结果保存路径根据行为日志，及cloudtable中已存在的用户画像和物品画像实时构造出样本通用数据，以供其他功能使用。 - 更新上下文用户操作行为表中的“context ”字段代表动作发生的上下文信息。更新上下文就是将这些信息写入到Cloudtable中进行实时的更新。默认关闭。是否更新物品的热度值根据行为日志，计算物品的热度值。近线召回策略中（如利用兴趣标签搜索候选集），召回的候选集按何种顺序排列，如要选择根据热度排序，则需要打开该功能。默认关闭。是否保存历史记录根据行为日志，统计用户的历史记录。近线召回策略中（如利用兴趣标签搜索候选集），召回的候选集中过滤掉用户的历史记录依赖于此项，保存了历史记录才可使用。默认关闭。兴趣标签衰减参数兴趣标签的衰减参数，数值越小，衰减能力越强。数值越大，衰减能力越弱。如果值为0，则代表不衰减。 0.99 兴趣标签维护长度各标签体系下，兴趣标签的最大长度。 20 全局特征信息文件用户在使用近线策略之前，需要提供全局特征信息文件，该文件为JSON格式，包含特征名、特征大类、特征值类型。当上传的数据中的特征有变化时，需要同步更新该文件。全局特征信息文件示例请参考全局特征信息文件。 - 异常数据输出路径单击右侧的按钮，选择数据在OBS中的存放路径，此路径下会记录不符合任务要求的输入数据。 - 用户画像存储该数据来源于基于用户数据更新用户画像更新后的用户画像数据。服务名默认为绑定的CloudTable资源信息。指定集群名称和表名用于存储更新后的用户画像。不涉及。物品画像存储该数据来源于基于物品数据更新物品画像更新后的物品画像数据。服务名默认为绑定的CloudTable资源信息。不涉及。过滤存储过滤出用户发生过某行为的物品，并保存在此表中。例如，过滤出用户看过的物品，并存储在此表中。指定集群名称和表名用于存储更新后的用户画像。不涉及。

推荐系统 RES
推荐系统 RES-排序策略-离线排序模型:AutoGroup

AutoGroup AutoGroup，使用自动分组技术探索高阶特征交互组合，更深层次地挖掘出多个特征间联系，增强模型排序效果。表3 AutoGroup参数说明参数名称说明名称自定义策略名称，由中文、英文、数字、下划线、空格或者中划线组成，并且不能以空格开始和结束，长度为1~64个字符。描述对于该策略的描述信息。最大交互阶数算法探索的最大的特征交互阶数。例如，当设定最大交互阶数为4时，算法会探索2阶、3阶、4阶的特征交互组合。默认3。各阶隐向量长度各阶特征交互使用的隐向量长度，数量需对应最大交互阶数。默认10,60,80。哈希长度每阶特征交互所选择的group数量，数量需对应最大交互阶数。默认10,60,80。特征交互层惩罚项系数特征交互层输出值的惩罚项系数，用来防止过拟合。默认0.0001,0.0001,0.0001。神经网络结构神经网络的层数与每一层的神经元节点个数。默认400,400,400。激活函数神经网络中的激活函数，将一个（或一组）神经元的值映射为一个输出值。 relu tanh sigmoid 神经元值保留概率神经网络前向传播过程中以该概率保留神经元的值。默认0.8。优化器类型 grad：梯度下降算法学习率：优化算法的参数，决定优化器在最优方向上前进步长的参数。默认0.001。 adam：自适应矩估计算法结合AdaGrad和 RMS Prop两种优化算法的优点，对梯度的一阶矩估计（First Moment Estimation，即梯度的均值）和二阶矩估计（Second Moment Estimation，即梯度的未中心化的方差）进行综合考虑，依次计算出更新步长。学习率：优化算法的参数，决定优化器在最优方向上前进步长的参数。默认0.001。数值稳定常量：为保证数值稳定而设置的一个微小常量。默认1e-8。 adagrad：自适应梯度算法对每个不同的参数调整不同的学习率，对频繁变化的参数以更小的步长进行更新，而稀疏的参数以更大的步长进行更新。学习率：优化算法的参数，决定优化器在最优方向上前进步长的参数。默认0.001。初始梯度累加和：梯度累加和用来调整学习步长。默认0.1。 ftrl：Follow The Regularized Leader 适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法。学习率：优化算法的参数，决定优化器在最优方向上前进步长的参数。默认0.1。初始梯度累加和：梯度累加和用来调整学习步长。默认0.1。 L1正则项系数：叠加在模型的1范数之上，用来对模型值进行限制防止过拟合。默认0。 L2正则项系数：叠加在模型的2范数之上，用来对模型值进行限制防止过拟合。默认0。结构部分优化器详细参数请参见优化器类型。正则损失计算方式正则损失计算当前有两种方式。 full：指针对全量参数计算。 batch：则仅针对当前批数据中出现的参数计算说明： batch模式计算速度快于full模式。 L2正则项系数叠加在模型的2范数之上，用来对模型值进行限制防止过拟合。默认0。隐向量层L2正则化系数隐向量层使用的L2正则化系数，作用如“L2正则项系数”描述。默认0.001。 wide部分L2正则化系数 wide层使用的L2正则化系数，作用如“L2正则项系数”描述。默认0.001。最大迭代轮数模型训练的最大迭代轮数，默认50。提前终止训练轮数在测试集上连续N轮迭代AUC无提高时，迭代停止，训练提前结束，默认5。重新训练对第一次训练无影响，仅影响任务重跑。 “是”：清空上一轮的模型结果后重新开始训练。 “否”：导入上一轮的训练结果继续训练。适用于欠拟合的情况。批量大小一次训练所选取的样本数。训练数据集切分数量将整个数据集切分成多个子数据集，依次训练，每个epoch训练一个子数据集。融合多值特征将多值特征的多个embedding融合成一个embedding。融合线性部分是否使用模型架构中的线性部分。固定哈希结构是否固定结构参数。默认值为“否”，非特殊情况建议使用默认值。

推荐系统 RES
推荐系统 RES-排序策略-离线排序模型:Logistic Regression (LR)

Logistic Regression (LR) LR算法是一种广义的线性回归分析模型，常用于数据挖掘、疾病自动诊断、经济预测等领域。LR算法通过在线性回归的基础上叠加一个sigmoid激活函数将输出值映射到[0,1]之间，是机器学习领域里常用的二分类算法。表1 逻辑斯蒂回归参数说明参数名称说明名称自定义策略名称，由中文、英文、数字、下划线、空格或者中划线组成，并且不能以空格开始和结束，长度为1~64个字符。描述对于该策略的描述信息。最大迭代轮数模型训练的最大迭代轮数，默认50。提前终止训练轮数在测试集上连续N轮迭代AUC无提高时，迭代停止，训练提前结束，默认5。初始化方法模型参数的初始化方法。 normal：正态分布平均值：默认0 标准差：0.001 uniform ：均匀分布最小值：默认-0.001，均匀分布的最小值，必须小于最大值。最大值：默认0.001，均匀分布的最大值，必须大于最小值。 xavier：初始化初始值为均值为0，方差为 Var(wi)=1/nin 的均匀分布（高斯或者随机分布）。其中 nin 是该神经元的输入数目。优化器类型 grad：梯度下降算法学习率：优化算法的参数，决定优化器在最优方向上前进步长的参数。默认0.001。 adam：自适应矩估计算法结合AdaGrad和RMSProp两种优化算法的优点，对梯度的一阶矩估计（First Moment Estimation，即梯度的均值）和二阶矩估计（Second Moment Estimation，即梯度的未中心化的方差）进行综合考虑，依次计算出更新步长。学习率：优化算法的参数，决定优化器在最优方向上前进步长的参数。默认0.001。数值稳定常量：为保证数值稳定而设置的一个微小常量。默认1e-8。 adagrad：自适应梯度算法对每个不同的参数调整不同的学习率，对频繁变化的参数以更小的步长进行更新，而稀疏的参数以更大的步长进行更新。学习率：优化算法的参数，决定优化器在最优方向上前进步长的参数。默认0.001。初始梯度累加和：梯度累加和用来调整学习步长。默认0.1。 ftrl：Follow The Regularized Leader 适用于处理超大规模数据的，含大量稀疏特征的在线学习的常见优化算法。学习率：优化算法的参数，决定优化器在最优方向上前进步长的参数。默认0.1。初始梯度累加和：梯度累加和用来调整学习步长。默认0.1。 L1正则项系数：叠加在模型的1范数之上，用来对模型值进行限制防止过拟合。默认0。 L2正则项系数：叠加在模型的2范数之上，用来对模型值进行限制防止过拟合。默认0。 L2正则项系数叠加在模型的2范数之上，用来对模型值进行限制防止过拟合。默认0。正则损失计算方式正则损失计算当前有两种方式。 full：指针对全量参数计算。 batch：则仅针对当前批数据中出现的参数计算说明： batch模式计算速度快于full模式。重新训练对第一次训练无影响，仅影响任务重跑。 “是”：清空上一轮的模型结果后重新开始训练。 “否”：导入上一轮的训练结果继续训练。适用于欠拟合的情况。批量大小一次训练所选取的样本数。训练数据集切分数量将整个数据集切分成多个子数据集，依次训练，每个epoch训练一个子数据集。

推荐系统 RES
推荐系统 RES-排序策略-离线排序模型:DeepFM

DeepFM DeepFM，结合了FM和深度神经网络对于特征表达的学习，同时学习高阶和低阶特征组合，从而达到准确地特征组合学习，进行精准推荐。表2 深度网络因子分解机参数说明参数名称说明名称自定义策略名称，由中文、英文、数字、下划线、空格或者中划线组成，并且不能以空格开始和结束，长度为1~64个字符。描述对于该策略的描述信息。最大迭代轮数模型训练的最大迭代轮数，默认50。提前终止训练轮数在测试集上连续N轮迭代AUC无提高时，迭代停止，训练提前结束，默认5。初始化方法模型参数的初始化方法。 normal：正态分布平均值：默认0 标准差：0.001 uniform ：均匀分布最小值：默认-0.001，均匀分布的最小值，必须小于最大值。最大值：默认0.001，均匀分布的最大值，必须大于最小值。 xavier：初始化初始值为均值为0，方差为 Var(wi)=1/nin 的均匀分布（高斯或者随机分布）。其中 nin 是该神经元的输入数目。优化器类型 grad：梯度下降算法学习率：优化算法的参数，决定优化器在最优方向上前进步长的参数。默认0.001。 adam：自适应矩估计算法结合AdaGrad和RMSProp两种优化算法的优点，对梯度的一阶矩估计（First Moment Estimation，即梯度的均值）和二阶矩估计（Second Moment Estimation，即梯度的未中心化的方差）进行综合考虑，依次计算出更新步长。学习率：优化算法的参数，决定优化器在最优方向上前进步长的参数。默认0.001。数值稳定常量：为保证数值稳定而设置的一个微小常量。默认1e-8。 adagrad：自适应梯度算法对每个不同的参数调整不同的学习率，对频繁变化的参数以更小的步长进行更新，而稀疏的参数以更大的步长进行更新。学习率：优化算法的参数，决定优化器在最优方向上前进步长的参数。默认0.001。初始梯度累加和：梯度累加和用来调整学习步长。默认0.1。 ftrl：Follow The Regularized Leader 适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法。学习率：优化算法的参数，决定优化器在最优方向上前进步长的参数。默认0.1。初始梯度累加和：梯度累加和用来调整学习步长。默认0.1。 L1正则项系数：叠加在模型的1范数之上，用来对模型值进行限制防止过拟合。默认0。 L2正则项系数：叠加在模型的2范数之上，用来对模型值进行限制防止过拟合。默认0。 L2正则项系数叠加在模型的2范数之上，用来对模型值进行限制防止过拟合。默认0。正则损失计算方式正则损失计算当前有两种方式。 full：指针对全量参数计算。 batch：则仅针对当前批数据中出现的参数计算说明： batch模式计算速度快于full模式。隐向量长度分解后的表示特征的向量的长度。默认10。神经网络结构神经网络的层数与每一层的神经元节点个数。默认400,400,400。激活函数神经网络中的激活函数，将一个（或一组）神经元的值映射为一个输出值。 relu tanh sigmoid 神经元值保留概率神经网络前向传播过程中以该概率保留神经元的值。默认0.8。重新训练对第一次训练无影响，仅影响任务重跑。 “是”：清空上一轮的模型结果后重新开始训练。 “否”：导入上一轮的训练结果继续训练。适用于欠拟合的情况。批量大小一次训练所选取的样本数。训练数据集切分数量将整个数据集切分成多个子数据集，依次训练，每个epoch训练一个子数据集。

推荐系统 RES

推荐系统 RES

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

云服务器内容精选

推荐系统 RES

7*24

备案

专业服务

退订

建议反馈

售前咨询热线