推荐系统 RES-特征工程:排序样本预处理
排序样本预处理
将内部通用格式数据处理成排序策略所要求的特定格式数据,同时进行离散化,数据编码等特征工程处理。
参数名称 |
说明 |
---|---|
全局特征信息文件 |
用户在使用特征工程之前,需要提供一份全局的特征信息文件,后续的特征工程、排序算法、在线模块都会用到该文件。 文件数据信息请参见全局特征信息文件。 当上传的数据中的特征有变化时,用户需要同步更新该文件。该文件为JSON格式,包含特征名、特征大类、特征值类型。 |
通用格式数据源根路径 |
通用格式生成所在的根目录,即用户提交初始初始用户画像-物品画像-标准宽表生成或基于行为数据的用户画像更新时所提供的结果保存路径。 |
行为起止日期 |
用户行为数据时间范围,可只有起始时间、结束时间或为空。 |
待提取用户特征 |
从全局特征信息文件中提取输入的用户特征进行排序模型训练。
说明:
离散的区间个数不能超过100个,请您根据业务需求合理分配参数值。 单击“”,增加用户特征。当“特征值类型”为“单值数值型”时,可选的参数信息如下:
|
待提取物品特征 |
从全局特征信息文件中提取输入的物品特征进行排序模型训练。
说明:
离散的区间个数不能超过100个,请您根据业务需求合理分配参数值。 单击“”,增加物品特征。当“特征值类型”为“单值数值型”时,可选的参数信息如下:
|
正反馈行为类型 |
用户自定义。行为类型来源于通用格式数据源中“behavior”字段中“actiontype”的值。单击“”,增加正反馈行为类型。您可以通过和来自定义权重。 |
负反馈行为类型 |
用户自定义。行为类型来源于通用格式数据源中“behavior”字段中“actiontype”的值。单击“”,增加负反馈行为类型。您可以通过和来自定义权重。 |
算子类型 |
排序数据处理算子类型。每一种排序算法都需要进行特定的数据处理,需要根据使用的排序算法来选择排序数据处理类型。LR、FM、FFM、DEEPFM、PIN这五种算法的数据处理互相通用。 |
训练集测试集划分方式 |
按时间或者比例来划分训练集测试集。
“TIME”
“RATE”
|
结果保存路径 |
单击选择所有输出数据在OBS的保存根路径,会在这个根路径下自动创建feature_map、features_info_online_use、fields_feature_size、test_data、train_data五个文件夹,分别保存特征映射、在线所需特征信息、域特征数量、测试集、训练集这五个文件。 |