检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
全局特征信息文件 在特征工程、在线模块,近线模块时都会用到该全局的特征信息文件。当上传的数据中的特征有变化时,用户需要同步更新该文件。该文件为JSON格式,包含特征名、特征大类、特征值类型。 表1 全局特征信息文件字段描述 字段名 类型 描述 是否必选 user_features
用于存放经过特征工程处理的宽表,又名通用格式数据。 │ obs-pretrain-data 用于存放排序预处理任务生成的预训练数据。 │ obs-error-data 用于存放异常数据输出路径,来源于近线策略。 │ obs-nearline-data 用于存放近线任务结果数据,宽表形式。
以获得更好的推荐结果。 以上功能,我们也可以使用数据治理中心 DataArts Studio,通过拖拽的方式完成配置。具体操作步骤如下: 登录数据治理中心 DataArts Studio管理控制台,在控制台的左侧导航栏,选择“数据开发 > 作业开发”。 在“工作区”页面的右侧,单击“新建作业”。
特征工程 特征工程可对推荐系统的离线数据进行处理,它包含两个功能: 从离线数据中提取用户、物品画像和RES内部通用格式数据; 把RES内部通用格式数据处理成训练排序模型所需的训练数据、测试数据等。 与功能对应,特征工程的两个任务分别是: 初始用户画像-物品画像-标准宽表生成 排序样本预处理
“否”:导入上一轮的训练结果继续训练。适用于欠拟合的情况。 批量大小 一次训练所选取的样本数。 训练数据集切分数量 将整个数据集切分成多个子数据集,依次训练,每个epoch训练一个子数据集。 DeepFM DeepFM,结合了FM和深度神经网络对于特征表达的学习,同时学习高阶和低阶特
默认基于用户数据更新用户画像。 数据源 服务名:DIS。将实时近线任务需要的实时用户日志数据添加到DIS中,推荐系统通过读取该数据进行近线计算。 通道名称:数据通道名称,不同类型的数据需要创建不同的通道。 起始位置:读取DIS数据的起始位置,latest表示从最新的数据开始读取,e
、“16核|128GiB”。 训练数据的obs路径 单击选择特征工程排序样本预处理生成的训练数据所在的OBS路径。 即特征工程“排序样本预处理”结果保存路径下具体的训练文件路径。 测试数据的obs路径 单击选择特征工程排序样本预处理生成的测试数据所在的OBS路径。 即特征工程“排
序。 数据源 从右侧下拉框中选择RES系统中已有的数据源。当无可用数据源时,此下拉框为空。 数据区间 时间单位 支持天和小时。 数据选择 指定历史行为时间段,选取数据中最靠后的时间往前N天或N小时的行为数据计算用户偏好。 物品类别 是否需要根据category值对原始数据进行过滤
由于RES使用的离线数据需存储在OBS中,数据存储产生的费用,请参见《OBS价格说明》。 表1 推荐系统计费项说明 计费项 说明 存储资源 应用于物品画像和用户画像的存储计费,对用户和物品的总条目数统计进行收费。 每个数据源默认规格最低是一百万条,如果一个数据源中的用户和物品总条
组合作业作为一个包含多个子任务的作业,通常用于多个召回、过滤、排序等任务。 组合作业 数据质量 数据质量是用户在进行离线计算之前使用原始初始格式数据或者通用格式数据检测输入数据是否合法。 数据质量 特征工程 特征工程常用于抽取用户、物品的特征和特定算法的特征生成,一般作为某些算法的前置输入条件。
该功能使用涉及两部分:实时行为数据的接入和在线服务配置行为过滤。当数据源部分开启近线行为实时接入之后,并且用户通过上传实时行为数据,系统才具备根据实时行为进行曝光过滤的功能,该部分可参考上传实时数据进行配置和对接。 本实践的基本流程如下: 准备工作 创建数据源 配置在线服务参数 获取推荐结果
"error_msg": "The content for the request is invalid." } 状态码 状态码请参见状态码。 父主题: 提交数据质量作业
文件保存在该路径下。不包含中文的文件夹。 training_data_path 是 String 训练数据的OBS路径。 test_data_path 是 String 测试数据的OBS路径。 algorithm_type 是 String 算法名称,推荐系统内部定义,必须为LR
储平台CloudTable、数据接入资源DIS相关资源。 背景信息 使用RES需要消耗其他服务资源,需要收费。根据您选择的资源不同,收费标准不同,针对不同类型资源的价格,详情请参见产品价格详情。 已开通计算引擎DLI、存储平台CloudTable、数据接入资源DIS相关服务。 创建资源
选择提前已经存储在OBS上的如下数据源: 用户属性表 物品属性表 用户操作行为表 如上数据表的数据格式规范请参见离线数据源。 在对应表的“数据源”列中,单击选择数据的OBS存储路径。 在对应表的“数据格式”列中,数据格式可选:csv/json。 当选择数据格式为csv时,在弹框中设置数据参数,具体参数如下:
否 同时,expireTime字段和status字段一样,都可以通过实时数据推送方式,进行字段的更新。该字段为非必选,如不传入,则不会进行失效处理。 示例: 配置新闻在上架五天后进行自动下架。 物品JSON数据: { "itemId": "item1", "itemType":
图4 创建离线数据源 数据路径选择完成后单击“立即创建”。 离线数据源创建完成后,在数据源列表页面单击目标数据源名称进行数据质量管理,具体操作请参见推荐系统用户指南>数据源质量管理,完成数据探索并生成数据质量报告,此步骤完成后创建的数据源才可用。 步骤3:创建自定义场景 在R
图4 创建离线数据源 数据路径选择完成后单击“立即创建”。 离线数据源创建完成后,在数据源列表页面单击目标数据源名称进行数据质量管理,具体操作请参见推荐系统用户指南>数据源质量管理,完成数据探索并生成数据质量报告,此步骤完成后创建的数据源才可用。 步骤3:创建智能场景 登录R
也可以通过单击在线服务名称查看在线服务的详细信息。 编辑服务 用户可以通过“编辑”在线服务修改该参数信息进行计算。生成的数据会覆盖原来的在线服务计算生成的数据。“部署中”的在线服务不支持编辑。操作步骤如下: 登录RES管理控制台,在左侧菜单栏中选择“在线服务”,进入服务列表。 在
删除离线作业 删除离线作业即清理离线作业产生的数据,数据清理完成后删除元数据。操作必须确保流程中没有使用该作业产生的UUID,可以参考以下操作完成。 删除离线作业 您可以对“计算成功”、“计算失败”等状态的作业进行删除,“启动中”、“计算中”状态的作业不支持删除操作。 登录RES