检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据源管理 数据源管理简介 准备离线数据源 上传离线数据源至OBS 上传实时数据 创建离线数据源 导入近线数据源 数据质量管理 修改或删除数据源
如何上传数据至OBS 使用RES进行推荐时,您需要将数据上传至对象存储服务(OBS)桶中。您可以登录OBS管理控制台创建OBS桶,并在您创建的OBS桶中创建文件夹,然后再进行数据的上传。创建OBS桶和上传文件夹的操作指导请参见创建桶和上传对象。 您在创建OBS桶时,需保证您的OBS桶与RES在同一个区域。
数据格式规范 推荐系统OBS文件夹规范 离线数据源 实时日志 全局特征信息文件 父主题: 用户指南(旧版)
删除数据源 功能介绍 删除数据源。 调试 您可以在API Explorer中调试该接口。 URI DELETE /v2.0/{project_id}/workspaces/{workspace_id}/data-sources/{datasource_id} 表1 路径参数 参数
数据源如何收费? 数据源的收费包括三项。 “OBS存储”:将离线数据源上传至OBS进行存储,根据存储空间大小进行计费。详见OBS计费详情。 “画像数据”:在数据源导入数据成功后,按每小时每百万条画像进行计费,在删除数据源后,将停止计费。 “训练作业”:在创建离线作业和导入实时数据
提交数据质量作业 提交数据质量作业API 查询全局特征配置 父主题: 作业相关API
导入近线数据源 通过导入近线数据源,达到实时计算并更新用户画像、物品画像,实时更新增量数据的目的。 前提条件 按数据规范准备数据并上传至通道。具体上传方法请参见上传实时数据。 导入近线数据源 登录RES管理控制台,在左侧菜单栏中选择“数据源”,进入“数据源”列表页面。 在数据源列表
Nearline object 近线数据源。 表6 Offline 参数 是否必选 参数类型 描述 user_url 是 String 用户数据url。 item_url 是 String 物品数据url。 behavior_url 是 String 行为数据url。 表7 Nearline
修改数据源特征 功能介绍 修改数据源中的特征。 调试 您可以在API Explorer中调试该接口。 URI PUT /v2.0/{project_id}/workspaces/{workspace_id}/data-sources/{datasource_id}/data-struct
推荐系统OBS文件夹规范 使用推荐系统时,需要在OBS创建桶并导入离线数据,同时作业所产生的数据也会保存在OBS中。为了方便您快速定位文件路径,建议您按照如下结构准备数据创建文件夹,并上传至OBS桶。 OBS文件夹示例 自定义OBS桶名 │ obs-offline-data
修改或删除数据源 您可以对离线数据源进行重新编辑操作来更新数据源,如果该数据源不再使用,您可以删除数据源释放资源。 修改离线数据源 前提条件 已存在的离线数据源有修改或者更新并已经上传至OBS。 只有在数据源数据结构特征抽取人工复核确认之前才允许修改数据源。 注意事项 修改编辑之
需确保OBS桶与RES在同一区域。 将本地数据上传至OBS桶中。如果您的数据较多,推荐OBS Browser+上传数据或上传文件夹。 数据上传成功后,在OBS管理控制台页面单击进入创建的桶,选择“对象”查看上传的数据。 父主题: 数据源管理
RES的离线数据源包括什么? 离线数据包括如下几张表: 用户属性表 物品属性表 用户操作行为表 每张表的字段描述和规范详情请参见《推荐系统用户指南》中准备离线数据源章节。 父主题: 数据源
nearline Nearline object 近线数据源。 表6 Offline 参数 参数类型 描述 user_url String 用户数据url。 item_url String 物品数据url。 behavior_url String 行为数据url。 表7 Nearline 参数 参数类型
特征工程 特征工程可对推荐系统的离线数据进行处理,它包含两个功能: 从离线数据中提取用户、物品画像和RES内部通用格式数据; 把RES内部通用格式数据处理成训练排序模型所需的训练数据、测试数据等。 与功能对应,特征工程的两个任务分别是: 初始用户画像-物品画像-标准宽表生成 排序样本预处理
默认基于用户数据更新用户画像。 数据源 服务名:DIS。将实时近线任务需要的实时用户日志数据添加到DIS中,推荐系统通过读取该数据进行近线计算。 通道名称:数据通道名称,不同类型的数据需要创建不同的通道。 起始位置:读取DIS数据的起始位置,latest表示从最新的数据开始读取,e
实时数据能否立即应用到推荐场景? 需要确认关联的召回策略,近线召回可以,离线召回不可以。离线召回需要重新执行。 父主题: 数据源
您可以对各离线作业进行“复制”、“编辑”、“终止”、“重新执行”、“删除”等操作。您也可以通过查看服务的详细信息判读作业训练状态和查询训练结果。 复制离线作业 用户可以通过复制组合作业再次创建新的作业进行离线计算。生成的数据和原来的作业生成的数据相互独立,复制的离线作业会生成新的线上指定的UUID。
组合作业作为一个包含多个子任务的作业,通常用于多个召回、过滤、排序等任务。 组合作业 数据质量 数据质量是用户在进行离线计算之前使用原始初始格式数据或者通用格式数据检测输入数据是否合法。 数据质量 特征工程 特征工程常用于抽取用户、物品的特征和特定算法的特征生成,一般作为某些算法的前置输入条件。 特征工程 召回策略
是否有样例数据支撑我进一步了解RES? RES提供了可用来测试的全量数据,包括智能场景和自定义场景的样例测试。 智能场景的样例测试,可参见智能场景(猜你喜欢)。 自定义场景的样例测试,可参见自定义场景(热度推荐)。 父主题: 基础问题