检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
认证鉴权 调用接口有如下两种认证方式,您可以选择其中一种进行认证鉴权。 Token认证:通过Token认证通用请求。 AK/SK认证:通过AK(Access Key ID)/SK(Secret Access Key)加密调用请求。 Token认证 Token的有效期为24小时,需
特征工程 特征工程可对推荐系统的离线数据进行处理,它包含两个功能: 从离线数据中提取用户、物品画像和RES内部通用格式数据; 把RES内部通用格式数据处理成训练排序模型所需的训练数据、测试数据等。 与功能对应,特征工程的两个任务分别是: 初始用户画像-物品画像-标准宽表生成 排序样本预处理
数据质量管理 数据结构 数据导入 数据探索 父主题: 数据源管理
数据质量 数据质量检测算子,是用户在进行离线计算之前使用原始初始格式数据(离线数据源中的离线数据)或者通用格式数据检测输入数据是否合法。包括离线数据中是否包含特殊字符,数据类型是否正确,是否缺少必备信息等。 前提条件 已将离线数据上传至OBS桶中。 创建数据质量作业 创建数据质量操作步骤如下:
全局配置简介 全局配置界面包括密钥认证、属性配置和计算资源三部分,如图1所示。 图1 全局配置界面 全局配置功能说明 表1 功能说明 功能 说明 详细指导 密钥认证 在使用RES之前,需要获取添加访问密钥,用于授权使用OBS、DLI、Cloudtable、ModelArts等服务
数据探索 数据探索介绍 数据探索是针对当前数据源的数据进行挖掘和分析,主要聚焦在特征的分布范围、统计以及特征齐全度等,使用户能够更了解数据,进而指导在特征工程以及相关算法的配置。 数据探索是一个离线分析任务,任务有对应的启动时间,由于增量数据会实时入库,因此可以通过定时执行数据探索任务来覆盖增量数据。
数据导入 数据导入介绍 数据导入即读取经过“数据结构”生成的数据,对每条数据进行校验。推荐系统保留字段需校验类型和数据合法性、自定义字段校验类型,输出错误报告。如果数据完全符合要求,会生成推荐系统所需要的宽表和画像数据。 宽表:推荐系统内部格式,以行为数据为主,将行为数据中涉及到的用户数据和物品数据整合成一条数据。
数据源 创建数据源 查询数据源列表 查询数据源详情 修改数据源内容 修改数据源特征 删除数据源 查询数据源任务结果 父主题: API
数据源 RES的离线数据源包括什么? 如何上传数据至OBS 如何上传实时数据? 离线数据和近线实时数据如何配合使用? 数据探索是什么?近线实时数据如何在数据探索中的报告体现? 如何确定近线数据源导入实时数据成功? 实时数据能否立即应用到推荐场景?
数据结构 当数据源创建完成,您可以进入数据源详情页面进行数据质量管理操作。数据质量管理操作可以将离线数据源经过数据特征抽取,生成推荐系统内部通用的数据格式。经过数据质量检测来确保数据的合法性。 数据结构介绍 数据结构步骤的主要目的是读取用户上传的离线数据,解析用户特征和物品特征中
数据源管理 数据源管理简介 准备离线数据源 上传离线数据源至OBS 上传实时数据 创建离线数据源 导入近线数据源 数据质量管理 修改或删除数据源
数据格式规范 推荐系统OBS文件夹规范 离线数据源 实时日志 全局特征信息文件 父主题: 用户指南(旧版)
提交数据质量作业 提交数据质量作业API 查询全局特征配置 父主题: 作业相关API
数据探索是什么?近线实时数据如何在数据探索中的报告体现? 数据探索是针对当前数据源的数据进行挖掘和分析,主要聚焦在特征的分布范围、统计以及特征齐全度等,使用户能够更了解数据,进而指导在特征工程以及相关算法的配置。 数据探索是一个离线分析任务,任务有对应的启动时间,由于近线实时数据
上传实时数据 RES通过DIS SDK上传实时数据,用户实时日数据并做近线处理。当前仅支持Java语言的SDK,示例请参见《数据接入服务SDK参考》。 前提条件 如果需要使用近线上传实时数据的用户,可以使用DIS SDK接口上传,请您按照需求下载DIS SDK,下载完之后按照下面的说明进行SDK升级。
离线数据源 调用RES之前,您需要准备3种基础数据包并上传至OBS,离线数据源目前支持CSV和JSON。具体数据包请参见表1 基础数据表。 表1 基础数据表 数据类型 表名 用户类数据 用户属性表 物品类数据 物品属性表 行为类数据 用户操作行为表 用户需要自己手工创建整理这些表并存储到OBS上。
Nearline object 近线数据源。 表6 Offline 参数 是否必选 参数类型 描述 user_url 是 String 用户数据url。 item_url 是 String 物品数据url。 behavior_url 是 String 行为数据url。 表7 Nearline
离线数据和近线实时数据如何配合使用? 在推荐系统初始化阶段,需要用户提供批量的离线数据源并按照推荐系统要求的数据格式上传至OBS,完成数据的检测和导入。 近线实时数据源推荐使用RES SDK上传,此操作所有的数据更新都是实时生效的。 父主题: 数据源
创建离线数据源 在使用RES之前,首先您需要创建一个数据源,后续的操作,如修改数据源、创建自定义推荐,都是基于您创建的数据源进行的。 前提条件 已创建用于存储数据的OBS桶及文件夹,并且数据存储的OBS桶与RES在同一区域。 需要使用的数据已上传至OBS。 创建数据源 登录RES
在使用RES之前,首先您需要创建一个数据源,后续的操作都是基于您创建的数据源进行的。 上传实时数据 RES通过SDK上传实时数据,进行数据计算和处理,更新用户的相关数据。 数据质量管理 数据质量管理操作可以将数据源经过数据特征抽取,生成推荐系统内部通用的数据格式。 修改或删除数据源 对您已经创建的数据源进行修改,对不需要的数据源进行删除。