检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据探索 数据探索介绍 数据探索是针对当前数据源的数据进行挖掘和分析,主要聚焦在特征的分布范围、统计以及特征齐全度等,使用户能够更了解数据,进而指导在特征工程以及相关算法的配置。 数据探索是一个离线分析任务,任务有对应的启动时间,由于增量数据会实时入库,因此可以通过定时执行数据探索任务来覆盖增量数据。
排序策略-离线特征工程 表1 特征工程参数说明 参数名称 说明 名称 自定义离线特征工程名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 对于特征工程的描述信息。 待提取用户特征 排序模型需要经特征工程处理后的数据, 选择排序模型需要的用户特征,
选集的存储。 集群名称,选择“资源中心”绑定的CloudTable集群名称。 表名,存储的表格名称。 过滤规则别名 自定义过滤规则名称。由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 黑名单地址 黑名单所在路径。 黑名单中的物品不
数据源 创建数据源 查询数据源列表 查询数据源详情 修改数据源内容 修改数据源特征 删除数据源 查询数据源任务结果 父主题: API
数据源 RES的离线数据源包括什么? 如何上传数据至OBS 如何上传实时数据? 离线数据和近线实时数据如何配合使用? 数据探索是什么?近线实时数据如何在数据探索中的报告体现? 如何确定近线数据源导入实时数据成功? 实时数据能否立即应用到推荐场景?
推荐引擎和排序引擎有什么区别? 推荐引擎 推荐引擎是以推荐为业务逻辑的引擎,即系统根据配置生成召回集作为起点,输出推荐结果集为终点的引擎。 排序引擎 排序引擎是以排序为业务逻辑的引擎,即用户提供排序集为输入,系统根据排序算法输出排序结果的引擎。 父主题: 自定义场景
数据结构 当数据源创建完成,您可以进入数据源详情页面进行数据质量管理操作。数据质量管理操作可以将离线数据源经过数据特征抽取,生成推荐系统内部通用的数据格式。经过数据质量检测来确保数据的合法性。 数据结构介绍 数据结构步骤的主要目的是读取用户上传的离线数据,解析用户特征和物品特征中
列表。比如可以统计物品被购买的次数,而返回被购买次数最高的若干个物品。 表1 参数说明 参数名称 说明 默认值 策略别名 策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 默认召回策略的名称 数据源 数据源类型有初始格式和通用格式2种可选。
请求Body参数 参数 是否必选 参数类型 描述 name 是 String 工作空间名称,1-64位的数字、字母、下划线、中划线组成,支持中文,不能以 - 结尾。 最小长度:1 最大长度:64 enterprise_project_id 是 String 企业项目编号。 最小长度:1
batch模式计算速度快于full模式。 保存根路径 单击选择训练结果在OBS中的保存根路径,训练完成后,会将模型和日志文件保存在该路径下。该路径不能包含中文。 因子分解机-FM 因子分解机算法是一种基于矩阵分解的机器学习算法,能够自动进行二阶特征组合、学习特征之间的关系,无需人工经验干预,同时能够解决组合特征稀疏的问题。
创建数据源 功能介绍 在指定的工作空间下面创建一个新的数据源。 调试 您可以在API Explorer中调试该接口。 URI POST /v2.0/{project_id}/workspaces/{workspace_id}/data-sources 表1 路径参数 参数 是否必选
离线数据源 调用RES之前,您需要准备3种基础数据包并上传至OBS,离线数据源目前支持CSV和JSON。具体数据包请参见表1 基础数据表。 表1 基础数据表 数据类型 表名 用户类数据 用户属性表 物品类数据 物品属性表 行为类数据 用户操作行为表 用户需要自己手工创建整理这些表并存储到OBS上。
数据源管理 数据源管理简介 准备离线数据源 上传离线数据源至OBS 上传实时数据 创建离线数据源 导入近线数据源 数据质量管理 修改或删除数据源
上传实时数据 RES通过DIS SDK上传实时数据,用户实时日数据并做近线处理。当前仅支持Java语言的SDK,示例请参见《数据接入服务SDK参考》。 前提条件 如果需要使用近线上传实时数据的用户,可以使用DIS SDK接口上传,请您按照需求下载DIS SDK,下载完之后按照下面的说明进行SDK升级。
specifications参数说明 参数名称 是否必选 参数类型 说明 id 是 String 模型名称。 display_zh 是 String 规格中文名称。 display_en 是 String 规格英文名称。 specification 是 String 规格信息 示例 成功响应示例
数据探索是什么?近线实时数据如何在数据探索中的报告体现? 数据探索是针对当前数据源的数据进行挖掘和分析,主要聚焦在特征的分布范围、统计以及特征齐全度等,使用户能够更了解数据,进而指导在特征工程以及相关算法的配置。 数据探索是一个离线分析任务,任务有对应的启动时间,由于近线实时数据
数据格式规范 推荐系统OBS文件夹规范 离线数据源 实时日志 全局特征信息文件 父主题: 用户指南(旧版)
请求Body参数 参数 是否必选 参数类型 描述 name 否 String 工作空间名称,1-64位数字、字母、下划线、中划线组成,支持中文,不能以 - 结尾。 最小长度:1 最大长度:64 description 否 String 描述。 响应参数 状态码: 200 表4 响应Body参数
提交数据质量作业 提交数据质量作业API 查询全局特征配置 父主题: 作业相关API
离线数据和近线实时数据如何配合使用? 在推荐系统初始化阶段,需要用户提供批量的离线数据源并按照推荐系统要求的数据格式上传至OBS,完成数据的检测和导入。 近线实时数据源推荐使用RES SDK上传,此操作所有的数据更新都是实时生效的。 父主题: 数据源