检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据探索是什么?近线实时数据如何在数据探索中的报告体现? 数据探索是针对当前数据源的数据进行挖掘和分析,主要聚焦在特征的分布范围、统计以及特征齐全度等,使用户能够更了解数据,进而指导在特征工程以及相关算法的配置。 数据探索是一个离线分析任务,任务有对应的启动时间,由于近线实时数据
什么是区域、可用区? 什么是区域、可用区? 使用用区域和可用区来描述数据中心的位置,您可以在特定的区域、可用区创建资源。 区域(Region):从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region
son数据,即内部通用格式。 默认选择初始格式 时间选择 时间选择包括数据时间和行为时间跨度。 数据时间:用于匹配在起始时间和终止时间内的行为数据。 行为时间跨度:指定历史行为时间段,选取数据中最靠后的时间往前N天的行为数据计算用户偏好。建议至少设置30天。 默认选择数据时间的当月所有数据
h 是 String 该文件标识了每一个域下的特征数量,排序数据处理接口会生成这个文件,文件路径为用户在排序数据预处理中输入的结果保存路径参数表示的路径的“fields_feature_size”目录下,文件名称为“part-00000”,需要用户提供文件完整路径。 max_iterations
离线数据和近线实时数据如何配合使用? 在推荐系统初始化阶段,需要用户提供批量的离线数据源并按照推荐系统要求的数据格式上传至OBS,完成数据的检测和导入。 近线实时数据源推荐使用RES SDK上传,此操作所有的数据更新都是实时生效的。 父主题: 数据源
新标签值及权重会更新已有的标签及权重值。 priority_tags 否 List 由属性、属性值、属性权重以及该属性在物品中的数据类型信息组成的数据格式的列表,其中属性值或属性权重可以不提供,权重信息不提供的场景下采用默认值“0.01”。需要在部署服务时与属性匹配重排序配合使用
计算引擎信息,选择指定服务名、集群名称、任务配置地址、资源名等信息。 数据源 数据源类型有初始格式和通用格式可以选择。 “初始格式” 用户操作行为表:初始数据中的用户操作行为表。 “通用格式” 通用格式数据:特征工程“初始用户画像-物品画像-标准宽表生成”算子生成的用户推荐系统的数据。从用户特征表、物品特征表以及用户
如何确定近线数据源导入实时数据成功? 近线数据源上传成功后,可在推荐系统控制台的“数据源”直接查看。 父主题: 数据源
数据质量管理 数据结构 数据导入 数据探索 父主题: 数据源管理
量”可以根据数据量进行设置,如果读写性能达不到要求,可以增加Cloudtable的RS单元数量提升性能。 数据源 初始格式 选择提前已经存储在OBS上的如下数据源: 用户属性表 物品属性表 用户操作行为表 如上数据表的数据格式规范请参见离线数据源。 在对应表的“数据源”列中,单击选择数据的OBS存储路径。
查询当前推荐系统所提供的离线计算规格,实时计算规格和排序模型训练规格。在创建数据源和场景时,需要提供此信息。 调试 您可以在API Explorer中调试该接口。 URI GET /v2.0/{project_id}/resource-specs 表1 路径参数 参数 是否必选 参数类型 描述 project_id
查询数据源任务结果 功能介绍 查询指定数据源下离线任务的结果。其中包括数据格式,数据检测、数据探索及效果评估的内容。 调试 您可以在API Explorer中调试该接口。 URI GET /v2.0/{project_id}/workspaces/{workspace_id}/d
en,请参考获取用户Token),如图5所示。 您也可以通过AK(Access Key ID)/SK(Secret Access Key)加密调用请求,具体可参见《RES API参考》中的"认证鉴权认证鉴权>AK/SK认证”。 图5 参数填写 预测请求参数说明。 表1 参数说明 参数
删除数据源 功能介绍 删除数据源。 调试 您可以在API Explorer中调试该接口。 URI DELETE /v2.0/{project_id}/workspaces/{workspace_id}/data-sources/{datasource_id} 表1 路径参数 参数
导入近线数据源 通过导入近线数据源,达到实时计算并更新用户画像、物品画像,实时更新增量数据的目的。 前提条件 按数据规范准备数据并上传至通道。具体上传方法请参见上传实时数据。 导入近线数据源 登录RES管理控制台,在左侧菜单栏中选择“数据源”,进入“数据源”列表页面。 在数据源列表
参数名称 是否必选 参数类型 说明 candidate_id 是 String 候选集ID。 rule_ratio 是 Integer 同优先级数据占比( 0-100 整数 同级别占比和为100)。 priority 是 String 优先级,1-10的整数(1优先级最高),最大长度32。
终端节点 终端节点即调用API的请求地址,不同服务不同区域的终端节点不同,您可以从地区和终端节点中查询所有服务的终端节点。 推荐系统的终端节点如表1所示,请您根据业务需要选择对应区域的终端节点。 表1 推荐系统的终端节点 区域名称 区域 终端节点(Endpoint) 华北-北京四
序。 数据源 从右侧下拉框中选择RES系统中已有的数据源。当无可用数据源时,此下拉框为空。 数据区间 时间单位 支持天和小时。 数据选择 指定历史行为时间段,选取数据中最靠后的时间往前N天或N小时的行为数据计算用户偏好。 物品类别 是否需要根据category值对原始数据进行过滤
RES的离线数据源包括什么? 离线数据包括如下几张表: 用户属性表 物品属性表 用户操作行为表 每张表的字段描述和规范详情请参见《推荐系统用户指南》中准备离线数据源章节。 父主题: 数据源
登录RES管理控制台,在“全局配置”页面的计算资源区域,单击目标资源规格操作列的“编辑”修改计算资源。 在“编辑计算资源”页面,修改计算资源相关配置,请参见表1。计算资源名称不支持修改。 单击“确定”,完成计算资源修改。配置资源不能超过集群资源最大限制,否则会导致计算失败。 删除计算资源 登录