检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据源 RES的离线数据源包括什么? 如何上传数据至OBS 如何上传实时数据? 离线数据和近线实时数据如何配合使用? 数据探索是什么?近线实时数据如何在数据探索中的报告体现? 如何确定近线数据源导入实时数据成功? 实时数据能否立即应用到推荐场景?
数据源管理 数据源管理简介 准备离线数据源 上传离线数据源至OBS 上传实时数据 创建离线数据源 导入近线数据源 数据质量管理 修改或删除数据源
离线数据源 调用RES之前,您需要准备3种基础数据包并上传至OBS,离线数据源目前支持CSV和JSON。具体数据包请参见表1 基础数据表。 表1 基础数据表 数据类型 表名 用户类数据 用户属性表 物品类数据 物品属性表 行为类数据 用户操作行为表 用户需要自己手工创建整理这些表并存储到OBS上。
R_REGION”为区域ID,获取方式请参见获取项目名称、项目ID、区域ID。 获取需要上传通道的ID(streamId)。 单击近线数据源的“详情” 图1 获取通道ID 上传实时数据,示例代码如下,其中,“streamId”的配置值要与步骤2中“通道ID”的值一致。 1 2
数据源如何收费? 数据源的收费包括三项。 “OBS存储”:将离线数据源上传至OBS进行存储,根据存储空间大小进行计费。详见OBS计费详情。 “画像数据”:在数据源导入数据成功后,按每小时每百万条画像进行计费,在删除数据源后,将停止计费。 “训练作业”:在创建离线作业和导入实时数据
近线作业 近线作业简介 近线作业为推荐系统提供实时计算能力。近线作业以数据接入服务DIS中的数据为数据源,实时计算并更新用户画像、物品画像和推荐候选集等数据。使用近线作业,用户需先将业务系统埋点日志转换成实时日志指定格式,并实时写入DIS相应通道。近线作业具体实现请参见图1。 图1
数据质量管理 数据结构 数据导入 数据探索 父主题: 数据源管理
数据探索 数据探索介绍 数据探索是针对当前数据源的数据进行挖掘和分析,主要聚焦在特征的分布范围、统计以及特征齐全度等,使用户能够更了解数据,进而指导在特征工程以及相关算法的配置。 数据探索是一个离线分析任务,任务有对应的启动时间,由于增量数据会实时入库,因此可以通过定时执行数据探索任务来覆盖增量数据。
R_REGION”为区域ID,获取方式请参见获取项目名称、项目ID、区域ID。 获取需要上传通道的ID(streamId)。 单击近线数据源的“详情” 图1 获取通道ID 上传实时数据,示例代码如下,其中,“streamId”的配置值要与步骤2中“通道ID”的值一致。 1 2
创建OBS桶和上传文件夹的操作指导请参见创建桶和上传对象。 您在创建OBS桶时,需保证您的OBS桶与RES在同一个区域。 父主题: 数据源
所有行为,然后保存解析生成的数据格式。 前提条件 已按照创建离线数据源操作指导完成数据源的创建。 操作步骤 登录RES管理控制台,在左侧菜单栏中选择“数据源”,进入“数据源”列表页面。单击目标数据源名称进入数据源详情页面。 在“执行步骤”页签,单击“数据结构”下的“开始识别”,进
实时数据能否立即应用到推荐场景? 需要确认关联的召回策略,近线召回可以,离线召回不可以。离线召回需要重新执行。 父主题: 数据源
离线数据和近线实时数据如何配合使用? 在推荐系统初始化阶段,需要用户提供批量的离线数据源并按照推荐系统要求的数据格式上传至OBS,完成数据的检测和导入。 近线实时数据源推荐使用RES SDK上传,此操作所有的数据更新都是实时生效的。 父主题: 数据源
信息。 区域(Region) 从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region分为通用Region和专属Region,通用Region指面向公共租户提供通用云服务的Region;专属Regio
数据探索是什么?近线实时数据如何在数据探索中的报告体现? 数据探索是针对当前数据源的数据进行挖掘和分析,主要聚焦在特征的分布范围、统计以及特征齐全度等,使用户能够更了解数据,进而指导在特征工程以及相关算法的配置。 数据探索是一个离线分析任务,任务有对应的启动时间,由于近线实时数据
产品功能 数据源 数据源功能可以在用户上传数据后,将离线数据源经过数据特征抽取,生成推荐系统内部通用的数据格式。经过数据质量检测来确保数据的合法性。提供数据源智能检测,输出数据分布和数据质量信息等,智能完成特征工程。 智能场景 根据业务场景选择对应的智能推荐场景,快速搭建专属推荐
计算节点规格。 instance_count 是 Integer 计算节点个数,即当前版本模型的实例个数。 image_id 否 String 镜像id,跟model_id互斥,二者只能取一。 model_id 是 String 模型id,跟image_id互斥,二者只能选一个。 表11
可以根据实际业务按需购买。 计算资源:用于推荐作业的计算规格。涉及计费功能包含:数据源、自定义场景、智能场景中的离线计算和模型训练。 存储资源:用于推荐系统数据存储规格。涉及计费功能包括:数据源。 在线服务:用于推荐系统在线推理,获得最终推荐结果。 套餐介绍 计算资源分为“计算型
在使用DLI进行推荐系统的离线和近线计算时,建议创建跨源连接,用于访问CloudTable的数据源,提高读写性能。 前提条件 已开通计算引擎DLI服务,创建集群并完成资源绑定。 创建跨源链接 DLI集群绑定完成后,创建跨源链接。步骤如下: 登录RES管理控制台,在“资源中心”页面,选择计算引擎DLI进入列表。
Storage Service,简称OBS)进行数据源以及黑白名单和用户数据的存储。因此,在使用RES之前您需要开通OBS服务并创建桶,然后在OBS桶中上传用户数据用于推荐作业的计算。 需要存放在OBS桶中的数据包括: 离线数据源:包含用户类数据,物品类数据,行为数据以及推荐候选列表。