检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
近线作业 近线作业简介 近线作业为推荐系统提供实时计算能力。近线作业以数据接入服务DIS中的数据为数据源,实时计算并更新用户画像、物品画像和推荐候选集等数据。使用近线作业,用户需先将业务系统埋点日志转换成实时日志指定格式,并实时写入DIS相应通道。近线作业具体实现请参见图1。
表1 创建组合作业参数说明 模块 参数名称 说明 计算引擎 服务名 计算引擎用于推荐系统的离线计算和近线计算。默认DLI。 集群名称 选择“资源中心”绑定的DLI集群名称。
离线数据为初次对接RES的批量数据,供场景中的召回算法和排序算法进行计算。近线数据可实时更新、增加用户和物品表数据,同时实时行为数据,可作为后续近线召回计算,这些近线行为数据也会和离线行为数据进行汇总存储,供离线计算。
在作业列表中,刚创建的离线作业“状态”为“计算中”,当离线作业的“状态”变为“计算成功”时,表示作业运行结束,检测完的数据将使用于离线作业。当离线作业的“状态”变为“计算失败”时,您可以单击作业的名称,进入详情页面,通过查看日志等手段处理问题。 父主题: 离线作业
即根据不同的离线计算得到的候选集以及相关参数,提供不同的推荐服务。 在线服务 效果评估 指用于通过推荐系统推荐出去的结果集并利用trace_id回流到推荐系统的行为的点击率、转化率等指标的计算。 效果评估 父主题: 自定义场景
停止算子作业 功能介绍 该接口用于停止正在计算中的作业。 URI DELETE /v1/{project_id}/terminate-job/{job_id} 参数说明请参见表1。
提交实时流近线作业 功能介绍 该接口用于提交实时流作业并进行近线计算。 URI POST /v1/{project_id}/nearline-job 参数说明请参见表1。
offline_platform 是 JSON 请参见表3,离线计算平台信息。 storage 是 JSON 请参见表8,信息存储。 filter_rules 否 JSON 过滤配置列表。
提交数据质量作业API 功能介绍 该接口用于提交数据质量作业并进行离线计算。 URI POST /v1/{project_id}/data-quality 参数说明请参见表1。
获取访问密钥(AK/SK) 由于使用RES时,上传数据、进行计算等需要依赖其他服务,若没有添加访问密钥则无法使用其他服务。 获取访问密钥 登录华为云,在页面右上方单击“控制台”,进入华为云管理控制台。
获取访问密钥并添加RES全局配置 由于使用RES时,用户上传数据、进行离线计算等需要依赖其他服务,如果没有添加访问密钥则无法使用其他服务。因此,在使用RES前,您需要获取访问密钥并在RES管理控制台完成添加访问密钥的配置。
图1 区域和可用区 目前,华为云已在全球多个地域开放云服务,您可以根据需求选择适合自己的区域和可用区。更多信息请参见华为云全球站点。 如何选择区域?
Token在计算机系统中代表令牌(临时)的意思,拥有Token就代表拥有某种权限。Token认证就是在调用API的时候将Token加到请求消息头,从而通过身份认证,获得操作API的权限。
最近邻域数 机器学习中的概念, 例如协同过滤计算中,需要计算物品之间,用户之间的相似度。最近邻域数是x,就是一个物品/用户找出x个和他相似的物品/用户。默认为100。 最大推荐结果数 最多生成多少个推荐结果。默认为100。 开启调度 开启调度,按照指定的调度策略定期执行作业。
日志总行数。 日志类型。 日志详情。 父主题: 离线作业
因此,在使用RES之前您需要开通OBS服务并创建桶,然后在OBS桶中上传用户数据用于推荐作业的计算。 需要存放在OBS桶中的数据包括: 离线数据源:包含用户类数据,物品类数据,行为数据以及推荐候选列表。
根据表1设置计算引擎和存储平台相关参数,并根据业务需要在“增加历史行为过滤”,如图2所示。 图2 创建过滤规则 表1 过滤规则参数说明 参数名称 说明 计算引擎 服务名,计算引擎DLI用于推荐系统的离线计算和近线计算。 集群名称,选择“资源中心”绑定的DLI集群名称。
组合作业 数据质量 数据质量是用户在进行离线计算之前使用原始初始格式数据或者通用格式数据检测输入数据是否合法。 数据质量 特征工程 特征工程常用于抽取用户、物品的特征和特定算法的特征生成,一般作为某些算法的前置输入条件。
因此,在使用RES之前您需要开通OBS服务并创建桶,然后在OBS桶中上传用户数据用于推荐作业的计算。 需要存放在OBS桶中的数据包括: 离线数据源:包含用户类数据,物品类数据,行为数据以及推荐候选列表。 黑名单和白名单:黑名单和白名单的过滤配置,便于用户快速得到有效数据。
“最大推荐数结果数”:指定召回的结果数量。 “开启时间跨度”:不开启取全部数据,开启则指定从数据源中取最近天数或小时数的行为数据计算相似度。默认关闭。 “开启调度”:开启调度,按照指定的调度策略定期执行作业。默认关闭。