检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
expireTime Long 失效时间,采用UTC标准时间,单位以秒计。当前服务器的时间大于该时间时,此物品将不会被推荐。如不设置,代表永不失效。 否 同时,expireTime字段和status字段一样,都可以通过实时数据推送方式,进行字段的更新。该字段为非必选,如不传入,则不会进行失效处理。
灵活配置物品状态和过期时间,保障有效性和实效性 配置物品status状态,完成物品的上下架 配置过期时间实现新闻的过期下架
tus字段,实现秒级状态字段更新,来控制物品的上下架状态。具体操作指导可参考上传实时数据进行配置和对接。 父主题: 灵活配置物品状态和过期时间,保障有效性和实效性
数据探索是什么?近线实时数据如何在数据探索中的报告体现? 数据探索是针对当前数据源的数据进行挖掘和分析,主要聚焦在特征的分布范围、统计以及特征齐全度等,使用户能够更了解数据,进而指导在特征工程以及相关算法的配置。 数据探索是一个离线分析任务,任务有对应的启动时间,由于近线实时数据会实时入库,因此可以通过定时执行数据探索任务来覆盖增量数据。
数据探索 数据探索介绍 数据探索是针对当前数据源的数据进行挖掘和分析,主要聚焦在特征的分布范围、统计以及特征齐全度等,使用户能够更了解数据,进而指导在特征工程以及相关算法的配置。 数据探索是一个离线分析任务,任务有对应的启动时间,由于增量数据会实时入库,因此可以通过定时执行数据探索任务来覆盖增量数据。
数据质量 数据质量检测算子,是用户在进行离线计算之前使用原始初始格式数据(离线数据源中的离线数据)或者通用格式数据检测输入数据是否合法。包括离线数据中是否包含特殊字符,数据类型是否正确,是否缺少必备信息等。 前提条件 已将离线数据上传至OBS桶中。 创建数据质量作业 创建数据质量操作步骤如下:
编辑或删除工作空间 工作空间页面主要列举了当前已创建的工作空间项目信息,包括工作空间“名称”、“状态”、“绑定的企业项目”、“创建人”、“创建时间”、“更新时间”和“操作”。 前提条件 已存在创建成功的工作空间。 编辑工作空间 您可以对创建的工作空间进行修改操作,具体操作如下: 登录RES管
符。 描述 策略的具体描述。 频次 “相对时间间隔”:指定历史行为时间段,选取数据中每个用户最靠后的行为数据的时间往前N天的行为数据计算用户偏好。建议至少设置30天。 “绝对时间间隔”:指定历史行为时间段,选取数据中每个用户距离现在时间往前N天的行为数据计算用户偏好。建议至少设置30天。
选择对已有宽表是否保留。目前支持覆盖、是、否。 开启调度 开启调度,可按照您所设置的时间周期性的提交任务。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。可在此下拉框中勾选具体的时间点。 “时间间隔(小时)”:如果选择的
编辑页面。 图1 修改在线服务参数 修改“过滤(黑名单)”下面的参数。 “实时行为过滤” :“开启”。 “时间区间(天)”:配置为1,即可实现过滤用户近一天(预测请求的时间点前推24h)内浏览或者曝光过的物品。 “行为类型”:配置“view”和“click”。 图2 配置过滤条件
“调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。 创建完成后单击“确认”。保存后的召回策略会展示在下面的列表中。
格式。 默认选择初始格式 时间选择 时间选择包括数据时间和行为时间跨度。 数据时间:用于匹配在起始时间和终止时间内的行为数据。 行为时间跨度:指定历史行为时间段,选取数据中最靠后的时间往前N天的行为数据计算用户偏好。建议至少设置30天。 默认选择数据时间的当月所有数据 行为类型
去重的时间周期,可选天、周、月。默认为“天”。 周一是第一天:行为数据按周去重,是否周一是第一天。 如果选择否, 则认为周日是第一天,保留每个时间区间内的一条最新数据。 训练集测试集划分方式 数据划分方式按时间比例或个数比例划分训练集测试集。 “时间比例”:将全部数据的时间跨度按
训练集测试集划分方式 按时间或者比例来划分训练集测试集。 “TIME” 训练数据时间:训练数据起始时间和终止时间,该起始时间和终止时间不得超过行为数据的时间范围。 测试数据时间:测试数据起始时间和终止时间,该起始时间和终止时间不得超过行为数据的时间范围。 “RATE” 训练数
txt中的每条数据的actionTime字段的值修改到当前时间附近。将item.txt中的每条数据的publishTime字段的值修改到当前时间附近,将item.txt中的每条数据的expireTime字段的值修改成大于当前时间的值,避免数据因为过期被过滤掉。 查询当前时间戳,网址https://tool
project_id 是 String 项目id,获取方式请参见获取项目ID。 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 Content-Type 是 String 内容类型,取值为application/json。 X-Auth-Token 是 String
认值为1。 否 publishTime Long 发布时间,采用UTC标准时间,单位以秒计。对物品有实时性要求的则必填。 否 expireTime Long 失效时间,采用UTC标准时间,单位以秒计。当前服务器的时间大于该时间时,此物品将不会被推荐。如不设置,代表永不失效。 否 author
nearline_platform 是 JSON 请参见表3,近线计算平台。 storage 是 JSON 请参见表5,信息存储。 strategy 是 JSON 请参见表8,策略信息。 表3 nearline_platform参数说明 参数名称 是否必选 参数类型 说明 platform 是 String
data_format 是 String 输入数据格式,可选值:csv、parquet、json、orc。 data_param 否 JSON 请参见表7,数据格式是csv的时候必选,其他可选。 start_time 否 String 文件开始时间,数据格式是json的时候必选,其他可选。
txt中的每条数据的actionTime字段的值修改到当前时间附近。将item.txt中的每条数据的publishTime字段的值修改到当前时间附近,将item.txt中的每条数据的expireTime字段的值修改成大于当前时间的值,避免数据因为过期被过滤掉。 查询当前时间戳,网址https://tool