检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查看报告 如果导入错误,会生成“数据导入错误报告”,显示数据“类型”、“数量”和“原因”,方便您定位问题原因。 (可选)如果用户更新了数据源,可以重新导入数据。 单击“数据导入报告”后的“执行”,重新进行数据导入。 图2 重新导入数据 表1 参数解释 参数 说明 导入画像 选择是否导入画像。
“用户画像实时导入”、“物品画像实时导入”以及“行为数据实时导入”可以单独进行导入。 打开目标数据右侧的导入按钮,确认“实时计算规格”信息和计费后并进行确认后,单击“是”进行实时导入。待数据状态成为“运行中”时,表示实时数据导入完成。每“执行”一次导入操作,之前的数据内容将被覆盖,请您谨慎操作。 图1 实时导入
如何确定近线数据源导入实时数据成功? 近线数据源上传成功后,可在推荐系统控制台的“数据源”直接查看。 父主题: 数据源
页面完成数据创建、数据修改等操作,为智能场景推荐和自定义场景推荐做好数据准备。 数据类型 当前RES支持创建数据源和导入近线数据。创建数据源的数据格式和近线数据导入的格式要求一致,包括用户数据、物品数据和行为数据。 用户数据 用户数据包括数据源中的“用户属性表”和用于近线计算的“
并上传至OBS,离线数据源目前支持CSV和JSON。具体数据包请参见表1 基础数据表。 表1 基础数据表 数据类型 表名 用户类数据 用户属性表 物品类数据 物品属性表 行为类数据 用户操作行为表 用户需要自己手工创建整理这些表并存储到OBS上。 每张表的表结构必须符合推荐系统的
否 location Json 物品的地理位置信息,精度维度格式:{"lat": latitude, "lon": longitude }。例如:"location": {"lat": 41.12, "lon": -71.34}。 否 extend Json 扩展字段,由用户指定扩展字段的key和value。
费详情。 “画像数据”:在数据源导入数据成功后,按每小时每百万条画像进行计费,在删除数据源后,将停止计费。 “训练作业”:在创建离线作业和导入实时数据均需要选取训练规格,根据训练规格大小进行计费。 如果需要数据源停止计费,请先终止近线数据源的导入,删除对应数据源和对应OBS中的数据存储。
putRecordsRequestEntryList.add(putRecordsRequestEntry); putRecordsRequest.setRecords(putRecordsRequestEntryList); dic.putRecords(putRecordsRequest);
数据质量管理 数据结构 数据导入 数据探索 父主题: 数据源管理
离线数据和近线实时数据如何配合使用? 在推荐系统初始化阶段,需要用户提供批量的离线数据源并按照推荐系统要求的数据格式上传至OBS,完成数据的检测和导入。 近线实时数据源推荐使用RES SDK上传,此操作所有的数据更新都是实时生效的。 父主题: 数据源
putRecordsRequestEntryList.add(putRecordsRequestEntry); putRecordsRequest.setRecords(putRecordsRequestEntryList); dic.putRecords(putRecordsRequest);
csv”,该列表应用于召回策略的人工导入策略。 │ obs-filter-data 用于存放用户黑白名单,应用于过滤策略。 │ obs-global-data 用于存放全局特征文件,例如放入名为“global_feature_info.json”的文件。 │ obs-general-data
便推荐系统识别用户离线数据,通过特征工程将对应的数据写入到画像中,同时用于排序训练和线上推理服务中使用。 文件数据信息请参见全局特征信息文件数据格式。 当上传的数据中的特征有变化时,用户需要同步更新该文件。该文件为JSON格式,包含特征名、特征大类、特征值类型。 数据源 数据在OBS的存放路径。
化时,用户需要同步更新该文件。该文件为JSON格式,包含特征名、特征大类、特征值类型。 表1 全局特征信息文件字段描述 字段名 类型 描述 是否必选 user_features Array[Object] 用户特征,值为数组,其元素为json对象,参见表2。 是 item_features
job_description 否 String 训练作业描述,最大长度为256字符。 nearline_platform 是 JSON 请参见表3,近线计算平台。 strategy 是 JSON 请参见表5,策略信息。 表3 nearline_platform 参数说明 参数名称 是否必选 参数类型
注册华为帐号并开通华为云 在使用华为云服务之前您需要申请华为云帐号。通过此账号,您可以使用所有华为云服务,并且只需为您所使用的服务付费。 操作步骤 进入华为云首页,单击页面右上角的“注册”。 设置手机号、短信验证码、账号名、密码并勾选“我已阅读并同意《华为云用户协议》和《隐私政策声明》”,单击“同意协议并注册”。
计算引擎用于推荐系统的离线计算和近线计算。默认DLI。 集群名称 选择“资源中心”绑定的DLI集群名称。 任务配置地址 在创建作业时, 会自动生成一个JSON格式的配置源文件,该文件存储在指定的OBS路径中,计算引擎可以通过读取配置源文件来进行离线计算。 资源名 指定DLI运行作业的资源规格。
是否必选 参数类型 说明 data_source_config 是 JSON 请参见表3,数据源参数配置。 algorithm_config 是 JSON 算法参数配置。 candidate_set_config 是 JSON 请参见表4,候选集参数配置。 表3 data_source_config参数说明
UIREC_CANDIDATES CANDIDATES_SET CustomRule生成的用户-物品列表候选集。 业务规则-人工导入 业务规则-人工导入是指用户自定义物品列表,并将此列表排序后作为候选集,以供在线服务调用。 表19 参数说明 参数名称 说明 策略名 策略显示名称,
可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。 业务规则-人工导入 业务规则-人工导入是指用户自定义物品列表,并将此列表作为候选集,以供在线服务调用。 表6 业务规则-人工导入参数说明 参数名称 说明 名称