检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查看报告 如果导入错误,会生成“数据导入错误报告”,显示数据“类型”、“数量”和“原因”,方便您定位问题原因。 (可选)如果用户更新了数据源,可以重新导入数据。 单击“数据导入报告”后的“执行”,重新进行数据导入。 图2 重新导入数据 表1 参数解释 参数 说明 导入画像 选择是否导入画像。
“用户画像实时导入”、“物品画像实时导入”以及“行为数据实时导入”可以单独进行导入。 打开目标数据右侧的导入按钮,确认“实时计算规格”信息和计费后并进行确认后,单击“是”进行实时导入。待数据状态成为“运行中”时,表示实时数据导入完成。每“执行”一次导入操作,之前的数据内容将被覆盖,请您谨慎操作。 图1 实时导入
如何确定近线数据源导入实时数据成功? 近线数据源上传成功后,可在推荐系统控制台的“数据源”直接查看。 父主题: 数据源
需要存放在OBS桶中的数据包括: 离线数据源:包含用户类数据,物品类数据,行为数据以及推荐候选列表。 人工推荐策略的候选集(可选):您可以将人工编辑推荐结果的列表csv文件(即物品ID)存放在OBS桶中。 创建桶的区域需要与RES所在的区域一致。RES目前只支持华北-北京四区域。例如:当前RES在华北-北
离线数据和近线实时数据如何配合使用? 在推荐系统初始化阶段,需要用户提供批量的离线数据源并按照推荐系统要求的数据格式上传至OBS,完成数据的检测和导入。 近线实时数据源推荐使用RES SDK上传,此操作所有的数据更新都是实时生效的。 父主题: 数据源
页面完成数据创建、数据修改等操作,为智能场景推荐和自定义场景推荐做好数据准备。 数据类型 当前RES支持创建数据源和导入近线数据。创建数据源的数据格式和近线数据导入的格式要求一致,包括用户数据、物品数据和行为数据。 用户数据 用户数据包括数据源中的“用户属性表”和用于近线计算的“
费详情。 “画像数据”:在数据源导入数据成功后,按每小时每百万条画像进行计费,在删除数据源后,将停止计费。 “训练作业”:在创建离线作业和导入实时数据均需要选取训练规格,根据训练规格大小进行计费。 如果需要数据源停止计费,请先终止近线数据源的导入,删除对应数据源和对应OBS中的数据存储。
离线数据源 调用RES之前,您需要准备3种基础数据包并上传至OBS,离线数据源目前支持CSV和JSON。具体数据包请参见表1 基础数据表。 表1 基础数据表 数据类型 表名 用户类数据 用户属性表 物品类数据 物品属性表 行为类数据 用户操作行为表 用户需要自己手工创建整理这些表并存储到OBS上。
数据源路径,最大长度1000字符。 data_format 是 String 输入数据格式,可选值:csv、parquet、json、orc。 data_param 否 JSON 请参见表6,数据格式是csv的时候必选,其他可选。 表6 data_param参数说明 参数名称 是否必选 参数类型
用于存放用户行为表、用户属性表和物品属性表。 │ obs-customize-data 用于存放用户自定义列表“customize.csv”,该列表应用于召回策略的人工导入策略。 │ obs-filter-data 用于存放用户黑白名单,应用于过滤策略。 │ obs-global-data
数据源管理 数据源管理简介 准备离线数据源 上传离线数据源至OBS 上传实时数据 创建离线数据源 导入近线数据源 数据质量管理 修改或删除数据源
load_widetable 否 Boolean 导入宽表(离线数据导入作业需要提供此参数)。 load_profile 否 Boolean 导入画像(离线数据导入作业需要提供此参数)。 save_mode 否 String 保留已有宽表(离线数据导入作业需要提供此参数): append,是
数据质量管理 数据结构 数据导入 数据探索 父主题: 数据源管理
batch模式计算速度快于full模式。 重新训练 对第一次训练无影响,仅影响任务重跑。 “是”:清空上一轮的模型结果后重新开始训练。 “否”:导入上一轮的训练结果继续训练。适用于欠拟合的情况。 批量大小 一次训练所选取的样本数。 训练数据集切分数量 将整个数据集切分成多个子数据集,依次训练,每个epoch训练一个子数据集。
data_format String 数据格式,用户属性表、物品属性表,用户操作行为表必填,值可以为“csv”和“json”。 data_param JSON data_format为csv时必填,其他可选。 表4 data_param参数说明 参数名称 是否必选 参数类型 说明 header
load_widetable 否 Boolean 导入宽表(离线数据导入作业需要提供此参数)。 load_profile 否 Boolean 导入画像(离线数据导入作业需要提供此参数)。 save_mode 否 String 保留已有宽表(离线数据导入作业需要提供此参数): append,是
如上数据表的数据格式规范请参见离线数据源。 在对应表的“数据源”列中,单击选择数据的OBS存储路径。 在对应表的“数据格式”列中,数据格式可选:csv/json。 当选择数据格式为csv时,在弹框中设置数据参数,具体参数如下: 表头,有或无,根据用户数据格式选取。 分隔符,选择逗号(,)、竖线(|)、制表符(\t)和自定义。
{ "table_type_id": "ITEM_META", "data_format": "csv", "data_source_url": "<数据源存储路径>", "data_param": {
UIREC_CANDIDATES CANDIDATES_SET CustomRule生成的用户-物品列表候选集。 业务规则-人工导入 业务规则-人工导入是指用户自定义物品列表,并将此列表排序后作为候选集,以供在线服务调用。 表19 参数说明 参数名称 说明 策略名 策略显示名称,
“时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。 业务规则-人工导入 业务规则-人工导入是指用户自定义物品列表,并将此列表作为候选集,以供在线服务调用。 表6 业务规则-人工导入参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线