检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据源的数据格式和近线数据导入的格式要求一致,包括用户数据、物品数据和行为数据。 用户数据 用户数据包括数据源中的“用户属性表”和用于近线计算的“用户画像”数据。用户数据记录用户的属性信息,例如地域、爱好等。 物品数据 物品数据包括数据源中的“物品属性表”和用于近线计算的“物品画
fields_feature_size_path 是 String 该文件标识了每一个域下的特征数量,排序数据处理接口会生成这个文件,文件路径为用户在排序数据预处理中输入的结果保存路径参数表示的路径的“fields_feature_size”目录下,文件名称为“part-00000”,需要用户提供文件完整路径。
增加用户特征。单击特征后方的删除不需要的用户特征。 物品特征 列表中展示抽取的物品特征和参数类型,此特征会额外应用于所选字段的功能。您可以根据业务需求单击增加物品特征。单击特征后方的删除不需要的物品特征。 您可以从“应用于”右侧的下拉选项中设置该数据的使用维度是“兴趣属性”或者“关键词提取”。其中:
用户报表:根据不同数据格式展示用户数据的类型、最大值和最小值。您可以单击相关数据后的查看数据的详细信息。 百分位数:将数据进行排序,统计该数据在整个数据中所占的百分比。 图2 百分位数 分布统计:通过查看分布统计了解各参数下参数值的分布情况。如可以根据性别展示数据中的性别数据分布。可通过查看标签,了解数据中各种标签的分布情况。
品ID的形式在OBS上存储。 操作步骤 登录OBS管理控制台,创建OBS桶。例如,创建名称为“obs-res”的OBS桶。 创建桶的区域需要与RES所在的区域一致。例如:当前RES在华北-北京一区域,在对象存储服务创建桶时,请选择华北-北京一。 通过OBS创建用于存放数据的文件夹
创建离线数据源 在使用RES之前,首先您需要创建一个数据源,后续的操作,如修改数据源、创建自定义推荐,都是基于您创建的数据源进行的。 前提条件 已创建用于存储数据的OBS桶及文件夹,并且数据存储的OBS桶与RES在同一区域。 需要使用的数据已上传至OBS。 创建数据源 登录RES管理控制台
RES自定义策略 如果系统预置的RES权限不满足您的授权要求,可以创建自定义策略。自定义策略中可以添加的授权项(Action)请参考策略支持的授权项。 目前华为云支持以下两种方式创建自定义策略: 可视化视图创建自定义策略:无需了解策略语法,按可视化视图导航栏选择云服务、操作、资源、条件等策略内容,可自动生成策略。
“非法条目数”、“重复度”和“合法率”信息。 类型包括生成的用户、物品、行为数据。您可以通过单击左侧的查看具体报告信息。 “名称”项显示具体参数的名称。 “条目数”显示各种类型数据的具体数量。 图1 查看报告 如果导入错误,会生成“数据导入错误报告”,显示数据“类型”、“数量”和“原因”,方便您定位问题原因。
在数据源列表单击目标数据源名称,进入数据源详情页面。 单击离线数据源右侧的“编辑”,在页面下方单击选择目标文件在OBS中的存储位置。 图1 修改离线数据源 单击“确认”,完成修改。 删除数据源 前提条件 已存在创建成功的数据源。 注意事项 数据源中的数据结构、数据导入或数据探索有任务在运行,该数据源不支持删除。
Service,简称OBS)进行数据源的存储。因此,在使用RES之前您需要开通OBS服务并创建桶,然后在OBS桶中上传用户数据用于推荐作业的计算。 需要存放在OBS桶中的数据包括: 离线数据源:包含用户类数据,物品类数据,行为数据以及推荐候选列表。 人工推荐策略的候选集(可选):您可以将人工编辑推荐结果的列表c
离线数据和近线实时数据如何配合使用? 在推荐系统初始化阶段,需要用户提供批量的离线数据源并按照推荐系统要求的数据格式上传至OBS,完成数据的检测和导入。 近线实时数据源推荐使用RES SDK上传,此操作所有的数据更新都是实时生效的。 父主题: 数据源
特征名称:值为时间戳(10位)的特征的名称,任务会根据此特征对候选集进行排序。 推荐天数:推荐数据的时间段,该时间段从当前开始往前推N天,默认15天。 默认热度排序。 候选集最大长度 生成候选集的最大长度,每次计算更新的候选集中的个数不会超过最大值。 默认50。 候选集的召回策略 召回候选集的策略。
用户画像实时导入 通过SDK导入通道中存储的用户画像实时数据。详情参见上传实时数据。在“用户画像实时导入”右侧,单击打开按钮,在弹出的对话框中进行确认。 物品画像实时导入 通过SDK导通道中存储的物品画像实时数据。在“物品画像实时导入”右侧,单击打开按钮,在弹出的对话框中进行确认。 行为数据实时导入
得超过行为数据的时间范围。 测试数据时间:测试数据起始时间和终止时间,该起始时间和终止时间不得超过行为数据的时间范围。 “RATE” 训练数据占比:生成的结果中,训练集占整个训练集和测试集的比例,默认0.7。 测试数据占比:生成的结果中,训练集占整个训练集和测试集的比例,默认0.3。
宽表条目数,行为数据去重以后的数目。 user_complete_degree Double 用户齐全度,一条行为中的用户是否在产生这条行为的时候拥有画像。 item_complete_degree Double 物品齐全度,一条行为中的物品是否在这条行为产生的时候拥有画像。 bhv_count
如何确定近线数据源导入实时数据成功? 近线数据源上传成功后,可在推荐系统控制台的“数据源”直接查看。 父主题: 数据源
请参见获取项目名称、项目ID、区域ID。 获取需要上传通道的ID(streamId)。 单击近线数据源的“详情” 图1 获取通道ID 上传实时数据,示例代码如下,其中,“streamId”的配置值要与步骤2中“通道ID”的值一致。 1 2 3 4 5 6 7 8
match_infos 进行召回匹配的参数配置,即搜索的匹配信息。 label:客体的属性名称(可为字符串或字符串数组类型)。 value:相应的属性值。 weight:该属性值的匹配权重,多个匹配条件做加权汇总后按分值从大到小给出候选集。 filter_info 搜索的过滤信息。 black_list:客体需要过滤的黑名单。
用于存放全局特征文件,例如放入名为“global_feature_info.json”的文件。 │ obs-general-data 用于存放经过特征工程处理的宽表,又名通用格式数据。 │ obs-pretrain-data 用于存放排序预处理任务生成的预训练数据。 │ obs-error-data
本实践介绍用户在客户端浏览、点击过的某些商品,在规定的时间内,重复请求推荐接口,不会被再次推荐。 功能说明 该功能使用涉及两部分:实时行为数据的接入和在线服务配置行为过滤。当数据源部分开启近线行为实时接入之后,并且用户通过上传实时行为数据,系统才具备根据实时行为进行曝光过滤的功能,该部分可参考上传实时数据进行配置和对接。