检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据质量 数据质量检测算子,是用户在进行离线计算之前使用原始初始格式数据(离线数据源中的离线数据)或者通用格式数据检测输入数据是否合法。包括离线数据中是否包含特殊字符,数据类型是否正确,是否缺少必备信息等。 前提条件 已将离线数据上传至OBS桶中。 创建数据质量作业 创建数据质量操作步骤如下:
产品功能 数据源 数据源功能可以在用户上传数据后,将离线数据源经过数据特征抽取,生成推荐系统内部通用的数据格式。经过数据质量检测来确保数据的合法性。提供数据源智能检测,输出数据分布和数据质量信息等,智能完成特征工程。 智能场景 根据业务场景选择对应的智能推荐场景,快速搭建专属推荐系
通用的画像和宽表数据。 执行完成在页面下方会生成数据相关报告。 “数据导入报告”,显示数据“类型”、“总条目数”、“合法条目数”、“非法条目数”、“重复度”和“合法率”信息。 类型包括生成的用户、物品、行为数据。您可以通过单击左侧的查看具体报告信息。 “名称”项显示具体参数的名称。
当数据源创建完成,您可以进入数据源详情页面进行数据质量管理操作。数据质量管理操作可以将离线数据源经过数据特征抽取,生成推荐系统内部通用的数据格式。经过数据质量检测来确保数据的合法性。 数据结构介绍 数据结构步骤的主要目的是读取用户上传的离线数据,解析用户特征和物品特征中每一个属性的数据格式、统计所有行为,然后保存解析生成的数据格式。
用于多个召回、过滤、排序等任务。 组合作业 数据质量 数据质量是用户在进行离线计算之前使用原始初始格式数据或者通用格式数据检测输入数据是否合法。 数据质量 特征工程 特征工程常用于抽取用户、物品的特征和特定算法的特征生成,一般作为某些算法的前置输入条件。 特征工程 召回策略 召回
单击“创建”,在创建数据源页面,参考表1配置相关参数。 表1 创建数据源参数说明 参数名称 说明 名称 数据源的名称,名称只能是字母、数字、下划线或者中划线组成的合法字符串。 用户属性表 从OBS桶中选择数据。在“用户属性表”右侧,单击,从弹出的对话框中,选择数据存储的OBS桶及其文件或文件夹。 如果选
返回)。 is_success Boolean 是否成功。 message String 返回消息。 legal_rate Double 合法率(请求类型为DATA_INSPECTION时返回)。 inspect_rst_generated_time String 检测结果生成时
batch:则仅针对当前批数据中出现的参数计算 说明: batch模式计算速度快于full模式。 重新训练 对第一次训练无影响,仅影响任务重跑。 “是”:清空上一轮的模型结果后重新开始训练。 “否”:导入上一轮的训练结果继续训练。适用于欠拟合的情况。 批量大小 一次训练所选取的样本数。