检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
平台资源API 绑定依赖资源 获取资源列表 解绑依赖资源 创建跨源连接 获取跨源连接 删除跨源连接 开启公共终端节点 父主题: API(V1不推荐)
数据质量管理 数据结构 数据导入 数据探索 父主题: 数据源管理
数据质量 数据质量检测算子,是用户在进行离线计算之前使用原始初始格式数据(离线数据源中的离线数据)或者通用格式数据检测输入数据是否合法。包括离线数据中是否包含特殊字符,数据类型是否正确,是否缺少必备信息等。 前提条件 已将离线数据上传至OBS桶中。 创建数据质量作业 创建数据质量操作步骤如下:
数据探索 数据探索介绍 数据探索是针对当前数据源的数据进行挖掘和分析,主要聚焦在特征的分布范围、统计以及特征齐全度等,使用户能够更了解数据,进而指导在特征工程以及相关算法的配置。 数据探索是一个离线分析任务,任务有对应的启动时间,由于增量数据会实时入库,因此可以通过定时执行数据探索任务来覆盖增量数据。
数据导入 数据导入介绍 数据导入即读取经过“数据结构”生成的数据,对每条数据进行校验。推荐系统保留字段需校验类型和数据合法性、自定义字段校验类型,输出错误报告。如果数据完全符合要求,会生成推荐系统所需要的宽表和画像数据。 宽表:推荐系统内部格式,以行为数据为主,将行为数据中涉及到的用户数据和物品数据整合成一条数据。
数据源 创建数据源 查询数据源列表 查询数据源详情 修改数据源内容 修改数据源特征 删除数据源 查询数据源任务结果 父主题: API
数据源 RES的离线数据源包括什么? 如何上传数据至OBS 如何上传实时数据? 离线数据和近线实时数据如何配合使用? 数据探索是什么?近线实时数据如何在数据探索中的报告体现? 如何确定近线数据源导入实时数据成功? 实时数据能否立即应用到推荐场景?
去创建”,跳转到对应服务管理控制台。 DLI创建集群操作详请参见数据湖探索用户指南>Spark作业控制台>Spark集群管理>创建集群章节。 CloudTable创建集群操作详请参见表格存储服务用户指南> 集群模式> 集群操作指导> 创建集群章节。 DIS创建通道操作详请参见数据接入服务用户指南> 入门>
参见表7。 data_source 是 List 算法数据源配置 DATA_QUALITY_INSPECTION,数据源选择通用模板数据,请参见表5。 offline_platform 是 JSON 请参见表3,离线计算平台信息。 表3 offline_platform参数说明 参数名称
资源类型,取值DLI、CloudTable。 cloudtable_cluster_id 是 String cloudtable集群ID。 dli_cluster_name 是 String DLI集群名称。 响应消息 响应参数请参见表3-响应参数说明。 表3 响应参数说明 参数名称 是否必选 参数类型 说明
参数名称 是否必选 参数类型 说明 id 否 String 标识ID。 cluster_name 是 String 集群名称。 status 否 String 集群状态。 is_register 否 Boolean 是否注册。 示例 成功响应示例 { "is_success":
是 String 集群名称,最大长度64。 表5 resource_info参数说明(CloudTable) 参数名称 是否必选 参数类型 说明 cluster_id 是 String 集群ID,最大长度64字符。 cluster_name 是 String 集群名称,最大长度64字符。
数据结构 当数据源创建完成,您可以进入数据源详情页面进行数据质量管理操作。数据质量管理操作可以将离线数据源经过数据特征抽取,生成推荐系统内部通用的数据格式。经过数据质量检测来确保数据的合法性。 数据结构介绍 数据结构步骤的主要目的是读取用户上传的离线数据,解析用户特征和物品特征中
数据源管理 数据源管理简介 准备离线数据源 上传离线数据源至OBS 上传实时数据 创建离线数据源 导入近线数据源 数据质量管理 修改或删除数据源
什么是RES? 推荐系统(Recommender System,简称RES)基于华为大数据和人工智能技术,提供推荐平台和算法服务,并帮助企业构建个性化推荐应用,助力提升网站/APP的点击率、留存率和用户体验。 父主题: 基础问题
数据格式规范 推荐系统OBS文件夹规范 离线数据源 实时日志 全局特征信息文件 父主题: 用户指南(旧版)
提交数据质量作业 提交数据质量作业API 查询全局特征配置 父主题: 作业相关API
clusters 是 List 请参见表4,集群列表。 表4 clusters参数说明 参数名称 是否必选 参数类型 说明 id 否 String 标识ID。 cluster_name 是 String 集群名称。 status 否 String 集群状态。 is_register 否 Boolean
请求参数请参见表2-请求参数说明。 表2 请求参数说明 参数名称 是否必选 参数类型 说明 cluster_id 是 String cloudtable集群ID。 响应消息 响应参数请参见表3-响应参数说明。 表3 响应参数说明 参数名称 是否必选 参数类型 说明 is_success 是 Boolean
数据探索是什么?近线实时数据如何在数据探索中的报告体现? 数据探索是针对当前数据源的数据进行挖掘和分析,主要聚焦在特征的分布范围、统计以及特征齐全度等,使用户能够更了解数据,进而指导在特征工程以及相关算法的配置。 数据探索是一个离线分析任务,任务有对应的启动时间,由于近线实时数据