云服务器内容精选

  • 数据质量监控简介 数据质量监控DQC(Data Quality Control)模块是对数据库里的数据质量进行质量管理的工具。您可从完整性、有效性、及时性、一致性、准确性、唯一性六个维度进行单列、跨列、跨行、跨源和跨表的分析。数据质量支持对离线数据的监控,当离线数据发生变化时,数据质量会对数据进行校验,并阻塞生产链路,以避免问题数据污染扩散。同时,数据质量提供了历史校验结果的管理,以便您对数据质量分析和定级。 另外,数据质量监控DQC支持根据数据架构中的数据标准,自动生成标准化的质量规则,并进行周期性的监控。 数据质量监控主界面包括以下功能模块。 功能 说明 总览 默认首页是总览页面,显示了数据表的报警和阻塞情况。 主要包括以下几部分内容: 所选周期内的作业数、实例数、异常表数,以及各种实例运行状态的分布和变化趋势情况。 当天告警分类统计、当天数据表告警统计、最近7天规则告警分类趋势的统计和最近7天规则数量的趋势。 规则模板 质量规则模板是数据质量的核心功能,是配置规则的主要入口。它主要管理规则配置(内置模板和自定义模板)的相关功能。 质量作业 质量作业可将规则模板或自定义规则应用到表中,进行数据质量监控。 对账作业 对账作业可将创建的规则应用到两张表中进行质量监控,并输出对账结果。 运维管理 运维管理用于查看规则运行状态,处理运维问题。 质量报告 系统根据作业的结果,会自动生成质量报告。 父主题: 数据质量监控
  • 解决方案 此类问题一般是由于用户不具备 MRS 集群操作权限导致的。 对于租户下新增的用户,需要在MRS集群列表的界面找到对应的MRS集群实例,手动单击同步。 操作如下: 进入MRS控制台,查看现有集群,单击对应的集群名称进入概览页。 图1 MRS集群实例 在“ IAM 用户同步”处,单击同步。 图2 单击同步 在操作日志处查看操作结果。 图3 操作日志 如果经过上述步骤,账号已同步。但还是提示MRS权限不足的话,则需要登录到Manger管理页面中创建一个与当前主账号同名的账号。 在步骤4中,需要创建一个与当前主账号同名的账号。
  • 操作步骤 登录RES管理控制台,在左侧菜单栏中选择“数据源”,进入“数据源”列表页面。单击目标数据源名称进入数据源详情页面。 在“执行步骤”页签,单击“数据结构”下的“开始识别”,进入“识别”页面,确认页面信息后单击“是”进行特征抽取。 当执行完成“识别”状态为“已完成”时,进行“人工复核”确认操作。 在“特征抽取”页签确认识别出的数据信息。 如果复核抽取的数据信息无误,单击“确认”,在“复核特征抽取”页面单击“是”完成复核。如果复核抽取的数据信息不符合预期,可选择“重新识别” 。 该页面包含“用户特征”、“物品特征”、“正向行为类型”和“负向行为类型”等信息,具体描述请参见表1。 图1 确认特征抽取 表1 确认特征参数 参数名称 说明 用户特征 列表中展示抽取的用户特征和参数类型。您可以根据业务需求单击增加用户特征。单击特征后方的删除不需要的用户特征。 物品特征 列表中展示抽取的物品特征和参数类型,此特征会额外应用于所选字段的功能。您可以根据业务需求单击增加物品特征。单击特征后方的删除不需要的物品特征。 您可以从“应用于”右侧的下拉选项中设置该数据的使用维度是“兴趣属性”或者“关键词提取”。其中: 兴趣属性,此特征将会用于统计用户的兴趣标签,并生成特征名为“interested_原特征名”的特征。 关键词提取,只有当关键词为content和title时会进行关键词提取,并生成特征名为“keyword_原特征名”的特征。 正向行为类型 列表中展示抽取的正向行为类型。您可以根据业务需求单击增加正向行为类型。单击特征后方的删除不需要的正向行为类型。 您可以从“应用于”右侧的下拉选项中设置该数据的使用维度是“历史记录”或者“物品热度值”。其中: 历史记录:此特征将会用于统计用户此行为的历史记录,并生成特征名为“history_原特征名”的特征。 物品热度值:此行为将会被用于统计物品的热度值信息,并生成特征名为“statistics_hotValue”的特征。 说明: 如果您有自定义行为类型,系统识别后,会默认为正向行为类型,默认分数为0.5。您可以根据业务需求对其进行修改,也可以删除,直接添加为负向行为类型。 负向行为类型 列表中展示抽取的负向行为类型。您可以根据业务需求单击增加负向行为类型。单击特征后方的删除不需要的负向行为类型。 您可以从“应用于”右侧的下拉选项中设置该数据的使用维度是“历史记录”或者“物品热度值”,其相关说明与正向行为类型一致。
  • 响应消息 响应参数请参见表8。 表8 响应参数说明 参数名称 参数类型 说明 job_name String 作业名称。 job_id String 作业的ID。 is_success Boolean 请求是否成功。 error_message String 请求失败时的错误信息,请求成功时无此字段。 error_code String 请求失败时的错误码,请求成功时无此字段。 create_time Long 作业的创建时间。 etl_uuid String 候选集ID。
  • 请求参数 请求参数参见表2。 表2 请求参数说明 参数名称 是否必选 参数类型 说明 workspace_id 否 String 工作空间ID,默认为0 job_name 是 String 训练作业名称,最大长度为20字符。必须以DataQuality-开头。 job_description 否 String 训练作业描述,最大长度为256字符。 algorithm_type 是 String 算法类型 DATA_QUALITY_INSPECTION algorithm_parameters 是 JSON 算法参数,每一种算法都有其特定的参数。 DATA_QUALITY_INSPECTION,请参见表7。 data_source 是 List 算法数据源配置 DATA_QUALITY_INSPECTION,数据源选择通用模板数据,请参见表5。 offline_platform 是 JSON 请参见表3,离线计算平台信息。 表3 offline_platform参数说明 参数名称 是否必选 参数类型 说明 platform 是 String 平台名称,最大长度64,支持 DLI 。 platform_parameter 是 JSON 请参见表4,平台参数。 computing_resource 否 String 指定DLI运行任务的资源规格。 config_load_path 是 String 读取配置源路径。 表4 platform_parameter参数说明 参数名称 是否必选 参数类型 说明 cluster_name 是 String 集群名称。 cluster_id 否 String 集群ID。 表5 data_source参数说明 参数名称 是否必选 参数类型 说明 table_type_id 是 String 推荐通用数据模板 用户属性表USER_META 物品属性表ITEM_META 用户操作行为表USER_BEHAVIOR 数据格式请参见推荐系统离线数据源。 通用格式 GENERAL_FORMAT data_source_url 是 String 数据源路径,最大长度1000字符。 data_format 是 String 输入数据格式,可选值:csv、parquet、json、orc。 data_param 否 JSON 请参见表6,数据格式是csv的时候必选,其他可选。 表6 data_param参数说明 参数名称 是否必选 参数类型 说明 header 是 Boolean 是否显示表头。 delimiter 是 String 分割符,最大长度10个字符。 quote 是 String 引用字符,最大长度10个字符。 escape 是 String 转义字符,最大长度10个字符。 表7 algorithm_parameters参数说明-DATA_QUALITY_INSPECTION算子 参数名称 是否必选 参数类型 说明 输出路径(result_path) 是 String 所有输出数据(错误数据以及错误信息)的存储路径,文件夹。 全局特征配置文件路径(global_features_information_path) 是 String 该文件为JSON格式,包含特征名、特征大类、特征值类型。全局特征文件详细内容可以通过查询全局特征配置获取。