云服务器内容精选
-
数据质量监控简介 数据质量监控DQC(Data Quality Control)模块是对数据库里的数据质量进行质量管理的工具。您可从完整性、有效性、及时性、一致性、准确性、唯一性六个维度进行单列、跨列、跨行、跨源和跨表的分析。数据质量支持对离线数据的监控,当离线数据发生变化时,数据质量会对数据进行校验,并阻塞生产链路,以避免问题数据污染扩散。同时,数据质量提供了历史校验结果的管理,以便您对数据质量分析和定级。 另外,数据质量监控DQC支持根据数据架构中的数据标准,自动生成标准化的质量规则,并进行周期性的监控。 数据质量监控主界面包括以下功能模块。 功能 说明 总览 默认首页是总览页面,显示了数据表的报警和阻塞情况。 主要包括以下几部分内容: 所选周期内的作业数、实例数、异常表数,以及各种实例运行状态的分布和变化趋势情况。 当天告警分类统计、当天数据表告警统计、最近7天规则告警分类趋势的统计和最近7天规则数量的趋势。 规则模板 质量规则模板是数据质量的核心功能,是配置规则的主要入口。它主要管理规则配置(内置模板和自定义模板)的相关功能。 质量作业 质量作业可将规则模板或自定义规则应用到表中,进行数据质量监控。 对账作业 对账作业可将创建的规则应用到两张表中进行质量监控,并输出对账结果。 运维管理 运维管理用于查看规则运行状态,处理运维问题。 质量报告 系统根据作业的结果,会自动生成质量报告。 父主题: 数据质量监控
-
操作步骤 登录RES管理控制台,在左侧菜单栏中选择“数据源”,进入“数据源”列表页面。单击目标数据源名称进入数据源详情页面。 在“执行步骤”页签,单击“数据结构”下的“开始识别”,进入“识别”页面,确认页面信息后单击“是”进行特征抽取。 当执行完成“识别”状态为“已完成”时,进行“人工复核”确认操作。 在“特征抽取”页签确认识别出的数据信息。 如果复核抽取的数据信息无误,单击“确认”,在“复核特征抽取”页面单击“是”完成复核。如果复核抽取的数据信息不符合预期,可选择“重新识别” 。 该页面包含“用户特征”、“物品特征”、“正向行为类型”和“负向行为类型”等信息,具体描述请参见表1。 图1 确认特征抽取 表1 确认特征参数 参数名称 说明 用户特征 列表中展示抽取的用户特征和参数类型。您可以根据业务需求单击增加用户特征。单击特征后方的删除不需要的用户特征。 物品特征 列表中展示抽取的物品特征和参数类型,此特征会额外应用于所选字段的功能。您可以根据业务需求单击增加物品特征。单击特征后方的删除不需要的物品特征。 您可以从“应用于”右侧的下拉选项中设置该数据的使用维度是“兴趣属性”或者“关键词提取”。其中: 兴趣属性,此特征将会用于统计用户的兴趣标签,并生成特征名为“interested_原特征名”的特征。 关键词提取,只有当关键词为content和title时会进行关键词提取,并生成特征名为“keyword_原特征名”的特征。 正向行为类型 列表中展示抽取的正向行为类型。您可以根据业务需求单击增加正向行为类型。单击特征后方的删除不需要的正向行为类型。 您可以从“应用于”右侧的下拉选项中设置该数据的使用维度是“历史记录”或者“物品热度值”。其中: 历史记录:此特征将会用于统计用户此行为的历史记录,并生成特征名为“history_原特征名”的特征。 物品热度值:此行为将会被用于统计物品的热度值信息,并生成特征名为“statistics_hotValue”的特征。 说明: 如果您有自定义行为类型,系统识别后,会默认为正向行为类型,默认分数为0.5。您可以根据业务需求对其进行修改,也可以删除,直接添加为负向行为类型。 负向行为类型 列表中展示抽取的负向行为类型。您可以根据业务需求单击增加负向行为类型。单击特征后方的删除不需要的负向行为类型。 您可以从“应用于”右侧的下拉选项中设置该数据的使用维度是“历史记录”或者“物品热度值”,其相关说明与正向行为类型一致。
-
响应消息 响应参数请参见表8。 表8 响应参数说明 参数名称 参数类型 说明 job_name String 作业名称。 job_id String 作业的ID。 is_success Boolean 请求是否成功。 error_message String 请求失败时的错误信息,请求成功时无此字段。 error_code String 请求失败时的错误码,请求成功时无此字段。 create_time Long 作业的创建时间。 etl_uuid String 候选集ID。
-
请求参数 请求参数参见表2。 表2 请求参数说明 参数名称 是否必选 参数类型 说明 workspace_id 否 String 工作空间ID,默认为0 job_name 是 String 训练作业名称,最大长度为20字符。必须以DataQuality-开头。 job_description 否 String 训练作业描述,最大长度为256字符。 algorithm_type 是 String 算法类型 DATA_QUALITY_INSPECTION algorithm_parameters 是 JSON 算法参数,每一种算法都有其特定的参数。 DATA_QUALITY_INSPECTION,请参见表7。 data_source 是 List 算法数据源配置 DATA_QUALITY_INSPECTION,数据源选择通用模板数据,请参见表5。 offline_platform 是 JSON 请参见表3,离线计算平台信息。 表3 offline_platform参数说明 参数名称 是否必选 参数类型 说明 platform 是 String 平台名称,最大长度64,支持 DLI 。 platform_parameter 是 JSON 请参见表4,平台参数。 computing_resource 否 String 指定DLI运行任务的资源规格。 config_load_path 是 String 读取配置源路径。 表4 platform_parameter参数说明 参数名称 是否必选 参数类型 说明 cluster_name 是 String 集群名称。 cluster_id 否 String 集群ID。 表5 data_source参数说明 参数名称 是否必选 参数类型 说明 table_type_id 是 String 推荐通用数据模板 用户属性表USER_META 物品属性表ITEM_META 用户操作行为表USER_BEHAVIOR 数据格式请参见推荐系统离线数据源。 通用格式 GENERAL_FORMAT data_source_url 是 String 数据源路径,最大长度1000字符。 data_format 是 String 输入数据格式,可选值:csv、parquet、json、orc。 data_param 否 JSON 请参见表6,数据格式是csv的时候必选,其他可选。 表6 data_param参数说明 参数名称 是否必选 参数类型 说明 header 是 Boolean 是否显示表头。 delimiter 是 String 分割符,最大长度10个字符。 quote 是 String 引用字符,最大长度10个字符。 escape 是 String 转义字符,最大长度10个字符。 表7 algorithm_parameters参数说明-DATA_QUALITY_INSPECTION算子 参数名称 是否必选 参数类型 说明 输出路径(result_path) 是 String 所有输出数据(错误数据以及错误信息)的存储路径,文件夹。 全局特征配置文件路径(global_features_information_path) 是 String 该文件为JSON格式,包含特征名、特征大类、特征值类型。全局特征文件详细内容可以通过查询全局特征配置获取。
更多精彩内容
CDN加速
GaussDB
文字转换成语音
免费的服务器
如何创建网站
域名网站购买
私有云桌面
云主机哪个好
域名怎么备案
手机云电脑
SSL证书申请
云点播服务器
免费OCR是什么
电脑云桌面
域名备案怎么弄
语音转文字
文字图片识别
云桌面是什么
网址安全检测
网站建设搭建
国外CDN加速
SSL免费证书申请
短信批量发送
图片OCR识别
云数据库MySQL
个人域名购买
录音转文字
扫描图片识别文字
OCR图片识别
行驶证识别
虚拟电话号码
电话呼叫中心软件
怎么制作一个网站
Email注册网站
华为VNC
图像文字识别
企业网站制作
个人网站搭建
华为云计算
免费租用云托管
云桌面云服务器
ocr文字识别免费版
HTTPS证书申请
图片文字识别转换
国外域名注册商
使用免费虚拟主机
云电脑主机多少钱
鲲鹏云手机
短信验证码平台
OCR图片文字识别
SSL证书是什么
申请企业邮箱步骤
免费的企业用邮箱
云免流搭建教程
域名价格