检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
华为数据治理思考 华为在发展中也遇到了如下的数据问题: 数据管理责任不清晰,造成数据问题无人决策解决; 数据多源头,造成数据不一致,不可信; 数据大量搬家造成IT重复投资; 数据无定义造成难于理解、难于使用; 各部门发布报告,统计口径不一致,困扰业务决策; 数据形态多样化,数据量迅猛增长,数据处理逻辑复杂,投资大;
Studio基于数据湖底座,提供一站式数据开发、治理和服务等能力。 数据集成的数据连接仅限于在数据集成中使用,用于将源端原始数据集成到目的端数据湖底座中,数据集成支持的数据源请参见数据集成支持的数据源。 表1 DataArts Studio支持的数据源 数据源类型 管理中心 数据架构 数据开发
据质量会对数据进行校验,并阻塞生产链路,以避免问题数据污染扩散。同时,数据质量提供了历史校验结果的管理,以便您对数据质量分析和定级。 另外,数据质量监控DQC支持根据数据架构中的数据标准,自动生成标准化的质量规则,并进行周期性的监控。 数据质量监控主界面包括以下功能模块。 功能 说明
数据治理中心-成长地图 | 华为云 数据治理中心 数据治理中心(DataArts Studio)是数据全生命周期一站式开发运营平台,提供数据集成、数据开发、数据治理、数据服务等功能,支持行业知识库智能化建设,支持大数据存储、大数据计算分析引擎等数据底座,帮助企业客户快速构建数据运营能力。
执行SQL命令ALTER DATABASE OPEN启动数据库。 Oracle开启数据库和需要迁移的表的补充日志。 执行以下SQL开启数据库补充日志。 ALTER DATABASE ADD SUPPLEMENTAL LOG DATA; 开启需要实时同步的表的补充日志。 ALTER TABLE "schema_name"
其中,DataArts Studio的相关事件在“事件来源”中包含如下分类: CDM:数据集成组件的事件。 DLF:数据开发组件的事件。 DLG:管理中心、数据架构、数据质量、数据目录和数据服务组件的事件。 图1 CDM操作事件 在需要查看的事件左侧,单击事件名称左侧箭头,展开该记录的详细信息。
数据服务专享版的API如何通过公网访问? 对于默认发布在数据服务专享版集群的API,当数据服务专享版集群支持公网访问后,API即可通过公网调用。 而数据服务专享版集群如果要支持公网访问,仅在创建数据服务专享版集群时,勾选开启“公网入口”才能进行公网访问。因此,对于已创建的未开启公
objects 数据密级列表。 表5 SecrecyLevel 参数 参数类型 描述 secrecy_level_id String 数据密级id。 secrecy_level_name String 数据密级名称。 secrecy_level_number Integer 数据密级等级。
查询数据分类列表 功能介绍 查询数据分类列表。 调用方法 请参见如何调用API。 URI GET /v1/{project_id}/security/data-category 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方法请参见项目ID和账号ID。
删除数据标准 功能介绍 删除数据标准。 调用方法 请参见如何调用API。 URI DELETE /v2/{project_id}/design/standards 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方法请参见项目ID和账号ID。
如何查看表行数和库大小 在数据治理流程中,我们常常需要统计数据表行数或数据库的大小。其中,数据表的行数可以通过SQL命令或数据质量作业获取;数据库大小可以直接在数据目录组件中查看,详情请参考如下操作指导: 统计数据表行数 统计数据库大小 统计数据表行数 对于不同类型的数据源,DataArts
s Studio数据连接新建连接。 *集群名称 无需选择,自动匹配数据连接中的数据源集群。 *数据库 选择敏感数据所在的数据库。 *数据表 选择敏感数据所在的数据表。 单击“确定”,完成动态水印策略创建。 相关操作 水印提取:获得从数据开发下载的动态水印CSV数据文件后,参考水印提取进行水印溯源。
新建数据连接 通过新建数据连接,您可以在数据开发模块中对相应服务进行更多数据操作,例如:管理数据库、管理命名空间、管理数据库模式、管理数据表。 在同一个数据连接下,可支持多个作业运行和多个脚本开发,当数据连接保存的信息发生变化时,您只需在连接管理中编辑修改该数据连接的信息。 新建数据连接
Studio控制台首页,选择对应工作空间的“数据目录”模块,进入数据目录页面。 选择“数据权限 > 数据目录权限”,单击“新建”,配置数据目录权限规则。 规则名称:设置数据权限规则的名称。 类型:当前支持从标签、密级和分类的维度进行过滤筛选。 范围:选择实际的标签、密级和分类。 用户:配置的数据目录权限规则所适配的用户。
元数据管理模块是数据湖治理的基石,支持创建自定义策略的采集任务,可采集数据源中的技术元数据。支持自定义业务元模型,批量导入业务元数据,关联业务和技术元数据、全链路的血缘管理和应用。 图5 全链路数据血缘 数据地图 数据地图围绕数据搜索,服务于数据分析、数据开发、数据挖掘、数据运营等数据表的使用
修改数据标准 功能介绍 修改数据标准。 调用方法 请参见如何调用API。 URI PUT /v2/{project_id}/design/standards/{id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方法请参见项目ID和账号ID。
失败。 数据质量当前不支持MRS hive组件的严格模式 。 数据库 选择配置的数据质量规则所应用到的数据库。 说明: 数据库基于已建立的数据连接。 当“规则类型”选择“自定义规则”,数据对象选择对应的数据库即可。 数据对象 在来源对象选择的数据表将和右侧目的对象的数据表做结果比
对于MRS非安全集群,由于Ranger组件默认同步unix用户,不会同步FI Manager上的用户/用户组/角色,因此需要切换用户同步策略。操作步骤如下所示: MRS安全集群Ranger组件默认同步LDAP用户,默认情况下无需额外操作。如果默认配置被修改,也可以参考本章节切换用户同步策略。 使用admi
DataArts Studio调度CDM任务时报错Given transaction id [xxxx] is invalid,如何处理? 问题描述 DataArts Studio调度CDM任务时,报错Given transaction id [xxxx] is invalid。
数据目录支持采集哪些对象的资产? 数据目录目前支持采集数据湖的资产,例如MRS Hive、DLI、DWS等,除此之外也支持采集以下数据源的元数据: 关系型数据库,如MySQL/PostgreSQL等(可使用RDS类型连接,采集其元数据) 云搜索服务CSS 图引擎服务GES 对象存储服务OBS