检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置MRS ClickHouse源端参数 作业中源连接为MRS ClickHouse连接时,源端作业参数如表1所示。 表1 MRS ClickHouse作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 源连接名称 选择已配置的MRS ClickHouse连接。 ck_from_cdm
数据治理中心-成长地图 | 华为云 数据治理中心 数据治理中心(DataArts Studio)是数据全生命周期一站式开发运营平台,提供数据集成、数据开发、数据治理、数据服务等功能,支持行业知识库智能化建设,支持大数据存储、大数据计算分析引擎等数据底座,帮助企业客户快速构建数据运营能力。
Studio实例控制台,登录DataArts Studio管理控制台。 在DataArts Studio控制台首页,选择对应工作空间的“数据开发”模块,进入数据开发页面。 在数据开发主界面的左侧导航栏,选择“数据开发 > 作业开发”。 在作业目录中,右键单击目录名称,选择“新建目录”。 在弹出的“新建目录”页面,配置如表1所示的参数。
但不涉及数据治理,适用于开发者试用、小规模验证等场景。 企业版:基于MRS Hive的出租车出行的数据治理流程 MRS Hive 企业版 数据集成+数据开发+数据治理 需求全功能数据治理能力,适用于有完善的数据管理团队和体系,要进行企业信息架构、数据标准、数据模型、数据指标的落地,匹配完整的DAYU数据治理方法论。
数据加密 管理密钥(高级特性) 文件加密(高级特性) 外部接口(高级特性) 父主题: 敏感数据保护
此外,还需确保该MRS集群与DataArts Studio工作空间所属的企业项目相同,如果不同,您需要修改工作空间的企业项目。 当同一Agent连接多个MRS集群时,如果其中一个MRS集群被删除或状态异常,会影响另外一个正常的MRS集群数据连接。因此建议一个Agent对应一个MRS集群数据连接。
图7 查看MRS集群节点IP和域名 登录MRS集群节点,详情请参见登录MRS集群节点,执行命令cat /etc/hosts,可以列出所有节点的IP和域名。 测试网络连接。 在DataArts Studio工作空间下创建数据连接,并创建实时集成作业,选择对应数据连接和资源组进行
Administrator或者数据安全管理员可以创建、修改或删除数据密级、分类和识别规则,其他普通用户无权限操作。 配置默认密级后,MRS Hive和DWS数据源中所有未被标记密级的数据表和字段(包括存量和增量数据)将被标记为默认密级,默认密级支持在数据地图组件中进行展示,并支持通过管控敏感数据进行数据预览时的权限管控。
华为数据治理思考 华为在发展中也遇到了如下的数据问题: 数据管理责任不清晰,造成数据问题无人决策解决; 数据多源头,造成数据不一致,不可信; 数据大量搬家造成IT重复投资; 数据无定义造成难于理解、难于使用; 各部门发布报告,统计口径不一致,困扰业务决策; 数据形态多样化,数据量迅猛增长,数据处理逻辑复杂,投资大;
同步。 数据连接 是 默认选择SQL脚本中设置的数据连接,支持修改。 数据库 是 默认选择SQL脚本中设置的数据库,支持修改。 运行程序参数 否 为本次执行的作业配置相关优化参数(例如线程、内存、CPU核数等),用于优化资源使用效率,提升作业的执行性能。 说明: 若集群为MRS 1
通过代理连接的时候,此项可配置,通过勾选按钮来选择集群名模式或连接串模式。 使用集群名模式时通过选择填写集群名称进行连接配置。 使用连接串模式填写对应集群的IP和端口进行连接配置。 MRS集群名 是 选择所属的MRS集群。仅支持连接MRS云服务,自建Hadoop集群必须在纳管到MRS云服务后才可以选择。系统会
下载客户端”,弹出“下载客户端”信息提示框。 MRS 3.3.0及之后版本,在Manager主页中直接单击“下载客户端”即可。 登录MRS控制台。 选择“MRS集群 > 现有集群”。 单击所需集群的名称进入MRS集群的概览页面。单击“前往Manager”,登录MRS服务的管理面。 “Kerberos认证”为“开启”状态。
分库分表同步:适用于数据入湖和数据上云场景下,多库多表同步场景,支持的数据源请参见分库分表同步支持的数据源类型。 整库迁移:适用于数据入湖和数据上云场景下,离线或自建数据库整体同步场景,支持的数据源请参见整库同步支持的数据源类型。 因各版本集群支持的数据源有所差异,其他版本支持的数据源仅做参考。
新建脚本和开发SQL脚本先创建和开发脚本。 数据连接 是 默认选择SQL脚本中设置的数据连接,支持修改。 数据库 是 默认选择SQL脚本中设置的数据库,支持修改。 MRS资源队列 否 选择已创建好的MRS资源队列。 说明: 需要先在数据安全服务队列权限功能中,配置对应的队列后,才
步骤7:数据质量监控 数据质量监控DQC(Data Quality Control)模块是对数据库里的数据质量进行质量管理的工具。您可从完整性、有效性、及时性、一致性、准确性、唯一性六个维度进行单列、跨列、跨行和跨表的分析。 在DataArts Studio数据质量模块中,可以对业务指标和数据质量进行监控。
将同步数据库名包含“datatest”的数据库中的数据表。 填写为“datatest.table1”,则元数据实时同步将同步如下数据表:数据库名包含“datatest”的数据库,其中表名包含“table_name”的数据表。 数据集成配置 数据库名称 是 适用组件勾选数据集成后,呈现此参数。
数据水印 嵌入数据水印 溯源数据水印 父主题: 敏感数据保护
数据源元数据获取 获取数据库列表 获取schemas 获取数据源中的表 获取数据源中表的字段 父主题: 管理中心API
统一权限治理使用流程图 统一权限治理支持数据权限管控、服务资源管控和Ranger权限管理,流程介绍如下: 数据权限管控流程 授权dlg_agency委托 由于数据安全使用委托时,所需的云服务权限更高。因此在使用数据安全前,需要提前为dlg_agency委托授予相关权限。 检查集群版本与权限 统一权限
正式业务流程中,MySQL数据库源端数据需要导入OBS数据库作为点数据集和边数据集,这种到OBS的数据集成场景无需提前创建表。但MySQL数据库源端数据导入到MRS Hive时,需要在MRS Hive数据库中预先创建标准数据表。 因此,本例共涉及MySQL数据库创建原始数据表和在MRS Hive