检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据治理评分卡对各维度度量是按5分制进行评分,每一个度量细项只有得分0或得分1,如果满足度量细项要求得分1,否则得分0。 图2 数据治理评分卡数据执行维度度量评分计算范例 如上示例,针对流程7.10交付项目管理,数据执行维度有6个度量细项,则这一度量维度的总体得分就是SUM(度量细项得分)*5/6。所以
员投入不足,大数据集群能力不匹配,而无法聚焦业务创新,使得存量100T的数据只有4%的利用率。 在将本地的贸易统计数据迁移到华为云之后,基于华为公有云的大数据分析能力,可帮助H公司屏蔽大数据基础设施复杂的构建、维护过程,使其客户人员可以全身心聚焦业务创新,盘活100T的存量数据,使资产最大化变现。
业建立统一数据模型。 在实际使用中,经常需要DataArts Studio和ROMA的密切配合使用,支撑用户的数字化转型。 父主题: 咨询与计费
步骤4:元数据采集 为了在DataArts Studio平台中对迁移到云上的原始数据进行管理和监控,我们必须先在DataArts Studio数据目录模块中对SDI贴源层数据进行元数据采集并监控。 采集并监控元数据 在DataArts Studio控制台首页,选择对应工作空间的“数据目录”模块,进入数据目录页面。
群才能更新生效。 单作业的抽取并发数取值范围为1-300,集群的总抽取并发数取值范围为1-1000。其中集群最大抽取并发数的设置与CDM集群规格有关,并发数上限建议配置为vCPU核数*2,作业的抽取并发数建议不超过集群的总抽取并发数,过高的并发数可能导致内存溢出,请谨慎修改。 关
业务对象:业务对象是指企业运作和管理中不可缺少的重要人、事、物等信息。 您也可以根据您的实际情况,参考主题流程配置对主题层级进行自定义配置。 约束与限制 单工作空间允许创建的主题个数最多5000个。 新建主题并发布 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。
界、范围、输入/输出关系等,反映了企业的商业模式及业务特点。 数仓规划:对数仓分层以及数仓建模进行统一管理。支持用户自定义数仓分层。 标准设计:新建码表&数据标准。 新建码表:通常只包括一系列允许的值和附加文本描述,与数据标准关联用于生成值域校验质量监控。 新建数据标准:用于描述
待连接的数据湖与CDM集群之间网络互通。 如果数据湖为云下的数据库,则需要通过公网或者专线打通网络。请确保数据源所在的主机和CDM集群均能访问公网,并且防火墙规则已开放连接端口。 如果数据湖为云上服务(如DWS、MRS等),则网络互通需满足如下条件: CDM集群与云上服务处于不同
非分区表性能更好。 确认表内桶数。 使用Hudi BUCKET表时需要设置Bucket桶数,桶数设置关系到表的性能,需要格外引起注意。 非分区表桶数 = MAX(单表数据量大小(G)/2G*2,再向上取整,4)。 分区表桶数 = MAX(单分区数据量大小(G)/2G*2,再后向上取整,1)。
在具体时间、地点、条件下的数量表现。 指标定义用于指导指标开发,用于定义指标的设置目的、计算公式等,并不进行实际运算,可与指标开发进行关联。而指标开发是指标定义的具体实现,定义了指标如何计算。指标定义好之后,最终会同步到资产。 在本示例中:针对坪效这一数据指标的门店运营业务,创建
80000 400 图1 配置节点并发数 单击“保存”,完成配置。 查看历史节点并发数 在数据开发主界面的左侧导航栏,选择“配置管理 > 配置”。 选择“节点并发数”。 在历史节点并发数界面,选择历史时间段。 单击“确定”。 查看历史节点并发数的时间区间最大为24小时。 父主题: 配置
非分区表性能更好。 确认表内桶数。 使用Hudi BUCKET表时需要设置Bucket桶数,桶数设置关系到表的性能,需要格外引起注意。 非分区表桶数 = MAX(单表数据量大小(G)/2G*2,再向上取整,4)。 分区表桶数 = MAX(单分区数据量大小(G)/2G*2,再后向上取整,1)。
数据治理框架 数据治理框架 数据治理模块域 数据治理各模块域之间的关系
配置DataArts Studio数据连接参数 DWS数据连接参数说明 DLI数据连接参数说明 MRS Hive数据连接参数说明 Apache Hive数据连接参数说明 MRS HBase数据连接参数说明 MRS Kafka数据连接参数说明 MRS Spark数据连接参数说明 MRS
CDM通过DES(数据快递服务)迁移1个月前的历史数据,迁移路径如下: CDH → DES → CDM(华为云) → OBS → CDM(华为云) → MRS DES适用场景:数据量大,用户私有云与华为云无专线打通,用户私有云网络到公网带宽有限。 优点:传输可靠性高,受专线以及网络质量影响较小。 缺点:迁移方式耗时较长。
参考创建OBS表创建OBS外表,包括贸易统计数据库、贸易详单信息表和基础信息表。 基于业务需求,在DLI控制台中开发相应的SQL脚本进行贸易统计分析。 父主题: 贸易数据极简上云与统计分析
该参数。将该自定义规则与质量六性(完整性、有效性、及时性、一致性、准确性、唯一性)进行关联。 输出结果说明 当“规则类型”选择“自定义规则”时,需要配置该参数。 对SQL获得结果的每一列进行说明,与SQL关系定义的输出结果顺序一一对应,输出结果说明字段个数与SQL的输出参数个数不相等时,会保存失败并提示报错信息。
通过CDM作业的定时任务,每天自动上传增量数据到OBS。 使用DLI分析数据 通过DLI直接分析OBS中的业务数据,支撑H公司客户进行贸易统计分析。 父主题: 贸易数据极简上云与统计分析
并支持身份证号末位计算(计算身份证末位时,位数只能选择1,且前面位数需要大于等于17)。 新建样本库的请参考管理样本库章节。注意,选择样本库替换时,OBS样本文件只能用于DLI引擎的静态脱敏任务,HDFS样本文件只能用于MRS引擎的静态脱敏任务。静态脱敏场景与引擎之间的对应关系请参考参考:静态脱敏场景介绍。
Insight,简称DLI)作为数据湖底座,进行数据集成、开发、治理与开放。 MapReduce服务 DataArts Studio支持将MapReduce服务(简称MRS)作为数据湖底座,进行数据集成、开发与治理。 云数据仓库服务 DataArts Studio支持将云数据仓库服务(GaussDB(DWS)