检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
工作的水平。 数据治理评分卡使用评分卡形式,由数据治理组织和各业务IT部门共同针对各部门自身数据治理情况进行打分。评分卡是季度性打分,作为一个工具手段持续推动促进各部门的数据治理工作,改进数据质量,提升数据治理水平。 图1 数据治理评分卡 父主题: 数据治理度量评估体系
Where子句 参数位置:在创建表/文件迁移作业时,如果源端为关系型数据库,那么在源端作业参数的高级属性下面可以看到“Where子句”参数。 参数原理:通过“Where子句”参数可以配置一个SQL语句(例如:age > 18 and age <= 60),CDM只导出该SQL语句指定的数据;不配置时导出整表。
Where子句 参数位置:在创建表/文件迁移作业时,如果源端为关系型数据库,那么在源端作业参数的高级属性下面可以看到“Where子句”参数。 参数原理:通过“Where子句”参数可以配置一个SQL语句(例如:age > 18 and age <= 60),CDM只导出该SQL语句指定的数据;不配置时导出整表。
DLI、DWS、GBASE、HETUENGINE 通过输入字段长度范围,校验表中字段是否在允许范围内。 字段值范围校验 通过输入字段值范围,校验表中字段值是否在允许范围内。 字段时间校验 通过输入字段时间范围,校验表中字段时间是否在允许范围内。 注意,当前仅支持DATE和TIMESTAMP类型的字段,不支持TIME格式。
保存版本时,一分钟内多次保存只记录一次版本。对于中间数据比较重要时,可以通过“新增版本”按钮手动增加保存版本。 支持单击右键,可快速复制作业名称,同时可以快速的关闭已打开的作业页签。 在MRS API连接模式下,单任务MRS Spark SQL和MRS Hive SQL运行完以后,在执行结果中查看运行日志,增加一键跳转MRS
OBS支持 需服务端支持OBS存储。在创建Hive表时,您可以指定将表存储在OBS中。 否 运行模式 “HIVE_3_X”版本支持该参数。支持以下模式: EMBEDDED:连接实例与CDM运行在一起,该模式性能较好。 STANDALONE:连接实例运行在独立进程。如果CDM需要对接多个
Studio与数据仓库底座之间的数据连接。 前提条件 在创建数据连接前,请确保您已创建所要连接的数据湖(如DataArts Studio所支持的数据库、云服务等)。 在创建DWS类型的数据连接前,您需要先在DWS服务中创建集群,并且具有KMS密钥的查看权限。 在创建MRS HBase、MRS Hi
作业名称:用户自定义作业名称。 源端作业配置: 源连接名称:选择5创建的HDFS连接“hdfs_link”。 源目录或文件:配置为H公司贸易数据在本地的存储路径,可以是一个目录,也可以是单独一个文件。这里配置为目录,CDM会迁移整个目录下的文件到OBS。 文件格式:选择“二进制格式”。这里的文件格式是指CDM
Studio提供两种免费试用途径。 试用初级版:您可以通过参加相关活动,限时免费试用初级版DataArts Studio。初级版实例默认赠送一个CDM集群。 使用免费版:免费版定位于试用场景,相比初级版不自带CDM集群,而是首次购买时赠送36小时CDM集群折扣套餐;另外在配额上有所
Cloud,简称VPC)负责其计费。 如果CDM需要访问本地数据源、Internet的数据源,或者跨VPC的云服务,则必须要为CDM集群绑定一个弹性IP,或者使用NAT网关让CDM集群与其他弹性云服务器共享弹性IP访问Internet,具体操作请见添加SNAT规则。 如果用户对本地
流程设计:针对流程的一个结构化的整体框架,描述了企业流程的分类、层级以及边界、范围、输入/输出关系等,反映了企业的商业模式及业务特点。 数仓规划:对数仓分层以及数仓建模进行统一管理。支持用户自定义数仓分层。 标准设计:新建码表&数据标准。 新建码表:通常只包括一系列允许的值和附
配额使用量”,查看每个工作空间的配额使用量。 设置配额使用量阈值告警 购买配额扩充增量包前,您可以设置配额使用量阈值告警。当触发告警时,表明您应当购买配额扩充增量包,否则随着业务量增长,您的业务可能会受到影响。 设置配额使用量阈值告警的操作方法如下所示: 在DataArts Studio实例卡片上,单击选择“更多
发责任人、运维管理员设置为管理员角色。 开发者:开发者拥有工作空间内创建、管理工作项的业务操作权限。建议将任务开发、任务处理的用户设置为开发者。 运维者:运维者具备工作空间内运维调度等业务的操作权限,但无法更改工作项及配置。建议将运维管理、状态监控的用户设置为运维者。 访客:访客
云账号的用户名、账号名和项目ID。 创建一个CDM集群,并获取集群ID。 获取方法:在集群管理界面,单击CDM集群名称可查看集群ID,例如“c110beff-0f11-4e75-8b10-da7cd882b0ef”。 创建一个MySQL数据库和一个DWS数据库,并创建好表city1和表city2,创表语句如下:
虚拟私有云。专享版实例需要配置虚拟私有云(VPC),在同一VPC中的资源(如ECS),可以使用专享版实例的私有地址调用API。 在购买时专享版实例时,建议配置和您其他关联业务相同VPC,确保网络安全的同时,方便网络配置。 弹性公网IP 专享版实例的API如果要允许外部调用,则需要购买一个弹性公网IP,并在购买时绑定给实例,作为实例的公网入口。
配额使用量”,查看每个工作空间的配额使用量。 设置配额使用量阈值告警 购买配额扩充增量包前,您可以设置配额使用量阈值告警。当触发告警时,表明您应当购买配额扩充增量包,否则随着业务量增长,您的业务可能会受到影响。 设置配额使用量阈值告警的操作方法如下所示: 在DataArts Studio实例卡片上,单击选择“更多
保存版本时,一分钟内多次保存只记录一次版本。对于中间数据比较重要时,可以通过“新增版本”按钮手动增加保存版本。 支持单击右键,可快速复制脚本名称,同时可以快速的关闭已打开的脚本页签。 在MRS API连接模式下,MRS Spark SQL和MRS Hive SQL脚本运行完以后,在执行结果中查看运行日志,增加一键跳转MRS
dataArray} :For循环节点输入的数据集,是一个二维数组。 #{Loop.current}:由于For循环节点在处理数据集的时候,是一行一行进行处理的,那Loop.current就表示当前处理到的某行数据,Loop.current是一个一维数组,一般定义格式为#{Loop.current[0]}、#{Loop
上取整,1)。 其中,要注意的是: 需要使用的是表的总数据大小,而不是压缩以后的文件大小。 桶的设置以偶数最佳,非分区表最小桶数请设置4个,分区表最小桶数请设置1个。 同时,可通过在Hudi的目的端配置中单击“Hudi表属性全局配置”或在映射后的单表“表属性编辑”中,添加优化参数。
特定分页数据,您可以修改如下参数设置分页,其中pageSize表示分页后的页面大小,pageNum表示页码。 图7 分页参数设置 自定义分页的脚本/MyBatis方式API是在创建API时将分页逻辑写到取数SQL中,因此不支持在调用时修改分页设置。 (可选)排序配置:默认情况下,