检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
元数据简介 按照传统的定义,元数据(Metadata)是关于数据的数据。元数据打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程。元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。在数据仓库系统中,元数据可以帮助数
CDM会迁移整个目录下的文件到OBS。 文件格式:选择“二进制格式”。这里的文件格式是指CDM传输数据时所用的格式,不会改变原始文件自身的格式。迁移文件到文件时,推荐使用“二进制格式”,传输的效率和性能都最优。 目的端作业配置: 目的连接名称:选择7创建的OBS连接“obslink”。
源连接名称:选择待迁移数据的数据源,作业运行时将从此端复制导出数据。 目的连接名称:选择将数据迁移到哪个数据源,作业运行时会将数据导入此端。 选择源连接后,配置作业参数,例如迁移MySQL到DWS时,如图2所示。 图2 新建作业 每种数据源对应的作业参数不一样,其它类型数据源的作业参数请根据表1和表2选择。
端所使用的数据库账号需要满足以下权限要求,才能启动实时同步任务。不同类型的同步任务,需要的账号权限也不同,详细可参考下表进行赋权。 表2 数据库账号权限 类型名称 权限要求 源数据库连接账号 数据库的CONNECT权限,模式的USAGE权限,表的SELECT权限,序列的SELEC
一个特定功能或场景的API集合,类似文件夹,指定当前API保存的位置,后续可以在指定的API目录中检索当前API。 API目录是数据服务中API的最小组织单元。您可以选择新建API目录已创建的目录。 请求Path API访问路径,例如:/getUserInfo。 请求Path即完整的URL中
单击“导入”,选择JSON格式的文件导入或文本导入。 文件导入:待导入的作业文件必须为JSON格式(大小不超过1M)。如果待导入的作业文件是之前从CDM中导出的,则导入前必须先编辑JSON文件,将“Add password here”替换为对应连接的正确密码,再执行导入操作。 文本导
关系到表的性能,需要格外引起注意。 非分区表桶数 = MAX(单表数据量大小(G)/2G*2,再向上取整,4) 分区表桶数 = MAX(单分区数据量大小(G)/2G*2,再后向上取整,1) 其中,要注意的是: 需要使用的是表的总数据大小,而不是压缩以后的文件大小。 桶的设置以偶数
关系到表的性能,需要格外引起注意。 非分区表桶数 = MAX(单表数据量大小(G)/2G*2,再向上取整,4) 分区表桶数 = MAX(单分区数据量大小(G)/2G*2,再后向上取整,1) 其中,要注意的是: 需要使用的是表的总数据大小,而不是压缩以后的文件大小。 桶的设置以偶数
方式一:单击对应驱动名称右侧操作列的“上传”,选择本地已下载的驱动。 方式二:单击对应驱动名称右侧操作列的“从sftp复制”,配置sftp连接器名称和驱动文件路径。 在“集群管理”界面,单击集群后的“作业管理”,选择“连接管理 > 新建连接”,进入连接器类型的选择界面,如图1所示。 图1 选择连接器类型
数据迁移作业提交运行后,CDM会根据作业配置中的“抽取并发数”参数,将每个作业拆分为多个Task,即作业分片。 不同源端数据源的作业分片维度有所不同,因此某些作业可能出现未严格按作业“抽取并发数”参数分片的情况。 CDM依次将Task提交给运行池运行。根据集群配置管理中的“最大抽取并发数”参数,超出规格的Task排队等待运行。
Query参数名=Query参数值”的形式添加到调用地址的最后,则此处会自动生成Query Params的值,否则就需要手动输入。 图3 Params 如果您需要对调用结果进行自定义调整,则还可以配置如下Query参数: (可选)分页配置:默认情况下,对于配置方式和默认分页的脚本/MyBatis
绑定参数对外开放,选择为基本配置中定义的入参,是用户访问API时直接使用的参数。 绑定字段对外不可见,是所选的数据表中的字段,为API调用时实际访问的内容。 操作符则是用户访问API时,对绑定字段和绑定参数的处理方式。操作符左边为绑定字段,右边为绑定参数。当前支持的操作符及含义如下: 表2 支持的操作符 操作符
列数据的字符串中出现字段分隔符时,目的端可以通过开启“使用包围符”,将该字符串括起来,作为一个整体写入CSV文件。CDM目前只使用双引号("")作为包围符。如图1所示,数据库的name字段的值中包含了字段分隔符逗号: 图1 包含字段分隔符的字段值 不使用包围符的时候,导出的CSV文件,数据会显示为:
列数据的字符串中出现字段分隔符时,目的端可以通过开启“使用包围符”,将该字符串括起来,作为一个整体写入CSV文件。CDM目前只使用双引号("")作为包围符。如图1所示,数据库的name字段的值中包含了字段分隔符逗号: 图1 包含字段分隔符的字段值 不使用包围符的时候,导出的CSV文件,数据会显示为:
使用Token前请确保Token离过期有足够的时间,防止调用API的过程中Token过期导致调用API失败。 Token在计算机系统中代表令牌(临时)的意思,拥有Token就代表拥有某种权限。Token认证就是在调用API的时候将Token加到请求消息头,从而通过身份认证,获得操作API的权限。 Token
在“维度”页签,选择需要导出的DWR模型,选择所需导出的维度,单击列表上方的“更多 > 导出”按钮,导出所选维度。导出完成后,即可通过浏览器下载地址,获取到导出的xlsx文件。 图9 导出维度 在“事实表”页签,选择需要导出的DWR模型,然后选择所需导出的事实表,单击列表上方的“更多 > 导出
} } 图2 调用接口获取Token 获取返回的响应消息头Header中“x-subject-token”值,此即为用户Token。有了Token之后,您就可以在调用API的时候将Token加到请求消息头,从而通过身份认证,获得调用API的权限。 图3 获取Token 调用API
获取,与生成认证信息中的请求方法和调用地址保持一致。 图5 请求方法和调用地址 Params:如果Query参数已经以“?Query参数名=Query参数值”的形式添加到调用地址的最后,则此处会自动生成Query Params的值,否则就需要手动输入。 图6 Params 如果您
义函数实现的算法。因此如果使用这三种脱敏规则之一,则会上传算法依赖的JAR包到MRS集群,并需要提前授予Ranger数据连接中账号的创建UDF权限以及所有用户的使用UDF权限,详见参考:配置Ranger组件中的UDF相关权限。 数据安全消费Kafka消息时,需要消息的格式满足要求,详见参考:Kafka消息格式要求。
数据迁移作业提交运行后,CDM会根据作业配置中的“抽取并发数”参数,将每个作业拆分为多个Task,即作业分片。 不同源端数据源的作业分片维度有所不同,因此某些作业可能出现未严格按作业“抽取并发数”参数分片的情况。 CDM依次将Task提交给运行池运行。根据集群配置管理中的“最大抽取并发数”参数,超出规格的Task排队等待运行。