检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
第二类工具,关注如何对湖中的数据进行分析、挖掘、利用。数据湖需要具备完善的数据管理能力、多样化的数据分析能力、全面的数据生命周期管理能力、安全的数据获取和数据发布能力。如果没有这些数据治理工具,元数据缺失,湖里的数据质量就没法保障,最终会由数据湖变质为数据沼泽。 随着大数据和AI
方式无法获得所有列(例如从HBase/CloudTable/MongoDB导出数据时,CDM有较大概率无法获得所有列),则可以单击后选择“添加新字段”来手动增加,确保导入到目的端的数据完整。 关系数据库、Hive、MRS Hudi及DLI做源端时,不支持获取样值功能。 SQLSe
数据连接 是 默认选择SQL脚本中设置的数据连接,支持修改。 模式 是 Hetu支持的数据源。用户可以在MRS Manager的Hetu组件中自行添加数据源。 数据库 是 默认选择SQL脚本中设置的数据库,支持修改。 资源队列 否 输入资源队列名称。 脚本参数 否 关联的SQL脚本如果使
配置PostgreSQL源端参数 支持从云端的数据库服务导出数据。 这些非云服务的数据库,既可以是用户在本地数据中心自建的数据库,也可以是用户在ECS上部署的,还可以是第三方云上的数据库服务。 OpenGauss数据源与PostgreSQL一致,可参考本章节配置。 表1 PostgreSQL作为源端时的作业参数
secrecyLevel_id String 密级的ID,ID字符串。 secrecyLevel_name String 密级名称。 uuid String 数据安全主键。 slevel Integer 密级等级。 description String 密级描述。 biz_id String 业务对象ID,ID字符串。
集群所在虚拟私有云ID。 subnet_id String 集群所在子网ID。 security_group_id String 集群所在安全组ID。 nodes Array of InstanceNodeDTO objects 集群节点列表。 表6 FlavorDTO 参数 参数类型
您可以选择重启CDM服务进程或重启集群VM,选择完成并单击确认后即可完成集群重启操作。 重启CDM服务进程:只重启CDM服务的进程,不会重启集群虚拟机。 重启集群VM:业务进程会中断,并重启集群的虚拟机。 父主题: 创建并管理CDM集群
集群所在虚拟私有云ID。 subnet_id String 集群所在子网ID。 security_group_id String 集群所在安全组ID。 nodes Array of InstanceNodeDTO objects 集群节点列表。 表4 FlavorDTO 参数 参数类型
search_name_and_description 否 Boolean 是否按名称和描述搜索。 security_levels 否 Array of strings 安全密级列表。 term_names 否 Array of strings 标签列表。 type_names 否 Array of strings
校验文件个数以及文件大小。 在MRS中恢复HBase表并验证。 准备数据 项目 数据项 说明 取值示例 DES盒子 挂载地址 DES盒子在客户的虚拟机挂载的地址。 //虚拟机IP/huawei 存储管理系统 DES盒子的存储管理系统,与管理IP相关。 https://管理IP:8088/device
连接目的端数据库时指定的session时区,支持时区标准写法,例如UTC+8等。 刷新源表和目标表映射,检查映射关系是否正确,同时可根据需求修改表属性、添加附加字段,并通过“自动建表”能力在目的端DWS数据库中建出相应的表。 图7 源表与目标表映射 目标字段赋值:单击操作列“目标字段赋值”可自
选择执行Python语句的主机。需确认该主机配有用于执行Python脚本的环境。 须知: Shell或Python脚本可以在该ECS主机上运行的最大并发数由ECS主机的/etc/ssh/sshd_config文件中MaxSessions的配置值确定。请根据Shell或Python脚本
能存储最多2GB的字符数据。 不支持 不支持 日期时间 date 7字节的定宽日期/时间数据类型,其中包含7个属性:世纪、世纪中的哪一年、月份、月中的哪一天、小时、分钟、秒。 DATE TIMESTAMP timestamp 7字节或11字节的定宽日期/时间数据类型,它包含小数秒。 TIMESTAMP
intranet_host String 内网地址。 external_host String 外网地址。 domains Array of strings 网关域名。 表5 ApiPublishDTO 参数 参数类型 描述 id String 发布编号。 api_id String API编号。 instance_id
Shell节点运行的输出结果不能大于30M,大于30M会报错。 主机连接 是 选择执行Shell脚本的主机。 须知: Shell或Python脚本可以在该ECS主机上运行的最大并发数由ECS主机的/etc/ssh/sshd_config文件中MaxSessions的配置值确定。请根据Shell或Python脚本
Recommendation objects 标签信息。 guids 否 Array of strings 资产guid。 add_type 否 String 添加资产类型。cover:覆盖 追加:append。默认追加。 表4 Recommendation 参数 是否必选 参数类型 描述 name 否
参数 参数类型 描述 id String 维度表ID,ID字符串。 dimension_logic_table_id String 所属维表ID。 ordinal Integer 序号 dimension_attribute_id String 维度属性ID,ID字符串。 name_en
选择操作列中的“更多 > 重启”。 图5 重启集群 重启CDM服务进程:只重启CDM服务的进程,不会重启集群虚拟机。 重启集群VM:业务进程会中断,并重启集群的虚拟机。 选择“重启集群VM”后单击“确定”。 父主题: 创建并管理CDM集群
参数 参数类型 描述 id String 维度表ID,ID字符串。 dimension_logic_table_id String 所属维表ID。 ordinal Integer 序号 dimension_attribute_id String 维度属性ID,ID字符串。 name_en
分库分表同步适用于将本地数据中心或在ECS上自建的数据库,同步到云上的数据库服务或大数据服务中,适用于多库多表同步场景。 支持分库分表同步的数据源如下所示: 源端为RDS(MySQL)时支持分库分表同步。 整库同步支持的数据源类型 整库同步适用于将本地数据中心或在ECS上自建的数据库,同步到云