检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本例中为了方便演示,我们需要通过数据集成将CSV格式的样例数据导入到MySQL数据库中,之后MySQL数据库即作为案例场景中的原始数据源端。因此在数据导入中,需要在MySQL数据库中预先创建原始数据表。 正式业务流程中,MySQL数据库源端数据需要导入OBS数据库作为点数据集和边数据集,这种到OBS的数据
PostgreSQL到DWS参数调优 源端优化 PostgreSQL抽取优化 暂无优化配置项。 目的端优化 DWS写入优化 可通过在DWS的目的端配置中修改写入相关配置,且可以通过单击高级配置的“查看编辑”按钮,添加高级属性。 图1 添加高级属性 表1 DWS写入优化参数 参数名
系统内置的规则模板一览表 规则类型 维度 模板名称 适用引擎 说明 库级 完整性 数据库空值扫描 DLI、DWS、HIVE、SparkSQL、CLICKHOUSE、GBASE、ORACLE、RDS、DORIS 计算数据库每个表中每个字段的空值字段行数,结果以字段为维度呈现。 表级 准确性 表行数
表等),分别在开发和生产环境的数据湖服务中,新建数据库、数据库模式(仅DWS需要)、数据表等。 对于集群化的数据源(例如MRS、DWS、RDS、MySQL、Oracle、DIS、ECS),使用两套集群资源,两套环境中的数据库、数据库模式(仅DWS需要)和数据表必须保持同名。 对于
若选择SQL语句方式,数据开发模块将无法解析您输入SQL语句中携带的参数。 数据连接 是 选择数据连接。 数据库 是 选择数据库名称,该数据库已创建好,建议不要使用默认数据库。 表2 高级参数 参数 是否必选 说明 节点状态轮询时间(秒) 是 设置轮询时间(1~60秒),每隔x秒查询一次节点是否执行完成。
数据catalog。 数据库 选择数据库。 DLI数据目录如果选择DLI默认的数据目录dli,表示为DLI的数据库和数据表。 DLI数据目录如果选择DLI所绑定的LakeFormation已创建元数据catalog,表示为LakeFormation的数据库和数据表。 资源队列 输入执行作业的资源队列。
若选择SQL语句方式,数据开发模块将无法解析您输入SQL语句中携带的参数。 数据连接 是 选择数据连接。 数据库 是 填写数据库名称,该数据库已创建好,建议不要使用默认数据库。 表2 高级参数 参数 是否必选 说明 节点状态轮询时间(秒) 是 设置轮询时间(1~60秒),每隔x秒查询一次节点是否执行完成。
默认规格(条) 配置类API 调试API DLI/MySQL/RDS/DWS 10 调用API DLI/MySQL/RDS/DWS 100 脚本类API 测试SQL - 10 调试API DLI 默认分页:100 自定义分页:1000 MySQL/RDS/DWS 默认分页:10 自定义分页:2000
高级属性里的可选参数保持默认。 目的连接名称:选择创建DLI连接中的“dlilink”。 资源队列:选择目的表所属的资源队列。 数据库名称:写入数据的数据库名称。 表名:写入数据的目的表。CDM暂不支持在DLI中自动创表,这里的表需要先在DLI中创建好,且该表的字段类型和格式,建议与待迁移数据的字段类型、格式保持一致。
关系型数据库包括:云数据库RDS、云数据库 TaurusDB、云数据库 GaussDB、云数据库 PostgreSQL、云数据库 SQL Server等。 非关系型数据库包括:文档数据库服务DDS、云数据库 GeminiDB(兼容Influx、Redis、Mongo以及Cassandra多种协议)等。
配置OBS目的端参数 配置HDFS目的端参数 配置HBase/CloudTable目的端参数 配置Hive目的端参数 配置MySQL/SQL Server/PostgreSQL目的端参数 配置Oracle目的端参数 配置DWS目的端参数 配置DDS目的端参数 配置Redis目的端参数 配置
配置作业源端参数 配置MySql源端参数 配置Hive源端参数 配置HDFS源端参数 配置Hudi源端参数 配置PostgreSQL源端参数 配置SQLServer源端参数 配置Oracle源端参数 配置DLI源端参数 配置OBS源端参数 配置SAP HANA源端参数 配置Kafka源端参数
PostgreSQL与DWS字段类型映射 Migration会根据源端的字段类型按默认规则转换成目的端字段类型,并以此完成自动建表和实时同步。 字段类型映射规则 当源端为PostgreSQL,目的端为DWS时,支持的字段类型请参见下表,以确保数据完整同步到目的端。 表1 PostgreSQL
配置作业目的端参数 配置PostgreSQL目的端参数 配置Oracle目的端参数 配置MySQL目的端参数 配置SQLServer目的端参数 配置Hudi目的端参数 配置Hive目的端参数 配置DLI目的端参数 配置ElasticSearch目的端参数 配置DWS目的端参数 配置OBS目的端参数
在脚本开发导航栏,选择,右键单击数据连接名称,选择“新建数据库”,配置如表1所示的参数。 表1 新建数据库 参数 是否必选 说明 数据库名称 是 数据库的名称,命名要求如下: DLI:数据库名称只能包含数字、英文字母和下划线,但不能是纯数字,且不能以下划线开头。 DWS:数据库名称只能包含数字、英文字母和下
Where条件:可依据用户输入的where条件对字段进行过滤。 生成异常数据:开启此项,表示异常数据将按照配置的参数存储到规定的库中。 数据库或Schema:开启“生成异常数据”时显示此项,表示存储异常数据的数据库或Schema 表前缀:开启“生成异常数据”时显示此项,表示存储异常数据的表的前缀。 表后缀:开启“生
若选择SQL语句方式,数据开发模块将无法解析您输入SQL语句中携带的参数。 数据连接 是 默认选择SQL脚本中设置的数据连接,支持修改。 数据库 是 默认选择SQL脚本中设置的数据库,支持修改。 脚本参数 否 关联的SQL脚本如果使用了参数,此处显示参数名称,请在参数名称后的输入框配置参数值。参数值支持使用EL表达式。
当前支持的源端数据为DLI类型、OBS类型和MySQL类型。 当源端数据为DLI类型时,支持的目的端数据类型为CloudTable(仅华北-北京一支持)、DWS、GES、CSS、OBS、DLI。 当源端数据为MySQL类型时,支持的目的端数据类型为MySQL。 当源端数据为OBS类型时,支持的目的端数据类型为DLI、DWS。
数据集成配置 连接属性 否 选择连接属性。 socketTimeout:配置JDBC连接超时时间,单位为毫秒 mysql.bool.type.transform:配置mysql读取时,是否将tinyint(1)解析成boolean类型,默认为true。 数据源认证及其他功能配置 用户名
gineSQL、RDSSQL、ImpalaSQL、PYTHON、SparkPython其中之一时,这个参数是必选的。用户可以通过查询连接列表(待下线)接口获取当前系统中已经存在的连接。默认值为空。 database 否 String 执行SQL语句所关联的数据库,当type参数值