检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Studio数据连接参数。 数据库 选择数据库。 队列 仅限DLI连接类型,需选择DLI队列。 Schema 下拉选择Schema。该参数仅DWS和POSTGRESQL模型的表有效。 更新已有表 在导入时,如果所要导入的表在关系模型中已存在,是否更新已有的表。在导入时,系统将按表编码进行判断将要导入的表在
、POSTGRESQL、MRS_SPARK、CLICKHOUSE、MYSQL、ORACLE和DORIS等。 dw_id 是 String 数据连接ID。 db_name 否 String 数据库名。 queue_name 否 String dli数据连接执行sql所需的队列,数据连接类型为DLI时必须。
信使用二进制协议开关,即useCursorFetch=true。部分第三方可能存在兼容问题导致迁移时间转换出错,可以关闭此开关;开源MySQL数据库支持useCursorFetch参数,无需对此参数进行设置。 sslmode=require 说明: 启用SSL加密后sslmode值不设置可能会导致连接失败。
业务对象。 effect_objs String 影响信息,只读。 change_props String 变化信息,只读。 sql_ddl String SQL脚本,只读。 physical_table String 生产环境创建表状态 dev_physical_table String
ss-field表示跨字段级规则,Customize表示自定义规则。 system_template Boolean 是否为系统模板。 sql_info String 定义关系。 result_description String 结果说明。 create_time Long 创建时间,13位时间戳(精确到毫秒)。
择“添加新字段”来手动增加,确保导入到目的端的数据完整。 关系数据库、Hive、MRS Hudi及DLI做源端时,不支持获取样值功能。 SQLServer作为目的端数据源时,不支持timestamp类型字段的写入,需修改为其他时间类型字段写入(如datetime)。 当作业源端为
择“添加新字段”来手动增加,确保导入到目的端的数据完整。 关系数据库、Hive、MRS Hudi及DLI做源端时,不支持获取样值功能。 SQLServer作为目的端数据源时,不支持timestamp类型字段的写入,需修改为其他时间类型字段写入(如datetime)。 当作业源端为
CDM集群作为管理中心数据连接Agent时,单集群的并发活动线程最大为200。即当多个数据连接共用同一Agent时,通过这些数据连接提交SQL脚本、Shell脚本、Python脚本等任务的同时运行上限为200,超出的任务将排队等待。建议您按照业务量情况规划多个Agent分担压力。
CDM集群作为管理中心数据连接Agent时,单集群的并发活动线程最大为200。即当多个数据连接共用同一Agent时,通过这些数据连接提交SQL脚本、Shell脚本、Python脚本等任务的同时运行上限为200,超出的任务将排队等待。建议您按照业务量情况规划多个Agent分担压力。
阻塞的作业需要进行手工重启,如不重启1天内也会因作业超时自动结束该作业。 手工重启需要选择“运维管理”,先单击对应作业操作栏中的“取消”,作业运行状态变更为“失败”,此时然后单击操作栏中的“重跑”即可完成作业重启。 图1 作业重跑 父主题: 数据质量
择“添加新字段”来手动增加,确保导入到目的端的数据完整。 关系数据库、Hive、MRS Hudi及DLI做源端时,不支持获取样值功能。 SQLServer作为目的端数据源时,不支持timestamp类型字段的写入,需修改为其他时间类型字段写入(如datetime)。 当作业源端为
CDM集群作为管理中心数据连接Agent时,单集群的并发活动线程最大为200。即当多个数据连接共用同一Agent时,通过这些数据连接提交SQL脚本、Shell脚本、Python脚本等任务的同时运行上限为200,超出的任务将排队等待。建议您按照业务量情况规划多个Agent分担压力。
dw_type String 数据连接类型,对应表所在的数仓类型,取值可以为DWS、MRS_HIVE、POSTGRESQL、MRS_SPARK、CLICKHOUSE、MYSQL、ORACLE和DORIS等。 l1 String 主题域分组中文名,只读,创建和更新时无需填写。 l2 String
组(二进制)写入HBase,其他类型的按字符串写入。如果这几种类型中,有合并做rowkey的,则依然当字符串写入。 该功能作用是:降低存储占用空间,存储更高效;特定场景下rowkey分布更均匀。 否:源端数据库中所有类型的数据,都会按照字符串写入HBase。 否 父主题: 配置CDM作业目的端参数
*数据连接 选择已在管理中心组件创建的数据连接。若未创建请参考创建DataArts Studio数据连接新建连接。 *SQL队列 数据源类型为DLI时,需要选择DLI SQL队列。 *数据库 单击设置选择待脱敏的数据库。 不支持对DLI default数据库中的数据表进行脱敏。 *源表名
和工作计划,负责领域数据资产的看护,维护更新相应数据标准和及相关元数据,设计本领域数据度量和规则,监控收集数据质量问题并持续改进提升,主动升级数据相关问题。最终完成领域内数据资产的看护,并支撑数据治理目标的达成。 领域数据治理工作组由数据Owner、数据代表、数据管家、数据专员和数据架构师组成。其中:
可以将离线或历史数据集成到云上。提供同构/异构数据源之间数据集成的服务,支持单表/文件迁移、整库迁移、增量集成,支持自建和云上的文件系统,关系数据库,数据仓库,NoSQL,大数据云服务,对象存储等数据源。 数据集成 创建集群 新建数据迁移的源连接、目的连接 新建表/文件迁移作业 步骤4:元数据采集 为了在DataArts
location=earth']. 执行Analyze语句 数据全部写入完成后会异步执行ANALYZE TABLE语句,用于优化Hive表查询速度,执行的SQL如下: 非分区表:ANALYZE TABLE tablename COMPUTE STATISTICS 分区表:ANALYZE TABLE
选择需要购买的DataArts Studio版本,版本差异请参见版本规格说明。 说明: 购买非免费版DataArts Studio实例时,会默认包含一个数据集成CDM集群,此集群规格建议用于作为连接代理。如需用于数据迁移作业,请购买更高规格的批量数据迁移增量包,详情请参考购买批量数据迁移增量包。
源管理列表中,具体操作请参考新建资源。 Jar包参数 否 Jar包的参数。 运行程序参数 否 为本次执行的作业配置相关优化参数(例如线程、内存、CPU核数等),用于优化资源使用效率,提升作业的执行性能。 说明: 若集群为MRS 1.8.7版本或MRS 2.0.1之后版本,需要配置此参数。