检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
是否支持批量调度作业? 问题描述 CDM是否支持批量调度作业? 解决方案 支持。 访问DataArts Studio服务的数据开发模块。 在数据开发主界面的左侧导航栏,选择“数据开发 > 作业开发”,新建作业。 拖动多个CDM Job节点至画布,然后再编排作业。 父主题: 数据集成
删除通用配置 (指已发布状态的逻辑实体或表,对其在编辑并保存后产生的草稿的删除操作) Y Y N N 操作通用配置 (指逻辑实体或表的导入、导出、发布、下线、同步、逆向等操作) Y Y Y N 查询通用配置 (指已发布状态的逻辑实体或表,对其在编辑并保存后产生的草稿的查询操作) Y Y Y
这样CDM每天凌晨自动执行全量迁移,但因为“重复文件处理方式”选择了“跳过重复文件”,相同名称且相同大小的文件不迁移,所以只会上传每天新增的文件。 单击“保存”,完成CDM的增量同步配置。 父主题: 使用CDM上传数据到OBS
如何确认质量作业或对账作业已经阻塞? 可能原因 质量作业或对账作业运行阻塞,不清楚如何确认阻塞。 解决方案 作业运行状态长时间处于运行中时,选择“运维管理”,单击操作栏中的“结果&日志”并选择查看“运行日志”,当“运行日志”不再更新,表示作业已经阻塞。 图1 作业运行日志 父主题: 数据质量
模式,只能使用STANDALONE模式。 说明:STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时,存在jar包冲突的情况,这时需要将源端或目的端放在STANDALONE进程里,防止冲突导致迁移失败。 linkConfig
CDM集群对应的ECS主机(通过集群IP查找对应的ECS主机)中的“/etc/hosts”文件,为其添加Broker连接地址的自映射,以便客户端能够快速解析实例的Broker。例如Kafka Broker地址配置为10.154.48.120时,hosts文件中的自映射配置为: 10
CDM是否支持参数或者变量? 问题描述 CDM是否支持参数或者变量? 解决方案 支持。 如果CDM作业使用了在数据开发时配置的作业参数或者变量,则后续在DataArts Studio数据开发模块调度此节点,可以间接实现CDM作业根据参数变量进行数据迁移。 父主题: 数据集成
id [xxxx] is invalid。 可能原因 存在多个DataArts Studio作业同时调度同一个CDM任务节点,导致两个作业的事务id冲突报错。 解决方案 调整DataArts Studio作业调度时间,保证同一时间只保留一个调度任务。 父主题: 数据开发
CDM迁移性能如何? 单个cdm.large规格实例理论上可以支持1TB~8TB/天的数据迁移,实际传输速率受公网带宽、集群规格、文件读写速度、作业并发数设置、磁盘读写性能等因素影响。更多详情请参见性能白皮书。 父主题: 数据集成
中重启集群才能更新生效。 单作业的抽取并发数取值范围为1-300,集群的总抽取并发数取值范围为1-1000。其中集群最大抽取并发数的设置与CDM集群规格有关,并发数上限建议配置为vCPU核数*2,作业的抽取并发数建议不超过集群的总抽取并发数,过高的并发数可能导致内存溢出,请谨慎修改。
C连接超时。 图1 非索引列 解决方案 优先联系DBA修改表结构,将需要过滤的列配置为索引列,然后重试。 如果由于数据不离散,导致还是失败请参考2~4,通过增大JDBC超时时间解决。 根据作业找到对应的MySQL连接名称,查找连接信息。 图2 连接信息 单击“连接管理”,在“操作”列中,单击“连接”进行编辑。
obs://obs-tongji/python/in.txt为wordcount.py的传入参数路径,可以把需要统计的单词写到里面; obs://obs-tongji/python/out为输出参数文件夹的路径,并且会在OBS桶中自动创建该目录(如已存在out目录,会报错)。 单击“测试运行”,执行该脚本作业。
连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 dds_link 服务器列表 服务器地址列表,输入格式为“数据库服务器域名或IP地址:端口”。多个服务器列表间以“;”分隔。 192.168.0.1:7300;192.168.0.2:7301 数据库名称 要连接的DDS数据库名称。
作业开发时,测试运行后不知道如何查看运行日志。 解决方案 方式1:待节点测试运行完成后,在当前节点鼠标右键选择查看日志。 方式2:通过画布上方的“前往监控”,在实例监控中展开作业实例,查看节点日志。 父主题: 数据开发
Studio控制台首页,选择对应工作空间的“数据开发”模块,进入数据开发页面。 在数据开发主界面的左侧导航栏,选择“数据开发 > 作业开发”。 在作业目录中选择需要复制的作业,右键单击作业名称,选择“拷贝另存为”。 图1 复制作业 在弹出的“另存为”页面,配置如表1所示的参数。 表1 作业目录参数
所示,您可以根据您的使用场景进行选择。 表1 DataArts Studio 不同SDK包对比 SDK包类型 功能 支持的组件 支持的语言 获取地址 REST API SDK包 REST API SDK是基于DataArts Studio REST API封装的SDK包。 通过调
操作步骤 登录华为云控制台,在左上角的服务列表中选择“数据治理中心DataArts Studio”,进入DataArts Studio实例控制台。 如果当前区域下有多个DataArts Studio实例,则默认进入实例列表。请单击所需实例卡片上的“进入控制台”,进入DataArts
操作步骤 登录华为云控制台,在左上角的服务列表中选择“数据治理中心DataArts Studio”,进入DataArts Studio实例控制台。 如果当前区域下有多个DataArts Studio实例,则默认进入实例列表。请单击所需实例卡片上的“进入控制台”,进入DataArts
作业时报错“配置项 [throttlingConfig.concurrentSubJobs] 不存在”。 原因分析 当同时存在多个不同版本的集群,先在低版本CDM集群创建数据连接或保存作业时后,再进入高版本CDM集群时,会偶现此类故障。 解决方案 需手动清理浏览器缓存,即可避免此类问题。
DATABASE OPEN启动数据库。 Oracle开启数据库和需要迁移的表的补充日志。 执行以下SQL开启数据库补充日志。 ALTER DATABASE ADD SUPPLEMENTAL LOG DATA; 开启需要实时同步的表的补充日志。 ALTER TABLE "schema_name"