检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CDM集群与目标数据源可以正常通信。 如果目标数据源为云下的数据库,则需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP、CDM云上安全组出方向放通云下数据源所在的主机、数据源所在的主机可以访问公网且防火墙规则已开放连接端口。 如果目标数据源为云上服务(如DWS、MRS及ECS等),则网络互通需满足如下条件:
虚拟私有云 DataArts Studio实例中的数据集成CDM集群所属的VPC、子网、安全组。 如果DataArts Studio实例或CDM集群需连接云上服务(如DWS、MRS、RDS等),则您需要确保CDM集群与该云服务网络互通。同区域情况下,同虚拟私有云、同子网、同安
日志信息 原因分析 这种情况一般是在迁移到DWS时数据有中文,且创建作业时选择了目的端自动建表的情况下。原因是DWS的varchar类型是按字节计算长度,一个中文字符在UTF-8编码下可能要占3个字节。当中文字符的字节超过DWS的varchar的长度时,就会出现错误:value too
步骤3:数据集成 本章节将介绍如何使用DataArts Studio数据集成将源数据批量迁移到云上。 创建集群 批量数据迁移集群提供数据上云和数据入湖的集成能力,全向导式配置和管理,支持单表、整库、增量、周期性数据集成。DataArts Studio基础包中已经包含一个数据集成的
如何将云下内网或第三方云上的私网与CDM连通? 很多企业会把关键数据源建设在内网,例如数据库、文件服务器等。由于CDM运行在云上,如果要通过CDM迁移内网数据到云上的话,可以通过以下几种方式连通内网和CDM的网络: 如果目标数据源为云下的数据库,则需要通过公网或者专线打通网络。通
该表进行ETL计算时通常会使用时间范围进行裁剪(例如最近一天、一月、一年),这种表通常可以通过数据的创建时间来做分区以保证最佳读写性能。 维度表数据量一般整表数据规模较小,以更新数据为主,新增较少,表数据量比较稳定,且读取时通常需要全量读取做join之类的ETL计算,因此通常使用非分区表性能更好。
数据治理评分卡对各维度度量是按5分制进行评分,每一个度量细项只有得分0或得分1,如果满足度量细项要求得分1,否则得分0。 图2 数据治理评分卡数据执行维度度量评分计算范例 如上示例,针对流程7.10交付项目管理,数据执行维度有6个度量细项,则这一度量维度的总体得分就是SUM(度量细项得分)*5/6。所以
该表进行ETL计算时通常会使用时间范围进行裁剪(例如最近一天、一月、一年),这种表通常可以通过数据的创建时间来做分区以保证最佳读写性能。 维度表数据量一般整表数据规模较小,以更新数据为主,新增较少,表数据量比较稳定,且读取时通常需要全量读取做join之类的ETL计算,因此通常使用非分区表性能更好。
创建连接(待下线) 连接管理能力由管理中心统一提供,相关接口已不再维护,推荐使用管理中心API进行连接管理。 功能介绍 创建一个新连接,当前支持的连接类型有DWS、DLI、SparkSQL、HIVE、RDS、CloudTable。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。
CloudTable OpenTSDB连接参数说明 连接CloudTable OpenTSDB时,相关参数如表1所示。 表1 CloudTable OpenTSDB连接参数 参数名 说明 取值样例 名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 TSDB_link
操作请参见KafkaUI创建Topic。 DLI约束限制: DLI提供的设置作业优先级功能,当资源不充足时,可以优先满足优先级较高的作业的计算资源。DLI优先级功能包含DLI Flink Job、DLI SQL和DLI Spark三个作业算子。 只有运行在弹性资源池上的作业支持设置作业优先级。
您可选择创建任意模式工作空间体验DataArts Studio,使用企业模式工作空间实现DataArts Studio开发环境与生产环境代码隔离、不同环境计算资源隔离、权限隔离、任务发布流程管控等需求。 若您已在使用简单模式工作空间,并且希望保留当前简单模式工作空间的代码时,可选择工作空间模式升级,详情请参见创建企业模式工作空间。
Gbps,集群作业并发数上限为128。 虚拟私有云 DataArts Studio实例中的数据集成CDM集群所属的VPC、子网、安全组。 如果DataArts Studio实例或CDM集群需连接云上服务(如DWS、MRS、RDS等),则您需要确保CDM集群与该云服务网络互通。同区域情况下,同虚拟私有云、同子网、同安
debezium.max.queue.size.in.bytes int 0 数据缓存队列大小,默认为0,即表示缓存队列不考虑数据大小,只按照数据条数计算。在debezium.max.queue.size无法有效限制内存占用时,考虑显式设置该值来限制缓存数据的大小。 jdbc.properties
OBS连接参数说明 OBS连接目的端OBS桶需添加读写权限,并在连接时不需要认证文件。 CDM集群和OBS桶不在同一个Region时,不支持跨Region访问OBS桶。 作业运行中禁止修改密码或者更换用户。在作业运行过程中修改密码或者更换用户,密码不会立即生效且作业会运行失败。 连接OBS时,相关连接参数如表1所示。
IP、端口、用户名和密码。 如果Elasticsearch服务器是在本地数据中心或第三方云上,需要确保Elasticsearch可通过公网IP访问,或者是已经建立好了企业内部数据中心到华为云的VPN通道或专线。 创建CDM集群并绑定EIP 如果是独立CDM服务,参考创建集群创建CDM集群;如果是作为DataArts
“IP或域名”如果手动填写,必须写内网IP,端口必须为对资源组网段放开的端口(如需设置请参见设置安全组规则),否则可能导致网络连接不通。 如果为RDS或GaussDB等云上数据源,可以通过管理控制台获取访问地址: 根据注册的账号登录对应云服务的管理控制台。 从左侧列表选择实例管理。 单击某一个实例名称,进入实
查看日志时,系统提示“OBS日志文件不存在,请检查文件是否被删除或者没有OBS写入权限。”怎么办? 问题现象 查看数据开发的节点日志时,系统提示“OBS日志文件不存在,请检查文件是否被删除或者没有OBS写入权限”,如下图所示: 图1 提示信息 原因分析 数据开发的日志存储在OBS
删除脚本 当您不需要使用某个脚本时,可以参考如下操作删除该脚本。 删除脚本时会检查脚本被哪个作业引用,引用列表中显示“版本”,表示此脚本被哪些作业版本引用。单击删除时,会删除对应的作业和这个作业的所有版本信息。 如果某一个待删除的脚本正在被作业关联,请确保强制删除脚本后,不影响业
table_name String 表名称。 column_name String 列名称。 row_level_security String 行级策略。 sync_status String 同步状态,UNKNOWN,NOT_SYNC,SYNCING,SYNC_SUCCESS,SYNC_FAIL