检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
说明: 购买非免费版DataArts Studio实例时,会默认包含一个数据集成CDM集群,此集群规格建议用于作为连接代理。如需用于数据迁移作业,请购买更高规格的批量数据迁移增量包,详情请参考购买批量数据迁移增量包。 计费方式 包年包月 当前DataArts Studio基础包仅支持包年包月计费方式。
ClickHouse作为目的端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 模式或表空间 待写入数据的数据库名称,支持自动创建Schema。单击输入框后面的按钮可选择模式或表空间。 schema 表名 写入数据的目标表名,单击输入框后面的按钮可进入表的选择界面。 该参数支持配置为时间宏变量,且
景,可以适当调高每次获取的数据量,以提高性能。 properties.max.partition.fetch.bytes int 1048576 消费Kafka时服务器将返回的每个分区的最大字节数。Kafka单条消息大的场景,可以适当调高每次获取的数据量,以提高性能。 properties
path 是 String 路径。 limit 否 Integer 查询条数限制。 offset 否 Integer 查询起始坐标, 即跳过前X条数据。仅支持0或LIMIT的整数倍,不满足则向下取整。 请求参数 表3 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token
服务韧性 DataArts Studio通过AZ故障容错、过载保护、备份恢复等技术方案,保障数据的持久性和可靠性。 关于DataArts Studio支持的备份信息,请参见备份管理。 父主题: 安全
),然后在数据服务发布时选择对应API分组,独享每天最多访问1000次的规格。另外,您还可以为API分组绑定一个或多个独立域名(详情请参考绑定域名),API调用者通过访问独立域名来调用您开放的API,这样即可不受每天最多访问1000次的规格限制。 专享版默认发布到数据服务专享版集
n的值。 workspace 是 String 工作空间ID,获取方法请参见实例ID和工作空间ID。 Dlm-Type 否 String 数据服务的版本类型,指定SHARED共享版或EXCLUSIVE专享版。 Content-Type 是 String 消息体的类型(格式),有B
取值样例 基本参数 索引 待写入数据的Elasticsearch的索引,类似关系数据库中的数据库名称。CDM支持自动创建索引和类型,索引和类型名称只能全部小写,不能有大写。 index 类型 待写入数据的Elasticsearch的类型,类似关系数据库中的表名称。类型名称只能全部小写,不能有大写。
String APP编号。 表2 Query参数 参数 是否必选 参数类型 描述 offset 否 Integer 查询起始坐标, 即跳过前X条数据。仅支持0或LIMIT的整数倍,不满足则向下取整。 limit 否 Integer 查询条数限制。 请求参数 表3 请求Header参数 参数
常,如何处理? 问题描述 在ECS上调试好的shell脚本,在DLF中shell脚本执行异常。 脚本内容是通过gsql连接dws查询某库表数据行数的。 ECS调试结果: DLF脚本运行结果: 图1 脚本运行结果 解决方案 添加如下两条命令: export LD_LIBRARY_P
理解呢? 在标准数据治理模型下,事实表中的维度信息,都来自于维度表。因此创建原子指标的时候,是通过事实表中来源于维度表的属性来关联维度表的。 如果需要基于维度信息生成原子指标,需要先通过维度表创建事实表,再通过原子指标关联事实表中的维度属性来创建。 父主题: 数据架构
表1 MongoDB作为目的端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 数据库 输入或选择数据库名称。单击输入框后面的按钮可以进入数据库的选择界面。 default 集合名 写入数据的集合名,单击输入框后面的按钮可进入集合的选择界面。 该参数支持配置为时间宏变量,且一
或者更换用户,密码不会立即生效且作业会运行失败。 表1 CloudTable连接参数 参数名 说明 取值样例 名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 cloudtable_link ZK链接地址 可通过CloudTable服务的集群管理界面获取该参数值。
* from table1 order by "ID"; select * from table order by "ID"; 父主题: 数据开发
接增加如下属性设置: 属性名称:hive.server2.idle.operation.timeout 值:10m 如图所示: 父主题: 数据集成(CDM作业)
参数类型 说明 workspace 否 String 工作空间id。 如果不设置该参数,默认查询default工作空间下的数据。 如果需要查询其他工作空间的数据,需要带上该消息头。 说明: 多个DataArts Studio实例需要指定工作空间。 当工作空间里面没有default工
事实表通常整表数据规模较大,以新增数据为主,更新数据占比小,且更新数据大多落在近一段时间范围内(年或月或天),下游读取该表进行ETL计算时通常会使用时间范围进行裁剪(例如最近一天、一月、一年),这种表通常可以通过数据的创建时间来做分区以保证最佳读写性能。 维度表数据量一般整表数据规模较小
查询集群的企业项目ID 功能介绍 查询指定集群的企业项目ID。 调用方法 请参见如何调用API。 URI GET /v1.1/{project_id}/clusters/{cluster_id}/enterprise-projects 表1 路径参数 参数 是否必选 参数类型 描述
table 导入开始前 导入数据前,选择是否清除目的表的数据: 不清除:写入数据前不清除目标表中数据,数据追加写入。 清除全部数据:写入数据前会清除目标表中数据。 清除部分数据:需要配置“where条件”参数,CDM根据条件选择性删除目标表的数据。 清除部分数据 where条件 “导入
配置Hudi目的端参数 表1 MRS Hudi作为目的端时的作业参数 类别 配置项 配置说明 推荐配置 基本参数 数据库名称 输入或选择写入数据的数据库名称。单击输入框后面的按钮可进入数据库选择界面。 dbadmin 表名 单击输入框后面的按钮可进入表的选择界面。 该参数支持配置为时间宏变量