检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用DataArts Studio前的准备 准备工作 步骤3:数据集成 通过DataArts Studio平台将源数据上传或者接入到云上。 可以将离线或历史数据集成到云上。提供同构/异构数据源之间数据集成的服务,支持单表/文件迁移、整库迁移、增量集成,支持自建和云上的文件系统,关系数据库,数
投递到Kafka的数据格式:投递到Kafka的数据格式有Debezium JSON和Canal JSON。 源表与目标表映射:支持用户根据实际需求修改映射后的目的端topic名称,可以配置为一对一、多对一的映射关系。 图3 配置源表与目标表映射 分库分表场景 源端配置。 图4 添加逻辑表
段不用设置。 如果表中的字段数据来源于同一个关系模型中的多个表,您可以新建一个映射。 在该映射的“源表”中,您可以将多个表设置Join,然后在“字段映射”区域依次为表中的字段设置源字段,所选择的源字段应与表中的字段代表相同含义,一一对应。 例如,假设当前表的字段都来源于关系模型d
ms=600000。 添加数据源。 图1 添加数据源 目标端配置。 图2 配置目标端参数 设置源表与Topic映射规则: 目标Topic名称规则:源端表名与目的端Topic名的映射规则,可以指定为单一Topic,也可使用内置字段做映射。 可以使用的内置变量有:#{source_topic_name}:源主题名
Table表的字段偶尔显示不全,无法与目的端字段一一匹配,造成导入到目的端的数据不完整。 原因分析 由于HBase/CloudTable无Schema,每条数据的列数不固定,在字段映射界面CDM通过获取样值的方式有较大概率无法获得所有列,此时作业执行完后会造成目的端的数据不全。 这个问题,可以通过以下方法解决:
资源ID,获取方法请参见查询资源列表。返回的id即为resource_id。 请求参数 表2 请求Header参数 参数名 是否必选 参数类型 说明 workspace 否 String 工作空间id。 如果不设置该参数,默认查询default工作空间下的数据。 如果需要查询其他工作空间的数据,需要带上该消息头。
> 作业开发”。 在作业目录中选择需要重命名的作业,右键单击作业名称,选择“重命名”。 图2 重命名作业 在弹出的“重命名作业名称”页面,配置新作业名。 图3 重命名作业名称 表1 重命名作业参数 参数 说明 作业名称 自定义作业的名称,只能包含英文字母、数字、中文、“-”、“_”、“
对于pre_order_by的值,您可以进行如下修改: 删掉某可选的排序参数,则此排序参数不再参与排序。 修改自定义排序方式的排序参数为升序或降序方式,则此排序参数按照修改后的排序方式排序。 pre_order_by的值,不支持进行如下修改,否则会修改不生效或导致调用报错。 删掉某必选的排序参数,
如果不设置该参数,默认查询default工作空间下的数据。 如果需要查询其他工作空间的数据,需要带上该消息头。 响应参数 响应消息的Content-Type是application/octet-stream,需要解析转化为一个文件,可以参考解析响应消息体中的流样例代码。响应是一个压缩文件,文件
时调用。可调用资源的节点包含DLI Spark、MRS Spark、MRS MapReduce和DLI Flink Job。 创建资源后,配置资源关联的文件。在作业中可以直接引用资源。当资源文件变更,只需要修改资源引用的位置即可,不需要修改作业配置。关于资源的使用样例请参见开发一个DLI
作业开发”。 移动作业或作业目录。 方式一:通过右键的“移动”功能。 在作业目录中选择需要移动的作业或作业文件夹,右键单击作业或作业文件夹名称,选择“移动”。 图1 选择要移动的作业 在弹出的“移动作业”或“移动目录”页面,配置作业要移动到的目录。 图2 移动作业 图3 移动目录 表1 移动作业/作业目录参数
引用脚本模板和参数模板的使用介绍 使用场景 该功能适用于以下场景: Flink SQL脚本可以引用脚本模板。 在pipeline作业开发中,MRS Flink Job节点可以使用引入了脚本模板的Flink SQL脚本,同时在MRS Flink Job节点的“运行程序参数”里面可以引用参数模板。
REJECT: 已驳回 logic_tb_id String 逻辑实体的ID,ID字符串。 biz_catalog_id String 归属的业务分类的id,ID字符串。 catalog_path String 归属的业务分类的路径 {"l1Id":"","l2Id":"","l3Id":""}。
在数据开发主界面的左侧导航栏,选择“数据开发 > 作业开发”。 在作业目录中选择需要复制的作业,右键单击作业名称,选择“拷贝另存为”。 图1 复制作业 在弹出的“另存为”页面,配置如表1所示的参数。 表1 作业目录参数 参数 说明 作业名称 自定义作业的名称,只能包含英文字母、数字、中文、“-”、“_”、“.”,且长度为1~128个字符。
用户不需要提前创建对应数据表,后续作业时自动建表。 与来源表同名:会迁移至目的端对应与来源表同名的表中。 自定义:支持用户指定目的端表名,也支持通过内置参数#{source_table_name}给源表名添加前后缀,变成目的端Hudi表的表名。 目标数据源配置: 数据存储路径:Hudi数据存储的基础路径,只对自动
明。 连接主机的用户需要具有主机/tmp目录下文件的创建与执行权限。 Shell或Python脚本可以在该ECS主机上运行的最大并发数由ECS主机的/etc/ssh/sshd_config文件中MaxSessions的配置值确定。请根据Shell或Python脚本的调度频率合理配置MaxSessions的值。
javascript-sdk.zip”为SDK包的本地存放路径和SDK包名,请根据实际情况修改。 certutil -hashfile D:\javascript-sdk.zip SHA256 命令执行结果示例,如下所示: SHA256 的 D:\javascript-sdk.zip
指标质的规定性和量的规定性两个方面的特点,指标数值反映了指标在具体时间、地点、条件下的数量表现。 业务指标用于指导技术指标,而技术指标是对业务指标的具体实现。 原子指标:原子指标中的度量和属性来源于多维模型中的维度表和事实表,与多维模型所属的业务对象保持一致,与多维模型中的最细数据粒度保持一致。
地理位置 一般情况下,建议就近选择靠近您或者您的目标用户的区域,这样可以减少网络时延,提高访问速度。不过,在基础设施、BGP网络品质、资源的操作与配置等方面,中国大陆各个区域间区别不大,如果您或者您的目标用户在中国大陆,可以不用考虑不同区域造成的网络时延问题。 曼谷等其他地区和国家提供
SDK”。 单击SDK使用引导区域里对应语言的SDK,下载SDK包到本地。 进行SDK包完整性校验。Windows操作系统下,打开本地命令提示符框,输入如下命令,在本地生成已下载SDK包的SHA256值,其中,“D:\java-sdk.zip”为SDK包的本地存放路径和SDK包名,请根据实际情况修改。