检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
选择集群或数据连接。 集群方式不支持开启安全模式的CloudSearch集群,请使用数据连接方式。 CloudSearch集群 是 选择“集群”时,才需要配置。 选择CloudSearch集群,该集群已在CloudSearch服务中创建好。目前仅支持使用5.5.1版本的集群。 CDM集群名称 是 选择“集群”时,才需要配置。
Elasticsearch/云搜索服务(CSS)连接 介绍 通过Elasticsearch连接,可以对Elasticsearch服务器或云搜索服务抽取、加载数据。 连接样例 { "links": [ { "link-config-values": {
云搜索服务(CSS)连接参数说明 华为云的云搜索服务(CSS)是一个基于Elasticsearch且完全托管的在线分布式搜索服务,CSS连接适用于将各类日志文件、数据库记录迁移到CSS,Elasticsearch引擎进行搜索和分析的场景。 导入数据到CSS推荐使用Logstash
表/文件迁移和整库迁移时需配置的参数不同,下表参数为表/文件迁移时的全量参数,实际参数以界面显示为准。 表1 Elasticsearch/云搜索服务(CSS)作为目的端时的作业参数 参数名 说明 取值样例 索引 待写入数据的Elasticsearch的索引,类似关系数据库中的数据库名称。CDM支持自动创建索引
Elasticsearch整库迁移到云搜索服务 操作场景 云搜索服务(Cloud Search Service)为用户提供结构化、非结构化文本的多条件检索、统计、报表,本章节介绍如何通过CDM将本地Elasticsearch整库迁移到云搜索服务中,流程如下: 创建CDM集群并绑定EIP
配置Elasticsearch/云搜索服务源端参数 作业中源连接为Elasticsearch连接参数说明或云搜索服务(CSS)连接参数说明时,源端作业参数如表1所示。 表1 Elasticsearch/云搜索服务作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 索引
高级属性里的可选参数一般情况下保持默认即可。 目的端作业配置 目的连接名称:选择创建云搜索服务连接中的“csslink”。 索引:待写入数据的Elasticsearch索引,也可以输入一个新的索引,CDM会自动在云搜索服务中创建。 类型:待写入数据的Elasticsearch类型,可
节点概述 节点定义对数据执行的操作。数据开发模块提供数据集成、计算&分析、数据库操作、资源管理等类型的节点,您可以根据业务模型选择所需的节点。 节点的参数支持使用EL表达式,EL表达式的使用方法详见表达式概述。 节点间的连接方式支持串行和并行。 串行连接:按顺序逐个执行节点,当A节点执行完成后,再执行B节点。
当源端数据为OBS类型时,支持的目的端数据类型为DLI、DWS。 须知: DLI到DWS端的数据转换: 因为数据开发模块调用DWS的集群时,需要走网络代理。所以导入数据到DWS时,需要提前先在数据开发模块中创建DWS的数据连接。 DLI导入数据到DWS时,DWS的表需要先创建好。 DLI到CSS、CloudTable端的数据转换:
默认选择SQL脚本中设置的数据连接,支持修改。 数据库 是 默认选择SQL脚本中设置的数据库,支持修改。 MRS资源队列 否 选择已创建好的MRS资源队列。 说明: 需要先在数据安全服务队列权限功能中,配置对应的队列后,才能在此处选择到已配置的队列。当有多处同时配置了资源队列时,此处配置的资源队列为最高优先级。
源连接名称,即为通过“创建连接”接口创建的连接对应的连接名。 creation-user 否 String 创建作业的用户。由系统生成,用户无需填写。 creation-date 否 Long 作业创建的时间,单位:毫秒。由系统生成,用户无需填写。 update-date 否 Long 作业最后更新的时间,单位:毫秒。由系统生成,用户无需填写。
源连接名称,即为通过“创建连接”接口创建的连接对应的连接名。 creation-user 否 String 创建作业的用户。由系统生成,用户无需填写。 creation-date 否 Long 作业创建的时间,单位:毫秒。由系统生成,用户无需填写。 update-date 否 Long 作业最后更新的时间,单位:毫秒。由系统生成,用户无需填写。
数据目录支持采集哪些对象的资产? 数据目录目前支持采集数据湖的资产,例如MRS Hive、DLI、DWS等,除此之外也支持采集以下数据源的元数据: 关系型数据库,如MySQL/PostgreSQL等(可使用RDS类型连接,采集其元数据) 云搜索服务CSS 图引擎服务GES 对象存储服务OBS
源连接名称,即为通过“创建连接”接口创建的连接对应的连接名。 creation-user 否 String 创建作业的用户。由系统生成,用户无需填写。 creation-date 否 Long 作业创建的时间,单位:毫秒。由系统生成,用户无需填写。 update-date 否 Long 作业最后更新的时间,单位:毫秒。由系统生成,用户无需填写。
ClickHouse MRS HetuEngine MRS Impala SQL MRS Flink Job MRS MapReduce CSS Shell RDS SQL ETL Job Python DORIS SQL GBase SQL ModelArts Train Http
在使用CDM迁移其他数据源到云搜索服务(Cloud Search Service)的时候,作业执行失败,日志提示“Unparseable date”,如图1所示。 图1 日志提示信息 原因分析 云搜索服务对于时间类型有一个特殊处理:如果存储的时间数据不带时区信息,在Kibana可视化的时候,Kibana会认为该时间为GMT标准时间。
NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) Elasticsearch仅支持非安全模式。 云搜索服务(CSS) 导入数据到CSS推荐使用Logstash,请参见使用Logstash导入数据到Elasticsearch。 上表中非云服务的数据源,例如MySQ
NoSQL:表格存储服务(CloudTable) 搜索:Elasticsearch,云搜索服务(CSS) Elasticsearch仅支持非安全模式。 云搜索服务(CSS) 导入数据到CSS推荐使用Logstash,请参见使用Logstash导入数据到Elasticsearch。 上表中非云服务的数据源,例如MySQ
解析SQL节点的血缘时,支持多SQL解析及列级血缘解析,单条SQL语句不支持SQL中含有分号的场景。 表1 支持自动血缘解析的作业节点及场景 作业节点 支持场景 DLI SQL 支持解析DLI中表与表之间数据插入产生的血缘。 支持通过建表语句产生的OBS文件到DLI表之间的血缘。 DWS
在配置作业算子参数时,在添加请求头中时,需要输入参数及参数值,如果该参数的参数值长度超过512个字符时,则不能继续输入,如下图所示。 图1 配置请求头参数 解决方法 配置作业节点的请求头参数。 在“参数值”里面引入变量名称,例如{para}。 图2 配置请求头参数 配置作业参数。 单