检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
统计分析。 图1 场景方案 DLI创建OBS外表,对OBS表数据存储格式有所要求: 使用DataSource语法创建OBS表时,支持orc,parquet,json,csv,carbon,avro类型。 使用Hive语法创建OBS表时,支持TEXTFILE, AVRO, ORC,
String 请求语言。 表3 请求Body参数 参数 是否必选 参数类型 描述 jobs 是 Array of Job objects 作业列表,请参见jobs数据结构说明。 clusters 是 Array of strings CDM集群ID列表,系统会从里面随机选择一个开
通过调用IAM服务获取用户Token接口获取(响应消息头中X-Subject-Token的值)。 表3 请求Body参数 参数 是否必选 参数类型 描述 jobs 是 Array of Job objects 作业列表,请参见jobs数据结构说明。 表4 Job 参数 是否必选 参数类型 描述 job_type 是
Config.numExtractors"。 在作业配置界面,源端参数配置的高级属性中,给 “抽取分区字段”配置项指定字段即可(建议为源端表的主键或者递增的字段)。 父主题: 故障处理类
en的值)。 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 links Array of links objects 连接列表,请参见links数据结构说明。 fromTo-unMapping String 表/文件迁移不支持哪些数据源迁移到哪些数据源。
配置LogHub(SLS)源端参数 作业中源连接为LogHub(SLS)连接时,源端作业参数如表1所示。 表1 LogHub(SLS)作为源端时的作业参数 参数名 说明 取值样例 源连接名称 选择已配置的LogHub(SLS)连接。 sls_link 日志库 目标日志库的名称。 -
ubject-Token的值。 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 datastores Array of CdmClusterDatastore objects 数据库列表。 表4 CdmClusterDatastore 参数 参数类型 描述
访问标识(AK)、密钥(SK):访问OBS数据库的AK、SK。可在管理控制台单击用户名,选择“我的凭证 > 访问密钥”后获取。 单击“保存”,系统回到连接管理界面。 选择“表/文件迁移 > 新建作业”,创建迁移H公司贸易数据到OBS的作业, 如图4所示。 图4 创建作业 作业名称:用户自定义作业名称。 源端作业配置:
instance_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方法请参见项目ID和账号ID。 instance_id 是 String 实例ID,获取方法请参见获取集群列表。 请求参数 表2 请求Header参数 参数
连接器类型选择“云搜索服务”后单击“下一步”,配置云搜索服务连接参数。 名称:用户自定义连接名称,例如“csslink”。 Elasticsearch服务器列表:配置为云搜索服务集群(支持5.X以上版本)的连接地址、端口,格式为“ip:port”,多个地址之间使用分号(;)分隔,例如192.168.0
连接器类型选择“云搜索服务”后单击“下一步”,配置云搜索服务连接参数。 名称:用户自定义连接名称,例如“csslink”。 Elasticsearch服务器列表:配置为云搜索服务集群(支持5.X以上版本)的连接地址、端口,格式为“ip:port”,多个地址之间使用分号(;)分隔,例如192.168.0
Message. -- ResponseCode: 403”考虑是Hive同步表到OBS目录报错。用户配置连接器时候,没有打开OBS开关。 检查连接器配置,发现没有打开开关,参数含义是“是否支持OBS存储,如果Hive表数据存储在OBS,需要打开此开关”。 解决方案 修改连接配置,打开Hive连接中的OBS开关,重新输入密码。
查询集群列表 功能介绍 查询集群列表接口。 调用方法 请参见如何调用API。 URI GET /v1.1/{project_id}/clusters 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方法请参见项目ID和账号ID。
Resource objects 资源信息(查询集群列表时返回值为null)。 表5 flavor 参数 参数类型 描述 id String 节点虚拟机的规格ID。 links Array of ClusterLinks objects 链接信息。 表6 volume 参数 参数类型 描述 type
参考如何调整抽取并发数。 如何调整抽取并发数 集群最大抽取并发数的设置与CDM集群规格有关,并发数上限建议配置为vCPU核数*2,如表1所示。 表1 集群最大抽取并发数配置建议 规格名称 vCPUs/内存 集群并发数上限参考 cdm.large 8核 16GB 16 cdm.xlarge
er_id}/cdm/submissions 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方法请参见项目ID和账号ID。 cluster_id 是 String 集群ID。 表2 Query参数 参数 是否必选 参数类型 描述
/status 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方法请参见项目ID和账号ID。 cluster_id 是 String 集群ID。 job_name 是 String 作业名称。 请求参数 表2 请求Header参数
字符串替换 替换字符串,需要用户配置被替换的对象,以及替换后的值。 表达式转换 使用JSP表达式语言(Expression Language)对当前字段或整行数据进行转换。JSP表达式语言可以用来创建算术和逻辑表达式。在表达式内可以使用整型数,浮点数,字符串,常量true、false和null。
11db3c745:表示cdm.medium规格,4核CPU、8G内存的虚拟机适合单张表规模<1000万条的场景。 5ddb1071-c5d7-40e0-a874-8a032e81a697:表示cdm.large规格,8核CPU、16G内存的虚拟机。适合单张表规模≥1000万条的场景。