检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
开发一个MRS Flink作业 本章节介绍如何在数据开发模块上进行MRS Flink作业开发。 场景说明 本教程通过开发一个MRS Flink作业来实现统计单词的个数。 前提条件 具有OBS相关路径的访问权限。 已开通MapReduce服务MRS,并创建MRS集群。 数据准备 下载
配置元数据采集任务 本章主要介绍如何通过配置元数据采集策略新建采集任务,不同类型的数据源对应的采集策略不尽相同。元数据管理依据采集任务的配置策略,采集对应的技术元数据信息。 约束与限制 当元数据采集任务未指定采集范围时,默认采集该数据连接下的所有数据表/文件。采集任务运行完成后,如果该数据连接下有新增数据表
解锁作业 脚本/作业解锁涉及到数据开发的编辑锁定功能。 编辑锁定:用于避免多人协同开发脚本/作业时产生的冲突。新建或导入脚本/作业后,默认当前用户锁定脚本/作业,只有当前用户自己锁定的脚本/作业才可以直接编辑、保存或提交,通过“解锁”功能可解除锁定;处于解除锁定或他人锁定状态的脚本
查看汇总表详情 功能介绍 通过ID查看汇总表的详情信息。 调用方法 请参见如何调用API。 URI GET /v2/{project_id}/design/aggregation-logic-tables/{id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id
配置Hive源端参数 支持从Hive导出数据,使用JDBC接口抽取数据。 Hive作为数据源,CDM自动使用Hive数据分片文件进行数据分区。 表1 Hive作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 读取方式 包括HDFS和JDBC两种读取方式。默认为HDFS
配置数据血缘 DataArts Studio数据血缘解析方案包含自动分析血缘和手动配置血缘两种方式。一般推荐使用自动血缘解析的方式,无需手动配置即可生成血缘关系,在不支持自动血缘解析的场景下,再手动配置血缘关系。 自动血缘解析,是由系统解析数据开发作业中的数据处理和数据迁移类型节点后自动产生的
配置数据血缘 DataArts Studio数据血缘解析方案包含自动分析血缘和手动配置血缘两种方式。一般推荐使用自动血缘解析的方式,无需手动配置即可生成血缘关系,在不支持自动血缘解析的场景下,再手动配置血缘关系。 自动血缘解析,是由系统解析数据开发作业中的数据处理和数据迁移类型节点后自动产生的
获取数据库列表 功能介绍 获取数据库列表。 调用方法 请参见如何调用API。 URI GET /v2/{project_id}/{connection_id}/databases 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方法请参见项目
删除工作空间用户 功能介绍 删除工作空间用户。 调用方法 请参见如何调用API。 URI POST /v2/{project_id}/{workspace_id}/delete-users 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目
表关联作业算子列表(邀测) 功能介绍 查询表相关的作业算子列表,该接口功能处于邀测阶段,后续将随功能公测将逐步开放。 调用方法 请参见如何调用API。 URI GET /v1/{project_id}/datamap/table/{guid}/node 表1 路径参数 参数 是否必选
配置Hive源端参数 作业中源连接为Hive连接时,源端作业参数如表1所示。 表1 Hive作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 数据库名称 输入或选择数据库名称。单击输入框后面的按钮可进入数据库选择界面。 default 表名 输入或选择Hive表名。
解锁脚本 脚本/作业解锁涉及到数据开发的编辑锁定功能。 编辑锁定:用于避免多人协同开发脚本/作业时产生的冲突。新建或导入脚本/作业后,默认当前用户锁定脚本/作业,只有当前用户自己锁定的脚本/作业才可以直接编辑、保存或提交,通过“解锁”功能可解除锁定;处于解除锁定或他人锁定状态的脚本
实例监控 作业每次运行,都会对应产生一次作业实例记录。在数据开发模块控制台的左侧导航栏,选择 “运维调度”,进入实例监控列表页面,用户可以在该页面中查看作业的实例信息,并根据需要对实例进行更多操作。 实例监控支持从“作业名称”、“创建人”、“责任人”、“CDM作业”、“节点类型”和
删除连接 功能介绍 删除连接接口。 调用方法 请参见如何调用API。 URI DELETE /v1.1/{project_id}/clusters/{cluster_id}/cdm/link/{link_name} 表1 路径参数 参数 是否必选 参数类型 描述 project_id
获取所有目录 功能介绍 获取所有目录(数据标准、码表)。 调用方法 请参见如何调用API。 URI GET /v2/{project_id}/design/directorys 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方法请参见项目
查询自定义项 功能介绍 查询自定义项(包括表自定义项、属性自定义项、主题自定义项、业务指标自定义项)。 调用方法 请参见如何调用API。 URI GET /v2/{project_id}/design/customized-fields 表1 路径参数 参数 是否必选 参数类型 描述
查询模型详情 功能介绍 查询物理模型或逻辑模型的工作区空间详情。 调用方法 请参见如何调用API。 URI GET /v2/{project_id}/design/workspaces/{model_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是
查看码表字段值 功能介绍 查看码表字段值。 调用方法 请参见如何调用API。 URI GET /v2/{project_id}/design/code-tables/{id}/values 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目
监控安全风险 DataArts Studio提供基于云监控服务CES的资源监控能力,帮助用户监控账号下的DataArts Studio数据集成模块中的CDM集群,执行自动实时监控、告警和通知操作。用户可以实时掌握集群运行中所产生的网络流入速率、网络流出速率、CPU使用率、内存使用率
CDM迁移数据到DWS时如何选取分布列? 问题描述 CDM迁移数据到DWS时如何选取分布列? 解决方案 在使用CDM迁移数据到数据仓库服务(DWS)或者FusionInsight LibrA,且CDM在DWS端自动创建一个新表时,在创建作业的字段映射界面,需要选择分布列,如图1所示