检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
若关联的SQL脚本,脚本参数发生变化,可单击刷新按钮同步。 运行程序参数 否 为本次执行的作业配置相关优化参数(例如线程、内存、CPU核数等),用于优化资源使用效率,提升作业的执行性能。 说明: 若集群为MRS 1.8.7版本或MRS 2.0.1之后版本,需要配置此参数。 MRS
框配置参数值。 运行程序参数 否 仅“脚本类型”配置为“在线脚本”时可以配置。 为本次执行的作业配置相关优化参数(例如线程、内存、CPU核数等),用于优化资源使用效率,提升作业的执行性能。 说明: 若集群为MRS 1.8.7版本或MRS 2.0.1之后版本,需要配置此参数。 MRS
d。 参数位置选择PATH。 类型设置为STRING。 选择性配置示例值和描述。 配置好API基本信息后,单击“下一步”,即可进入API取数逻辑页面。 配置API参数 配置API基本信息后,即可配置API参数。这里将配置API的后端服务和请求参数。 表2 API参数配置说明 配置
Array of strings 需要物化的逻辑实体的ID列表,ID字符串。 dw_type 是 String 数据连接类型,对应表所在的数仓类型,取值可以为DWS、MRS_HIVE、POSTGRESQL、MRS_SPARK、CLICKHOUSE、MYSQL、ORACLE和DORIS等。
数据开发API(V2)概览 表1 数据开发API(V2)类型 类型 说明 作业开发 作业开发类型接口。 作业开发 表2 作业开发 API 说明 API流量限制(次/s) 用户流量限制(次/s) 创建补数据实例 创建一个补数据实例。 100 10 查询补数据实例 查询补数据实例列表,支持分页查询。
作业开发API 创建补数据实例 查询补数据实例 停止补数据实例 修改作业名称 查询发布包列表 查询指定发布包详情 设置作业标签 查询告警通知记录 发布任务包 撤销任务包 查询实例运行状态 查询任务完成情况 查询指定作业的实例列表 重跑作业实例 父主题: 数据开发API(V2)
参数说明。 连接主机的用户需要具有主机/tmp目录下文件的创建与执行权限。 Shell或Python脚本可以在该ECS主机上运行的最大并发数由ECS主机的/etc/ssh/sshd_config文件中MaxSessions的配置值确定。请根据Shell或Python脚本的调度频率合理配置MaxSessions的值。
数据所在空间的id值。 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 total_count Integer 当前数据连接数据库记录数。 dw_id String 数据连接id。 databases Array of DatabasesList objects 数据库列表。
alue Boolean 异常表是否包含空值。 abnormal_table_out_data_number Integer 异常表输出行数,0代表全量输出。 score_switch Boolean 是否开启质量评分。 score_schema String 质量评分表所在schema。
REPLICATION:在每一个DN节点上存储一份全量表数据。这种存储方式的优点是每个DN上都有此表的全量数据,在join操作中可以避免数据重分布操作,从而减小网络开销;缺点是每个DN都保留了表的完整数据,造成数据的冗余。一般情况下只有较小的维度表才会定义为Replication表。 HASH:采用这
REPLICATION方式:在每一个DN节点上存储一份全量表数据。这种存储方式的优点是每个DN上都有此表的全量数据,在join操作中可以避免数据重分布操作,从而减小网络开销;缺点是每个DN都保留了表的完整数据,造成数据的冗余。一般情况下只有较小的维度表才会定义为Replication表。 HASH方式:采
参数说明。 连接主机的用户需要具有主机/tmp目录下文件的创建与执行权限。 Shell或Python脚本可以在该ECS主机上运行的最大并发数由ECS主机的/etc/ssh/sshd_config文件中MaxSessions的配置值确定。请根据Shell或Python脚本的调度频率合理配置MaxSessions的值。
开发一个DLI Spark作业 在本章节您可以学习到数据开发模块资源管理、作业编辑等功能。 场景说明 用户在使用DLI服务时,大部分时间会使用SQL对数据进行分析处理,有时候处理的逻辑特别复杂,无法通过SQL处理,那么可以通过Spark作业进行分析处理。本章节通过一个例子演示如何
获取方法请参见实例ID和工作空间ID。 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 count Integer 当前分页返回数据连接记录数。 max_records Integer 返回记录总数,一个工作空间最多只能创建的数据连接条数。 data_connection_lists
业管理下,在操作的“更多 > 查看详情”里面可以查看该作业的详细信息。 说明: 为本次执行的作业配置相关优化参数(例如线程、内存、CPU核数等),用于优化资源使用效率,提升作业的执行性能。Spark代理连接不支持该配置。 在MRS API连接模式下,单算子作业Spark SQL支持程序运行参数。
执行失败处理策略: SUSPEND :挂起 IGNORE:忽略失败,读取下一事件 默认值 : SUSPEND concurrent 否 int 调度并发数 取值范围:1~128 默认值:1 readPolicy 否 String 读取策略: LAST :从上次位置读取 NEW- 从最新位置读取
执行失败处理策略: SUSPEND :挂起 IGNORE:忽略失败,读取下一事件。 默认值:SUSPEND concurrent 否 int 调度并发数。 取值范围:1~128 默认值:1 readPolicy 否 String 读取策略: LAST :从上次位置读取 NEW- 从最新位置读取
企业模式业务流程 当前DataArts Studio企业模式,主要涉及管理中心和数据开发组件,业务流程由管理员、开发者、部署者、运维者等角色共同完成。 图1 企业模式架构 管理员:管理员需要进行准备数据湖、配置数据连接和环境隔离、数据的导入导出、配置项目用户权限等操作。 开发者:
表4 FormData参数 参数 是否必选 参数类型 描述 file 是 File 导入主题用的excel文件,大小必须小于4MB,且行数小于3000行。 响应参数 状态码:200 表5 响应Body参数 参数 参数类型 描述 data data object 返回的数据信息。
响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 total_count Integer 当前数据连接schema记录数。 dw_id String 数据连接id。 database String 数据库名称。 schemas Array of SchemasList