检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
adaptive.join.enabled(启用AQE用于连接操作,可以通过根据正在处理的数据动态选择最佳连接算法来提高性能。) spark.sql.adaptive.skewedJoin.enabled(启用AQE用于倾斜的连接操作,可以通过自动检测倾斜的数据并相应地优化连接算法来提高性能)
节点概述 节点定义对数据执行的操作。数据开发模块提供数据集成、计算&分析、数据库操作、资源管理等类型的节点,您可以根据业务模型选择所需的节点。 节点的参数支持使用EL表达式,EL表达式的使用方法详见表达式概述。 节点间的连接方式支持串行和并行。 串行连接:按顺序逐个执行节点,当A节点执行完成后,再执行B节点。
Administrator可以直接将其升级为企业模式。 升级前操作 如果您需要升级工作空间模式,需要在数据开发中配置空间级别的公共委托或公共IAM账号,避免升级失败。 配置委托的操作详情可参见配置调度身份。 图4 配置工作空间委托 升级操作 登录DataArts Studio控制台。 找到所需要的DataArts
另外,如果选中的库表列有进行过敏感数据发现并且敏感数据字段的数据状态为“有效”,则将密级和数据分类显示在数据列区域中。 单击“确定”,完成动态脱敏策略创建。动态脱敏策略创建完成后,需要手动单击“同步”,将该策略同步到数据源中。 相关操作 同步策略:在动态脱敏页面,单击对应任务操作栏中的“同步
管理中心 DataArts Studio支持连接哪些数据源? 创建数据连接需要注意哪些事项? DWS/Hive/HBase数据连接无法获取数据库或表的信息怎么办? 为什么在创建数据连接的界面上MRS Hive/HBase集群不显示? DWS数据连接开启SSL时测试连接失败怎么办?
响应性能。 多维模型是由数字型度量值组成的一张事实表连接到一组包含描述属性的多张维度表,事实表与维度表通过主/外键实现关联。典型的维度模型有星形模型,以及在一些特殊场景下使用的雪花模型。 数据集市 又称为DM(Data Mart),DM面向展现层,数据有多级汇总,由一个特定的分析
当您参考购买并配置DataArts Studio章节完成注册华为账号、购买DataArts Studio实例(DataArts Studio企业版)、创建工作空间等一系列操作后,可以根据自身的业务需求使用DataArts Studio提供的一系列常用实践。 表1 常用最佳实践 实践 描述 数据迁移 数据迁移进阶实践
导出资源 功能介绍 该接口用于数据质量导出操作,可通过该接口导出质量作业或者对账作业等属于数据质量服务的资源数据。 调用方法 请参见如何调用API。 URI POST /v2/{project_id}/quality/resource/export 表1 路径参数 参数 是否必选
a; select * from table b。 不支持with语句。 不支持注释 ,比如 "--" ,“/*”。 不支持增删改操作,包括但不限于以下操作: load data delete from alter table create table drop table into
查看资源被哪些作业所引用,单击“查看”可跳转到作业页面进行查看详情。 在数据开发主界面的左侧导航栏,选择“配置管理 > 资源管理”。 在资源的“操作”列,单击“删除”,弹出“删除资源”页面。 单击“确定”,删除资源。 导入资源 当用户想要导入某个资源时,可以参考如下操作导入该资源。
在DataArts Studio控制台首页,选择对应工作空间的“数据开发”模块,进入数据开发页面。 在数据开发主界面的左侧导航栏,选择“运维调度 > 基线运维”。 选择“基线管理”页签。 单击“新建基线”,进入新建基线的界面。 配置基线任务的相关参数,如表1所示。 图1 创建基线 表1 配置基线参数
如何确认质量作业或对账作业已经阻塞? 可能原因 质量作业或对账作业运行阻塞,不清楚如何确认阻塞。 解决方案 作业运行状态长时间处于运行中时,选择“运维管理”,单击操作栏中的“结果&日志”并选择查看“运行日志”,当“运行日志”不再更新,表示作业已经阻塞。 图1 作业运行日志 父主题: 数据质量
配置OBS桶 脚本、作业或节点的历史运行记录依赖于OBS桶,如果未配置测试运行历史OBS桶,则无法查看历史运行的详细信息。请参考本节操作配置OBS桶。 约束限制 OBS路径仅支持OBS桶,不支持并行文件系统。 配置方法 参考访问DataArts Studio实例控制台,登录DataArts
Dummy 功能 Dummy节点是一个空的节点,不执行任何操作。用于简化节点的连接视图,便于用户理解复杂节点流的连接关系,示例如图1所示。 图1 连接方式对比 参数 用户可参考表1配置Dummy节点的参数。 表1 属性参数 参数 是否必选 说明 节点名称 是 节点名称,可以包含中
名称后缀进行区分,详细操作请参见配置DataArts Studio企业模式环境隔离。 对于DWS、MRS Hive和MRS Spark这三种数据源,如果在创建数据连接时选择同一个集群,则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离,详细操作请参见DB配置。 离线处理集成作业不支持在企业模式下运行。
户审批驳回才可进行修改。 审核人支持管理员、开发者、运维者,访客无法添加为审核人。 工作空间管理员角色的用户,无论是否被添加为审核人,都默认具备审核人权限。 发布完成后,您可以进入到“服务目录”,查看已发布API信息。 相关操作 批量发布API:您可以在专享版的“开发API >
数据目录 数据目录组件有什么用? 数据目录支持采集哪些对象的资产? 什么是数据血缘关系? 数据目录如何可视化展示数据血缘?
结构。 *SQL操作 选择需要控制的操作(SELECT、UPDATE、DELETE、ALL,ALL表示会影响SELECT、UPDATE、DELETE三种操作),暂不支持控制写入操作(INSERT、MERGE INTO)。 当选择SELECT时,SELECT类操作受行访问控制的影响
OBSUtil内嵌对象 OBSUtil内嵌对象提供了一系列针对OBS的操作方法,例如判断OBS文件或目录是否存在。 方法 表1 方法说明 方法 说明 示例 boolean isExistOBSPath(String obsPath) 判断OBS文件或目录(目录请以“/”结尾)是否
项的业务操作权限。建议将任务开发、任务处理的用户设置为开发者。 运维者:运维者具备工作空间内运维调度等业务的操作权限,但无法更改工作项及配置。建议将运维管理、状态监控的用户设置为运维者。 访客:访客可以查看工作空间内的数据,但无法操作业务。建议将只查看空间内容、不进行操作的用户设置为访客。