-
导出导入作业 - 数据治理中心 DataArts Studio
作业开发”。 单击作业目录中的,选择“显示复选框”。 勾选需要导出的作业,单击 > 导出作业,可选择“只导出作业”或“导出作业及其依赖脚本和资源定义”。导出完成后,即可通过浏览器下载地址,获取到导出的zip文件。 图1 选择并导出作业 在弹出的“导出作业”界面,选择需要导出的作业范围和状态,
-
开发SQL脚本 - 数据治理中心 DataArts Studio
enabled(启用AQE用于倾斜的连接操作,可以通过自动检测倾斜的数据并相应地优化连接算法来提高性能) spark.sql.mergeSmallFiles.enabled(启用合并小文件功能,可以通过将小文件合并成较大的文件来提高性能,可以减少处理许多小文件的时间,并通过减少需要从远程存储中读取的文件数量来提高数据本地性。)
-
新建数据标准 - 数据治理中心 DataArts Studio
格式、值域是数据交换的基础,它们用于描述表的字段元信息,规范字段所存储的数据信息。 本章节介绍如何创建数据标准,创建好的数据标准,可用于在关系建模中新建业务表时与业务表中的字段相关联,从而约束业务表中的字段遵从指定的数据标准。 约束与限制 单工作空间允许创建的数据标准目录最多500条,个数最多20000个。
-
新建对账作业 - 数据治理中心 DataArts Studio
代理方式:通过用户名、密码访问的方式提交。新建作业建议选择代理提交,可以避免权限问题导致的作业提交失败。 数据质量当前不支持MRS hive组件的严格模式 。 数据对象 在来源对象选择的数据表将和右侧目的对象的数据表做结果比较。选择配置的数据对账规则所应用到的表。 说明: 数据表与数据
-
Rest Client - 数据治理中心 DataArts Studio
挂起当前作业执行计划:当前作业实例的状态为运行异常,该节点的后续节点以及依赖于当前作业的后续作业实例都会处于等待运行状态。 是否空跑 否 如果勾选了空跑,该节点不会实际执行,将直接返回成功。 任务组 否 选择任务组。任务组配置好后,可以更细粒度的进行当前任务组中的作业节点的并发数控制,比如作业中包含多个节点、补数据、重跑等场景。
-
数据资产入表三步走 - 数据治理中心 DataArts Studio
形成稳定、持续的收益。目前数据交易所主要以API、数据包或数据模型的方式来交付数据产品。如果走无形资产路线,卖的就不是数据本身而是数据服务,可选择数据模型或数据软件服务的形式,以特许经营、软件授权等方式来产生可持续现金流。 数据产品的结算系统搭建非常关键,建立合理的利益分配机制,
-
迁移到DWS时出现value too long for type character varying怎么处理? - 数据治理中心 DataArts Studio
varying”错误提示,如图1所示。 图1 日志信息 原因分析 这种情况一般是在迁移到DWS时数据有中文,且创建作业时选择了目的端自动建表的情况下。原因是DWS的varchar类型是按字节计算长度,一个中文字符在UTF-8编码下可能要占3个字节。当中文字符的字节超过DWS的varchar的长度时,就会出现错误:value
-
新建事实表 - 数据治理中心 DataArts Studio
只能包含中文、英文字母、数字、左右括号、中划线和下划线,且以中文和英文字母开头。 维度属性的字段会自动显示所添加的维度的代理键名称,一般不需要修改。 字段英文名称 只能以英文字母开头,支持英文字母、数字、下划线。 数据类型 显示该维度的数据类型。 主键 选中时表示该字段为主键。 说明: 数据连接为MRS
-
产品优势 - 数据治理中心 DataArts Studio
资产管理可视,支持钻取、溯源等。 全方位的安全保障 统一的安全认证,租户隔离,数据的分级分类管理,数据的全生命周期管理,保证数据的隐私合规、可审计、可回溯。 基于角色的访问控制,用户通过角色与权限进行关联,并支持细粒度权限策略,可满足不同的授权需求。
-
For Each节点使用介绍 - 数据治理中心 DataArts Studio
SQL节点,编排图3所示的作业。 DLI SQL的语句中把要替换的变量配成${}这种参数的形式。在下面的SQL语句中,所做的操作是把${Source}表中的数据全部导入${Destination}中,${fromTable}、${toTable} 就是要替换的变量参数。SQL语句为:
-
For Each节点使用介绍 - 数据治理中心 DataArts Studio
SQL节点,编排图3所示的作业。 DLI SQL的语句中把要替换的变量配成${}这种参数的形式。在下面的SQL语句中,所做的操作是把${Source}表中的数据全部导入${Destination}中,${fromTable}、${toTable} 就是要替换的变量参数。SQL语句为:
-
开发一个DWS SQL作业 - 数据治理中心 DataArts Studio
入SQL语句,通过SQL语句来实现统计前一天的销售额。 图1 开发脚本 关键说明: 图1中的脚本开发区为临时调试区,关闭脚本页签后,开发区的内容将丢失。您可以通过“提交”来保存并提交脚本版本。 数据连接:创建DWS的数据连接中已创建的连接。 开发DWS SQL作业 DWS SQL脚本开发完成后,我们为DWS
-
新建复合指标 - 数据治理中心 DataArts Studio
新建复合指标参数说明 参数名称 说明 *复合指标名称 只能包含中文、英文字母、数字和下划线,且必须以中文或英文字母开头。 *复合指标英文名称 只能包含英文字母、数字和下划线,且必须以英文字母开头。 *所属主题 显示所属的主题信息。您也可以单击“选择主题”进行选择。 *统计维度 选择来源于衍生指标的统计维度。
-
如何确认质量作业或对账作业已经阻塞? - 数据治理中心 DataArts Studio
如何确认质量作业或对账作业已经阻塞? 作业运行状态长时间处于运行中时,选择“运维管理”,单击操作栏中的“结果&日志”并选择查看“运行日志”,当“运行日志”不再更新,表示作业已经阻塞。 图1 作业运行日志 父主题: 数据质量
-
DIS Stream - 数据治理中心 DataArts Studio
挂起当前作业执行计划:当前作业实例的状态为运行异常,该节点的后续节点以及依赖于当前作业的后续作业实例都会处于等待运行状态。 是否空跑 否 如果勾选了空跑,该节点不会实际执行,将直接返回成功。 任务组 否 选择任务组。任务组配置好后,可以更细粒度的进行当前任务组中的作业节点的并发数控制,比如作业中包含多个节点、补数据、重跑等场景。
-
管理动态脱敏策略 - 数据治理中心 DataArts Studio
一,则会上传算法依赖的JAR包到MRS集群,并需要提前授予Ranger数据连接中账号的创建UDF权限以及所有用户的使用UDF权限,详见参考:配置Ranger组件中的UDF相关权限。 当前DWS服务支持的脱敏规则如表3所示,不支持中文脱敏,如果对含有中文字符的数据进行脱敏则可能会出现乱码。
-
调度作业 - 数据治理中心 DataArts Studio
调度周期需要合理设置,如CDM、ETL作业的调度周期至少应在5分钟以上,并根据作业表的数据量、源端表更新频次等调整。 已经在运行中的作业,可以修改其调度周期。 跨周期依赖 选择作业下实例之间的依赖关系。 不依赖上一调度周期 自依赖(等待上一调度周期结束才能继续运行) 跳过等待的实例,运行最近的批次。 “事件驱动调度”的参数
-
新建汇总表 - 数据治理中心 DataArts Studio
中文和英文字母开头。 维度属性的字段会自动显示所添加的维度的代理键名称,一般不需要修改。 英文名称 只能以英文字母开头,支持英文字母、数字、下划线。 数据类型 显示该字段名称的数据类型。 配置类型 表示该字段名称对应的配置类型。比如衍生指标。 关联对象 表示该字段名称的配置类型对应的关联对象。比如衍生指标的名称。
-
DataArts Studio使用简介 - 数据治理中心 DataArts Studio
况,明确业务诉求,并结合DataArts Studio服务的能力进行业务流程设计。 需求分析。分析业务情况,明确业务诉求,并提炼出数据治理流程的实现框架,支撑具体数据治理实施流程的设计。 业务调研。明确DataArts Studio服务的能力边界,并分析后续的业务负载情况。 流程
-
新建原子指标 - 数据治理中心 DataArts Studio
原子指标是对指标统计逻辑、具体算法的一个抽象。为了从根源上解决定义、研发不一致的问题,指标定义明确设计统计逻辑(即计算逻辑),不需要ETL二次或者重复研发,从而提升了研发效率,也保证了统计结果的一致性。 原子指标:原子指标中的度量和属性来源于多维模型中的维度表和事实表,与多维模型所属的业务对象保持一