-
创建并管理工作空间 - 数据治理中心 DataArts Studio
目相同。 一个企业项目下只能购买一个DataArts Studio实例。 需要与其他云服务互通时,需要确保与其他云服务的企业项目一致。 作业日志OBS路径 用于指定DataArts Studio数据开发作业的日志存储的OBS桶。工作空间成员如需使用DataArts Studio数
-
新建一个质量作业 - 数据治理中心 DataArts Studio
新建一个质量作业 场景说明 开发质量作业是为了监控数据质量。本章以新建一个质量作业为例,介绍如何开发质量作业。 操作步骤 在DataArts Studio控制台首页,选择实例,单击“进入控制台”,选择对应工作空间的“数据质量”模块,进入数据质量页面。 图1 选择数据质量 创建规则模板。
-
EL表达式使用实例 - 数据治理中心 DataArts Studio
单击,将脚本的名称设置为“generate_trade_report”。 新建和开发作业。 在数据开发模块控制台的左侧导航栏,进入“数据开发 > 作业开发”,选择“新建作业”,新建一个名称为“job”的空作业。 进入作业开发页面,将DLI SQL节点拖至画布中,单击其图标并配置“节点属性”。
-
简易变量集参考 - 数据治理中心 DataArts Studio
时的参数取值为01。 如果当前节点为小时调度节点,并且设置计划调度时间为00:00~23:59,每小时调度一次,则:第一个小时实例计划时间为0点,小时的参数取值为00,第二个小时实例计划时间为1点,小时的参数取值为01,以此类推。 业务ID参数 业务ID会替换成当前业务的实际ID,包括作业ID和作业生成的实例ID。
-
同步MRS Hive和Hetu权限 - 数据治理中心 DataArts Studio
改或删除hetu权限同步策略,其他普通用户无权限操作。 当前仅支持Hive权限同步至同一MRS集群的Hetu。 Hetu权限同步策略需要配置Hive和Hetu catalog的对应关系。对于一个Hive源对接多个Hetu catalog场景,需要配置多个同步策略。 Hetu权限同
-
配置空间权限集 - 数据治理中心 DataArts Studio
空间权限集是没有父权限集的顶层权限集,一般每个工作空间下创建一个即可;而权限集必须关联一个空间权限集或其他权限集作为其父权限集,可以新建多个,用于给不同使用场景的用户关联不同的权限。 空间权限集主要用于确定工作空间权限范围,而权限集主要用于权限管控。即空间权限集一般无需进行权限同步,且不支持
-
下线/删除API - 数据治理中心 DataArts Studio
API已发布到该环境。 下线API 在DataArts Studio控制台首页,选择实例,单击“进入控制台”,选择对应工作空间的“数据服务”模块,进入数据服务页面。 图1 选择数据服务 在左侧导航栏选择服务版本(例如:专享版),进入总览页。 单击“开发API > API管理”,进入到API管理信息页面。
-
实例监控 - 数据治理中心 DataArts Studio
重跑。 从第一个节点开始重跑:从作业实例的第一个节点开始重跑。 从指定的节点开始重跑:从作业实例中指定的节点开始重跑。仅当“重跑类型”选择“重跑当前实例”时有此选项。 说明: 以下两种情况,系统运行会从第一个节点开始重跑。 如果作业中节点个数或者名称发生变化,从第一个节点开始重跑。
-
新建一个业务场景 - 数据治理中心 DataArts Studio
新建一个业务场景 场景说明 业务场景用于监控业务指标。本例以新建一个业务场景为例,介绍如何使用业务指标监控功能。 操作步骤 在DataArts Studio控制台首页,选择实例,单击“进入控制台”,选择对应工作空间的“数据质量”模块,进入数据质量页面。 图1 选择数据质量 新建业务指标。
-
新建汇总表 - 数据治理中心 DataArts Studio
如果您已创建数据标准,在“数据标准”列,单击按钮可以选择一个数据标准与字段相关联。在“配置中心 > 功能配置”页面中的“模型设计业务流程步骤 > 创建质量作业”勾选的情况下,将字段关联数据标准后,表发布上线后,就会自动生成一个质量作业,每个关联了数据标准的字段会生成一个质量规则,基于数据标准对字段进行质量监控,您可以前往DataArts
-
新建维度 - 数据治理中心 DataArts Studio
根据原始数据定义数据类型。 数据标准 单击按钮可以选择一个数据标准与字段相关联。在“配置中心 > 功能配置”页面中的“模型设计业务流程步骤 > 创建质量作业”勾选的情况下,将字段关联数据标准后,维度发布上线后,就会自动生成一个质量作业,每个关联了数据标准的字段会生成一个质量规则,基于数据标准对字段进行质量监控,您可以前往DataArts
-
管理通知 - 数据治理中心 DataArts Studio
通知方式选择“按责任人”时才需配置。 最多只能选择10个抄送人。 开关 是 是否开启通知,默认开启。 单击“确定”,为作业配置通知。 数据开发模块的通知管理功能是通过消息通知服务来发送消息,消息通知服务的使用可能会产生费用,具体请咨询消息通知服务。 一个作业支持配置多个消息主题,当作业运行成功
-
执行Python脚本,报错UnicodeEncodeError :‘ascii' codec cant encode characters in position 63-64 : ordinal not in range ( 128 ) - 数据治理中心 DataArts Studio
DataArts Studio默认用的python2的解释器,python2默认的编码格式是ASCII编码,因ASCII编码不能编码汉字所以报错。因此需要将编码格式转化为“utf8”。 解决方法 用python3解释器,在主机上做一个软连接,如下图所示。 图2 主机上做软连接 在文件中设置标准编码方式。
-
查看质量报告 - 数据治理中心 DataArts Studio
若一天多次运行该作业,当天的质量评分为最后一次的得分。 单击“表评分”列的评分值链接,展开该表关联的规则评分,如图3所示。 图3 查看规则评分 规则名称为运行实例名称,如果作业被运行多次,取最新时间运行实例的结果。如果同一运行实例中,有多个子实例检验该表,则每个子实例一条记录。
-
如何查看表行数和库大小 - 数据治理中心 DataArts Studio
本例以通过DataArts Studio数据质量作业获取表行数的操作为例进行说明,这种方式可以同时统计同一数据库下多个表的行数。 在DataArts Studio控制台首页,选择实例,单击“进入控制台”,选择对应工作空间的“数据质量”模块,进入数据质量页面。 图1 选择数据质量 单击“质量作业”,进入质量作业列表。
-
Python - 数据治理中心 DataArts Studio
接的主机配有用于执行Python脚本的环境。 功能 通过Python节点执行Python语句。 Python节点的具体使用教程,请参见开发一个Python脚本。 Python节点支持脚本参数和作业参数。 参数 用户可以参考表1和表2配置Python节点的参数。 表1 属性参数 参数
-
步骤1:准备工作 - 数据治理中心 DataArts Studio
能带BOM),则能以CSV格式保存该文件。 将源数据CSV文件上传到OBS服务。 登录控制台,选择“存储 > 对象存储服务 OBS”,进入OBS控制台。 单击“创建桶”,然后根据页面提示配置参数,创建一个名称为“fast-demo”的OBS桶。 为保证网络互通,OBS桶区域请选择和DataArts
-
定义数据分类 - 数据治理中心 DataArts Studio
Studio实例级别配置,各工作空间之间数据互通。这样在数据地图组件中,就可以根据一套标准的分级分类管理对数据进行统一管理。 前提条件 导入预置数据分类前,请参考定义数据密级至少创建1个密级。 约束与限制 当前数据分类的最大层级数默认为5层,最大配额1000个。 仅DAYU Administrator、Tenant
-
配置企业模式环境隔离 - 数据治理中心 DataArts Studio
议在创建数据库时,开发环境数据库名和生产环境数据库名保持一致,开发环境数据库名带上“_dev”后缀,以与生产环境数据库名进行区分。 对于DWS、MRS Hive和MRS Spark这三种数据源,如果在创建数据连接时选择同一个集群,则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离。
-
DataArts Studio数据开发作业告警最佳实践 - 数据治理中心 DataArts Studio
隔(分钟)”。 通知方式:根据实际需要选择,推荐选择“按主题”通知。 通知管理功能是通过消息通知服务SMN来发送消息,消息通知服务的使用可能会产生费用,具体请咨询消息通知服务。 一个作业支持配置多个消息主题,当作业运行成功或失败,可同时向多个订阅了消息主题的终端发送通知。 选择主