检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数仓规划:对数仓分层以及数仓建模进行统一管理。支持用户自定义数仓分层。 标准设计:新建码表&数据标准。 新建码表:通常只包括一系列允许的值和附加文本描述,与数据标准关联用于生成值域校验质量监控。 新建数据标准:用于描述公司层面需共同遵守的属性层数据含义和业务规则。其描述了公司层面对某个
创建CDM集群 CDM采用独立集群的方式为用户提供安全可靠的数据迁移服务,各集群之间相互隔离,不可相互访问。 CDM集群可用于如下场景: 用于创建并运行数据迁移作业。 作为管理中心组件连接数据湖时的Agent代理。 前提条件 已申请VPC、子网和安全组。CDM集群连接云上其它服务
效。需经如下操作后变更状态后,才能使识别规则状态生效: 敏感数据发现任务运行后,为使该识别规则在静态脱敏任务中生效,必须在“敏感数据分布>手工修正”页面对任务中的识别规则进行“确认”,使规则状态变更为“有效”。 前提条件 (必须)数据密级定义已完成,请参见定义数据密级。 (可选)
码和电子邮箱,单击“确定”完成审核人添加。 审核人必须是当前工作空间下具有审核权限的成员,只有管理员和开发者才具有审核权限。 审核人不支持手工添加,需要先在“DataArts Studio首页-空间管理”的工作空间内编辑并添加空间成员,以便添加审核人时进行选择。 勾选短信通知或邮
EL表达式使用实例 通过本示例,用户可以了解数据开发模块EL表达式的如下应用: 如何在数据开发模块的SQL脚本中使用变量? 作业如何传递参数给SQL脚本变量? 在参数中如何使用EL表达式? 背景信息 使用数据开发模块的作业编排和作业调度功能,每日通过统计交易明细表,生成日交易统计报表。
[s0] hdfs dfs -createSnapshot test CDM通过HDFS Snapshot复制文件至MRS。CDM的作业配置: “源目录或文件”输入:/hbase/data/default/src_test/.snapshot/s0 目的端“写入目录”输入:/hbase/data/default/表名
发页面。 在数据开发主界面的左侧导航栏,选择“配置管理 > 配置”。 单击“调度身份配置”,公共调度身份选择“公共IAM账号”。 在右边的文本框中输入已创建好的公共IAM账号。 单击,完成公共IAM账号的设置。 配置执行用户 配置作业的执行用户 在作业目录处,双击选中已有作业。
通过DataArts Studio提供的REST风格的API接口进行请求。 DataArts Studio的接口均需要进行认证鉴权以此来判断是否通过身份认证。通过控制台发出的请求需要通过Token认证鉴权,调用API接口认证鉴权支持Token认证和AK/SK认证两种方式。 访问控制
测试通过后,单击“确定”,创建数据连接。 开发Python脚本 在“数据开发 > 脚本开发”模块中创建一个Python脚本,脚本名称为“python_test”。 图2 创建Python脚本 选择Python版本(以Python3为例),并选择主机连接,根据实际需要输入参数。 配置的参数是指执
新建一个对账作业实例 场景说明 数据对账对于数据开发和数据迁移流程中的数据一致性至关重要,而跨源数据对账的能力是检验数据迁移或数据加工前后是否一致的关键指标。本章分别以DLI和DWS作为数据源,介绍如何通过DataArts Studio中的数据质量模块实现跨源数据对账的基本一致性校验。
每个业务资产、技术资产或指标资产都具备guid,guid是资产的唯一标识符。在调用数据目录或数据地图接口时,部分URI中需要填入guid。 资产guid可通过相应查询接口获取,也可以通过控制台获取,推荐您通过相应查询接口获取。 控制台获取操作相对复杂,如下所示,为您介绍如何通过控制台获取guid资产:
配置互斥 通过配置互斥组,可以避免多个作业去并发的运行。配置好互斥组以后,本次设置将在作业的下一个调度周期生效。 互斥组配置完成后,在同一个互斥组内的作业,只能有一个作业是运行中,其他作业生成实例后则处于等待运行中。当运行中的作业运行完(包括执行成功、执行失败、取消)或者停止调度
配置DLI目的端参数 表1 DLI作为目的端时的作业参数 参数名 说明 取值样例 资源队列 选择目的表所属的资源队列。 DLI的default队列无法在迁移作业中使用,您需要在DLI中新建SQL队列。 新建队列操作请参考创建队列。 cdm 数据库名称 写入数据的数据库名称。 dli
使用包围符”,这样包围符内的值的,会写入一个字段内。 使用正则表达式分隔字段 这个功能是针对一些复杂的半结构化文本,例如日志文件的解析,详见使用正则表达式分隔半结构化文本。 首行为标题行 这个参数是针对CSV文件导出到其它地方的场景,如果源端指定了该参数,CDM在抽取数据时将第一
使用包围符”,这样包围符内的值的,会写入一个字段内。 使用正则表达式分隔字段 这个功能是针对一些复杂的半结构化文本,例如日志文件的解析,详见使用正则表达式分隔半结构化文本。 首行为标题行 这个参数是针对CSV文件导出到其它地方的场景,如果源端指定了该参数,CDM在抽取数据时将第一
“数据格式”选择为“CDC场景”时配置,用于配置OBS文件。 否 OBS链接 选择OBS连接器信息。 obs_link OBS桶 选择OBS桶。 obs_test 配置文件 选择OBS的配置文件。 /obs/config.csv 最大消息数/poll 可选参数,每次向Kafka请求数据限制最大请求记录数。
查看敏感数据分布 本章主要介绍如何查看敏感数据发现结果以及手工修正。 查看敏感数据发现结果:敏感数据识别任务完成后,需要查看任务的运行结果。 手工修正:发现敏感数据后,您必须根据具体情况进行手工修正,通过对任务中的识别规则进行“确认”,使规则状态变更为“有效”,才能使该识别规则在静态脱敏任务中生效。
表达式概述 数据开发模块作业中的节点参数可以使用表达式语言(Expression Language,简称EL),根据运行环境动态生成参数值。可以根据Pipeline输入参数、上游节点输出等决定是否执行此节点。数据开发模块EL表达式使用简单的算术和逻辑计算,引用内嵌对象,包括作业对象和一些工具类对象。
查询告警通知记录 功能介绍 此接口可以查询指定时间段内的告警通知记录。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。 URI URI格式 GET /v2/{project_id}/factory/alarm-info?start_time={start_
连接管理能力由管理中心统一提供,相关接口已不再维护,推荐使用管理中心API进行连接管理。 功能介绍 将存放在OBS桶的连接文件导入到数据开发模块中,一次可以导入一个或多个连接。执行本接口之前,需要将连接文件放到OBS的桶中。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。