检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
用户在使用DLI服务时,大部分时间会使用SQL对数据进行分析处理,有时候处理的逻辑特别复杂,无法通过SQL处理,那么可以通过Spark作业进行分析处理。本章节通过一个例子演示如何在数据开发模块中提交一个Spark作业。 操作流程如下: 创建DLI集群,通过DLI集群的物理资源来运行Spark作业。
本入门示例涉及DataArts Studio数据集成、管理中心和数据开发模块,DataArts Studio各版本均可以满足使用要求。 操作流程如下: 准备工作,包括使用DataArts Studio前的准备、数据源准备、数据湖准备和认证数据准备。 创建数据迁移作业,将OBS数据迁移到DWS。
置如表5所示的参数。 表5 作业参数预览 功能 说明 当前时间 仅单次调度才显示。系统默认为当前时间。 事件触发时间 仅事件驱动调度才显示。系统默认为事件触发时间。 周期调度 仅周期调度才显示。系统默认为调度周期。 具体时间 仅周期调度才显示。周期调度配置的具体运行时间。 起始日期
身份认证及访问控制相关工具平台,主要实现在数据全生命周期各环节中涉及的所有业务系统和管理平台的身份认证和权限管理。 监控审计相关工具平台接入业务系统和管理平台,实现对数据安全风险的实时监控,并能进行统一审计。 日志管理平台收集并分析所有业务系统和管理平台的日志,并统一日志规范以支持后续的风险分析和审计等工作。
ts Studio服务后不会再产生通知,您也可以直接删除SMN服务已产生的主题和订阅。 父主题: 免费版:基于DLI的电商BI报表数据开发流程
配置并行处理算子 并行处理算子可以同时执行多个分支逻辑,分支间互不影响。 表1 并行处理算子 参数 说明 失败策略 当并行分支中存在失败情况时,配置API工作流的失败策略。 任一分支失败则终止:表示当并行分支中存在失败情况时,则此API工作流置为失败状态,不再继续执行。 分支失败
(Source Data Integration),又称贴源数据层。SDI是源系统数据的简单落地。 DWI (Data Warehouse Integration),又称数据整合层。DWI整合多个源系统数据,对源系统进来的数据进行整合、清洗,并基于三范式进行关系建模。 DWR (Data
1_1}!=${2_1},表示当左侧表行数与右侧表行数不一致时,触发报警并显示报警状态。 单击“下一步”,配置订阅信息,如下图所示。 勾选触发告警表示作业报警时发送通知到对应的smn主题,勾选运行成功表示不报警时发送通知到SMN主题。 单击“下一步”,配置调度方式,如下图所示。
暂停运行中的实时集成作业。 方式一: 登录DataArts Studio控制台实例,进行所用空间的数据开发界面,单击左侧导航栏的“作业监控”,进入“实时集成作业监控界面”,搜索对应的实时集成作业,单击右侧操作栏中的“暂停”按钮。 图1 暂停作业1 方式二: 登录DataArts Studi
DEW计费说明 KMS密钥管理按密钥实例进行按需计费,您可以直接删除DEW服务已产生的KMS密钥。 父主题: 初级版:基于DWS的电影评分数据集成与开发流程
Studio服务后不会再产生API调用,您也可以直接删除发布到APIG网关上的API。 父主题: 企业版:基于MRS Hive的出租车出行数据治理流程
际业务中,请视情况而定,需谨慎设置,以免造成数据丢失。 图7 作业配置 在源端、目的作业配置区域,单击“显示高级属性”,在“高级属性”中,系统提供了默认值,请根据实际业务数据的格式设置各项参数。 例如,本例中根据数据源准备中的样例数据格式,源端高级属性需注意以下参数的设置,其他参
成,由可枚举数据构成,存储枚举数据名称与编码的映射关系。码表的作用主要有: 在数据清洗中用于标准化业务数据以及补充映射字段。 在质量监控中用于监控业务数据的值域范围。 在维度建模中可以引申为枚举维度。 新建码表并发布 手动新建码表,完成新建后可以参考填写数值到码表中添加码表记录。
打开作业“test”,从左侧节点库中拖拽一个“Create OBS”节点。 在节点属性页签中配置属性。 图3 Create OBS 单击“保存”后,选择“前往监控”页面监控作业的运行情况。 父主题: 配置
为保证访问密钥的安全,访问密钥仅在初次生成时自动下载,后续不可再次通过管理控制台界面获取。请在生成后妥善保管。 父主题: 初级版:基于DWS的电影评分数据集成与开发流程
选择KERBEROS鉴权时,需要配置MRS Manager的用户名和密码。从HDFS导出目录时,如果需要创建快照,这里配置的用户需要HDFS系统的管理员权限。 如果要创建MRS安全集群的数据连接,不能使用admin用户。因为admin用户是默认的管理页面用户,这个用户无法作为安全集
置如表5所示的参数。 表5 作业参数预览 功能 说明 当前时间 仅单次调度才显示。系统默认为当前时间。 事件触发时间 仅事件驱动调度才显示。系统默认为事件触发时间。 周期调度 仅周期调度才显示。系统默认为调度周期。 具体时间 仅周期调度才显示。周期调度配置的具体运行时间。 起始日期
使用自动血缘解析的方式,无需手动配置即可生成血缘关系,在不支持自动血缘解析的场景下,再手动配置血缘关系。 自动血缘解析,是由系统解析数据开发作业中的数据处理和数据迁移类型节点后自动产生的,无需进行手动配置。支持自动血缘解析的节点类型和场景请参见自动血缘解析。 手动配置血缘,是在数
普通模式 业务日期模式 系统支持按照作业调度计划时间去运行,同时支持按照业务日期去运行。 配置周期调度 作业调度 当前作业所依赖的作业执行失败后,当前作业的处理策略。 依赖的作业停止时,当前作业实例处理策略。 配置多IF策略 作业调度 节点执行依赖多个IF条件的处理策略。 配置软硬锁策略
数据架构中指标侧重业务维度,用来衡量目标总体特征的统计数值;数据质量中指标侧重监控维度,用来管理所有业务指标,包括指标的来源、定义等。 注意,数据质量模块的指标与数据架构模块的业务指标、技术指标当前是相互独立的,不支持交互。同时,数据质量模块的业务指标监控即将下线,推荐使用数据架构的业务指标功能。 父主题: