检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
典型的维度模型有星形模型,以及在一些特殊场景下使用的雪花模型。 在DataArts Studio数据架构中,维度建模是以维度建模理论为基础,构建总线矩阵、抽象出事实和维度,构建维度模型和事实模型,同时对报表需求进行抽象整理出相关指标体系,构建出汇总模型。 数据集市 又称为DM(Data Mart),DM面向展现层,
表(物理表)、逻辑实体、维度建模维度/事实表、业务指标、技术指标、数据集市汇总表的导入导出,暂不支持时间限定、审核中心和配置中心数据的导入导出。 本例中以导入和导出关系建模表为例说明如何进行导入导出,其他数据操作类似。如果您想了解其他数据如何导入导出以及使用场景等,请参考数据架构数据搬迁。
DataArts Studio和ROMA有什么差异? 从数据运营方案(数据中台)的数据集成、数据治理以及数据开放三层结构来看,DataArts Studio和ROMA主要差别在于数据治理方面: ROMA作为连接各个系统的管道,对接入数据没有治理和规划的功能。 DataArts S
的数据分类管理框架,指导各领域进行分类管理。华为信息架构框架,通过政策发文明确信息架构的定义和构成要素,在公司层面建立统一的架构方法。基于ISO8000标准,华为建立了数据质量管理框架和运作机制,每年例行开展两次公司级数据质量度量,从“设计“与”执行”两个方面度量数据质量,由公司
同步MRS Hive和Hetu权限 在MRS Hetu对接MRS hive数据源并使用Ranger权限管控的场景下,通过Hetu访问同集群的Hive数据源,会统一使用Hetu端的Ranger权限做鉴权,而不受Hive端的Ranger权限管控。 为了避免该场景下需要在Hetu端重复
区域和可用区如何选择? 什么是区域、可用区? 我们用区域和可用区来描述数据中心的位置,您可以在特定的区域、可用区创建资源。 区域(Region):从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Regio
复制名称和重命名作业 您可以通过复制名称功能复制当前作业名称,通过重命名功能修改当前作业名称。 前提条件 已完成作业开发。如何开发作业,请参见开发Pipeline作业。 复制名称 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。 在DataArts
项目ID和账号ID 获取项目ID和账号ID 项目ID表示租户的资源,账号ID对应当前账号,IAM用户ID对应当前用户。用户可在对应页面下查看不同Region对应的项目ID、账号ID和用户ID。 注册并登录管理控制台。 在用户名的下拉列表中单击“我的凭证”。 在“API凭证”页面,
取值范围是1-128,默认为空,不做限制,单位为MB,超出范围会设置为不限制。 16 源端Hive包含array和map类型时,目的端表格式只支持ORC和parquet复杂类型。若目的端表格式为RC和TEXT时,会对源数据进行处理,支持成功写入。 因map类型为无序的数据结构,迁移到目的端的数据类型可能跟源端顺序不一致。
查询目的表和字段(待下线) 功能介绍 查询目的表和字段(待下线)。 调用方法 请参见如何调用API。 URI GET /v2/{project_id}/design/{model_id}/table-model/relation/fields 表1 路径参数 参数 是否必选 参数类型
合理配置基线承诺时间和预警余量 本章节介绍如何合理的配置基线承诺时间和预警余量。 基线运维能够及时捕捉导致任务无法按时完成的异常情况并提前预警,保障复杂依赖场景下重要数据能在预期时间内顺利产出。 基线承诺时间是任务运行成功的最晚时间点。即面向数据应用,任务承诺在该时间点前完成。如
为数据表对象,为作业节点对象,通过对象和箭头的编排表示血缘信息。从血缘关系图中可以看到,wk_02表数据是由wk_01表数据经过hive_1作业节点加工而生成的,wk_02表数据经由hive_2作业节点加工又分别生成了wk_03、wk_04和wk_05的表数据。 图1 数据血缘关系示例
在参数名和参数值的文本框中直接修改。 掩码显示 在参数值为密钥等情况下,从安全角度,请单击将参数值掩码显示。 删除 在参数值文本框后方,单击,删除作业参数。 常量 新增 单击“新增”,在文本框中填写作业常量的名称和参数值。 参数名称 名称只能包含字符:英文字母、数字、中划线和下划线。
在左侧导航栏选择服务版本(例如:专享版),进入总览页。 获取待调用API的调用地址、请求方法和入参信息。 在左侧导航栏中进入API管理,找到待调用的API,并单击API名称查看API的完整信息,保存调用地址、请求方法和入参信息。 调用地址:专享版支持内网地址和外网地址(外网地址需要您在创建集群时绑定弹性IP),如果
在左侧导航栏选择服务版本(例如:专享版),进入总览页。 获取待调用API的调用地址、请求方法和入参信息。 在左侧导航栏中进入API管理,找到待调用的API,并单击API名称查看API的完整信息,保存调用地址、请求方法和入参信息。 调用地址:专享版支持内网地址和外网地址(外网地址需要您在创建集群时绑定弹性IP),如果
实例ID和工作空间ID 获取DataArts Studio实例ID和工作空间ID DataArts Studio的实例ID和工作空间ID可以从DataArts Studio控制台的URI链接中获取。 在DataArts Studio控制台首页,选择对应工作空间,并单击任一模块,如“管理中心”。
数据质量 质量作业和对账作业有什么区别? 如何确认质量作业或对账作业已经阻塞? 如何手工重启阻塞的质量作业或对账作业? 怎样查看质量规则模板关联的作业? 用户在执行质量作业时提示无MRS权限怎么办?
离线处理:对已收集的大量数据进行批量处理和分析,这些任务通常是在计算资源和存储资源方面经过优化,以确保高效的数据处理和分析。这些任务通常是定时(例如每天、每周)执行,主要处理大量历史数据,用于批量分析和数据仓库。 实时处理:对源源不断产生的新数据进行实时处理和分析,以满足业务对数据的即时性
现异常。 如果通过DataArts Studio数据开发调度CDM迁移作业,此处也配置了定时任务,则两种调度均会生效。为了业务运行逻辑统一和避免调度冲突,推荐您启用数据开发调度即可,无需配置CDM定时任务。 定时任务功能原理:采用Java Quartz定时器,类似Cron表达式配
单击“下一步”,进入“订阅配置”页面。 如果开启通知状态,需选择通知类型,并选择主题。通知类型有“触发告警”和“运行成功”两类,可根据实际业务场景选择。 单击“下一步”,进入“调度配置”页面。 调度方式分为“单次调度”和“周期调度”。单次统计选择“单次调度”即可。 单击“提交”,进入质量作业列表页面。 图5