检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查看工作空间数据地图 查看工作空间内的数据资产 查看资产总览 查看数据资产 管理资产标签 父主题: 数据目录
本章节介绍如何在数据开发模块上进行Hive SQL开发。 场景说明 数据开发模块作为一站式大数据开发平台,支持多种大数据工具的开发。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能;可以将SQL语句转换为MapReduce任务进行运行。 环境准备 已开
不存在时创建:当目的端的数据库没有“表名”参数中指定的表时,CDM会自动创建该表。如果“表名”参数配置的表已存在,则不创建,数据写入到已存在的表中。 先删除后创建:CDM先删除“表名”参数中指定的表,然后再重新创建该表。 当选择在DWS端自动创表时,DWS的表与源表的字段类型映射关系见在DWS端自动建表时的字段类型映射。
本步骤通过电影信息和评分信息的原始数据,分析评分最高的Top10电影和最活跃的Top10电影,然后通过作业定期调度执行并将结果每日导出到表中,以支撑信息分析。 创建DWS SQL脚本top_rating_movie(用于存放评分最高的Top10电影) 评分最高Top10电影的计算方法是:
采集任务。 技术资产中的数据血缘关系更新依赖于作业调度,数据血缘关系是基于最新的作业调度实例产生的。需要注意的是,数据血缘关系删除需要通过删除作业或删除作业元数据的方式进行,仅将作业停止调度不会触发血缘关系的删除。 前提条件 已在数据架构组件中定义并发布过的逻辑实体与数据表、业务指标。
采集任务。 技术资产中的数据血缘关系更新依赖于作业调度,数据血缘关系是基于最新的作业调度实例产生的。需要注意的是,数据血缘关系删除需要通过删除作业或删除作业元数据的方式进行,仅将作业停止调度不会触发血缘关系的删除。 资产搜索 通过资产名称和描述的关键字或按所有属性搜索资产,支持模糊搜索。
Metadata)和业务元数据(Business Metadata)。 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据。 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。
DataArts Studio采用基础包+增量包的计费模式。为了便于您便捷的下单购买,在控制台购买界面中系统会为您计算好所购买的套餐包的价格,您可一键完成整个配置的购买。 计费方式 计费说明 04 使用 指导您快速构建从数据接入到数据分析的端到端智能数据系统,消除数据孤岛,统一数据标准,加快数据变现,实现数字化转型。
与其他云服务的关系 统一身份认证服务 DataArts Studio使用统一身份认证服务(Identity and Access Management,简称IAM)实现认证和鉴权功能。 云审计服务 DataArts Studio使用云审计服务(Cloud Trace Servic
Studio控制台首页,选择对应工作空间的“数据开发”模块,进入数据开发页面。 在数据开发主界面的左侧导航栏,选择“数据开发 > 脚本开发”。 在脚本开发导航栏,选择,右键单击数据连接名称,选择“新建数据库”,配置如表1所示的参数。 表1 新建数据库 参数 是否必选 说明 数据库名称 是 数据库的名称,命名要求如下:
抽取数据的模式或表空间名称。单击输入框后面的按钮可进入模式选择界面,用户也可以直接输入模式或表空间名称。 如果选择界面没有待选择的模式或表空间,请确认对应连接里的账号是否有元数据查询的权限。 说明: 该参数支持配置通配符(*),实现导出以某一前缀开头或者以某一后缀结尾的所有数据库。例如:
咨询与计费 区域和可用区如何选择? 数据库、数据仓库、数据湖与华为智能数据湖方案是什么,有哪些区别和联系? DataArts Studio和沃土是什么关系? DataArts Studio和ROMA有什么差异? DataArts Studio是否支持私有化部署到本地或私有云? 如何在IAM中创建细粒度权限策略?
编排API是将已经开发好的服务API接口,在无需编写复杂代码的情况下,根据特定的业务逻辑和流程进行可视化的重组和重构,从而实现在不影响原生接口的前提下进行简便的二次开发。 (可选)配置流控策略 为了保护后端服务的稳定的考虑,您可以对API进行流量控制。 (可选)主动授权API 应用定义了
展开查看血缘的上下链路。 单击血缘图中的某一个节点,可以查看该节点的详情。 进入“作业”页签,单击“编辑”可跳转到数据开发的作业编辑页面。 图4 查看节点血缘 在数据资产搜索结果中,图标为表格的数据资产为表,单击某一表名称,可以查看表的详情。在详情页面,可以查看表的血缘信息。 单
Kafka - 上表中非云服务的数据源,例如MySQL,既可以支持用户本地数据中心自建的MySQL,也可以是用户在ECS上自建的MySQL,还可以是第三方云的MySQL服务。 整库迁移支持的数据源类型 整库迁移适用于将本地数据中心或在ECS上自建的数据库,同步到云上的数据库服务或大数据服务
的数据源类型。 本文介绍2.9.2.200版本CDM集群所支持的数据源。因各版本集群支持的数据源有所差异,其他版本支持的数据源仅做参考。 表/文件迁移支持的数据源类型 表/文件迁移可以实现表或文件级别的数据迁移。 表/文件迁移时支持的数据源如表1所示。 表1 表/文件迁移支持的数据源
称,选择“修改”后,在弹出的页面中修改数据库模式的信息。 删除数据库模式:在脚本开发导航栏,选择,展开下方的数据连接至需要删除的数据库模式,右键单击数据库模式名称,选择“删除”后,在弹出的页面中单击“确定”完成删除。 默认的数据库模式不可删除。 删除操作不可撤销,请谨慎操作。 父主题:
Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面,查看“总览”,如图1所示。 图1 数据架构总览 我的待办 显示“我的申请”和“待我审核”的数量。 单击每一项上面统计数量将分别跳转到“我的申请”和“待我审核”页面。 资产概览 显示数据架构中所有对象的总量。 单击每个对象名称后的统计数量将跳转到该对象的管理页面。
您可以查询业务指标、数据质量中数据对象的质量评分,来判断各个对象是否质量达标。 质量报告的数据保留最近90天的结果。 查看质量报告包含技术报告和业务报告。 技术报告的统计范围是依据质量作业的运行结果,包含数据连接、数据库、表名、评分等信息。 业务报告的统计范围是依据数据架构主题关联匹配的质量作业运行的结果,包
在数据架构主界面,单击左侧导航栏的“关系建模”,进入模型设计页面。 在页面的中间栏位的最上方,选择一个需要导出的物理模型。 选择所需导出的表,单击列表上方的“导出”按钮,导出所选的关系建模表,建议导出对象选择为“表”。导出完成后,即可通过浏览器下载地址,获取到导出的xlsx文件。 图5 导出关系建模表 在