检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本章节介绍如何在数据开发模块上进行Hive SQL开发。 场景说明 数据开发模块作为一站式大数据开发平台,支持多种大数据工具的开发。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能;可以将SQL语句转换为MapReduce任务进行运行。 环境准备
merge into loader线程数 每个loader内部启动的线程数,可以提升写入并发数。 1 在DWS端自动建表时的字段类型映射 CDM在数据仓库服务(Data Warehouse Service,简称DWS)中自动建表时,DWS的表与源表的字段类型映射关系如图1所示。例如使用CD
配置OpenTSDB源端参数 配置MRS Hudi源端参数 配置MRS ClickHouse源端参数 配置神通(ST)源端参数 配置达梦数据库 DM源端参数 配置YASHAN源端参数 父主题: 在CDM集群中创建作业
view=sql-server-ver15#previous-releases 4.2版本,获取sqljdbc42.jar 达梦数据库 DM DM DM JDBC驱动jar包请从DM安装目录/dmdbms/drivers/jdbc中获取DmJdbcDriver18.jar。 请从对应版本的安装目录中获取DmJdbcDriver18
jdbc.SQLServerDriver: 连接RDS for SQL Server数据源时,选择此驱动名称。 dm.jdbc.driver.DmDriver:连接达梦数据库 DM数据源时,选择此驱动程序名称。 com.huawei.opengauss.jdbc.Driver:连接Ga
创建主题时,如果主题创建到业务对象L3层级时,即创建主题层级出现“新建业务对象”,系统会自动显示“编码”参数,编码规则支持“自动生成”和“自定义”两种方式。 自动生成:按照配置中心的编码规则自动生成 自定义:输入自定义编码 主题设计中,不同L1层级下的业务对象支持重名。 主题层级数
件系统,以及关系数据库,数据仓库,NoSQL,大数据云服务,对象存储等数据源。 数据集成 支持的数据源 创建CDM集群 创建CDM与数据源之间的连接 新建表/文件迁移作业 数据目录(元数据采集) 为了在DataArts Studio对迁移到云上的原始数据层进行管理和监控,先对其元数据进行采集并监控。
SQLServer同步到MRS Hudi作业配置 PostgreSQL 数据仓库:DWS(公测中) 说明: 该链路目前需申请白名单后才能使用。如需使用该链路,请联系客服或技术支持人员。 PostgreSQL同步到DWS作业配置 Oracle 数据仓库:DWS(公测中) 说明: 该链路目前需申请白名单后
jdbc.SQLServerDriver: 连接RDS for SQL Server数据源时,选择此驱动名称。 dm.jdbc.driver.DmDriver:连接达梦数据库 DM数据源时,选择此驱动程序名称。 com.huawei.opengauss.jdbc.Driver:连接Ga
Kafka作业配置 数据仓库:DWS MySQL同步到DWS作业配置 SQLServer Hadoop:MRS Hudi 说明: 该链路目前需申请白名单后才能使用。如需使用该链路,请联系客服或技术支持人员。 SQLServer同步到MRS Hudi作业配置 PostgreSQL 数据仓库:DWS
您对资产进行分类和描述,以便于检索。 为方便管理技术资产,可以从业务角度定义标签,并与技术资产关联,比如标识某个表是SDI贴源数据层、DWI数据整合层等。 标签和分类 “标签”是相关性很强的关键字,帮助用户对资产进行分类和描述,以便于检索。 “分类”是指按照种类、等级或性质分别归
根据数据湖治理落地流程,建议您在数据湖中为SDI层、DWI层、DWR层和DM层分别创建一个数据库,从而对数据进行分层分库。数据分层是后面在数据架构中将涉及到的概念,此处先简单了解即可,在数据架构时将深入了解与操作。 SDI (Source Data Integration),又称贴源数据层。SDI是源系统数据的简单落地。
top Boolean 分层治理。 level String 数据治理分层。 枚举值: SDI: 贴源数据层 DWI: 数据整合层 DWR: 数据报告层 DM: 数据集市层 dw_type String 数据连接类型,对应表所在的数仓类型,取值可以为DWS、MRS_HIVE、PO
”,提示连接成功,单击“确定”。 创建DWS数据连接。在DataArts Studio管理中心模块,单击创建数据连接,数据连接类型选择“数据仓库服务(DWS)”,输入数据连接名称,设置其他参数,如下图所示,单击“测试”,提示连接成功,单击“确定”。 创建对账作业。 在DataArts
DataArts Studio支持将MapReduce服务(简称MRS)作为数据湖底座,进行数据集成、开发与治理。 云数据仓库服务 DataArts Studio支持将云数据仓库服务(GaussDB(DWS),简称DWS)作为数据湖底座,进行数据集成、开发、治理与开放。 云数据库服务 DataArts
jdbc.SQLServerDriver: 连接RDS for SQL Server数据源时,选择此驱动名称。 dm.jdbc.driver.DmDriver:连接达梦数据库 DM数据源时,选择此驱动程序名称。 com.huawei.opengauss.jdbc.Driver:连接Ga
数据的一系列操作。开发作业前请先新建作业。 前提条件 作业在每个工作空间的最大配额为10000,作业目录最多5000个,目录层级最多为10层。请确保当前数量未达到最大配额。 新建普通目录 如果已存在可用的目录,则可以跳过当前操作。 参考访问DataArts Studio实例控制台,登录DataArts
CDM在进行作业分片时,根据源端数据源的差异,分片维度有所不同。详情如表1所示。 表1 不同源端数据源的作业分片维度 数据源分类 源端数据源 作业分片原理 数据仓库 数据仓库服务(DWS) 支持按表字段分片。 不支持按表分区分片。 数据湖探索(DLI) 支持分区表的分区信息分片。 不支持非分区表分片。 Hadoop
DataArts Studio支持的数据源 数据源类型 管理中心 数据架构 数据开发 数据目录[2] 数据质量[3] 数据服务 数据安全 数据仓库服务(DWS) √ √ √ √ √ √ √ 数据湖探索(DLI) √ √ √ √ √ √ √ MapReduce服务(MRS HBase)
调用API 审核中心 数据安全 访问权限管理2.0 敏感数据识别 隐私保护管理 常见问题 了解更多常见问题、案例和解决方案 热门案例 数据库、数据仓库、数据湖与华为智能数据湖方案 CDM与其他数据迁移服务有什么区别,如何选择? DataArts Studio是否支持私有化部署到本地或私有云?