检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
运行作业。 自定义镜像可以改变Spark作业和Flink作业的容器运行环境。用户可以将一些私有能力内置到自定义镜像中,从而增强作业的功能、性能。关于自定义镜像的更多详情,请参见自定义镜像。 作业名称 是 填写DLI Spark作业的名称,只能包含英文字母、数字、“_”,且长度为1~64个字符。默认与节点的名称一致。
集群,如果您需要使用数据服务专享版,请创建数据服务专享集群增量包。 说明: 数据服务共享版仅限于调测使用。专享版相较于共享版而言,在规格、性能以及功能等方面均有大幅度升级,详情请参见共享版与专享版数据服务的对比。 包年包月 作业节点调度次数/天增量包 作业节点调度次数/天增量包用于扩充作业节点调度次数/天配额。
配置作业运行参数。当选择了MRS集群名后,该参数才显示。 该参数为本次执行的作业配置相关优化参数(例如线程、内存、CPU核数等),用于优化资源使用效率,提升作业的执行性能。 注意: 系统支持Flink Jar作业运行前能够查询历史checkpoint,并选择从指定checkpoint启动。要使Flink C
当前系统支持“新建目录”和“同步主题为目录”两种方式: 选择“新建目录”时,直接在目录处单击,输入目录名称,即可完成目录新建。直接新建目录的最大深度拓展为7层。 图1 新建目录 选择“同步主题为目录”时,在目录处单击,即可将数据架构处的主题同步到目录中(仅支持同步“已发布”状态的主题)
用MySQL数据库的local_infile系统变量,开启MySQL的LOAD DATA功能加快数据导入,提高导入数据到MySQL数据库的性能。注意,开启本参数后,日期类型将不符合格式的会存储为0000-00-00,更多详细信息可在MySQL官网文档查看。 如果CDM自动启用失败
运行作业。 自定义镜像可以改变Spark作业和Flink作业的容器运行环境。用户可以将一些私有能力内置到自定义镜像中,从而增强作业的功能、性能。关于自定义镜像的更多详情,请参见自定义镜像。 CUs 是 CUs为DLI计费单位,一个CU是1核4G的资源配置。 管理节点CU数量 是
维度建模是从分析决策的需求出发构建多维模型,它主要是为分析需求服务,因此它重点关注用户如何更快速地完成需求分析,同时具有较好的大规模复杂查询的响应性能。 多维模型是由数字型度量值组成的一张事实表连接到一组包含描述属性的多张维度表,事实表与维度表通过主/外键实现关联。 在DataArts
0”,然后保存。 图4 配置字段转换器 二进制格式 如果想要在文件系统间按原样复制文件,则可以选择二进制格式。二进制格式传输文件到文件的速率高、性能稳定,且不需要在作业第二步进行字段匹配。 文件传输的目录结构 CDM的文件传输,支持单文件,也支持一次传输目录下所有的文件。传输到目的端后,目录结构会保持原样。
配置作业运行参数。当选择了MRS集群名后,该参数才显示。 该参数为本次执行的作业配置相关优化参数(例如线程、内存、CPU核数等),用于优化资源使用效率,提升作业的执行性能。 注意: 系统支持实时Flink SQL作业运行前能够查询历史checkpoint,并选择从指定checkpoint启动。要使Flink
- 密钥(SK) - 运行模式 “HIVE_3_X”版本支持该参数。支持以下模式: EMBEDDED:连接实例与CDM运行在一起,该模式性能较好。 STANDALONE:连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源(MRS、Hadoop或CloudTable
Gbps,理论极限值在360TB左右。对传输速度有要求的情况下可以使用多个数据集成实例实现。 上述数据量为理论极限值,实际传输数据量受数据源类型、源和目的数据源读写性能、带宽等多方面因素制约,实测cdm.large规格最大可达到约8TB每天(大文件迁移到OBS场景)。推荐用户在正式迁移前先用小数据量实测进行速度摸底。
当前系统支持“新建目录”和“同步主题为目录”两种方式: 选择“新建目录”时,直接在目录处单击,输入目录名称,即可完成目录新建。直接新建目录的最大深度拓展为7层。 图1 新建目录 选择“同步主题为目录”时,在目录处单击,即可将数据架构处的主题同步到目录中(仅支持同步“已发布”状态的主题)
择。 表1 源端作业参数说明 源端类型 说明 参数配置 OBS 支持以CSV、JSON或二进制格式抽取数据,其中二进制方式不解析文件内容,性能快,适合文件迁移。 参见配置OBS源端参数。 MRS HDFS FusionInsight HDFS Apache HDFS 支持以CSV
用MySQL数据库的local_infile系统变量,开启MySQL的LOAD DATA功能加快数据导入,提高导入数据到MySQL数据库的性能。注意,开启本参数后,日期类型将不符合格式的会存储为0000-00-00,更多详细信息可在MySQL官网文档查看。 如果CDM自动启用失败
源库造成太大的压力。限速最小配置为1MB/S。 不限速:在不限速的情况下,任务将在所配置的并发数的限制基础上,提供现有硬件环境下最大的传输性能。 说明: 支持对MRS Hive\DLI\关系数据库\OBS\Apache HDFS作为目的端的作业进行单并发限速。 如果作业配置多并发则实际限制速率需要乘以并发数。
景。 运行模式 EMBEDDED “HIVE_3_X”版本支持该参数。支持以下模式: EMBEDDED:连接实例与CDM运行在一起,该模式性能较好。 STANDALONE:连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源(MRS、Hadoop或CloudTable
景。 运行模式 EMBEDDED “HIVE_3_X”版本支持该参数。支持以下模式: EMBEDDED:连接实例与CDM运行在一起,该模式性能较好。 STANDALONE:连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源(MRS、Hadoop或CloudTable
- 密钥(SK) - 运行模式 “HIVE_3_X”版本支持该参数。支持以下模式: EMBEDDED:连接实例与CDM运行在一起,该模式性能较好。 STANDALONE:连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源(MRS、Hadoop或CloudTable
物理模型设计时的考虑事项 新建物理模型 新建表并发布 通过逆向数据库导入物理表 物理模型设计时的考虑事项 物理模型要确保业务需求及业务规则所要求的功能得到满足,性能得到保障。 物理模型要确保数据的一致性及数据的质量。 新业务或新功能增加时能够以较少的改动或不改动就能够满足需求的扩展。 新建物理模型 数
功能总览 功能总览 全部 数据集成 数据开发 管理中心 数据架构 数据质量 数据目录 数据服务 数据安全 数据集成 数据集成提供30+同构/异构数据源之间数据集成的功能,帮助您实现数据自由流动。支持自建和云上的文件系统,关系数据库,数据仓库,NoSQL,大数据云服务,对象存储等数据源。