检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
有且只有一个输出处理算子,并位于最下游,直接上游必须为普通API算子,必须配置至少一个结果映射。 API工作流不能有环状结构,不能有孤立算子,最多支持20层深度。 图1 API工作流编排页面 表1 API工作流算子介绍 配置入口 算子 是否必选 介绍 触发器 入口API 必选 入口API算子是AP
场景多样性:部分链路支持全量和增量同步,部分链路支持分库分表。 可维护性:支持作业监控和日志查看,方便运维人员进一步定位。 易用性:长界面更易操作,用户只需配置必要信息,学习成本减低。 操作视频 因不同版本操作界面可能存在差异,本视频仅供参考,具体以实际环境为准。 父主题: 数据集成(实时作业)
件解密后再导出,以及解密方式: NONE:不解密,直接导出文件。 AES-256-GCM:使用AES-256-GCM(NoPadding)算法解密后再导出文件。 fromJobConfig.dek 否 String 数据解密密钥,密钥由长度64的十六进制数组成,且必须与加密时配置的“toJobConfig
sql.catalog"={{custom_class}},在提交作业之后进行变量替换。 说明: Spark作业不支持自定义设置jvm垃圾回收算法。 Module名称 否 DLI系统提供的用于执行跨源作业的依赖模块,访问各个不同的服务,选择不同的模块: CloudTable/MRS HBase:
定期为员工开展数据安全意识培训,纠正工作中的不良习惯,降低因意识不足带来的数据安全风险。 技术能力培养方式。一方面,构建组织内部的数据安全学习专区,营造培训环境,通过线上视频、线下授课相结合的方式,按计划、有主题的定期开展数据安全技能培训,夯实理论知识。另一方面,通过开展数据安全
enabled(启用AQE用于连接操作,可以通过根据正在处理的数据动态选择最佳连接算法来提高性能。) spark.sql.adaptive.skewedJoin.enabled(启用AQE用于倾斜的连接操作,可以通过自动检测倾斜的数据并相应地优化连接算法来提高性能) spark.sql.mergeSmallFiles
、溪流和其他来源,并且是原始数据。 表2 数据湖与数据仓库的对比 维度 数据湖 数据仓库 应用场景 可以探索性分析所有类型的数据,包括机器学习、数据发现、特征分析、预测等 通过历史的结构化数据进行数据分析 使用成本 起步成本低,后期成本较高 起步成本高,后期成本较低 数据质量 包
enabled(启用AQE用于连接操作,可以通过根据正在处理的数据动态选择最佳连接算法来提高性能。) spark.sql.adaptive.skewedJoin.enabled(启用AQE用于倾斜的连接操作,可以通过自动检测倾斜的数据并相应地优化连接算法来提高性能) spark.sql.mergeSmallFiles
支持使用变量。 作业开发 提供图形化设计器,支持拖拽式工作流开发,快速构建数据处理业务流水线。 预设数据集成、SQL、Spark、Shell、机器学习等多种任务类型,通过任务间依赖完成复杂数据分析处理。 支持导入和导出作业。 资源管理 支持统一管理在脚本开发和作业开发使用到的file、jar、archive类型的资源。
导入数据到HDFS时,支持设置压缩格式。 参见配置HDFS目的端参数。 MRS HBase CloudTable 支持导入数据到HBase,创建新HBase表时支持设置压缩算法。 参见配置HBase/CloudTable目的端参数。 MRS Hive 支持快速导入数据到MRS的Hive。 参见配置Hive目的端参数。
Flink生态,实现批流一体的Serverless大数据计算分析服务。DLI支持多模引擎,企业仅需使用SQL或程序就可轻松完成异构数据源的批处理、流处理、内存计算、机器学习等,挖掘和探索数据价值。 MapReduce服务(MRS HBase) HBase是一个开源的、面向列(Column-Oriented)、
column_name 否 String 敏感字段。 algorithm_name 否 String 算法名称。 algorithm_type 否 String 算法类型。 en_name 否 String 算法名称。 algorithm_parameters 否 String 参数。 failure_policy
当前系统支持“新建目录”和“同步主题为目录”两种方式: 选择“新建目录”时,直接在目录处单击,输入目录名称,即可完成目录新建。直接新建目录的最大深度拓展为7层。 图1 新建目录 选择“同步主题为目录”时,在目录处单击,即可将数据架构处的主题同步到目录中(仅支持同步“已发布”状态的主题)
当前系统支持“新建目录”和“同步主题为目录”两种方式: 选择“新建目录”时,直接在目录处单击,输入目录名称,即可完成目录新建。直接新建目录的最大深度拓展为7层。 图1 新建目录 选择“同步主题为目录”时,在目录处单击,即可将数据架构处的主题同步到目录中(仅支持同步“已发布”状态的主题)
作业任务参数调优 概述 实时数据集成服务底层使用Flink流处理框架进行开发,因此包含了Flink系统中最重要的两个部分:JobManager和TaskManager。 作业任务配置中调整的处理器核数、并发数、执行内存参数等便是用来调整JobManager和TaskManager