检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
单表、整库、增量、周期性数据集成。 数据架构 作为数据治理的一个核心模块,承担数据治理过程中的数据加工并业务化的功能,提供智能数据规划、自定义主题数据模型、统一数据标准、可视化数据建模、标注数据标签等功能,有利于改善数据质量,有效支撑经营决策。 数据开发 大数据开发环境,降低用户
方式,如果选择其他脱敏方式则脱敏不生效。 MRS Hive数据源的“SM3”、“自定义/保留前x后y”和“自定义/掩盖前x后y”这几种脱敏规则非MRS Ranger组件提供,而是通过UDF自定义函数实现的算法。因此如果使用这几种脱敏规则之一,则会上传算法依赖的JAR包到MRS集群
分表同步到目的端一个实例下的单个库表。 实时同步任务配置 支持通过简易的可视化配置完成实时数据同步。 数据源自定义参数配置。 图形化选择源端库表、正则匹配源端库表。 自定义源端与目的端库表匹配规则。 字段映射:附加字段、字段赋值(常量、变量、UDF)。 自动建表. 定义DDL消息处理策略。
有原子指标; 当该空间下不超过5000条原子指标数据时可以全部导出。 函数说明 新建原子指标时,需要按照函数设定表达式。以聚合函数的部分函数为例,函数说明如表3所示: 表3 聚合函数说明 函数名 表达式 函数说明 avg(col) avg() 求平均值。 corr(col1, col2)
MySQL到MRS Hudi参数调优 源端优化 MySQL抽取优化 可通过在作业任务配置参数单击中“添加自定义属性”来新增MySQL同步参数。 图1 添加自定义属性 可使用的调优参数具体如下: 表1 全量阶段优化参数 参数名 类型 默认值 说明 scan.incremental.snapshot
设置CDM告警规则 操作场景 通过设置CDM集群告警规则,用户可自定义监控目标与通知策略,及时了解CDM集群运行状况,从而起到预警作用。 设置CDM集群的告警规则包括设置告警规则名称、监控对象、监控指标、告警阈值、监控周期和是否发送通知等参数。本节介绍了设置CDM集群告警规则的具体方法。
(可选)修改作业日志存储路径 作业日志和DLI脏数据默认存储在以dlf-log-{Project id}命名的OBS桶中,您也可以自定义日志和DLI脏数据存储路径,支持基于工作区全局配置OBS桶。 约束限制 该功能依赖于OBS服务。 OBS路径仅支持OBS桶,不支持并行文件系统。
数据集市用于汇总表和应用表等数据应用表的建模。 描述 数仓分层描述信息。支持的长度0~200字符。 禁用自定义项 选择自定义项。如果没有自定义项,则表示没有可禁用的自定义项。 单击“确定”。数仓分层新建完成。 更多操作如下: 单击已新建的数仓分层右侧的“编辑”,可以修改数仓分层的参数信息,分层类型不支持修改。
(可选)修改作业日志存储路径 作业日志和DLI脏数据默认存储在以dlf-log-{Project id}命名的OBS桶中,您也可以自定义日志和DLI脏数据存储路径,支持基于工作区全局配置OBS桶。 约束限制 该功能依赖于OBS服务。 OBS路径仅支持OBS桶,不支持并行文件系统。
当“规则类型”选择“自定义规则”,数据对象选择对应的数据库即可。 数据对象 在来源对象选择的数据表将和右侧目的对象的数据表做结果比较。选择配置的数据对账规则所应用到的表。 说明: 数据表与数据库强相关,基于已选择的数据库。数据库基于已建立的数据连接。 SQL 当“规则类型”选择“自定义规则”时
“_”、“-”、“/”、“<”、“>”等各类特殊字符,长度为1~128个字符。 作业类型 是 选择 Flink SQL作业 Flink 自定义作业 脚本路径 是 选择Flink SQL作业时,可配置此参数。 选择需要执行的Flink SQL脚本。如果脚本未创建,请参考新建脚本和开发SQL脚本先创建和开发Flink
配置告警规则 操作场景 通过设置实时集成作业的告警规则,用户可自定义监控目标与通知策略,及时了解作业状况,从而起到预警作用。 设置作业的告警规则包括设置告警规则名称、监控对象、监控指标、告警阈值、监控周期和是否发送通知等参数。本节介绍了设置实时集成作业告警规则的具体方法。 配置一键告警
使用SQL语句 “读取方式”选择“JDBC”时显示此参数。 导出关系型数据库的数据时,您可以选择使用自定义SQL语句导出。 否 SQL语句 “使用SQL语句”选择“是”时显示此参数,您可以在这里输入自定义的SQL语句,CDM将根据该语句导出数据。 说明: SQL语句只能查询数据,支持join和嵌套写法,但不能有多条查询语句,比如
脚本开发功能提供如下能力: 提供在线脚本编辑器,支持进行SQL、Shell、Python等脚本在线代码开发和调测。 支持导入和导出脚本。 支持使用变量和函数。 提供编辑锁定能力,支持多人协同开发场景。 支持脚本的版本管理能力,支持生成保存版本和提交版本。 保存版本时,一分钟内多次保存只记录一次
构的业务指标功能,数据质量的业务指标监控模块即将下线。 业务指标监控模块是对业务指标进行质量管理的工具。 为了进行业务指标监控,您可以先自定义SQL指标,然后通过指标的逻辑表达式定义规则,最后新建并调度运行业务场景。通过业务场景的运行结果,您可以判断业务指标是否满足质量规则。业务场景的运行结果说明如下:
、溪流和其他来源,并且是原始数据。 表2 数据湖与数据仓库的对比 维度 数据湖 数据仓库 应用场景 可以探索性分析所有类型的数据,包括机器学习、数据发现、特征分析、预测等 通过历史的结构化数据进行数据分析 使用成本 起步成本低,后期成本较高 起步成本高,后期成本较低 数据质量 包
配置调度日历 作业调度支持按照日历配置自定义工作日期进行周期调度。 调度日历配置完成后,在作业开发界面,在“调度配置”页签,选择周期调度,选择调度日历,即可按照调度日历所定义的工作日期进行调度。如果作业不在日历范围内是空跑,在日历范围内是正常执行。 使用调度日历功能后,在作业正常
':' + Trimall(HeaderValue) + '\n' Lowercase表示将所有字符转换为小写字母的函数。 Trimall表示删除值前后的多余空格的函数。 最后一个请求消息头也会携带一个换行符。叠加规范中CanonicalHeaders自身携带的换行符,因此会出现一个空行。
为FTP/SFTP/OBS,CDM源端的作业参数“源目录或文件”支持输入多个文件名(最多50个),文件名之间默认使用“|”分隔,您也可以自定义文件分隔符,从而实现文件列表迁移。 迁移文件或对象时支持文件级增量迁移(通过配置跳过重复文件实现),但不支持断点续传。 例如要迁移3个文件
列的动态脱敏策略时,则跳过不再重复生成。 MRS Hive数据源的“SM3”、“自定义/保留前x后y”和“自定义/掩盖前x后y”这几种脱敏规则非MRS Ranger组件提供,而是通过UDF自定义函数实现的算法。因此如果使用这几种脱敏规则之一,则会上传算法依赖的JAR包到MRS集群