检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
同Region不同租户通过对等连接连通网络 在配置实时同步任务前,您需要确保源端和目的端的数据库与运行实时同步任务的实时计算资源组之间网络连通,您可以根据数据库所在网络环境,选择合适的网络解决方案来实现网络连通。 本章节主要为您介绍数据库部署在华为云,且与Migration资源组
OCR 功能 OCR节点支持识别图片上的文字信息, 识别结果将存储到用户指定的OBS目录下。 OCR节点仅支持在华北-北京四使用。 参数 用户可参考表1和表2配置OCR节点的参数。 表1 属性参数 参数 是否必选 说明 节点名称 是 节点名称,可以包含中文、英文字母、数字、“_”
同Region不同租户通过企业路由器连通网络 在配置实时同步任务前,您需要确保源端和目的端的数据库与运行实时同步任务的实时计算资源组之间网络连通,您可以根据数据库所在网络环境,选择合适的网络解决方案来实现网络连通。 本章节主要为您介绍数据库部署在华为云,且与Migration资源
新建原子指标 原子指标是对指标统计逻辑、具体算法的一个抽象。为了从根源上解决定义、研发不一致的问题,指标定义明确设计统计逻辑(即计算逻辑),不需要ETL二次或者重复研发,从而提升了研发效率,也保证了统计结果的一致性。 原子指标:原子指标中的度量和属性来源于多维模型中的维度表和事实
通过云专线连通网络 在配置实时同步任务前,您需要确保源端和目的端的数据库与运行实时同步任务的实时计算资源组之间网络连通,您可以根据数据库所在网络环境,选择合适的网络解决方案来实现网络连通。 本章节主要为您介绍数据库部署在本地IDC场景下,通过云专线打通网络的方案。 图1 网络示意图
通过VPN连通网络 在配置实时同步任务前,您需要确保源端和目的端的数据库与运行实时同步任务的实时计算资源组之间网络连通,您可以根据数据库所在网络环境,选择合适的网络解决方案来实现网络连通。 本章节主要为您介绍数据库部署在本地IDC场景下,通过VPN打通网络的方案。 图1 网络示意图
通过公网连通网络 在配置实时同步任务前,您需要确保源端和目的端的数据库与运行实时同步任务的实时计算资源组之间网络连通,您可以根据数据库所在网络环境,选择合适的网络解决方案来实现网络连通。 本章节主要为您介绍数据库部署在本地IDC场景下,通过公网打通网络的方案。 图1 网络示意图 约束限制
节点概述 节点定义对数据执行的操作。数据开发模块提供数据集成、计算&分析、数据库操作、资源管理等类型的节点,您可以根据业务模型选择所需的节点。 节点的参数支持使用EL表达式,EL表达式的使用方法详见表达式概述。 节点间的连接方式支持串行和并行。 串行连接:按顺序逐个执行节点,当A节点执行完成后,再执行B节点。
Create OBS OBS路径不支持s3a://开头的日志路径。 约束限制 该功能依赖于OBS服务。 功能 通过Create OBS节点在OBS服务中创建桶和目录。 参数 用户可参考表1和表2配置Create OBS节点的参数。 表1 属性参数 参数 是否必选 说明 节点名称 是
了资源队列时,此处配置的资源队列为最高优先级。 SQL脚本 是 仅“脚本类型”配置为“在线脚本”时可以配置。 选择已创建的Spark Python脚本。 脚本参数 否 仅“脚本类型”配置为“在线脚本”时可以配置。 关联的Spark Python脚本中如果使用了参数,此处显示参数名称,请在参数名称后的输入框配置参数值。
JavaScript 操作场景 使用JavaScript语言调用APP认证的API时,您需要先获取SDK,然后新建工程,最后参考API调用示例调用API。 本章节以IntelliJ IDEA 2018.3.5版本、搭建Node.js开发环境为例介绍。 准备环境 已获取API的域名
规则评分,本质上是基于规则评分在不同维度下的加权平均值进行计算的。 您可以查询所创建数据连接下数据库、数据库下的数据表以及数据表所关联规则的评分,具体评分对象的计算公式,请参见表1。 表1 对象评分计算公式 对象 评分计算公式 规则 创建质量作业时,作业关联的规则中结果说明列包含
字符替换:支持数值类型和字符类型字符替换,将指定位置的字符替换为固定值或者样本库中样本文件的值;自定义替换位置时支持使用随机数值或随机小写英文字母替换,并支持身份证号末位计算(计算身份证末位时,位数只能选择1,且前面位数需要大于等于17)。 新建样本库的请参考管理样本库章节。注意,选择样本库替换时,OBS样本文件只
、RDS、DORIS 计算数据表中指定字段的空值行数。 准确性 字段平均值 DLI、DWS、HIVE、SparkSQL、CLICKHOUSE、GBASE、HETUENGINE、ORACLE、RDS、DORIS 计算数据表中指定字段的平均值。 字段汇总值 计算数据表中指定字段的汇总值。
面进行选择,这里不再赘述。配置完成后单击“确定”。 已被绑定脱敏算法的分类规则不支持被重复绑定。 图1 新建脱敏 适配脱敏算法后,支持用户在线进行测试。输入测试数据,单击“测试”,在测试结果文本框中进行验证。 开启或关闭状态,只有启用状态下的脱敏策略才可生效。 查看数据脱敏效果 在DataArts
debezium.max.queue.size.in.bytes int 0 数据缓存队列大小,默认为0,即表示缓存队列不考虑数据大小,只按照数据条数计算。在debezium.max.queue.size无法有效限制内存占用时,考虑显式设置该值来限制缓存数据的大小。 jdbc.properties
于一次全量写入场景。 微批模式为异步分批写入Hoodie,适用于对入库时间SLA要求较为严格的场景,以及对资源消耗较小,对MOR表存储类型在线进行压缩的场景。 说明: 运行-失败重试期间不允许修改此模式。 是 批次数据大小 “全量模式写Hoodie”设置为“否”时,使用微批模式呈现此参数。
该表进行ETL计算时通常会使用时间范围进行裁剪(例如最近一天、一月、一年),这种表通常可以通过数据的创建时间来做分区以保证最佳读写性能。 维度表数据量一般整表数据规模较小,以更新数据为主,新增较少,表数据量比较稳定,且读取时通常需要全量读取做join之类的ETL计算,因此通常使用非分区表性能更好。
准备华为账号,创建用户并授权使用Migration。 参考注册华为账号并开通华为云。 参考授权使用实时数据集成。 实时计算资源组准备 购买实时集成任务使用的计算资源,并关联到要使用的DataArts Studio工作空间。 参考购买数据集成资源组增量包。 参考实时集成资源组关联工作空间。
以将重要任务添加至基线上,并为基线设置较高的优先级,以保证重要的任务可以优先分配到资源。 计算任务预计完成时间 任务的运行受到资源和上游任务运行情况的影响,可以将任务添加至基线上,系统将计算出该任务的预计完成时间,便于用户查看任务的预计完成时间。 保障任务在承诺时间前运行完成 可