检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
- 密钥(SK) - 运行模式 “HIVE_3_X”版本支持该参数。支持以下模式: EMBEDDED:连接实例与CDM运行在一起,该模式性能较好。 STANDALONE:连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源(MRS、Hadoop或CloudTable
是否离线导入,取值为是或者f否,默认取否。 是: 表示离线导入,导入速度较快,但导入过程中图处于锁定状态,不可读不可写。 否:表示在线导入,相对离线导入,在线导入速度略慢,但导入过程中图并未锁定,可读不可写。 重复边忽略Label 否 重复边的定义,是否忽略Label。取值为是或者否,默认取是。
建议该字段带有索引。 id 分区字段含有空值 是否允许分区字段包含空值。 多并发抽取时,若确定分区字段不含Null,将该值设为“否”可提升性能,若不确定,请设为“是”,否则可能会丢数据。 否 拆分作业 选择“是”,会根据“作业拆分字段”值,将作业拆分为多个子作业并发执行。 说明:
是否定时执行:如果需要配置作业定时自动执行可开启。这里保持默认值“否”。 抽取并发数:设置同时执行的抽取任务数,适当的抽取并发数可以提升迁移效率,配置原则请参见性能调优。这里保持默认值“1”。 是否写入脏数据:如果需要将作业执行过程中处理失败的数据、或者被清洗过滤掉的数据写入OBS中,以便后面查看,可
引用符号 否 配置引用符号,例如"。 数据库包围标识符。对某些数据库意味着大小写敏感,如不需用请置空。 检查streamLoad连通性 否 测试Doris streamLoad连通性,当使用场景通过streamLoad方式写数据的时候时,需要保证该连通正常。 创建MRS安全集群的kerberos认证用户
助从IAM服务获取的用户Token进行安全认证。支持通过API调用工具调用,安全级别中等。 无认证:不需要认证,所有用户均可访问,建议仅在测试接口时使用,不推荐正式使用。使用无认证方式时,无需鉴权认证信息,安全级别低,通过API调用工具或浏览器即可直接调用。 服务目录可见性 发布
*数据库 下拉选择存放水印表的数据库。 *目标表名 用户手动输入,不能与目标端数据库表名重复。当输入的表名不存在时会创建该表。 输入请单击“测试”,否则将无法进行下一步操作。 图4 源、目标端配置 单击“下一步”,进行调度信息配置。 数据集范围为全量模式时,仅支持单次调度。 数据集
MRS Hive和DWS动态脱敏策略为指定用户/用户组在数据源上关联策略,因此需要如果希望在DataArts Studio数据开发执行脚本、测试运行作业时,使用当前用户身份认证鉴权以实现动态脱敏策略生效,则需要启用细粒度认证。 如果希望创建脱敏策略时能够查看哪些字段为敏感字段,则需
是否定时执行:如果需要配置作业定时自动执行可开启。这里保持默认值“否”。 抽取并发数:设置同时执行的抽取任务数,适当的抽取并发数可以提升迁移效率,配置原则请参见性能调优。这里保持默认值“1”。 是否写入脏数据:如果需要将作业执行过程中处理失败的数据、或者被清洗过滤掉的数据写入OBS中,以便后面查看,可
SQL脚本“top_active_movie”。 Finish(Dummy节点):不执行任何操作,只作为结束点的标识。 作业编排完成后,单击,测试运行作业。 如果作业运行正常,单击“调度配置”,配置作业的调度策略。 图10 调度配置 说明: 2022/02/09至2022/02/28,每天1点00分执行一次作业。
Nodejs示例代码 demo.html 浏览器示例代码 demo_require.html 浏览器示例代码(使用require加载) test.js 测试用例 js\hmac-sha256.js 依赖库 js\moment.min.js js\moment-timezone-with-data
是否定时执行:如果需要配置作业定时自动执行可开启。这里保持默认值“否”。 抽取并发数:设置同时执行的抽取任务数,适当的抽取并发数可以提升迁移效率,配置原则请参见性能调优。这里保持默认值“1”。 是否写入脏数据:如果需要将作业执行过程中处理失败的数据、或者被清洗过滤掉的数据写入OBS中,以便后面查看,可
来的数据进行整合、清洗,并基于三范式进行关系建模。 物理模型设计时的考虑事项如下: 物理模型要确保业务需求及业务规则所要求的功能得到满足,性能得到保障。 物理模型要确保数据的一致性及数据的质量。 新业务或新功能增加时能够以较少的改动或不改动就能够满足需求的扩展。 维度建模需要基于
配置作业运行参数。当选择了MRS集群名后,该参数才显示。 该参数为本次执行的作业配置相关优化参数(例如线程、内存、CPU核数等),用于优化资源使用效率,提升作业的执行性能。 注意: 系统支持Flink Jar作业运行前能够查询历史checkpoint,并选择从指定checkpoint启动。要使Flink C
执行以下SQL命令,查询目的表B里面是否存在源表A的数据。 SELECT * FROM B 参数配置完成后,保存并提交此作业的最新版本,测试运行该作业。 单击“执行调度”,让该作业运行起来。 创建补数据。 您在创建了一个周期调度作业后,用户需要为该任务进行补数据的操作。 在数据开发主界面的左侧导航栏,选择“运维调度
要根据业务需要选择合适规格的资源组。单个作业(最少需要2 CU)最多支持创建50张表。 小规格:16CUs,创建作业的最大数量为7。适用于测试,不支持高可用,不建议选择。 中规格:64CUs,创建作业的最大数量为32。 大规格:96CUs,创建作业的最大数量为48。 超大规格:128CUs,创建作业的最大数量为64。
审批人来自权限集/角色的管理员,权限审批后即刻生效。 启用细粒度认证 配置细粒度认证后,在DataArts Studio数据开发执行脚本、测试运行作业或调度作业时,数据源将不再使用数据连接上的账号,而是使用当前用户身份认证鉴权,从而做到实现不同用户具有不同的数据权限,使角色/权限集或队列权限中的权限管控生效。
现抢占资源的情况,不能保证每次都可以得到资源执行相关操作。建议您在业务低峰期再次重试,或选择自建队列运行业务。 作业运行成功时,在补数据、测试运行场景下不发送告警通知,避免邮件或短信轰炸。同时,补数据作业实例恢复时也不发送恢复通知。 作业运行失败时,重跑作业并且作业运行成功后,会发送作业实例恢复通知。
执行以下SQL命令,查询目的表B里面是否存在源表A的数据。 SELECT * FROM B 参数配置完成后,保存并提交此作业的最新版本,测试运行该作业。 单击“执行调度”,让该作业运行起来。 创建补数据。 您在创建了一个周期调度作业后,用户需要为该任务进行补数据的操作。 在数据开发主界面的左侧导航栏,选择“运维调度
用MySQL数据库的local_infile系统变量,开启MySQL的LOAD DATA功能加快数据导入,提高导入数据到MySQL数据库的性能。注意,开启本参数后,日期类型将不符合格式的会存储为0000-00-00,更多详细信息可在MySQL官网文档查看。 如果CDM自动启用失败