检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用场景任选一种方式进行授权。 通过IAM类型应用授权。IAM类型应用本质上是当前的华为账号,每个DataArts Studio实例下仅能创建一个。因此,将IAM认证方式的API授权给IAM类型的应用,实际上是将API授权给了当前账号。因此在授权后,从IAM服务获取当前账号及其归
配置模板 本章节主要介绍如何创建并使用模板。用户在编写业务代码时,对于重复的业务逻辑,可以直接引用SQL模板,同时在配置作业运行参数的时候,可以直接使用作业参数模板,不用再进行重复配置。 约束限制 该功能适用于以下场景: Flink SQL脚本可以引用脚本模板。 在pipeline作业开发中,MRS
全能力建设实施指南V1.0》,对组织的数据安全开展能力评估。DSMM旨在标准先行,推动数据安全,进一步提升企业数据安全能力,增强数据安全意识,挖掘数据价值,培育数据要素市场。 DSMM标准以组织的数据为中心,围绕数据的采集、传输、存储、处理、交换、销毁全生命周期,从组织建设、制度
保存版本时,一分钟内多次保存只记录一次版本。对于中间数据比较重要时,可以通过“新增版本”按钮手动增加保存版本。 支持单击右键,可快速复制脚本名称,同时可以快速的关闭已打开的脚本页签。 在MRS API连接模式下,MRS Spark SQL和MRS Hive SQL脚本运行完以后,在执
准相关联。如果未创建码表,请参见新建码表进行创建。在“配置中心 > 功能配置”页面中的“模型设计业务流程步骤 > 创建质量作业”勾选的情况下,当引用码表的数据标准被关系建模的业务表关联后,如果表发布成功,系统将会在DataArts Studio数据质量中自动创建一个质量作业,并根
<outputPath>") exit(-1) #创建SparkConf conf = SparkConf().setAppName("wordcount") #创建SparkContext 注意参数要传递conf=conf sc
前提条件 导入预置数据分类前,请参考定义数据密级至少创建1个密级。 约束与限制 当前数据分类的最大层级数默认为5层,最大配额1000个。 仅DAYU Administrator、Tenant Administrator或者数据安全管理员可以创建、修改或删除数据密级、分类和识别规则,其他普通用户无权限操作。
方向添加数据源IP。 若CDM集群和数据源不在同一个VPC,则需要创建对等连接,打通CDM VPC和数据源 VPC,并且数据源安全组入方向添加CDM集群内网IP,CDM集群安全组出方向添加数据源IP,详情请参见创建DataArts Studio数据连接。 数据源 - 资源组异常 资源组状态检查异常
数据缓存队列大小,默认为0,即表示缓存队列不考虑数据大小,只按照数据条数计算。在debezium.max.queue.size无法有效限制内存占用时,考虑显式设置该值来限制缓存数据的大小。 jdbc.properties.socketTimeout int 300000 全量阶段连接Mysql的s
用于支撑指标的敏捷自助消费。 敏捷自助消费指的是业务用户能够自主地、快速地访问和使用指标,而不依赖于IT部门或数据团队进行复杂的查询和计算。原子指标提供了非常基础且易于理解的度量,可以支持用户在需要时灵活地创建自己的报表、查询或分析。通过提供原子指标,用户可以在现有的基础数据上自
前自检概览中对应数据库账号权限要求。 已创建数据连接,且创建的连接必须已勾选数据集成选项,详情请参见创建DataArts Studio数据连接 。 数据集成资源组与数据源网络已打通,详情请参见网络打通。 操作步骤 参见新建实时集成作业创建一个实时处理集成作业。 配置数据连接类型。
Timeline的冲突,导致Spark compaction作业执行失败。 创建Spark SQL周期性Compaction任务。 前往DataArts Studio数据开发界面,参考《开发批处理单任务SQL作业》创建Spark SQL作业。 图2 创建Spark SQL单任务作业 配置与Hudi相对应的
开发Pipeline模式的批处理作业和实时处理作业,请您参考编排作业节点、配置作业基本信息、配置作业参数和调测并保存作业章节。 前提条件 已创建作业,详情请参见新建作业。 当前用户已锁定该作业,否则需要通过“抢锁”锁定作业后才能继续开发作业。新建或导入作业后默认被当前用户锁定,详情参见编辑锁定功能。
管理脱敏算法 为了方便对数据进行脱敏,在创建脱敏策略前,需要您准备好脱敏算法。当前系统已内置20+脱敏算法,如果内置算法可以满足您的需求,您需要提前配置对应算法参数;否则,您可以新建脱敏算法。 本章主要介绍内置脱敏算法,和如何新建脱敏算法。 约束与限制 新建随机脱敏或字符替换类型
出。 说明: 若集群为MRS 1.8.7版本或MRS 2.0.1之后版本,需要配置此参数。 单击“选择模板”,选择已创建好的脚本模板,系统支持可以引用多个模板。创建模板的详细操作请参见配置模板。 MRS Flink作业的运行程序参数,请参见《MapReduce用户指南》中的运行Flink作业。
勾选两个集群的场景下,“作业类型”不推荐选择“创建新作业”,应设置为“选择已存在的作业”,且确保两个集群下分别存在该作业。您可以在其中一个集群新建CDM作业并导出,然后再导入作业到另一个集群,实现作业同步,具体操作方法请参见导出导入CDM作业。 CDM作业类型 是 选择已存在的作业。 创建新作业。 说明:
保存版本时,一分钟内多次保存只记录一次版本。对于中间数据比较重要时,可以通过“新增版本”按钮手动增加保存版本。 支持单击右键,可快速复制作业名称,同时可以快速的关闭已打开的作业页签。 在MRS API连接模式下,单任务MRS Spark SQL和MRS Hive SQL运行完以后,在
是否支持字段转换? 支持,CDM支持以下字段转换器: 脱敏 去前后空格 字符串反转 字符串替换 表达式转换 在创建表/文件迁移作业的字段映射界面,可新建字段转换器,如下图所示。 图1 新建字段转换器 脱敏 隐藏字符串中的关键信息,例如要将“12345678910”转换为“123****8910”,则配置如下:
从FTP/SFTP/OBS导出文件时,CDM支持指定文件名迁移,用户可以单次迁移多个指定的文件(最多50个),导出的多个文件只能写到目的端的同一个目录。 在创建表/文件迁移作业时,如果源端数据源为FTP/SFTP/OBS,CDM源端的作业参数“源目录或文件”支持输入多个文件名(最多50个),文件名
Spark(Hudi)、MRS ClickHouse、DORIS。 从下拉列表中选择已创建的数据连接。 说明: 规则都是基于数据连接的,所以在建立数据质量规则之前需要先到管理中心模块中建立数据连接。 针对通过代理连接的MRS Hive,需要选择MRS API方式或者代理方式提交: