内置 *规则模板 规则类型选择“内置”,呈现此参数。 系统内置了80+条敏感数据识别规则,可对个人敏感信息(银行卡、信用卡等)、个人基本资料(手机号码、电子邮箱等)、网络身份标识信息(IPv4地址、IPv6地址等)等敏感信息进行识别和脱敏。内置的敏感数据识别规则可在“内置规则模板”页签查看。
400 无法将输入值保存到存储库 无法将输入值保存到存储库。 请联系客服或技术支持人员协助解决。 Cdm.0018 400 作业和连接内容不合法。 作业和连接内容非法。 请联系客服或技术支持人员协助解决。 Cdm.0019 400 无法删除存储库中的链接 删除存储库中的链接失败。 请稍
二进制)写入HBase,其他类型的按字符串写入。如果这几种类型中,有合并做rowkey的,则依然当字符串写入。 该功能作用是:降低存储占用空间,存储更高效;特定场景下rowkey分布更均匀。 否:源端数据库中所有类型的数据,都会按照字符串写入HBase。 否 父主题: 配置CDM作业目的端参数
后删除新建的存储桶即可;另外,DataArts Studio作业日志和DLI脏数据默认存储在以dlf-log-{Project id}命名的OBS桶中,在退订DataArts Studio后可以一并删除。 DLI DLI计费说明 DLI服务未购买专属队列时,涉及存储收费和扫描量计
该功能由目的端作业参数“校验MD5值”控制,读取文件后写入OBS时,通过HTTP Header将MD5值提供给OBS做写入校验,并将校验结果写入OBS桶(该桶可以不是存储迁移文件的桶)。如果源端没有MD5文件则不校验。 迁移文件到文件系统时,目前只支持校验CDM抽取的文件是否与源文件一致(即只校验抽取的数据)。
fromJobConfig.inputDirectory 是 String 待抽取文件的URL。 用于读取一个公网HTTP/HTTPS URL的文件,包括第三方对象存储的公共读取场景和网盘场景。 fromJobConfig.inputFormat 是 枚举 传输数据时所用的文件格式,目前只支持二进制格式。
图3 连接管理 创建两个连接,一个源连接OBS连接,用于读取存储在OBS上的原始数据,一个目的连接MRS Hive连接,用于将数据写入MRS Hive数据库中。 单击“新建连接”,进入相应页面后,选择连接器类型“对象存储服务(OBS)”,单击“下一步”,然后如下图所示配置连接参数,单击“保存”。
该功能由目的端作业参数“校验MD5值”控制,读取文件后写入OBS时,通过HTTP Header将MD5值提供给OBS做写入校验,并将校验结果写入OBS桶(该桶可以不是存储迁移文件的桶)。如果源端没有MD5文件则不校验。 迁移文件到文件系统时,目前只支持校验CDM抽取的文件是否与源文件一致(即只校验抽取的数据)。
段。 由于HBase的无Schema技术特点,CDM无法获知数据类型,如果数据内容是使用二进制格式存储的,CDM会无法解析。 Hive数据源约束 Hive中使用Parquet格式存储时间戳数据时,时间戳的精度为纳秒级别(即精确到毫微秒),即2023-03-27 00:00:00.
数据开发是编排、调度和运维的中心,数据开发是一个提供分析、设计、实施、部署及维护一站式数据解决方案,完成数据加工、转换和质量提升等。数据开发屏蔽了各种数据存储的差异,一站式满足从数据集成、数据清洗/转换、数据质量监控等全流程的数据处理,是数据治理实施的主战场。 数据质量 数据质量管理的目标在于保
身份证号码掩码 掩码身份证号。 不支持。 银行卡号掩码 掩码银行卡号。 不支持。 Email掩码 掩码Email信息。 不支持。 移动设备标识掩码 对设备码进行掩码,支持IMEI、MEDI、ESN。 支持配置类型。 IPv6掩码 掩码IPv6地址。 不支持。 IPv4掩码 掩码IPv4地址。
SequenceFile格式:UNCOMPRESSED、SNAPPY、GZIP、LZ4、BZIP2。 TextFile格式:UNCOMPRESSED。 OBS存储路径 指定OBS文件存储的路径,支持填写#{source_Topic_name}内置变量,可将源端不同的Topic的数据写入不同的路径下,例如:obs://bucket/dir/test
文件水印 本章主要介绍如何进行文件水印相关操作。 对结构化数据文件(csv、xml和json)注入暗水印,水印内容不可见,需要进行水印提取。 对非结构化数据文件(docx、pptx、xlsx和pdf)注入明水印,可在本地打开文件,查看水印内容。 约束与限制 结构化数据文件暗水印的
toJobConfig.orientation 否 枚举 存储方式,此参数只有当数据库类型为DWS时启用,当需要自动创建DWS数据库表,指定表的数据存储方式: ROW:表的数据以行式存储。 COLUMN:表的数据以列式存储。 toJobConfig.isCompress 否 Boolean
<源点,终点>标记一条边,不包含Label。 否:表示重复边定义包含Label,即用<源点,终点,Label>标记一条边。 日志存储路径 否 用于存储导入图过程中不符合元数据定义的点、边数据集和详细日志。 表2 高级参数 参数 是否必选 说明 节点状态轮询时间(秒) 是 设置轮询
生成异常数据:开启此项,表示异常数据将按照配置的参数存储到规定的库中。 数据库或Schema:开启“生成异常数据”时显示此项,表示存储异常数据的数据库或Schema 表前缀:开启“生成异常数据”时显示此项,表示存储异常数据的表的前缀。 表后缀:开启“生成异常数据”时显示此项,表示存储异常数据的表的后缀。 添
DES盒子在客户的虚拟机挂载的地址。 //虚拟机IP/huawei 存储管理系统 DES盒子的存储管理系统,与管理IP相关。 https://管理IP:8088/deviceManager/devicemanager/login/login.html 用户名 登录存储管理系统的用户名。 admin 密码 登录密码。
密钥加密:用户在CDM上创建连接输入的各种数据源的密钥,CDM均采用高强度加密算法保存在CDM数据库。 无中间存储:数据在迁移的过程中,CDM只处理数据映射和转换,而不会存储任何用户数据或片段。 父主题: 数据集成(CDM作业)
92-168-1-212:9083 linkConfig.obsSupport 是 Boolean 需服务端支持OBS存储。在创建Hive表时,您可以指定将表存储在OBS中。 linkConfig.runMode 是 枚举 “HIVE_3_X”版本支持该参数。支持以下模式: EM
行存储到硬盘分区上。 DWS_COLUMN:列存表。列存储是指将表按列存储到硬盘分区上。 DWS_VIEW:视图存表。视图存储是指将表按视图存储到硬盘分区上。 MRS_HIVE模型支持HIVE_TABLE和HIVE_EXTERNAL_TABLE。 MRS_SPARK模型支持HUDI_COW和HUDI_MOR。
您即将访问非华为云网站,请注意账号财产安全