OCR 功能 OCR节点支持识别图片上的文字信息, 识别结果将存储到用户指定的OBS目录下。 OCR节点仅支持在华北-北京四使用。 参数 用户可参考表1和表2配置OCR节点的参数。 表1 属性参数 参数 是否必选 说明 节点名称 是 节点名称,可以包含中文、英文字母、数字、“_”
除了列内容识别外还支持列名、列注释、表名、表注释、数据库名等,能够满足您的各类识别需求。 在新版本模式下仅当使用企业版时,才支持配置组合规则。旧版本模式使用基础版及更高版本时即可支持。 值得注意的是,数据密级、数据分类和识别规则,均为DataArts Studio实例级别配置,各
定义识别规则分组 定义敏感数据识别规则组,可以将多个零散的规则组合成为一个有业务逻辑的规则组,该操作是用户后续进行敏感数据发现任务操作的前提 。 前提条件 识别规则创建完成,请参考定义识别规则(部分高级特性)。 约束与限制 敏感数据识别过程中,当某个字段同时匹配到识别规则组中的多
新建数据分类(待下线) 本章主要介绍如何创建数据分类规则。 在已上线数据安全组件的区域,数据目录中的数据安全功能已由数据安全组件提供,不再作为数据目录组件能力。当前数据目录中的数据安全功能仅限于存量用户使用。 数据安全组件当前在华东-上海一、华东-上海二、华北-乌兰察布一、华北-
等级越高,水印信息编码位数越长,溯源时误码率越低。需注意高纠错等级需要更大的数据量来保证信息的嵌入完整性。默认为1。 *水印版本 V1版本:嵌入水印时依赖主键列,嵌入速度快。若主键遭受强攻击,溯源一定概率失败。 V2版本:嵌入水印时不依赖主键,只与嵌入列相关,嵌入速度慢,鲁棒性增强。 图3 基本信息配置 单击“下一
管理资产标签 为方便管理技术资产,可以从业务角度定义标签,并与技术资产关联,比如标识某个表是SDI贴源数据层、DWI数据整合层等。 标签是用来标识技术资产的业务含义,是相关性很强的关键字,可以帮助您对技术资产进行分类和描述,以便于检索。 标签和分类 “标签”是相关性很强的关键字,
Studio,仅能选择按照新版本模式的版本进行购买,具体包含免费版、初级版、专家版和企业版版本。 对于切换前已购买的DataArts Studio,实例依然为旧版本模式的版本,具体包含初级版、基础版、高级版、专业版和企业版版本。 新版本模式相对于旧版本模式,价格门槛更低、资源拓展更加
字段转换器配置指导 操作场景 作业参数配置完成后,将进行字段映射的配置,您可以单击操作列下创建字段转换器。 如果是文件类数据源(FTP/SFTP/HDFS/OBS)之间相互迁移数据,且源端“文件格式”配置为“二进制格式”(即不解析文件内容直接传输),则没有字段映射这一步骤。 在创
检测文件敏感数据(高级特性) 通过创建文件敏感数据检测任务,可以快速识别文件中的敏感信息。 在新版本模式下仅当使用企业版时,才支持检测文件敏感数据功能,旧版本模式使用基础版及更高版本时即可支持。文件敏感数据当前在北京四、上海一内测(其他region后续会逐步放开,敬请期待!),但需申请
字段转换器配置指导 操作场景 作业参数配置完成后,将进行字段映射的配置,您可以单击操作列下创建字段转换器。 如果是文件类数据源(FTP/SFTP/HDFS/OBS)之间相互迁移数据,且源端“文件格式”配置为“二进制格式”(即不解析文件内容直接传输),则没有字段映射这一步骤。 在创
配置推荐识别(高级特性) 推荐识别主要用于直接检测数据源表中的敏感数据,支持入湖检测规则和AI推荐识别两种方式。 在新版本模式下仅当使用企业版时,才支持推荐识别功能,旧版本模式使用基础版及更高版本时即可支持。推荐识别功能当前在北京四、上海一内测(其他region后续会逐步放开,敬请期待!),但需申请白名
单击表名称进入后,选择“关系图”页签,查看模型视图。 图1 模型视图 在模型视图中支持以下功能: 双击表名,可显示表的详情信息。 单击左上角的“导出图片”按钮,可以将模型视图导出成图片。 在右上角的搜索框中输入表名,可以快速找到的所要查看的表。 功能依次为放大、缩小、全屏、物理模型/逻辑模型切换、刷新、显示画布。
逻辑模型 逻辑模型是利用实体及相互之间的关系,准确描述业务规则的实体关系图。逻辑模型要保证业务所需数据结构的正确性及一致性,使用一系列标准的规则将各种对象的特征体现出来,并对各实体之间的关系进行准确定义。 同时,逻辑模型也为构建物理模型提供了有力的参考依据,并支持转换为物理模型,
CSS Shell RDS SQL ETL Job Python DORIS SQL GBase SQL ModelArts Train OCR Create OBS Delete OBS OBS Manager Open/Close Resource Data Quality Monitor
与text类型作用相同,为长度可变的非Unicode数据。 不支持(String) 不支持(String) 不支持 image 长度可变的二进制数据,用于存储照片、目录图片或者图画。 不支持(String) 不支持(String) 不支持 binary 长度为n个字节的固定长度二进制数据,其中n是从1~8000的值。
溯源数据水印 本章主要介绍如何利用泄露的数据文件进行水印溯源。 数据溯源主要用来对泄露数据进行快速溯源。通过对泄露数据文件的完整度和水印信息痕迹来检测水印是否存在,快速识别水印标记信息,从而对安全事件精准定位追责。 前提条件 用户获得泄露的数据文件后,生成字符分隔值(Comma-Separated
数仓规划 数仓规划,目前系统默认的数仓分层包含SDI、DWI、DWR、DM(Data Mart)等4层,支持用户自定义数仓分层。数仓规划对数仓分层以及数仓模型进行统一管理。 关系建模下包含SDI层和DWI层两层模型,物理模型归属于两层模型之一。 SDI:Source Data I
数据安全敏感数据发现中基于入湖检测规则的推荐识别,详见基于入湖检测规则识别敏感信息。 在新版本模式下仅当使用企业版时,才支持配置数据入湖检测规则。旧版本模式使用基础版及更高版本时即可支持。 前提条件 识别规则创建完成,请参考定义识别规则(部分高级特性)。 约束与限制 数据集成(离
管理脱敏策略 在实际生产中,会存在数据分析部门需要对数据进行数据分析,数据中存在敏感信息,但又不得不开放权限。此时就可以建立脱敏策略并对敏感数据进行脱敏,在满足业务需要的同时保证了数据的真实性不被泄露。 本章主要介绍如何创建脱敏策略。此处的脱敏策略仅适用于静态脱敏任务。 前提条件
线处理集成作业。 在数据安全进行文件加密时,需要获取密钥信息,详见文件加密(高级特性)。 在新版本模式下仅当使用企业版时,才支持管理密钥功能,旧版本模式使用基础版及更高版本时即可支持。管理密钥功能当前在北京四、上海一内测(其他region后续会逐步放开,敬请期待!),但需申请白名
您即将访问非华为云网站,请注意账号财产安全