-
OCR - 数据治理中心 DataArts Studio
类特殊字符,长度为1~128个字符。 图片路径 是 需要识别的图片在OBS上的路径。 识别类型 是 可识别的图片类型, 当前仅支持通用文字识别。可支持扫描文件、电子文档、书籍、票据和表单等多种场景的文字识别。 识别结果存储目录 是 指定识别结果存储的OBS目录。 表2 高级参数 参数
-
查看表 - 数据治理中心 DataArts Studio
关系模型页面默认显示为列表视图,单击列表右上方的“模型视图”按钮,切换为模型视图,如下图所示。单击“列表视图”则可以重新切换回列表视图。 图1 模型视图 在模型视图中支持以下功能: 双击表名,可显示表的详情信息。 单击左上角的“导出图片”按钮,可以将模型视图导出成图片。 在右上角的搜索框
-
定义识别规则 - 数据治理中心 DataArts Studio
相关操作 编辑识别规则:在识别规则页面,单击对应识别规则操作栏中的“编辑”,即可修改识别规则关联的密级、分类和描述。如果为自定义规则,还支持修改识别规则和正则表达式。 编辑识别规则状态:新增的识别规则默认为启用状态。当识别规则为关闭状态时,表示该规则将不可被添加到识别规则组。 需要
-
新建码表 - 数据治理中心 DataArts Studio
码表名称。只能包含中文、英文字母、数字、左右括号、中划线和下划线,且以中文或英文字母开头。 *表编码 码表的英文名称。只能包含英文字母、数字、下划线,且以英文字母开头。 表描述 码表的描述信息。支持的长度0~600个字符。 *字段名称 字段名称。只能包含中文、英文字母、数字、左右括号、
-
逻辑模型设计 - 数据治理中心 DataArts Studio
不同层级,规则为只能包含英文字母、中文、数字、下划线,且以英文字母或中文开头。 图2 新建分层治理模型 图3 新建逻辑模型 在弹出窗口中配置如下参数,然后单击“确定”。 图4 配置逻辑模型 表1 参数描述 参数名称 说明 *模型名称 只能包含中文、英文字母、数字和下划线。 前缀校验
-
导入导出 - 数据治理中心 DataArts Studio
*属性名称(CHN) 表中的属性字段的中文名称。只能包含中文、英文字母、数字、左右括号、中划线和下划线,且以中文或英文字母开头。 *属性名称(ENG) 表中的属性字段的英文名称。只能包含英文字母、数字和下划线,且以英文字母开头。 属性编码 表中的属性字段的编码,系统自动生成。 属性别名
-
字段转换器配置指导 - 数据治理中心 DataArts Studio
后还会进行运算,将'-'识别为减号,导致结果为1991,须使用'${dateformat(yyyy-MM-dd)}',即'2017-10-16'。 图2 使用''包围表达式 方式二:源字段中新增自定义字段,在样值中填写时间宏变量,重新进行字段映射处理。 图3 源字段新增自定义字段
-
字段转换器配置指导 - 数据治理中心 DataArts Studio
后还会进行运算,将'-'识别为减号,导致结果为1991,须使用'${dateformat(yyyy-MM-dd)}',即'2017-10-16'。 图2 使用''包围表达式 方式二:源字段中新增自定义字段,在样值中填写时间宏变量,重新进行字段映射处理。 图3 源字段新增自定义字段
-
标签管理 - 数据治理中心 DataArts Studio
Studio控制台首页,选择实例,单击“进入控制台”,选择对应工作空间的“数据目录”模块,进入数据目录页面。 图1 选择数据目录 选择“数据地图 > 标签管理”。 单击“新建”,新建标签。 标签名称:只能包含中文、英文字母、数字和下划线,不能以下划线开头。且长度不能超过100个字符。 描述:标签的描述信息,长度不能超过255个字符。
-
发现敏感数据 - 数据治理中心 DataArts Studio
敏感数据识别过程中,如果规则为内容识别类型(即内置规则和内容识别类型的自定义规则),则仅当数据表中某字段匹配规则的记录数/总记录数>=指定阈值(默认80%)时,才认为该字段为敏感字段,并为之匹配相应密级和分类。 敏感数据识别过程中,当某个字段同时匹配到识别规则组中的多个识别规则时,
-
新建时间限定 - 数据治理中心 DataArts Studio
在新建时间限定页面,参考表1配置参数,然后单击“发布”。 图3 时间限定 表1 新建时间限定参数说明 参数名称 说明 *限定名称 只能包含中文、英文字母、数字和下划线,且必须以中文或英文字母开头。 *限定英文名称 只能包含英文字母、数字和下划线。 *时间配置 可选择“按年”、“按月”
-
什么是数据治理中心DataArts Studio - 数据治理中心 DataArts Studio
企业快速构建从数据接入到数据分析的端到端智能数据系统,消除数据孤岛,统一数据标准,加快数据变现,实现数字化转型。 产品架构如图1所示。 图1 产品架构 如图所示,DataArts Studio基于数据湖底座,提供数据集成、开发、治理等能力。DataArts Studio支持对接所
-
节点参考 - 数据治理中心 DataArts Studio
MapReduce CSS Shell RDS SQL ETL Job Python ModelArts Train Http Trigger OCR Create OBS Delete OBS OBS Manager Open/Close Resource Data Quality Monitor
-
配置默认项 - 数据治理中心 DataArts Studio
系统默认脚本变量格式为${}。 ${}格式:识别脚本中${}格式的定义,解析其中的字段为变量名,如${xxx},识别为变量名:xxx。 ${dlf.}格式:识别脚本中${dlf.}格式的定义,解析其中的dlf.字段为变量名,其他${}格式定义不再识别为变量,如${dlf.xxx},识别为变量名:dlf.xxx。
-
物理模型设计 - 数据治理中心 DataArts Studio
不同层级,规则为只能包含英文字母、中文、数字、下划线,且以英文字母或中文开头。 图2 新建分层治理模型 图3 新建物理模型 在弹出窗口中配置如下参数,然后单击“确定”。 图4 配置物理模型 表1 参数描述 参数名称 说明 *模型名称 只能包含中文、英文字母、数字和下划线。 *数据连接类型
-
定义识别规则分组 - 数据治理中心 DataArts Studio
定义识别规则分组 定义敏感数据识别规则组,可以将多个零散的规则组合成为一个有业务逻辑的规则组,该操作是用户后续进行敏感数据发现任务操作的前提 。 前提条件 识别规则创建完成,请参考定义识别规则。 约束与限制 敏感数据识别过程中,当某个字段同时匹配到识别规则组中的多个识别规则时,此
-
溯源数据水印 - 数据治理中心 DataArts Studio
作空间的“数据安全”模块,进入数据安全页面。 图1 选择数据安全 单击左侧导航树中的“数据水印溯源”,进入数据水印溯源页面,在页面上方单击“新建”。 图2 创建数据水印溯源任务 在弹出的创建任务页面输入信息,参数配置请参考表1。 图3 创建数据水印溯源任务 表1 水印溯源任务参数描述
-
定义数据密级 - 数据治理中心 DataArts Studio
进入数据安全页面。 图1 选择数据安全 单击数据安全左侧导航树中的“数据密级”,进入数据密级页面。 图2 进入数据密级 单击“新建”,参考表1输入数据密级信息。 图3 新建数据密级 表1 参数设置 参数名 参数设置 *密级名称 密级名称只能包含中文、英文字母、数字和下划线,创建完成后不支持“编辑”操作。
-
管理脱敏策略 - 数据治理中心 DataArts Studio
描述 为更好地识别脱敏策略,此处加以描述信息,长度不能超过255个字符。 *状态 开启状态表示该策略可供使用。关闭状态表示该策略不能被使用。 *识别规则和脱敏算法 选择敏感数据的识别规则,以及对应的脱敏算法。 *识别规则:选择已经定义的数据识别规则,详情请参考定义识别规则。 规则描述:增加相应规则描述。
-
数据分类 - 数据治理中心 DataArts Studio
分类类型选择“自定义”,呈现此参数,支持正则表达式。 正则表达式 内容识别:提供的数据识别方式之一,自定义正则表达式。 列名识别:提供字段名精确匹配和模糊匹配方式,支持多个字段匹配。 描述 对当前规则进行简单描述。 新建分组 在DataArts Studio控制台首页,选择实例,单击“进入控制台”,选择对应工作