管理中心的环境隔离,当前支持配置DLI和DB配置的开发、生产环境隔离。 配置环境隔离后,数据开发时脚本/作业中的开发环境数据连接通过发布流程后,将自动切换对应生产环境的数据连接。 前提条件 创建DLI环境隔离前,应已创建DLI的数据连接。 (可选)创建DLI环境隔离 仅Serverless服务(当前即DLI)需要配置环境隔离。
Python安装完成后,在命令行中使用pip安装“requests”库。 pip install requests 如果pip安装requests遇到证书错误,请下载并使用Python执行此文件,升级pip,然后再执行以上命令安装。 获取并安装IntelliJ IDEA,如果未安装,请至IntelliJ
自动建表原理介绍 CDM将根据源端的字段类型进行默认规则转换成目的端字段类型,并在目的端建数据表。 自动建表时的字段类型映射 CDM在数据仓库服务(Data Warehouse Service,简称DWS)中自动建表时,DWS的表与源表的字段类型映射关系如图1所示。例如使用CDM
Spark、MRS MapReduce和DLI Flink Job。 创建资源后,配置资源关联的文件。在作业中可以直接引用资源。当资源文件变更,只需要修改资源引用的位置即可,不需要修改作业配置。关于资源的使用样例请参见开发一个DLI Spark作业。 约束限制 该功能依赖于OBS服务或MRS
DWS/Hive/HBase数据连接无法获取数据库或表的信息怎么办? 可能原因 可能是由于CDM集群被关闭或者并发冲突导致,您可以通过切换agent代理来临时规避此问题。 解决方案 建议您通过以下措施解决此问题: 检查CDM集群是否被关机。 是,将CDM集群开机后,确认管理中心的数据连接恢复正常。
不会同步FI Manager上的用户/用户组/角色,因此需要切换用户同步策略。操作步骤如下所示: MRS安全集群Ranger组件默认同步LDAP用户,默认情况下无需额外操作。如果默认配置被修改,也可以参考本章节切换用户同步策略。 使用admin账户登录MRS服务的Manager页面。
Studio基于管理中心的数据连接对数据湖底座进行数据开发、治理、服务和运营。 配置开发和生产环境的数据连接后,数据开发时脚本/作业中的开发环境数据连接通过发布流程后,将自动切换对应生产环境的数据连接。 约束限制 RDS数据连接方式依赖于OBS。如果没有与DataArts Studio同区域的OBS,则不支持RDS数据连接。
权限回收 在待变更有效期权限的操作栏选择“变更有效期”,或在选择待变更有效期权限后选择列表上方的“批量变更有效期”,在弹出的窗口中选择权限的有效期。选择权限有效期支持选择为固定时长(从申请之日开始计算),也可以自定义配置到期时间(到期时间精确为当天晚上24点)。 图5 变更有效期 点击“确定”,完成权限有效期变更。
写入一组分区。 - 高级属 是否将null转换为“null” 配置null值的转换类型。 TO_NULL:null值不处理。 TO_EMPTY_STRRING:将null值转换为空字符串。 TO_NULL_STRING:将null值转换为"null"字符串。 TO_NULL 换行符处理方
在需要升级版本模式的实例卡片上,找到“模式切换”按钮并单击进入模式切换界面。 图2 模式切换按钮 在模式切换界面,您可以看到当前旧版本模式切换前后的对比和询价情况。如果您确认切换,单击右下方“切换”按钮,随系统提示进行升级即可。 图3 模式切换 版本模式升级完成需要约5分钟,升级过程
字段映射关系:支持批量转换,添加字段,行移动等功能。 敏感信息检测:检测来源端数据是否包含敏感信息,存在敏感信息时无法进行数据迁移,需根据界面提示修改。 批量转换器:批量转换源字段名。 勾选需要转换的字段名,单击“批量转换器”,在弹出的转换器列表对话框中根据提示新建转换器。 批量移除字
敏感数据发现任务运行后,为使该识别规则在静态脱敏任务中生效,必须在“敏感数据分布>手工修正”页面对任务中的识别规则进行“确认”,使规则状态变更为“有效”。 前提条件 已完成敏感数据规则组定义,请参考定义识别规则分组。 已在管理中心创建数据仓库服务(DWS)、数据湖探索(DLI)、MapReduce服务(MRS
查看敏感数据发现结果:敏感数据识别任务完成后,需要查看任务的运行结果。 手工修正:发现敏感数据后,您必须根据具体情况进行手工修正,通过对任务中的识别规则进行“确认”,使规则状态变更为“有效”,才能使该识别规则在静态脱敏任务中生效。 如果在敏感数据发现任务中勾选了“手动同步数据识别结果”,则还需要手动单击“数据同步”,
提交版本 提交版本涉及到数据开发的版本管理功能。 版本管理:用于追踪脚本/作业的变更情况,支持版本对比和回滚。系统最多保留最近100条的版本记录,更早的版本记录会被删除。另外,版本管理还可用于区分开发态和生产态,这两种状态隔离,互不影响。 开发态:未提交版本的脚本/作业为开发态,
管理密钥(高级特性) 管理密钥用于存储密钥的信息。 密钥可用于如下场景: 数据集成(离线作业)进行表数据迁移时,在“敏感数据检测”发现敏感数据后,如果需要通过转换器进行加密,则要从数据安全获取密钥信息,详见配置离线处理集成作业。 在数据安全进行文件加密时,需要获取密钥信息,详见文件加密(高级特性)。
操作场景 数据服务专享版支持将API按照不同版本进行管理,可根据不同的API版本,分别进行调测、发布。 您也可以根据API版本追踪API的变更情况,支持版本对比。系统最多保留最近10条的版本记录,更早的版本记录会被删除。 前提条件 仅专享版支持API版本管理。 API更新版本是通
提交版本 提交版本涉及到数据开发的版本管理功能。 版本管理:用于追踪脚本/作业的变更情况,支持版本对比和回滚。系统最多保留最近100条的版本记录,更早的版本记录会被删除。另外,版本管理还可用于区分开发态和生产态,这两种状态隔离,互不影响。 开发态:未提交版本的脚本/作业为开发态,
开发。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能;可以将SQL语句转换为MapReduce任务进行运行。 环境准备 已开通MapReduce服务MRS,并创建MRS集群,为Hive SQL提供运行环境。 MRS集群创建时,组件要包含Hive。
说明: CDM集群和OBS桶不在同一个Region时,不支持跨Region访问OBS桶。 作业运行中禁止修改密码或者更换用户。在作业运行过程中修改密码或者更换用户,密码不会立即生效且作业会运行失败。 obs.myregion.mycloud.com 端口 数据传输协议端口,https是443,http是80。
约束限制 当所连接的数据源发生变化(如MRS集群扩容等情况)时,您需要重新编辑并保存该连接。 作业运行中禁止修改密码或者更换用户。在作业运行过程中修改密码或者更换用户,密码不会立即生效且作业会运行失败。 前提条件 已具备CDM集群。 CDM集群与目标数据源可以正常通信。 如果目标数
您即将访问非华为云网站,请注意账号财产安全