检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
式”必须选择“CSV格式”。 图1 正则表达式参数 在迁移CSV格式的文件时,CDM支持使用正则表达式分隔字段,并按照解析后的结果写入目的端。正则表达式语法请参考对应的相关资料,这里举例下面几种日志文件的正则表达式的写法: Log4J日志 Log4J审计日志 Tomcat日志 Django日志
式”必须选择“CSV格式”。 图1 正则表达式参数 在迁移CSV格式的文件时,CDM支持使用正则表达式分隔字段,并按照解析后的结果写入目的端。正则表达式语法请参考对应的相关资料,这里举例下面几种日志文件的正则表达式的写法: Log4J日志 Log4J审计日志 Tomcat日志 Django日志
概率无法获得所有列),则可以单击后选择“添加新字段”来手动增加,确保导入到目的端的数据完整。 关系数据库、Hive、MRS Hudi及DLI做源端时,不支持获取样值功能。 SQLServer作为目的端数据源时,不支持timestamp类型字段的写入,需修改为其他时间类型字段写入(如datetime)。
配置空间权限集 在数据访问权限管理的实际场景下,通常会有一级部门、二级部门、三级部门等多级权限的划分。为此,数据安全组件提供了自上而下分层式的数据权限管理方式。您可以通过空间权限集配置工作空间内的最大权限,在此基础上,将其向下拆分出新的子权限集,提供进一步的细分权限管理。 空间权限集作为DataArts
单次请求行数 指定每次请求获取的行数。 1000 单次提交行数 可选参数,单击“显示高级属性”后显示。 指定每次批量提交的行数,根据数据目的端和作业数据规模的大小配置该参数。如果配置过大或过小,可能影响作业的时长。 1000 连接属性 自定义连接属性。 useCompression=true
配置权限集 在数据访问权限管理的实际场景下,通常会有一级部门、二级部门、三级部门等多级权限的划分。为此,数据安全组件提供了自上而下分层式的数据权限管理方式。您可以通过空间权限集配置工作空间内的最大权限,在此基础上,将其向下拆分出新的子权限集,提供进一步的细分权限管理。 权限集本质
概率无法获得所有列),则可以单击后选择“添加新字段”来手动增加,确保导入到目的端的数据完整。 关系数据库、Hive、MRS Hudi及DLI做源端时,不支持获取样值功能。 SQLServer作为目的端数据源时,不支持timestamp类型字段的写入,需修改为其他时间类型字段写入(如datetime)。
“文件格式”选择“CSV格式”时才有该参数。在迁移CSV文件到表时,CDM默认是全部写入,如果该参数选择“是”,CDM会将CSV文件的前N行数据作为标题行,不写入目的端的表。 否 编码类型 文件编码类型,例如:“UTF-8”或“GBK”。只有文本文件可以设置编码类型,当“文件格式”选择为“二进制格式”时,该参数值无效。
MRS Spark数据连接参数说明 表1 MRS Spark数据连接 参数 是否必选 说明 数据连接类型 是 MRS Spark连接固定选择为MapReduce服务(MRS Spark)。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。
“文件格式”选择“CSV格式”时才有该参数。在迁移CSV文件到表时,CDM默认是全部写入,如果该参数选择“是”,CDM会将CSV文件的前N行数据作为标题行,不写入目的端的表。 否 编码类型 文件编码类型,例如:“UTF-8”或“GBK”。只有文本文件可以设置编码类型,当“文件格式”选择为“二进制格式”时,该参数值无效。
数据库服务或大数据服务中,适用于数据库离线同步场景,不适用于在线实时同步。 支持整库同步的数据源(已支持的数据源即可作为源端,又可作为目的端组成不同链路)如下所示: 读取能力:DWS、RDS(MySQL)、RDS(PostgreSQL) 写入能力:DWS、DLI 父主题: 数据集成(离线作业)
Studio数据集成将数据迁移上云时,不支持自动创建目标表的功能,因此,您需要在目的端(MRS服务)先建好表。 在使用DataArts Studio进行数据集成时,关系型数据库之间的迁移和关系型数据库到Hive的迁移支持自动创建目标表。这种情况下可以不提前在目的端数据库中预先创建目标表。 执行如下SQL语句,在d
步骤3:数据开发处理 本步骤通过电影信息和评分信息的原始数据,分析评分最高的Top10电影和最活跃的Top10电影,然后通过作业定期调度执行并将结果每日导出到表中,以支撑信息分析。 创建DWS SQL脚本top_rating_movie(用于存放评分最高的Top10电影) 评分最
JavaScript 操作场景 使用JavaScript语言调用APP认证的API时,您需要先获取SDK,然后新建工程,最后参考API调用示例调用API。 本章节以IntelliJ IDEA 2018.3.5版本、搭建Node.js开发环境为例介绍。 准备环境 已获取API的域名
式必须为二进制。适用于文件到文件的原样复制。 JSON格式:以JSON格式解析源文件,一般都是用于迁移文件到数据表的场景。 说明: 当目的端为OBS数据源时,仅支持配置二进制格式。 CSV格式 JSON类型 当“文件格式”选择为“JSON格式”时,才有该参数。JSON文件中存储的
管理通知 用户可以通过通知管理功能配置作业通知任务,当作业运行异常或成功时向相关人员发送通知。 配置通知 为作业配置通知前: 已开通消息通知服务并配置主题。 作业已提交,且不是“未启动”状态。 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。
权限治理使用流程 统一权限治理提供了对于MRS、DWS、DLI数据湖仓中的库、表、字段的访问权限配置的核心能力,包含如下特性: 集中式访问控制 融合了不同的大数据服务进行统一权限管理,如MRS、DWS、DLI等,给用户带来了统一的权限配置入口,极大的提高了易用性和可维护性。 多级权限配置模型
配置入口API算子 入口API算子是API工作流的入口,工作流发布后可通过调用入口API来调用API工作流。在入口API算子内需定义API工作流的名称、URL、参数协议、请求方式、审核人、安全认证以及请求参数。 表1 入口API算子 参数 说明 API名称 入口API名称即API工作流名称。
管理动态脱敏策略 在数据安全组件创建动态脱敏策略后,系统会将动态脱敏策略同步到数据源服务,由数据源对数据列按照指定规则进行动态脱敏。当策略中指定的用户和用户组在访问敏感数据时,系统会直接返回由数据源动态脱敏后的数据,保护敏感数据不被泄露。 值得注意的是,动态脱敏策略为DataArts
启动时间-偏移量”。 age > 18 and age <= 60 Date类型值是否保留一位进度 Date类型值是否保留一位进度。 目的端为Hudi、Hive时显示该参数。 否 抽取分片字段 “按表分区抽取”选择“否”时,显示该参数,表示抽取数据时使用该字段进行数据切分,CDM