检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。 说明: 标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头,且长度不能超过100个字符。 适用组件 是 选择此连接适用的组件。勾选组件后,才能在相应组件内使用本连接。
创建一个数据开发模块空作业,作业名称为“job_MRS_Spark_Python”。 图2 新建作业 进入到作业开发页面,拖动“MRS Spark Python”节点到画布中并单击,配置节点的属性。 图3 配置MRS Spark Python节点属性 参数设置说明: --master yarn --deploy-mode
仅支持2.00.050.00.1592305219版本。 仅支持Generic Edition。 不支持BW/4 FOR HANA。 仅支持英文字母的数据库名、表名与列名,不支持存在空格、符号等特殊字符。 仅支持日期、数字、布尔、字符(除SHORTTEXT) 类型的数据类型,不支持二进制类型等其他数据类型。
该功能。 说明: 如果RDS上的“local_infile”参数组不可编辑,则说明是默认参数组,需要先创建一个新的参数组,再修改该参数值,并应用到RDS的MySQL实例上,具体操作请参见《关系型数据库用户指南》。 是 使用Agent Agent功能待下线,无需配置。 - Agent
表示不允许脏数据存在。如果同步过程中产生脏数据,任务将失败退出。 是:允许脏数据,即任务产生脏数据时不影响任务执行。 允许脏数据并设置其阈值时: 若产生的脏数据在阈值范围内,同步任务将忽略脏数据(即不会写入目标端),并正常执行。 若产生的脏数据超出阈值范围,同步任务将失败退出。 说明: 脏数据认定标准:脏数据是对
表示不允许脏数据存在。如果同步过程中产生脏数据,任务将失败退出。 是:允许脏数据,即任务产生脏数据时不影响任务执行。 允许脏数据并设置其阈值时: 若产生的脏数据在阈值范围内,同步任务将忽略脏数据(即不会写入目标端),并正常执行。 若产生的脏数据超出阈值范围,同步任务将失败退出。 说明: 脏数据认定标准:脏数据是对
表示不允许脏数据存在。如果同步过程中产生脏数据,任务将失败退出。 是:允许脏数据,即任务产生脏数据时不影响任务执行。 允许脏数据并设置其阈值时: 若产生的脏数据在阈值范围内,同步任务将忽略脏数据(即不会写入目标端),并正常执行。 若产生的脏数据超出阈值范围,同步任务将失败退出。 说明: 脏数据认定标准:脏数据是对
加附加字段,并通过“自动建表”能力在目的端DWS数据库中建出相应的表。 图7 源表与目标表映射 附加字段编辑:单击操作列“附加字段编辑”可为目的端的DWS表中增加自定义字段,同时附加字段也会额外加入到DWS表的建表中。用户可以在已有的源表字段基础上添加多个附加字段,并自定义字段名、选择字段类型、填写字段值。
MD5校验一致性 支持使用MD5校验,检查端到端文件的一致性,并输出校验结果。 脏数据归档 支持将迁移过程中处理失败的、被清洗过滤掉的、不符合字段转换或者不符合清洗规则的数据单独归档到脏数据日志中,便于用户查看。并支持设置脏数据比例阈值,来决定任务是否成功。 CDM迁移原理 用
配置数据入湖检测规则(高级特性) 数据入湖检测规则可用于如下场景的实时敏感信息检测: 数据集成(离线作业)进行表数据迁移时的“敏感数据检测”,详见配置离线处理集成作业。 数据开发导入数据文件时的敏感数据自动实时检测。 数据安全敏感数据发现中的文件敏感数据实时检测,详见检测文件敏感数据(高级特性)。
名称:DataArtsIamUserGroup_IAM 策略配置方式:单击“JSON视图”,切换到JSON视图。 策略内容:在JSON视图中,输入如下JSON代码,并单击“确认”。 { "Version": "1.1", "Statement": [ {
空间为必填参数,否则会报错。 表3 参数说明 参数名 是否必选 参数类型 说明 name 是 String 作业名称,只能包含六种字符:英文字母、数字、中文、中划线、下划线和点号,且长度小于等于128个字符。作业名称不能重复。 nodes 是 List<Node> 节点定义,参考表4。
图4 在目录树上查看作业依赖关系图 系统自动展示该目录下作业的所有依赖关系,您可以查看作业之间的相互依赖关系。系统支持通过作业名称进行查找并高亮显示。 在依赖关系图中单击某节点,其上游作业会被标记为蓝色,下游作业会被标记为黄色。 鼠标按住可自由拖拽以查看完整关系图。 鼠标滚轮可缩放视图。
空间为必填参数,否则会报错。 表3 参数说明 参数名 是否必选 参数类型 说明 name 是 String 作业名称,只能包含六种字符:英文字母、数字、中文、中划线、下划线和点号,且长度小于等于128个字符。作业名称不能重复。 nodes 是 List<Node> 节点定义,参考表4。
参数,否则会报错。 响应参数 表2 参数说明 参数名 是否必选 参数类型 说明 name 是 String 作业名称,只能包含六种字符:英文字母、数字、中文、中划线、下划线和点号,且长度小于等于128个字符。作业名称不能重复。 nodes 是 List<Node> 节点定义,参考表3
Content-Type 是 String 消息体的类型(格式),有Body体的情况下必选,没有Body体无需填写。如果请求消息体中含有中文字符,则需要通过charset=utf8指定中文字符集,例如取值为:application/json;charset=utf8。 响应参数 状态码: 200 表3 响应Body参数
在左侧导航栏中进入应用管理,找到API授权的应用,并单击应用名称查看APP的完整信息,保存AppKey和AppSecret。 图1 保存AppKey和AppSecret信息 获取待调用API的调用地址、请求方法和入参信息。 在左侧导航栏中进入API管理,找到待调用的API,并单击API名称查看API的完
在数据开发组件,进入“数据开发 > 作业开发”页签,单击需要手动配置血缘关系的作业名,打开作业画布。 单击作业画布中的MRS Spark节点,并切换到“血缘关系”页签。 图2 进入血缘关系页签 在MRS Spark节点的“血缘关系”页签,手动配置血缘的输入表。假如MRS Spark作
将基础数据插入维度表中。 将DWI层的标准出行数据导入DWR层的事实表中。 数据汇总,通过Hive SQL将出租车行程订单事实表中的数据进行汇总统计并写入汇总表。 运维调度 数据管理 数据管理功能可以协助用户快速建立数据模型,为后续的脚本和作业开发提供数据实体。主要包含建立数据连接、新建数据库、新建数据表等操作。
会自动下载客户端到MRS主节点对应路径下,在拷贝客户端软件包到待安装客户端节点的指定目录。以待安装客户端的用户登录将要安装客户端的节点,并解压客户端软件包后,执行install命令进行安装,详细内容请参考安装客户端(3.x及之后版本)。 MRS 3.x之前版本集群在集群创建后,