检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
归档存储的桶不支持设置Content-Type属性,所以如果开启了该参数,目的端选择写入的桶时,必须选择非归档存储的桶。 否 换行符 文件中的换行符,默认自动识别“\n”、“\r”或“\r\n”。“文件格式”为“二进制格式”时该参数值无效。 \n 字段分隔符 文件中的字段分隔符。“文件格式”为“二进制格式”时该参数值无效。
数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。 说明: 标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头,且长度不能超过100个字符。 适用组件 是 选择此连接适用的组件。勾选组件后,才能在相应组件内使用本连接。
Studio部署时通过物理区域划分,为项目级服务。授权时,“授权范围方案”如果选择“所有资源”,则该权限在所有区域项目中都生效;如果选择“指定区域项目资源”,则该权限仅对此项目生效。IAM用户授权完成后,访问DataArts Studio时,需要先切换至授权区域。 创建用户并加入用户组。 在
MD5校验一致性 支持使用MD5校验,检查端到端文件的一致性,并输出校验结果。 脏数据归档 支持将迁移过程中处理失败的、被清洗过滤掉的、不符合字段转换或者不符合清洗规则的数据自动归档到脏数据日志中,方便用户分析异常数据。并支持设置脏数据比例阈值,来决定任务是否成功。 数据架构:数据建模可视化、自动化、智能化
使用新建的用户登录Manager页面,并更新初始密码,否则会导致创建连接失败。 同步IAM用户。 登录MRS管理控制台。 选择“集群列表 > 现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。 在“概览”页签的基本信息区域,单击“IAM用户同步”右侧的“同步”进行IAM用户同步。
Nonsecurity 项目ID CloudTable服务所在区域的项目ID。 项目ID表示租户的资源,账号ID对应当前账号,IAM用户ID对应当前用户。用户可在对应页面下查看不同Region对应的项目ID、账号ID和用户ID。 注册并登录管理控制台。 在用户名的下拉列表中单击“我的凭证”。
使用新建的用户登录Manager页面,并更新初始密码,否则会导致创建连接失败。 同步IAM用户。 登录MRS管理控制台。 选择“集群列表 > 现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。 在“概览”页签的基本信息区域,单击“IAM用户同步”右侧的“同步”进行IAM用户同步。
系统会以同一模式从该数组中提取数据。多层嵌套的JSON节点以字符“.”分隔。 data.list 高级属性 换行符 文件中的换行符,默认自动识别“\n”、“\r”或“\r\n”。当“文件格式”选择为“CSV格式”时,才有该参数。 \n 字段分隔符 文件中的字段分隔符,使用Tab键
字段。 说明: 自定义异常表包含四种方式:添加表前后缀、添加表前缀、添加表后缀、选择已有表。表前缀以英文字母和下划线开头,且只能包含英文字母、数字和下划线。表后缀只能包含英文字母、数字和下划线。 当单击“选择已有表”时,需要选择表名,数据库和schema系统默认,如果未选择表名,则显示数据库名
输入Flink作业名称。 系统支持Flink作业名称按照工作空间-作业名称格式自动填入。 作业名称只能包含英文字母、数字、中划线和下划线,且长度为1~64个字符,不能包含中文字符。 MRS集群名 是 选择MRS集群名称。 说明: 单任务Flink Jar目前支持的MRS集群版本是MRS
新建集成作业(方式二) 在弹出的“新建集成作业”页面,配置如表1所示的参数。 表1 作业参数 参数 说明 作业名称 自定义作业的名称,只能包含英文字母、数字、中划线和下划线。 作业类型 选择作业的类型,须选择实时处理。 离线处理:对已收集的大量数据进行批量处理和分析,这些任务通常是在计
、事实表、汇总表等资源。 信息架构 流程设计 流程架构基于价值流产生,属于业务架构的流程处理模块,指导并规范BT&IT需求的管理,确保业务需求受理、分析、交付等过程的高效运作;并聚焦高价值需求,实现业务价值最大化,支撑业务运作及目标的达成。 流程设计 主题设计 主题设计是通过分层
BZIP2:压缩为BZIP2格式。 LZ4:压缩为LZ4格式。 SNAPPY:压缩为SNAPPY格式。 SNAPPY 换行符 文件中的换行符,默认自动识别“\n”、“\r”或“\r\n”。“文件格式”为“二进制格式”时该参数值无效。 \n 字段分隔符 文件中的字段分隔符。“文件格式”为“二进制格式”时该参数值无效。
数据的大小。 目的端优化 Hudi写入优化。 Hudi表写入性能慢,优先审视表设计是否合理,建议使用Hudi Bucket索引的MOR表,并根据实际数据量配置Bucket桶数,以达到Migration写入性能最佳。 使用Bucket索引:通过在“Hudi表属性全局配置”或在映射后的单表“表属性编辑”中配置index
配置实时集成作业 完成数据连接、网络、资源组等准备工作的配置后,您可创建并配置实时集成作业,将多种输入及输出数据源搭配组成同步链路,进行数据的实时同步。 前提条件 已开通华为账号,并授权使用实时数据集成服务,详情请参考注册华为账号并开通华为云和授权使用实时数据集成。 已购买资源组,详情请参见购买数据集成资源组。
图1 进入样本库管理页面 在样本库管理页面,单击目录上的,然后在光标移动到目录上,单击后,输入分类名用于新增样本库分类。分类名称只能包含英文字母、数字、“_”,且长度不超过64个字符,超出部分将被截断。样本库分类最多支持10层(不包含“全部”层)。 图2 新增样本库分类 样本库分
输入Flink作业名称。 系统支持Flink作业名称按照工作空间-作业名称格式自动填入。 作业名称只能包含英文字母、数字、中划线和下划线,且长度为1~64个字符,不能包含中文字符。 MRS集群名 是 选择MRS集群名称。 说明: 单任务Flink Jar目前支持的MRS集群版本是MRS
流程设计 流程设计基于价值流产生,属于指标管理的流程处理模块,指导并规范需求的管理,确保业务需求受理、分析、交付等过程的高效运作;并聚焦高价值需求,实现业务价值最大化,支撑业务运作及目标的达成。 数据指标流程设计首先需要基于明确的业务诉求,在明确业务需要统计的指标后,制定指标对应的数据信息。
单击“新建”,在弹出的对话框中,参见表2配置相关参数,新建规则。 表2 配置业务规则参数 参数名 说明 规则名称 业务规则的名称,只能包含中文、英文字母、数字、“_”,且长度为1~64个字符。 描述 为更好的识别业务规则,此处加以描述信息。描述信息长度不能超过4096个字符。 所属目录
用户可参考表1,表2和表3配置OBS Manager节点的参数。 表1 属性参数 参数 是否必选 说明 节点名称 是 节点名称,可以包含中文、英文字母、数字、“_”、“-”、“/”、“<”、“>”等各类特殊字符,长度为1~128个字符。 操作类型 是 通过节点可以执行的操作: 移动文件:将源文件或目录,移动到新目录中。