检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hive输出 概述 “Hive输出”算子,用于配置已生成的字段输出到Hive表的列。 输入与输出 输入:需要输出的字段 输出:Hive表 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 Hive文件存储格式 配置Hive表文件的存储格式(目前支持四种格式:CSV、ORC、RC和PARQUET)。
Spark输出 概述 “Spark输出”算子,用于配置已生成的字段输出到SparkSQL表的列。 输入与输出 输入:需要输出的字段 输出:SparkSQL表 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 Spark文件存储格式 配置SparkSQL表文件的存储
更新MRS集群节点omm用户ssh密钥 操作场景 在安装集群时,系统将自动为omm用户生成ssh认证私钥和公钥,用来建立节点间的互信。在集群安装成功后,如果原始私钥不慎意外泄露或者需要使用新的密钥时,系统管理员可以通过以下操作手动更改密钥值。 该章节仅适用于MRS 3.x及之后版本。
CSV文件输入 概述 “CSV文件输入”算子,用于导入所有能用文本编辑器打开的文件。 输入与输出 输入:文本文件。 输出:多个字段。 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 分隔符 CSV文件的列分隔符,用于分隔每行的数据。 string 是 , 换行符
算子数据处理规则 在Loader导入或导出数据的任务中,每个算子对于原始数据中NULL值、空字符串定义了不同的处理规则;在算子中无法正确处理的数据,将成为脏数据,无法导入或导出。 在转换步骤中,算子数据处理规则请参见下表。 表1 数据处理规则一览表 转换步骤 规则描述 CSV文件输入
Loader算子数据处理规则 在Loader导入或导出数据的任务中,每个算子对于原始数据中NULL值、空字符串定义了不同的处理规则;在算子中无法正确处理的数据,将成为脏数据,无法导入或导出。 在转换步骤中,算子数据处理规则请参见下表。 表1 数据处理规则一览表 转换步骤 规则描述
CSV文件输入 概述 “CSV文件输入”算子,用于导入所有能用文本编辑器打开的文件。 输入与输出 输入:文本文件 输出:多个字段 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 分隔符 CSV文件的列分隔符,用于分隔每行的数据。 string 是 , 换行符 用
企业项目所在的企业管理控制台以面向企业资源管理为出发点,帮助企业以公司、部门、项目等分级管理方式实现企业云上的人员、资源、权限、财务的管理。 default 虚拟私有云 VPC即虚拟私有云,是通过逻辑方式进行网络隔离,提供安全、隔离的网络环境。 vpc-01 子网 通过子网提供与其他网
表输入 概述 “表输入”算子,将关系型数据库表的指定列按顺序转换成同等数量的输入字段。 输入与输出 输入:表列 输出:字段 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 输入字段 配置关系型数据库输入字段的相关信息: 位置:配置输入字段的位置。 字段名:配置输入字段名。
表输入 概述 “表输入”算子,将关系型数据库表的指定列按顺序转换成同等数量的输入字段。 输入与输出 输入:表列 输出:字段 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 输入字段 配置关系型数据库输入字段的相关信息: 位置:配置输入字段的位置。 字段名:配置输入字段名。
sh重启OMS服务。 主备OMS节点都需要重启。 MRS 1.9.2.2补丁安装后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行
群/节点资源。MRS服务通过与标签管理服务(TMS)关联,可以让拥有大量云资源的用户,通过给云资源打标签,快速查找具有同一标签属性的云资源,进行统一检视、修改、删除等管理操作,方便用户对大数据集群及其他相关云资源的统一管理。 您可以在创建集群时添加标签,也可以在集群创建完成后,在
应用场景 本章节适用于将线下IDC机房或者公有云Hive集群中的数据(支持数据量在几十TB级别或以下的数据量级)迁移到华为云MRS服务。 使用华为云CDM服务“场景迁移功能”可以一键式便捷地完成Hive数据的迁移。 本章节以通过华为云CDM服务 2.9.1.200版本进行数据迁移
配置MRS集群远程运维 当用户使用集群过程中出现问题需要华为云支持人员协助解决时,用户可先联系华为云支持人员,再通过运维授权功能授权华为云支持人员访问用户机器的权限用于定位问题,或通过“日志共享”功能提供特定时间段内的日志给华为云支持人员以便定位问题。 开启MRS集群远程运维授权 登录MRS管理控制台。
集群相关配置是否支持克隆情况参见表1。 表1 MRS集群参数克隆说明 参数 说明 计费模式、版本类型、集群版本、集群类型、组件列表、可用区、企业项目、虚拟私有云、子网、安全组(默认共用克隆集群的)、节点组配置、Kerberos认证、主机名前缀、标签、委托(集群节点默认绑定的委托名称)、日志转储、日志记录
合并CBO优化 操作场景 Spark SQL默认支持基于规则的优化,但仅仅基于规则优化不能保证Spark选择合适的查询计划。CBO(Cost-Bsed Optimizer)是一种为SQL智能选择查询计划的技术。通过配置开启CBO后,CBO优化器可以基于表和列的统计信息,进行一系列的估算,最终选择出合适的查询计划。
合并CBO优化 操作场景 Spark SQL默认支持基于规则的优化,但仅仅基于规则优化不能保证Spark选择合适的查询计划。CBO(Cost-Bsed Optimizer)是一种为SQL智能选择查询计划的技术。通过配置开启CBO后,CBO优化器可以基于表和列的统计信息,进行一系列的估算,最终选择出合适的查询计划。
企业项目管理 企业项目是一种云资源管理方式。企业管理提供面向企业客户的云上资源管理、人员管理、权限管理、财务管理等综合管理服务。区别于管理控制台独立操控、配置云产品的方式,企业管理控制台以面向企业资源管理为出发点,帮助企业以公司、部门、项目等分级管理方式实现企业云上的人员、资源、权限、财务的管理。
Loader算子说明 转换流程 Loader读取源端数据,通过输入算子将数据按规则逐一转换成字段,再通过转换算子,对这些字段做清洗或转换,最后通过输出算子将处理后的字段,输出到目标端。 每个作业,如果进行数据转换操作,有且只能有一个输入算子,有且只能有一个输出算子。 不符合转换规则的数据,将成为脏数据跳过。
概述 “算子帮助”章节适用于MRS 3.x及后续版本。 转换流程 Loader读取源端数据,通过输入算子将数据按规则逐一转换成字段,再通过转换算子,对这些字段做清洗或转换,最后通过输出算子将处理后的字段,输出到目标端。 每个作业,如果进行数据转换操作,有且只能有一个输入算子,有且只能有一个输出算子。