检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
实时入湖一般的性能要求都在分钟内或者分钟级,结合Hudi两种表模型的对比,因此在实时入湖场景中需要选择MOR表模型。 Hudi表名以及列名采用小写字母。 多引擎读写同一张Hudi表时,为了规避引擎之间大小写的支持不同,统一采用小写字母。 建议 Spark批处理场景,对写入时延要求不高的场景,采用COW表。
入门实践 当完成MRS集群部署后,可以根据自身的业务需求使用MRS提供的一系列常用实践。 表1 MRS常用最佳实践 实践 描述 数据分析 使用Spark2x实现车联网车主驾驶行为分析 本实践指导使用Spark实现车主驾驶行为分析。用于了解MRS的基本功能,利用MRS服务的Spar
批量导出Loader作业 操作场景 Loader支持批量导出已有作业。 本章节适用于MRS 3.x及后续版本。 前提条件 当前用户具备待导出作业的编辑“Edit”权限或作业所在分组的编辑“Jobs Edit”权限。 操作步骤 登录“Loader WebUI”界面。 登录FusionInsight
使用Hue创建工作流 操作场景 用户通过Hue管理界面可以进行提交Oozie作业,提交作业之前,首先需要创建一个工作流。 前提条件 使用Hue提交Oozie作业之前,需要提前配置好Oozie客户端,并上传样例配置文件和jar至HDFS指定目录,具体操作请参考Oozie客户端配置说明章节。
访问FlinkServer WebUI界面 操作场景 MRS集群安装Flink组件后,用户可以通过Flink的WebUI,在图形化界面进行集群连接、数据连接、流表管理和作业管理等。 该任务指导用户在MRS集群中访问Flink WebUI。 对系统的影响 第一次访问Manager和Flink
使用Hue创建工作流 操作场景 用户通过Hue管理界面可以进行提交Oozie作业,提交作业之前,首先需要创建一个工作流。 前提条件 使用Hue提交Oozie作业之前,需要提前配置好Oozie客户端,并上传样例配置文件和jar至HDFS指定目录,具体操作请参考Oozie客户端配置说明章节。
log”。 jar包运行结果如下: 2023-09-21 09:08:38,944 | INFO | main | loadBalancerIPList is 192.168.5.132, loadBalancerHttpPort is 21422, user is ck_user
将生成的jar包上传至Spark2x运行环境下(Spark2x客户端),如“/opt/female”。 进入客户端目录,执行以下命令加载环境变量并登录。若安装了Spark2x多实例或者同时安装了Spark和Spark2x,在使用客户端连接具体实例时,请执行以下命令加载具体实例的环境变量。 source bigdata_env
控制台显示部分运行结果如下: 2023-09-19 16:20:48,344 | INFO | main | loadBalancerIPList is 192.168.5.132, loadBalancerHttpPort is 21422, user is ck_user
控制台显示部分运行结果如下: 2023-09-19 16:20:48,344 | INFO | main | loadBalancerIPList is 192.168.5.132, loadBalancerHttpPort is 21422, user is ck_user
将生成的jar包上传至Spark2x运行环境下(Spark2x客户端),如“/opt/female”。 进入客户端目录,执行以下命令加载环境变量并登录。如果安装了Spark2x多实例或者同时安装了Spark和Spark2x,在使用客户端连接具体实例时,请执行以下命令加载具体实例的环境变量。 source bigdata_env
Ranger基本原理 Apache Ranger提供一个集中式安全管理框架,提供统一授权和统一审计能力。它可以对整个Hadoop生态中如HDFS、Hive、HBase、Kafka、Storm等进行细粒度的数据访问控制。用户可以利用Ranger提供的前端WebUI控制台通过配置相关策略来控制用户对这些组件的访问权限
调整Yarn任务抢占机制 操作场景 Capacity调度器抢占原理: 抢占任务可精简队列中的job运行并提高资源利用率,由ResourceManager的capacity scheduler实现,其简易流程如下: 假设存在两个队列A和B。其中队列A的capacity为25%,队列B的capacity为75%。
group组,设置其“主组”为supergroup。 Oozie 人机 加入hadoop、supergroup、hive组。若使用Hive多实例,该用户还需要从属于具体的Hive实例组,如hive3。 Flink 人机 加入developgroup和hadoop组。设置其“主组”为developgroup。
访问FlinkServer WebUI界面 操作场景 MRS集群安装Flink组件后,用户可以通过Flink的WebUI,在图形化界面进行集群连接、数据连接、流表管理和作业管理等。 该任务指导用户在MRS集群中访问Flink WebUI。第一次访问Manager和Flink We
Storm WebUI页面中events超链接地址无效 用户问题 Storm组件的Storm UI页面中events超链接地址无效。 问题现象 用户提交拓扑后无法查看拓扑数据处理日志,按钮events地址无效。 原因分析 MRS集群提交拓扑时默认不开启拓扑数据处理日志查看功能。 处理步骤
使用CDM服务迁移Hive数据至MRS集群 应用场景 本章节适用于将线下IDC机房或者公有云Hive集群中的数据(支持数据量在几十TB级别或以下的数据量级)迁移到华为云MRS服务。 使用华为云CDM服务“场景迁移功能”可以一键式便捷地完成Hive数据的迁移。 本章节以通过华为云CDM服务
<系统域名> 系统随机生成 ZooKeeper系统启动用户。 zkcli/hadoop.<系统域名> 系统随机生成 登录Zookeeper服务器用户。 oozie 系统随机生成 Oozie系统启动与Kerberos认证用户。 kafka/hadoop.<系统域名> 系统随机生成 用于Kafka安全认证。
访问Storm的WebUI 操作场景 用户可以通过Storm的WebUI,在图形化界面使用Storm。 Storm的WebUI支持查看以下信息: Storm集群汇总信息 Nimbus汇总信息 拓扑汇总信息 Supervisor汇总信息 Nimbus配置信息 前提条件 获取用户“a
Kudu应用开发简介 Kudu简介 Kudu是专为Apache Hadoop平台开发的列式存储管理器,具有Hadoop生态系统应用程序的共同技术特性:在通用的商用硬件上运行,可水平扩展,提供高可用性。 Kudu的设计具有以下优点: 能够快速处理OLAP工作负载。 支持与MapRe