检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
衡的情况,比如集群中添加新数据节点的场景。如果HDFS出现数据不平衡的状况,可能导致多种问题,比如MapReduce应用程序无法很好地利用本地计算的优势、数据节点之间无法达到更好的网络带宽使用率或节点磁盘无法利用等等。所以MRS集群管理员需要定期检查并保持DataNode数据平衡。
衡的情况,比如集群中添加新数据节点的场景。如果HDFS出现数据不平衡的状况,可能导致多种问题,比如MapReduce应用程序无法很好地利用本地计算的优势、数据节点之间无法达到更好的网络带宽使用率或节点磁盘无法利用等等。所以MRS集群管理员需要定期检查并保持DataNode数据平衡。
HBase服务数据读写示例安全认证(多集群互信场景) 场景说明 当不同的多个Manager系统下安全模式的集群需要互相访问对方的资源时,管理员可以设置互信的系统,使外部系统的用户可以在本系统中使用。每个系统用户安全使用的范围定义为“域”,不同的Manager系统需要定义唯一的域名。跨Manager访问实际
拓扑是一个计算流图。其中每个节点包含处理逻辑,而节点间的连线则表明了节点间的数据是如何流动的。 Spout 在一个Topology中产生源数据流的组件。通常情况下Spout会从外部数据源中读取数据,然后转换为Topology内部的源数据。 Bolt 在一个Topology中接受数据然后执行处理的组件。Bolt可以执行
HBase服务数据读写示例安全认证(多集群互信场景) 场景说明 当不同的多个Manager系统下安全模式的集群需要互相访问对方的资源时,管理员可以设置互信的系统,使外部系统的用户可以在本系统中使用。每个系统用户安全使用的范围定义为“域”,不同的Manager系统需要定义唯一的域名。跨Manager访问实际
Python3样例工程。 准备运行环境 进行应用开发时,需要同时准备代码的运行调测的环境,用于验证应用程序运行正常。 如果本地Windows开发环境和集群业务平面网络互通,可下载集群客户端到本地,获取相关调测程序所需的集群配置文件及配置网络连通后,然后直接在Windows中进行程序调测。 下载并解压客户端软件包。
jar hive-metastore-1.2.1.spark_2.2.1-mrs-x.x.x.jar 华为云Maven库请参考指导通过开源镜像站获取样例工程。 父主题: 使用Spark
就会在本地查找Broadcast过来的数据集合。如果不使用Broadcast,每次任务需要数据集合时,都会把数据序列化到任务里面,不但耗时,还使任务变得很大。 每个任务分片在执行中都需要同一份数据集合时,就可以把公共数据集Broadcast到每个节点,让每个节点在本地都保存一份。
拓扑是一个计算流图。其中每个节点包含处理逻辑,而节点间的连线则表明了节点间的数据是如何流动的。 Spout 在一个Topology中产生源数据流的组件。通常情况下Spout会从外部数据源中读取数据,然后转换为Topology内部的源数据。 Bolt 在一个Topology中接受数据然后执行处理的组件。Bolt可以执行
准备HBase应用开发用户 开发用户用于运行样例工程。用户需要有HBase权限,才能运行HBase样例工程。 前提条件 MRS服务集群开启了Kerberos认证,没有开启Kerberos认证的集群忽略该步骤。 操作步骤 登录MRS Manager,请参考登录MRS Manager。
询需求也会随着时间推移锐减,如果将所有数据存储在本地,将造成大量的资源浪费。 本章节仅适用于MRS 3.3.1 及之后版本。 原理介绍 Apache Doris 2.0版本推出了冷热数据分层功能,用户可以使用冷热分层功能将数据从本地下沉到对象存储中,如图1所示。 图1 冷热数据分层功能原理
准备HDFS应用开发用户 前提条件 MRS服务集群开启了Kerberos认证,没有开启Kerberos认证的集群忽略该步骤。 操作场景 开发用户用于运行样例工程。用户需要有HDFS权限,才能运行HDFS样例工程。 操作步骤 登录MRS Manager,在MRS Manager界面选择“系统设置
访问HetuEngine的用户名,即在集群中创建的“人机”用户的用户名。 socksProxy SOCKS代理服务器,如“localhost:1080”。 httpProxy HTTP代理服务器地址,如“localhost:8888”。 applicationNamePrefix 要附加到任
由于MRS集群节点的NTP时间不同步导致集群访问OBS时鉴权失败 问题现象 集群访问OBS上报403异常。 原因分析 集群Master节点NTP时间与集群外节点的NTP服务器时间不同步,时间相差超过15min,导致集群访问OBS时鉴权失败,上报403异常。 处理步骤 以root用户登录集群主Master节点。
如何使用PySpark连接MRS Spark? 问: 如何在ECS服务器上用PySpark连接内网开启Kerberos认证的MRS Spark集群? 答: 将Spark的“spark-defaults.conf”文件中“spark.yarn.security.credentials
中已存在的备份数据,再将备份数据恢复到本地集群中。当提交Restore请求后,系统内部会做如下操作: 在本地创建对应的元数据 系统会在本地集群中创建恢复对应的表分区等结构。创建完成后,该表可见,但是不可访问。 本地snapshot 将在本地集群中创建的表做一个快照,是一个空快照(
EA工具,请根据指导完成不同语言的开发环境配置。Spark的运行环境即Spark客户端,请根据指导完成客户端的安装和配置。 准备Spark本地应用开发环境 准备连接集群配置文件 应用程序开发或运行过程中,需通过集群相关配置文件信息连接MRS集群,配置文件通常包括集群组件信息文件以
使用资源队列可避免不同业务相互抢占资源,相互影响,具体请参考Impala启用并配置动态资源池。 OBS存储开启本地缓存 OBS数据存储场景可根据业务需求配置本地缓存,提升读取速率,配置单盘100GB本地缓存示例:—data_cache=/srv/BigData/data1/impala:100GB
schedulingWeight 可选 该分组的权重,见schedulingPolicy,默认为1。 jmxExport 可选 如果为true,则组统计信息将被导出到JMX中进行监控,默认为false。 subGroups 可选 子分组列表。 killPolicy 可选 当查询提交给Worker后,如
据。 前提条件 需要准备一个用于备份数据的备集群,且网络连通。每个集群的安全组,需分别添加对端集群的安全组入方向规则,允许安全组中所有弹性云服务器全部协议全部端口的访问请求。 根据业务需要,规划备份的类型、周期和策略等规格,并检查主备管理节点“数据存放路径/LocalBackup/”是否有充足的空间。