检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
赖包。 将准备应用开发配置文件中获取的集群配置文件及用户认证文件放置在样例工程的“resources”目录下。 如需连接开启了Kerberos认证的MRS集群,在Hive样例工程代码中,需配置相关认证信息。 在“com.huawei.bigdata.hive.examples”包
Manager,重复2~4,创建相同名称的用户并设置权限。 配置互信集群的用户权限(MRS 2.x及之前版本) 在集群A的MRS Manager,选择“系统设置 > 用户管理”,检查互信集群B的用户,是否在A集群中已存在相同名字用户。 是,执行2。 否,执行3。 单击用户名左侧的 展开用户的详细信息
User”下选择框选择用户。 设置用户在指定Yarn队列提交任务的权限 在“Queue”配置队列名。 在“Allow Conditions”区域,单击“Select User”下选择框选择用户。 单击“Add Permissions”,勾选“submit-app”。 设置用户在指定Yarn队列管理任务的权限
Topic创建操作时发现无法创建提示“replication factor larger than available brokers” 问题背景与现象 在使用Kafka客户端命令创建Topic时,发现Topic无法被创建。 kafka-topics.sh --create --replication-factor
files 此参数用于将libch.so和libjsig.so分发到所有节点上,以便所有节点上的executors使用spark.executorEnv.LD_PRELOAD参数提前加载。 x86平台上参数值设置为:{客户端安装目录}/Spark/spark/native/libch
Yarn客户侧ResourceManager报错空指针并发生主备倒换。 重启Router或者NameNode时延高时,作业有概率在new状态卡顿。 结束有预留资源的任务后,Yarn上预留资源累加不释放。 主备容灾场景中,备集群MapReduce临时任务日志无法进行定期删除,使得日志目录会堆满,导致容灾任务失败。
arquet文件完成。 优点:读取时,只读取对应分区的一个数据文件即可,较为高效。 缺点:数据写入的时候,需要复制一个先前的副本再在其基础上生成新的数据文件,这个过程比较耗时。且由于耗时,读请求读取到的数据相对就会滞后。 Merge On Read 读时合并表也简称mor表,使用
arquet文件完成。 优点:读取时,只读取对应分区的一个数据文件即可,较为高效。 缺点:数据写入的时候,需要复制一个先前的副本再在其基础上生成新的数据文件,这个过程比较耗时。且由于耗时,读请求读取到的数据相对就会滞后。 Merge On Read 读时合并表也简称mor表,使用
范围 mapreduce.client.submit.file.replication MapReduce任务在运行时依赖的相关job文件在HDFS上的副本数。当集群中DataNode个数小于该参数值时,副本数等于DataNode的个数。当DataNode个数大于或等于该参数值,副本数为该参数值。
Broadcast:广播变量类。广播变量允许保留一个只读的变量,缓存在每一台机器上,而非每个任务保存一份拷贝。 StorageLevel:数据存储级别。有内存(MEMORY_ONLY),磁盘(DISK_ONLY),内存+磁盘(MEMORY_AND_DISK)等。 RDD上支持两种类型的操作:Transformati
方式一(推荐):重启集群,建议在业务空闲时间重启。 在FusionInsight Manager界面,选择“集群 > 概览 > 更多”,重启集群或者滚动重启集群,具体操作请参考重启MRS集群。 方式二:重启组件,必须按照表1中列出来的组件顺序,依次重启组件。 在FusionInsight Manager界面重启组件:选择“集群
0~3000个region,在集群正常情况下(HBase无异常,HDFS无大量的读写操作等),建议此参数依据集群的规格进行调整,如果实际规格(实际平均每个regonserver上region的个数)大于默认规格(默认平均每个regionserver上region的个数,即2000),则调整方案为(实际规格
MRS集群中默认安装了一个客户端用于作业提交,也可直接使用该客户端。MRS 3.x及之后版本客户端默认安装路径为Master节点上的“/opt/Bigdata/client”,MRS 3.x之前版本为Master节点上的“/opt/client”。 使用MRS集群客户端安装用户登录客户端所在的节点。 执行以下命令初始化环境变量。
进入组件管理页面: MRS 3.x之前版本,单击集群名称,登录集群详情页面,选择“组件管理”。 若集群详情页面没有“组件管理”页签,请先完成IAM用户同步(在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步)。 MRS 3.x及后续版本,登录FusionInsight
如何查看MRS作业的日志? 提交作业时系统提示当前用户在Manager不存在如何处理? LauncherJob作业执行失败,报错信息为“jobPropertiesMap is null”如何处理? 为什么MRS Console页面Flink作业状态与Yarn上的作业状态不一致? SparkStre
由于shuffle涉及到了磁盘的读写和网络的传输,因此shuffle性能的高低直接影响到了整个程序的运行效率。 下图清晰地描述了MapReduce算法的整个流程。 图3 算法流程 概念上shuffle就是一个沟通数据连接的桥梁,实际上shuffle这一部分是如何实现的呢,下面就以
Manager,选择“集群 > 待操作集群的名称 > 服务 > Oozie ”,单击“oozie WebUI”后的超链接进入Oozie页面,在Oozie的WebUI上查看任务运行结果。 图1 任务运行结果 父主题: 使用Oozie客户端提交作业
00~3000个region,在集群正常情况下(HBase无异常,HDFS无大量的读写操作等),建议此参数依据集群的规格进行调整,若实际规格(实际平均每个regonserver上region的个数)大于默认规格(默认平均每个regionserver上region的个数,即2000),则调整方案为(实际规格
fileconfig.log”,根据错误日志分析原因。在参考信息中查找该文件的检查标准,并对照检查标准对文件进行进一步的手动检查和修改。 执行vi 文件名命令进入编辑模式,按“Insert”键开始编辑。 修改完成后按“Esc”键退出编辑模式,并输入:wq保存退出。 例如: vi
Master在创建container时,分配的内存会根据任务总数的浮动自动调整,资源利用更加灵活,提高了客户端应用运行的容错性。 配置描述 参数入口: 在Manager系统中,选择“集群 > 待操作集群的名称 > 服务 > Yarn > 配置”,选择“全部配置”,在搜索框中输入参数名称“mapreduce