检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
MRS配置跨集群互信失败 问题背景与现象 MRS 1.8.2之前的版本和MRS 1.8.2及之后的版本的两个集群之间跨集群互信不通。 原因分析 配置跨集群互信后,互信的两个集群均会增加用户“krbtgt/本集群域名@外部集群域名”、“krbtgt/外部集群域名@本集群域名”,由于两个版本集群的用户默认密码不一致导致跨集群互信配置失败
HetuEngine域名修改后需要做什么 问题 用户修改域名后,会导致已安装的客户端配置和数据源配置失效,且新创建的集群不可用。对接不同域的数据源时,HetuEngine会自动的合并krb5.conf文件。域名修改后,kerberos认证的域名会发生变化,所以此前对接的数据源信息会失效
最新动态 本文介绍了MapReduce服务MRS各特性版本的功能发布和对应的文档动态,新特性将在各个区域(Region)陆续发布,欢迎体验。 2021年07月 序号 功能名称 功能描述 阶段 相关文档 1 MRS支持Hudi组件 Hudi是数据湖的文件组织层,对Parquet格式文件进行管理提供数据湖能力
配置Hive动态脱敏 使用场景 Hive动态脱敏功能开启后,配置脱敏列的数据可以参与计算,计算结果输出时不可见,在集群内脱敏策略会根据血缘关系自动传递,更大的发挥数据的价值同时保障数据的隐私性。 使用约束 不支持Hudi表的脱敏。 不支持涉及直接读写HDFS的操作的脱敏。 不支持复杂数据类型
配置Spark动态脱敏 本章节仅适用于MRS 3.3.1-LTS及之后版本。 管理面提交作业方式不支持开启动态脱敏特性。 配置场景 Spark动态脱敏开启后,配置脱敏列的数据可以参与计算,计算结果输出时不可见,在集群内脱敏策略会根据血缘关系自动传递,更大的发挥数据的价值同时,保障数据的隐私性
调整HetuEngine动态过滤 HetuEngine提供了动态过滤的功能,在Join场景中开启动态过滤往往有较大的性能提升。本章节介绍如何开启动态过滤功能。 使用可访问HetuEngine WebUI界面的用户登录FusionInsight Manager,选择“集群 > 服务
配置Hive表分区动态覆盖 配置场景 在旧版本中,使用insert overwrite语法覆写分区表时,只支持对指定的分区表达式进行匹配,未指定表达式的分区将被全部删除。在spark2.3版本中,增加了对未指定表达式的分区动态匹配的支持,此种语法与Hive的动态分区匹配语法行为一致
MetaStore动态分区数超出阈值导致SQL报错 现象描述 执行SparkSQL或HiveSQL命令时,系统报错如下: Number of dynamic partitions created is 2001, which is more than 2000. To slove
配置Hive表分区动态覆盖 配置场景 在旧版本中,使用insert overwrite语法覆写分区表时,只支持对指定的分区表达式进行匹配,未指定表达式的分区将被全部删除。在spark2.3版本中,增加了对未指定表达式的分区动态匹配的支持,此种语法与Hive的动态分区匹配语法行为一致
Yarn模式下动态资源调度 操作场景 对于Spark应用来说,资源是影响Spark应用执行效率的一个重要因素。当一个长期运行的服务(比如JDBCServer),若分配给它多个Executor,可是却没有任何任务分配给它,而此时有其他的应用却资源紧张,这就造成了很大的资源浪费和资源不合理的调度
Impala启用并配置动态资源池 本文介绍如何使用动态资源池控制impala并发。 问题背景 客户需要使用动态资源池控制impala并发。 登录到集群的master1节点上,然后切换到omm用户下,在/home/omm目录下创建fair-scheduler.xml、llama-site.xml
Impala启用并配置动态资源池 本文介绍如何使用动态资源池控制impala并发。 问题背景 客户需要使用动态资源池控制impala并发。 登录到集群的master1节点上,然后切换到omm用户下,在/home/omm目录下创建fair-scheduler.xml、llama-site.xml
动态分区插入场景内存优化 操作场景 SparkSQL在往动态分区表中插入数据时,分区数越多,单个Task生成的HDFS文件越多,则元数据占用的内存也越多。这就导致程序GC(Gabage Collection)严重,甚至发生OOM(Out of Memory)。 经测试证明:10240
MRS集群互信概述 功能介绍 默认情况下,安全模式下的大数据集群用户只能访问本集群中的资源,无法在其他安全模式集群中进行身份认证并访问资源。 集群互信概念介绍 域 每个系统用户安全使用的范围定义为“域”,不同的Manager系统需要定义唯一的域名。跨Manager访问实际上就是用户跨域使用
Spark动态分区插入场景内存优化 操作场景 SparkSQL在往动态分区表中插入数据时,分区数越多,单个Task生成的HDFS文件越多,则元数据占用的内存也越多。这就导致程序GC(Gabage Collection)严重,甚至发生OOM(Out of Memory)。 经测试证明
配置Yarn模式下Spark动态资源调度 操作场景 对于Spark应用来说,资源是影响Spark应用执行效率的一个重要因素。当一个长期运行的服务(比如JDBCServer),若分配给它多个Executor,可是却没有任何任务分配给它,而此时有其他的应用却资源紧张,这就造成了很大的资源浪费和资源不合理的调度
配置Yarn模式下Spark动态资源调度 操作场景 对于Spark应用来说,资源是影响Spark应用执行效率的一个重要因素。当一个长期运行的服务(比如JDBCServer),如果分配给它多个Executor,可是却没有任何任务分配给它,而此时有其他的应用却资源紧张,这就造成了很大的资源浪费和资源不合理的调度
MRS租户管理中的动态资源计划页面无法刷新怎么办? 问: MRS租户管理中的动态资源计划页面无法刷新怎么办? 答: 以root用户分别登录Master1和Master2节点。 执行ps -ef |grep aos命令检查aos进程号。 执行kill -9 aos进程号 结束aos进程
集群修改域名后Hive样例程序运行报错 问题背景与现象 Hive的二次开发代码样例运行报No rules applied to ****的错误: 原因分析 Hive的二次开发样例代码会加载core-site.xml,此文件默认是通过classload加载,所以使用的时候要把此配置文件放到启动程序的
修改MRS集群系统域名 操作场景 每个系统用户安全使用的范围定义为“域”,不同的系统需要定义唯一的域名。FusionInsight Manager的域名在安装过程中生成,如果需要修改为特定域名,系统管理员可通过FusionInsight Manager进行配置。 修改系统域名为高危操作