检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集群管理 集群生命周期管理 集群在线扩缩容 创建Task节点 自动弹性伸缩 节点隔离 升级Master节点规格 节点标签管理 父主题: 产品功能
Hive Join数据优化 Hive Group By语句优化 Hive ORC数据存储优化 Hive SQL逻辑优化 使用Hive CBO功能优化多表查询效率 父主题: 使用Hive
percent”,调大该配置项。设配置项的值为A,HDFS总存储空间为B,阈值为C,Hive已经使用HDFS的空间大小为D。调整策略为A x B x C > D ,HDFS总存储空间可在HDFS监控界面查看,Hive已经使用HDFS的空间大小可在Hive的监控界面查看。 检查该告警是否恢复。
参数名称 参数含义 ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 Coordinator进程GC时间过长,会影响Coordinator进程运行的性能,甚至造成Coordinator进程不可用。
在“慢查询分布”页面,用户可查看历史任务的慢查询分布情况,包括: 慢SQL统计:统计各个租户的慢查询(查询时间大于慢查询阈值)提交个数。 慢查询TOP用户请求统计列表:统计各个用户的慢查询统计明细,支持列表排序和全部导出功能。 在“慢查询列表”页面,用户可查看历史任务的慢查询列表、诊断结果和优化建议,支持导出查询结果。
如果同时存在读和写的操作,这两种操作的性能会互相影响。如果写入导致的flush和compaction操作频繁发生,会占用大量的磁盘IO操作,从而影响读取的性能。如果写入导致阻塞较多的compaction操作,就会出现Region中存在多个HFile的情况,从而影响读取的性能。所以如果
streaming功能与可靠性介绍 Structured Streaming支持的功能 支持对流式数据的ETL操作。 支持流式DataFrames或Datasets的schema推断和分区。 流式DataFrames或Datasets上的操作:包括无类型,类似SQL的操作(比如sel
streaming功能与可靠性介绍 Structured Streaming支持的功能 支持对流式数据的ETL操作。 支持流式DataFrames或Datasets的schema推断和分区。 流式DataFrames或Datasets上的操作:包括无类型,类似SQL的操作(比如sel
streaming功能与可靠性介绍 Structured Streaming支持的功能 支持对流式数据的ETL操作。 支持流式DataFrames或Datasets的schema推断和分区。 流式DataFrames或Datasets上的操作:包括无类型,类似SQL的操作(比如sel
streaming功能与可靠性介绍 Structured Streaming支持的功能 支持对流式数据的ETL操作。 支持流式DataFrames或Datasets的schema推断和分区。 流式DataFrames或Datasets上的操作:包括无类型,类似SQL的操作(比如sel
name”,值为挂载业务IP的网卡名称。 使用客户端安装用户登录安装了HBase客户端的节点。 在“HBase客户端安装目录/HBase/hbase/conf/hbase-site.xml”中新增并配置表1中的参数以开启客户端的Multicast功能。 表1 开启客户端Multicast功能参数配置
开启Kafka高可靠功能 操作场景 如果需执行表1中的CDL数据同步任务时,需开启Kafka高可靠性功能,防止当Kafka发生故障或者Kafka重启时传输的数据丢失。 表1 使用MRS Kafka同步数据的CDL任务 数据源 目的端 描述 MySQL Hudi 该任务支持从MySQL同步数据到Hudi。
配置Hive列加密功能 操作场景 Hive支持对表的某一列或者多列进行加密;在创建Hive表时,可以指定要加密的列和加密算法。当使用insert语句向表中插入数据时,即可实现将对应列加密。列加密只支持存储在HDFS上的TextFile和SequenceFile文件格式的表。Hive列加密不支持视图以及Hive
配置Hive列加密功能 操作场景 Hive支持对表的某一列或者多列进行加密;在创建Hive表时,可以指定要加密的列和加密算法。当使用insert语句向表中插入数据时,即可实现将对应列的数据加密。只支持对存储在HDFS上的TextFile和SequenceFile文件格式的Hive表进行列加密,不支持视图以及Hive
MRS作为一个海量数据管理和分析的平台,具备高安全性。MRS主要从以下几个方面保障用户的数据和业务运行安全。 网络隔离 整个系统部署在公有云上的虚拟私有云中,提供隔离的网络环境,保证集群的业务、管理的安全性。结合虚拟私有云的子网划分、路由控制、安全组等功能,为用户提供高安全、高可靠的网络隔离环境。
(key)方法获取的KafkaChannel为空,以至于疯狂打印NullPointerException,上述日志可以发现,认证失败的原因是用户密码不正确,密码不正确的原因可能是用户名不匹配导致。 检查Jaas文件和Keytab文件,发现Jaas文件中配置使用的pricipal为stream。
系统每小时周期性检测租户所关联的每个目录的空间使用率(每个目录已使用的空间大小/每个目录分配的空间大小),并把每个目录实际的空间使用率和该目录设置的阈值相比较。当检测到租户所关联的目录空间使用率高于该目录设置的阈值时,产生该告警。 当上报告警的目录的空间使用率小于或等于该目录设置的阈值时,告警恢复。
to.index:表示创建索引的表的名称。 indexnames.to.drop:表示应该和其数据一起删除的索引的名称(必须存在于表中)。 scan.caching(可选):其中包含一个整数值,指示在扫描数据表时将传递给扫描器的缓存行数。 上述命令中的参数描述如下: idx_1:表示索引名称。
业在集群上平稳运行。 对不同的用户进行严格的访问控制,以保证数据和业务的安全。 多租户将大数据集群的资源隔离成一个个资源集合,彼此互不干扰,用户通过“租用”需要的资源集合,来运行应用和作业,并存放数据。在大数据集群上可以存在多个资源集合来支持多个用户的不同需求。 因此,MRS大数
大数据组件都有自己的WebUI页面管理自身系统,但是由于网络隔离的原因,用户并不能很简便地访问到该页面。 例如访问HDFS的WebUI页面,传统的操作方法是需要用户创建ECS,使用ECS远程登录组件的UI,这使得组件的页面UI访问很是繁琐,对于很多初次接触大数据的用户很不友好。 M