检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
MRS集群支持退服、入服的角色实例包括: HDFS的DataNode角色实例 Yarn的NodeManager角色实例 HBase的RegionServer角色实例 ClickHouse的ClickHouseServer角色实例(MRS 3.1.2及之后版本支持) IoTDB的IoTDBServer角色实例
时钟跳变或其他因素的影响导致Httpd服务与Hue服务认证关系失效。 排查思路 排查是否发生过网络故障或时钟跳变。 排查当前是否发生过或仍存在Hue服务相关告警。 处理步骤 登录FusionInsight Manager检查是否存在网络故障、时钟跳变或Hue服务相关的告警,若存在问题
Hadoop开源软件的基础上,在主要业务部件的可靠性、性能调优等方面进行了优化和提升。 系统可靠性 管理节点均实现HA Hadoop开源版本的数据、计算节点已经是按照分布式系统进行设计的,单节点故障不影响系统整体运行;而以集中模式运作的管理节点可能出现的单点故障,就成为整个系统可靠性的短板。
不同集群间Hive元数据切换时,MRS当前只对Hive组件自身的元数据数据库中的权限进行同步。这是由于当前MRS上的权限模型是在Manager上维护的,所以不同集群间的Hive元数据切换,不能自动把用户/用户组的权限同步到另一个集群的Manager上。 父主题: 管理MRS集群元数据
当队列不再需要某个资源池的资源,或资源池需要与队列取消关联关系时,用户可以在MRS清除队列配置。清除队列配置即取消队列在此资源池中的资源容量策略。 前提条件 如果通过MRS管理控制台操作,需要已完成IAM用户同步(在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步)。
OpenTSDB是一个基于HBase的分布式、可伸缩的时间序列数据库。OpenTSDB的设计目标是用来采集大规模集群中的监控类信息,并可实现数据的秒级查询,解决海量监控类数据在普通数据库中查询存储的局限性。 OpenTSDB使用场景有如下几个特点: 采集指标在某一时间点具有唯一值,没有复杂的结构及关系。 监控的指标具有随着时间不断变化的特点。
轻量级压缩和重量级压缩的组合压缩算法压缩数据,可以减少60%~80%数据存储空间,很大程度上节省硬件存储成本。 CarbonData索引缓存服务器 为了解决日益增长的数据量给driver带来的压力与出现的各种问题,现引入单独的索引缓存服务器,将索引从Carbon查询的Spark应
Filter主要在Scan和Get过程中进行数据过滤,通过设置一些过滤条件来实现,如设置RowKey、列名或者列值的过滤条件。 代码样例 以下代码片段在com.huawei.bigdata.hbase.examples包的“HBaseExample”类的testFilterList方法中
SQL无法查询到Parquet类型的Hive表的新插入数据 问题 为什么通过Spark SQL无法查询到存储类型为Parquet的Hive表的新插入数据?主要有以下两种场景存在这个问题: 对于分区表和非分区表,在Hive客户端中执行插入数据的操作后,会出现Spark SQL无法查询到最新插入的数据的问题。 对于分区表,在Spark
一个表可以拥有一个或者多个分区,每个分区以文件夹的形式单独存在表文件夹的目录下。对分区内数据进行查询,可缩小查询范围,加快数据的检索速度和可对数据按照一定的条件进行管理。 分区是在创建表的时候用PARTITIONED BY子句定义的。 CREATE EXTERNAL TABLE
所有用户都属于public组,默认给public组配有default数据库的创表和所有其他数据库的create权限,因此默认所有的用户都有show databases和show tables的权限,如果不想让某些用户有show databases和show tables权限,可在Ranger WEBU
'binary:<value>')"} 回答 由于HBase的可扩展性,在查询表的时候,默认情况下会匹配被查询列的所有版本的值,即使被删除或被修改的值也可以查询出来。对于命中列失败的行(即在某一行中不存在该列),HBase会将该行查询出来。 如果用户仅需查询该表的最新值和命中列成功的行,可使用如下查询语句: scan
IO瓶颈观测手段: 通过Manager的监控页面查看单个节点上ZooKeeper请求监控,判断是否严重超出规格限制。 通过观测ZooKeeper的日志以及HBase的日志,查看是否有大量的IO Exception Timeout或者SocketTimeout Exception异常。 调优建议:
生成Flume服务端和客户端的配置文件 该操作指导安装工程师在集群及Flume服务安装完成后,分别配置Flume服务的服务端和客户端参数,使其可以正常工作。 本配置默认集群网络环境是安全的,数据传输过程不需要启用SSL认证。如需使用加密方式,请参考配置Flume加密传输数据采集任务。
'binary:<value>')"} 回答 由于HBase的可扩展性,在查询表的时候,默认情况下会匹配被查询列的所有版本的值,即使被删除或被修改的值也可以查询出来。对于命中列失败的行(即在某一行中不存在该列),HBase会将该行查询出来。 如果用户仅需查询该表的最新值和命中列成功的行,可使用如下查询语句: scan
在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录 问题 系统长时间运行后,在客户端安装节点的/tmp目录下,发现残留了很多blockmgr-开头和spark-开头的目录。 图1 残留目录样例 回答 Spark任务在运行过程中,driver会
分利用,任务的并发度达到最大。可以通过调整处理的数据量大小,以及调整map和reduce个数来实现。 reduce个数的控制使用“mapreduce.job.reduces”。 map个数取决于使用了哪种InputFormat,以及待处理的数据文件是否可分割。默认的TextFil
“集群”参数选择待操作的集群名称,然后在“资源池”选择指定的资源池。 在“资源分配”列表指定队列的“操作”列,单击“修改”。 修改资源分配。 Capacity调度器: “资源容量(%)”:表示当前租户计算资源使用的资源百分比。 “最大资源容量(%)”:表示当前租户计算资源使用的最大资源百分比。
or.ssl.enabled”为“true”的时候才开启SSL加密,否则不开启。 Job与Job之间的联系可能是多对多的关系,对于每个NettySink和NettySource算子的并发度而言,是一对多的关系,如图3所示。 图3 关系图 父主题: Flink开源增强特性
在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录 问题 系统长时间运行后,在客户端安装节点的/tmp目录下,发现残留了很多blockmgr-开头和spark-开头的目录。 图1 残留目录样例 回答 Spark任务在运行过程中,driver会