检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据源所在集群域名与HetuEngine集群域名不能相同。 数据源所在集群与HetuEngine集群节点网络互通。 在HetuEngine所在集群的所有节点的“/etc/hosts”文件中,添加待对接数据源所在集群的主机名称和对应的IP映射,及其“/etc/hosts”文件中的“10.10
tor和oracle-connector具有以下优点: 负载均匀,数据分片的个数和范围与源表的数据无关,而是由源表的存储结构(数据块)确定,颗粒度可以达到“每个数据块一个分区”。 性能稳定,完全消除“数据偏斜”和“绑定变量窥探”导致的“索引失效”。 查询速度快,数据分片的查询速度比用索引快。
机架 一组包含使用相同交换机的多个主机集合的物理实体。 例如Rack1,包含Host1~Host5。 集群 由多台主机组成的可以提供多种服务的逻辑实体。 例如名为Cluster1的集群由(Host1~Host5)5个主机组成,提供了KrbServer和LdapServer等服务。
${VAR_NAME}”,报无法解析VAR_NAME的错误。 回答 MRS集群因新增多session管理功能,Hive的特性“--hivevar <VAR_NAME>=<var_value>”在Spark中已不再支持,因此在spark-beeline的启动命令中使用“--hivevar”选项无效。
创建物化视图的“AS SELECT”的子句 创建物化视图的“AS SELECT”的子句不能包含calcite SQL解析和改写功能中的保留关键词,如“default”。如果想要在创建物化视图的“AS SELECT”子句中使用保留关键词,需要遵循以下的任一解决方案: 在创建MV和执行原始查询时,需给默认模式名称添加双引号
Hive与其他组件的关系 Hive与HDFS组件的关系 Hive是Apache的Hadoop项目的子项目,Hive利用HDFS作为其文件存储系统。Hive通过解析和计算处理结构化的数据,Hadoop HDFS则为Hive提供了高可靠性的底层存储支持。Hive数据库中的所有数据文件都可以存储在Hadoop
tor和oracle-connector具有以下优点: 负载均匀,数据分片的个数和范围与源表的数据无关,而是由源表的存储结构(数据块)确定,颗粒度可以达到“每个数据块一个分区”。 性能稳定,完全消除“数据偏斜”和“绑定变量窥探”导致的“索引失效”。 查询速度快,数据分片的查询速度比用索引快。
添加IoTDB数据源 本章节适用于MRS 3.2.0及之后的版本。 本章节指导用户在安全模式集群的HSConsole界面添加IoTDB类型的JDBC数据源。 添加IoTDB数据源前提条件 数据源所在集群域名与HetuEngine集群域名不能相同。 数据源所在集群与HetuEngine集群节点网络互通。
出错误的一种,即线程栈的溢出,方法调用层次过多(比如存在无限递归调用)或线程栈太小都会导致此报错。 解决办法 通过调整mapreduce阶段的map和reduce子进程JVM参数中的栈内存解决此问题,主要涉及参数为mapreduce.map.java.opts(调整map的栈内存)和mapreduce
<table_name>刷新常用表的统计信息,加速查询 Impala依赖表统计信息对查询消耗的资源做预估,准确的统计信息有利于Impala更合理地解析执行计划,分配资源。 定时进行小文件合并,减少单表的文件数量,提升元数据加载速率 Impala元数据和分区、文件数量正相关,太多分区会
role admin命令报无权限 在beeline客户端创建UDF时报错 Hive服务状态为故障如何处理 Hive服务健康状态和Hive实例健康状态的区别 Shell客户端连接提示“authentication failed” 客户端提示访问ZooKeeper失败 使用UDF函数时提示“Invalid
SQL对用户SQL语句的执行逻辑是:首先解析出语句中包含的表,再获取表的元数据信息,然后对权限进行检查。 当表是parquet表时,元数据信息包括文件的Split信息。Split信息需要调用HDFS的接口去读取,当表包含的文件数量很多时,串行读取Split信息变得缓慢,影响性能。故对此做
SQL对用户SQL语句的执行逻辑是:首先解析出语句中包含的表,再获取表的元数据信息,然后对权限进行检查。 当表是parquet表时,元数据信息包括文件的Split信息。Split信息需要调用HDFS的接口去读取,当表包含的文件数量很多时,串行读取Split信息变得缓慢,影响性能。故对此做
分析集群:用来做离线数据分析,提供的是Hadoop体系的组件。 流式集群:用来做流处理任务,提供的是流式处理组件。 混合集群:既可以用来做离线数据分析,也可以用来做流处理任务,提供的是Hadoop体系的组件和流式处理组件。 自定义:全量自定义组件组合的MRS集群,MRS 3.x及之后版本支持此类型。
由于MapReduce的作业日志和任务日志(聚合功能开启的情况下)都保存在HDFS上。对于计算任务量大的集群,如果不进行合理的配置对日志文件进行定期归档和删除,日志文件将占用HDFS大量内存空间,增加集群负载。 日志归档是通过Hadoop Archives功能实现的,Hadoop A
HetuEngine的客户端,使用者通过客户端向服务端提交查询请求,然后将执行结果取回并展示。 HSBroker HetuEngine的服务管理,用作计算实例的资源管理校验,健康监控与自动维护等。 HSConsole 对外提供数据源信息管理,计算实例管理,自动化任务的查看等功能的可视化操作界面和RESTful接口。
Gateway”错误。 问题现象 未开启Kerberos认证的集群,访问MRS Manager页面报错如下图: 图1 MRS Manager页面报错 原因分析 由于MRS的域名由console-emr变更为mrs导致普通集群访问MRS Manager的链接有误。 处理步骤 以root用户登录到所有Master节点。
MRS集群反复上报43006告警 用户问题 集群反复出现“ALM-43006 JobHistory进程堆内存使用超出阈值”告警,且按照告警参考处理无效。 问题现象 集群出现告警“ALM-43006 JobHistory进程堆内存使用超出阈值”并且按照指导处理以后,运行一段时间又会出现同样的告警。
UDF开发规范 本章节主要介绍开发Doris UDF程序时应遵循的规则和建议。 Doris UDF开发规则 UDF中方法调用必须是线程安全的。 UDF实现中禁止读取外部大文件到内存中,如果文件过大可能会导致内存耗尽。 需避免大量递归调用,否则容易造成栈溢出或oom。 需避免不断创建对象或数组,否则容易造成内存耗尽。
配置YARN-Client和YARN-Cluster不同模式下的环境变量 配置场景 当前,在YARN-Client和YARN-Cluster模式下,两种模式的客户端存在冲突的配置,即当客户端为一种模式的配置时,会导致在另一种模式下提交任务失败。 为避免出现如上情况,添加表1中的配置项,避免两种模式下来回切换参数,提升软件易用性。