检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hive Group By语句优化 操作场景 优化Group by语句,可提升命令执行速度和查询速度。 Group by的时候, Map端会先进行分组, 分组完后分发到Reduce端, Reduce端再进行分组。可采用Map端聚合的方式来进行Group by优化,开启Map端初步聚合,减少Map的输出数据量。
要求Compaction执行合并的过程必须和实时任务解耦,通过周期调度Spark任务来完成异步Compaction,这个方案的关键之处在于如何合理的设置这个周期,周期如果太短意味着Spark任务可能会空跑,周期如果太长可能会积压太多的Compaction Plan没有去执行而导致
HetuEngine样例程序(Java) 通过HSFabric的用户名密码认证实现查询HetuEngine SQL任务 通过HSBroker的用户名密码认证实现查询HetuEngine SQL任务 通过JDBC方式实现查询HetuEngine SQL任务 父主题: 开发HetuEngine应用
CHILD”。 在程序运行时添加运行参数,分别为hive-site.xml与spark-defaults.conf文件的路径。 运行程序。 查看调试结果 SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found
SQL应用程序的资源,也就是说不同的用户之间可以共享数据。ThriftServer启动时还会开启一个侦听器,等待JDBC客户端的连接和提交查询。所以,在配置ThriftServer的时候,至少要配置ThriftServer的主机名和端口,如果要使用Hive数据的话,还要提供Hive
getExecutionEnvironment(); // 设置并发度 env.setParallelism(1); // 解析运行参数 ParameterTool paraTool = ParameterTool.fromArgs(args);
么LoadIncrementalHFiles工具执行失败报“Permission denied”的异常? 2020-09-20 14:53:53,808 WARN [main] shortcircuit.DomainSocketFactory: error creating DomainSocket
1.0及之前版本:在MRS Manager页面选择“系统设置”>“配置”>“权限配置”查询。 MRS 3.x及之后版本:在FusionInsight Manager页面选择“系统 > 权限”查询。 权限配置的相关使用方法请参考权限管理。 Kerberos集群的使用方式请参考使用Kerberos认证集群。
当Impala的内置函数不能满足需要时,可以通过编写用户自定义函数UDF(User-Defined Functions)插入自己的处理代码并在查询中使用它们。 按实现方式,UDF有如下分类: 普通的UDF,用于操作单个数据行,且产生一个数据行作为输出。 用户定义聚集函数UDAF(User-Defined
Table Kudu Table可以创建为内部表或外部表,其中内部表由Impala管理,而外部表不由Impala管理,但可以通过Impala进行查询。 Table有schema和primary key属性,且可以划分为多个tablet。 Tablet Tablet是指数据分片,可以指定副本数,存放在多个tablet
当Impala的内置函数不能满足需要时,可以通过编写用户自定义函数UDF(User-Defined Functions)插入自己的处理代码并在查询中使用它们。 按实现方式,UDF有如下分类: 普通的UDF,用于操作单个数据行,且产生一个数据行作为输出。 用户定义聚集函数UDAF(User-Defined
Hive Join数据优化 操作场景 使用Join语句时,如果数据量大,可能造成命令执行速度和查询速度慢,此时可进行Join优化。 Join优化可分为以下方式: Map Join Sort Merge Bucket Map Join Join顺序优化 Map Join Hive的Map
mp”目录下,由--local_library_dir配置项控制,“/tmp”目录下的文件保存一定时间后会被操作系统删除,导致Impala查询时出现缺类错误。 登录Manager界面,选择“集群 > 服务 > Impala > 配置 > 全部配置 > Impalad(角色) > 自定义”,在“impalad
修改参数值后,需重启YARN服务使其生效。 说明: 在修改值为“false”并生效后,生效前的日志无法在WebUI中获取。 如果需要在WebUI界面上查看之前产生的日志,建议将此参数设置为“true”。 true yarn.nodemanager.log-aggregation.roll-m
的操作。以下开发程序示例中,全部通过clickhouse-jdbc API接口来进行描述。 设置属性 建立连接 创建库 创建表 插入数据 查询数据 删除表 父主题: 开发ClickHouse应用
hindex.mapreduce.TableIndexer -Dtablename.to.index=<table_name> -Dindexspecs.to.add='IDX1=>cf1:[q1->datatype];cf2:[q1->datatype],[q2->datatype],[
hindex.mapreduce.TableIndexer -Dtablename.to.index=<table_name> -Dindexspecs.to.add='IDX1=>cf1:[q1->datatype];cf2:[q1->datatype],[q2->datatype],[
Source Kafka作业参数(仅适用于MRS 3.2.0版本) 参数名称 描述 示例 Link 已创建的kafka连接。 kafkalink 表6 thirdparty-kafka作业参数 参数名称 描述 示例 Link 已创建的thirdparty-kafka连接。 thirdparty-kafkalink
毫秒级的数据详单查询。 图2 车联网行业海量数据存储场景 该场景下MRS的优势如下所示。 实时:利用Kafka实现海量汽车的消息实时接入。 海量数据存储:利用HBase实现海量数据存储,并实现毫秒级数据查询。 分布式数据查询:利用Spark实现海量数据的分析查询。 实时数据处理
Hive性能调优 建立Hive表分区提升查询效率 Hive Join数据优化 Hive Group By语句优化 Hive ORC数据存储优化 Hive SQL逻辑优化 使用Hive CBO功能优化多表查询效率 父主题: 使用Hive