检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在Hive中执行多表Join时,Hive支持开启CBO(Cost Based Optimization),系统会自动根据表的统计信息,例如数据量、文件数等,选出合适计划提高多表Join的效率。Hive需要先收集表的统计信息后才能使CBO正确的优化。 CBO优化器会基于统计信息和查询条件,尽可能地使Join顺序
aRegion)默认具有3个副本,也可配置3个以上。当某节点故障时,Region副本的其他主机节点上的副本可替代工作,保证服务能正常运行,提高集群的稳定性。 本章节主要介绍IoTDB数据操作时常用的配置参数。 操作步骤 登录集群Manager页面,选择“集群 > 服务 > IoTDB
功能简介 要从表中读取数据,首先需要实例化该表对应的Table实例,然后创建一个Scan对象,并针对查询条件设置Scan对象的参数值,为了提高查询效率,最好指定StartRow和StopRow。查询结果的多行数据保存在ResultScanner对象中,每行数据以Result对象形
CarbonData基本原理 CarbonData是一种新型的Apache Hadoop本地文件格式,使用先进的列式存储、索引、压缩和编码技术,以提高计算效率,有助于加速超过PB数量级的数据查询,可用于更快的交互查询。同时,CarbonData也是一种将数据源与Spark集成的高性能分析引擎。
功能简介 要从表中读取数据,首先需要实例化该表对应的Table实例,然后创建一个Scan对象,并针对查询条件设置Scan对象的参数值,为了提高查询效率,建议指定StartRow和StopRow。查询结果的多行数据保存在ResultScanner对象中,每行数据以Result对象形
),使用索引可提高查询性能。 Filter_Condition(IndexCol1)OR Filter_Condition(IndexCol1)OR Filter_Condition(IndexCol1) 对非索引和非索引列进行过滤时,无法命中索引,查询性能不会提高。 Filte
配置HBase应用输出日志 功能介绍 将HBase客户端的日志单独输出到指定日志文件,与业务日志分开,方便分析定位HBase的问题。 如果进程中已经有log4j的配置,需要将“hbase-example\src\main\resources\log4j.properties”中R
配置HBase应用输出运行日志 功能介绍 将hbase client的日志单独输出到指定日志文件,与业务日志分开,方便分析定位hbase的问题。 如果进程中已经有log4j的配置,需要将hbase-example\src\main\resources\log4j.properti
配置HBase应用输出运行日志 功能介绍 将HBase客户端的日志单独输出到指定日志文件,与业务日志分开,方便分析定位HBase的问题。 如果进程中已经有log4j的配置,需要将“hbase-example\src\main\resources\log4j.properties”
配置HBase应用输出日志 功能介绍 将HBase客户端的日志单独输出到指定日志文件,与业务日志分开,方便分析定位HBase的问题。 如果进程中已经有log4j的配置,需要将“hbase-example\src\main\resources\log4j.properties”中R
HBase容灾集群业务切换指导 操作场景 MRS集群管理员可配置HBase集群容灾功能,以提高系统可用性。容灾环境中的主集群完全故障影响HBase上层应用连接时,需要为HBase上层应用配置备集群信息,才可以使得该应用在备集群上运行。 对系统的影响 切换业务后,写入备集群的数据默
用Flux框架提交和部署拓扑的场景。本章中描述的jar包的具体版本信息请以实际情况为准。 Flux框架是Storm 0.10.0版本提供的提高拓扑部署易用性的框架。通过Flux框架,用户可以使用yaml文件来定义和部署拓扑,并且最终通过storm jar命令来提交拓扑的一种方式,
启动该配置的过程中,ApplicationMaster在创建Container时,分配的内存会根据任务总数的浮动自动调整,资源利用更加灵活,提高了客户端应用运行的容错性。 配置描述 参数入口: 参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面,在搜索框中输入参数名称“mapreduce
调整Yarn任务抢占机制 操作场景 抢占任务可精简队列中的job运行并提高资源利用率,由ResourceManager的capacity scheduler实现,其简易流程如下: 假设存在两个队列A和B。其中队列A的capacity为25%,队列B的capacity为75%。 初
聚合等算子)的SQL通过建立物化视图进行预计算,然后在查询的SQL中将能匹配到物化视图的查询或者子查询转换为物化视图,避免了数据的重复计算,这种情况下往往能较大地提高查询的响应效率。 物化视图通常基于对数据表进行聚合和连接的查询结果创建。 物化视图支持“查询重写”,这是一种优化技术,即将基于原始表编写的
安全模式(启用Kerberos认证) 安全模式的MRS集群统一使用Kerberos认证协议进行安全认证。Kerberos协议支持客户端与服务端进行相互认证,提高了安全性,可有效消除使用网络发送用户凭据进行模拟认证的安全风险。集群中由KrbServer服务提供Kerberos认证支持。 Kerberos用户对象
调整Yarn任务抢占机制 操作场景 抢占任务可精简队列中的job运行并提高资源利用率,由ResourceManager的capacity scheduler实现,其简易流程如下: 假设存在两个队列A和B。其中队列A的capacity为25%,队列B的capacity为75%。 初
Hive在做Select查询时,一般会扫描整个表内容,会消耗较多时间去扫描不关注的数据。此时,可根据业务需求及其查询维度,建立合理的表分区,从而提高查询效率。 操作步骤 MRS 3.x之前版本: 登录MRS控制台,在左侧导航栏选择“现有集群”,单击集群名称。选择“节点管理 > 节点名称”
下的其他子网,实现可用子网IP的扩充。切换子网不会影响当前已有节点的IP地址和子网。 通过子网提供与其他网络隔离的、可以独享的网络资源,以提高网络安全。 虚拟私有云 VPC信息,创建集群时所选。 VPC即虚拟私有云,是通过逻辑方式进行网络隔离,提供安全、隔离的网络环境。 弹性公网IP
YARN应用开发简介 简介 Yarn是一个分布式的资源管理系统,用于提高分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最初MapReduce的committer还可以周期性的在已有的代码上进行修改,可是