检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark优化sql的执行,一般的优化规则都是启发式的优化规则,启发式的优化规则,仅仅根据逻辑计划本身的特点给出优化,没有考虑数据本身的特点,也就是未考虑算子本身的执行代价。Spark在2.2中引入了基于代价的优化规则(CBO)。CBO会收集表和列的统计信息,结合算子的输入数据集来估计
Spark优化sql的执行,一般的优化规则都是启发式的优化规则,启发式的优化规则,仅仅根据逻辑计划本身的特点给出优化,没有考虑数据本身的特点,也就是未考虑算子本身的执行代价。Spark在2.2中引入了基于代价的优化规则(CBO)。CBO会收集表和列的统计信息,结合算子的输入数据集来估计
Kudu支持的压缩算法有哪些? 问:Kudu支持的压缩算法有哪些? 答:Kudu目前支持的压缩算法有snappy、lz4和zlib,默认是lz4。 父主题: 组件配置类
聚合算法优化 操作场景 在Spark SQL中支持基于行的哈希聚合算法,即使用快速聚合hashmap作为缓存,以提高聚合性能。hashmap替代了之前的ColumnarBatch支持,从而避免拥有聚合表的宽模式(大量key字段或value字段)时产生的性能问题。 操作步骤 要启动
聚合算法优化 操作场景 在Spark SQL中支持基于行的哈希聚合算法,即使用快速聚合hashmap作为缓存,以提高聚合性能。hashmap替代了之前的ColumnarBatch支持,从而避免拥有聚合表的宽模式(大量key字段或value字段)时产生的性能问题。 操作步骤 要启动
Driver创建要写入文件的目录。 根据RDD分区分块情况,计算出写数据的Task数,并下发这些任务到Executor。 Executor执行这些Task,将具体RDD的数据写入到步骤1创建的目录下。 Spark和YARN的关系 Spark的计算调度方式,可以通过YARN的模式实现。Spa
使用LZC压缩算法存储HDFS文件 配置场景 文件压缩可以减少储存文件的空间,并且提高数据从磁盘读取和网络传输的速度。HDFS有Gzip和Snappy这两种默认压缩格式。本章节为HDFS新增加的压缩格式LZC(Lempel-Ziv Compression)提供配置方法。这种压缩格
使用ZSTD_JNI压缩算法压缩Hive ORC表 操作场景 ZSTD_JNI是ZSTD压缩算法的native实现,相较于ZSTD而言,压缩读写效率和压缩率更优,并允许用户设置压缩级别,以及对特定格式的数据列指定压缩方式。 目前仅ORC格式的表支持ZSTD_JNI压缩方式,而普通的ZSTD压缩
Flink与其他组件的关系 Flink与Yarn的关系 Flink支持基于Yarn管理的集群模式,在该模式下,Flink作为Yarn上的一个应用,提交到Yarn上执行。 Flink基于Yarn的集群部署如图1所示。 图1 Flink基于Yarn的集群部署 Flink Yarn C
使用LZC压缩算法存储HDFS文件 配置场景 文件压缩可以减少储存文件的空间,并且提高数据从磁盘读取和网络传输的速度。HDFS有Gzip和Snappy这两种默认压缩格式。本章节为HDFS新增加的压缩格式LZC(Lempel-Ziv Compression)提供配置方法。这种压缩格
与其他云服务的关系 MRS服务与周边其他云服务的关系如图1所示。 图1 MRS与其他云服务的关系图 MRS服务与其他云服务的关系 表1 MRS服务与其他云服务的关系 服务名称 MRS服务与其他服务的关系 主要交互功能 虚拟私有云(Virtual Private Cloud) MR
Loader与其他组件的关系 与Loader有交互关系的组件有HDFS、HBase、Hive、Yarn、Mapreduce和ZooKeeper等。 Loader作为客户端使用这些组件的某些功能,如存储数据到HDFS和HBase,从HDFS和HBase表读数据,同时Loader本身
HBase中的所有数据文件都可以存储在Hadoop HDFS文件系统上。 HBase和ZooKeeper的关系 HBase和ZooKeeper的关系如图 ZooKeeper和HBase的关系所示。 图1 HBase和ZooKeeper的关系 HRegionServer以Ephemeral
ZooKeeper与其他组件的关系 ZooKeeper和HDFS的关系 ZooKeeper与HDFS的关系如图1所示。 图1 ZooKeeper和HDFS的关系 ZKFC(ZKFailoverController)作为一个ZooKeeper集群的客户端,用来监控NameNode的状态信息。ZK
Storm与其他组件的关系 Storm,提供实时的分布式计算框架,它可以从数据源(如Kafka、TCP连接等)中获得实时消息数据,在实时平台上完成高吞吐、低延迟的实时计算,并将结果输出到消息队列或者进行持久化。Storm与其他组件的关系如图1所示: 图1 组件关系图 Storm和Streaming的关系
配置Hive读取关系型数据库 操作场景 Hive支持创建与其他关系型数据库关联的外表。该外表可以从关联到的关系型数据库中读取数据,并与Hive的其他表进行Join操作。 目前支持使用Hive读取DB2和Oracle两种关系型数据库的数据。 前提条件 已安装Hive客户端。 操作步骤
Hue与其他组件的关系 Hue与Hadoop集群的关系 Hue与Hadoop集群的交互关系如图1所示。 图1 Hue与Hadoop集群 表1 Hue与其它组件的关系 名称 描述 HDFS HDFS提供REST接口与Hue交互,用于查询、操作HDFS文件。 在Hue把用户请求从用户
获取关系型数据库使用的用户和密码。 检查磁盘空间,确保没有出现告警且余量满足导入、导出数据的大小。 如果设置的作业需要使用指定YARN队列功能,该用户需要已授权有相关YARN队列的权限。 设置任务的用户需要获取该任务的执行权限,并获取该任务对应的连接的使用权限。 操作前需要进行如下配置: 获取关
理Hive的数据库、表、分区等的结构和属性信息(即Hive的元数据),这些信息需要存放在一个关系型数据库中,由MetaStore管理和处理。在产品中,Hive的元数据由DBService组件存储和维护,由Metadata组件提供元数据服务。 Hive与Spark的关系 Hive支
Doris与其他组件的关系 Doris与HDFS组件的关系 Doris支持导入和导出HDFS数据,并且支持直接查询HDFS数据源。 Doris与Hudi组件的关系 Doris支持直接查询Hudi数据源。 Doris与Spark组件的关系 使用Spark Doris Connect