MAPREDUCE服务 MRS-Spark scala API接口介绍:SparkSQL常用接口

时间:2024-10-22 10:49:50

SparkSQL常用接口

Spark SQL中常用的类有:

  • SQLContext:是Spark SQL功能和DataFrame的主入口。
  • DataFrame:是一个以命名列方式组织的分布式数据集。
  • HiveContext:获取存储在Hive中数据的主入口。
表6 常用的Actions方法

方法

说明

collect(): Array[Row]

返回一个数组,包含DataFrame的所有列。

count(): Long

返回DataFrame中的行数。

describe(cols: String*): DataFrame

计算统计信息,包含计数,平均值,标准差,最小值和最大值。

first(): Row

返回第一行。

Head(n:Int): Row

返回前n行。

show(numRows: Int, truncate: Boolean): Unit

用表格形式显示DataFrame。

take(n:Int): Array[Row]

返回DataFrame中的前n行。

表7 基本的DataFrame Functions

方法

说明

explain(): Unit

打印出SQL语句的逻辑计划和物理计划。

printSchema(): Unit

打印schema信息到控制台。

registerTempTable(tableName: String): Unit

将DataFrame注册为一张临时表,其周期和SQLContext绑定在一起。

toDF(colNames: String*): DataFrame

返回一个列重命名的DataFrame。

support.huaweicloud.com/devg-lts-mrs/mrs_07_410128.html