MAPREDUCE服务 MRS-Spark scala API接口介绍:SparkSQL常用接口
SparkSQL常用接口
Spark SQL中常用的类有:
- SQLContext:是Spark SQL功能和DataFrame的主入口。
- DataFrame:是一个以命名列方式组织的分布式数据集。
- HiveContext:获取存储在Hive中数据的主入口。
方法 |
说明 |
---|---|
collect(): Array[Row] |
返回一个数组,包含DataFrame的所有列。 |
count(): Long |
返回DataFrame中的行数。 |
describe(cols: String*): DataFrame |
计算统计信息,包含计数,平均值,标准差,最小值和最大值。 |
first(): Row |
返回第一行。 |
Head(n:Int): Row |
返回前n行。 |
show(numRows: Int, truncate: Boolean): Unit |
用表格形式显示DataFrame。 |
take(n:Int): Array[Row] |
返回DataFrame中的前n行。 |
方法 |
说明 |
---|---|
explain(): Unit |
打印出SQL语句的逻辑计划和物理计划。 |
printSchema(): Unit |
打印schema信息到控制台。 |
registerTempTable(tableName: String): Unit |
将DataFrame注册为一张临时表,其周期和SQLContext绑定在一起。 |
toDF(colNames: String*): DataFrame |
返回一个列重命名的DataFrame。 |