MAPREDUCE服务 MRS-Spark Python接口介绍:SparkSQL常用接口
SparkSQL常用接口
Spark SQL中在Python中重要的类有:
- pyspark.sql.SQLContext:是Spark SQL功能和DataFrame的主入口。
- pyspark.sql.DataFrame:是一个以命名列方式组织的分布式数据集。
- pyspark.sql.HiveContext:获取存储在Hive中数据的主入口。
- pyspark.sql.DataFrameStatFunctions:统计功能中一些函数。
- pyspark.sql.functions:DataFrame中内嵌的函数。
- pyspark.sql.Window:sql中提供窗口功能。
方法 |
说明 |
---|---|
collect() |
返回一个数组,包含DataFrame的所有列。 |
count() |
返回DataFrame中的行数。 |
describe() |
计算统计信息,包含计数,平均值,标准差,最小值和最大值。 |
first() |
返回第一行。 |
head(n) |
返回前n行。 |
show() |
用表格形式显示DataFrame。 |
take(num) |
返回DataFrame中的前num行。 |
方法 |
说明 |
---|---|
explain() |
打印出SQL语句的逻辑计划和物理计划。 |
printSchema() |
打印schema信息到控制台。 |
registerTempTable(name) |
将DataFrame注册为一张临时表,命名为name,其周期和SQLContext绑定在一起。 |
toDF() |
返回一个列重命名的DataFrame。 |