MAPREDUCE服务 MRS-Spark Python接口介绍:SparkSQL常用接口

时间:2024-10-22 10:47:04

SparkSQL常用接口

Spark SQL中在Python中重要的类有:

  • pyspark.sql.SQLContext:是Spark SQL功能和DataFrame的主入口。
  • pyspark.sql.DataFrame:是一个以命名列方式组织的分布式数据集。
  • pyspark.sql.HiveContext:获取存储在Hive中数据的主入口。
  • pyspark.sql.DataFrameStatFunctions:统计功能中一些函数。
  • pyspark.sql.functions:DataFrame中内嵌的函数。
  • pyspark.sql.Window:sql中提供窗口功能。
表4 Spark SQL常用的Action

方法

说明

collect()

返回一个数组,包含DataFrame的所有列。

count()

返回DataFrame中的行数。

describe()

计算统计信息,包含计数,平均值,标准差,最小值和最大值。

first()

返回第一行。

head(n)

返回前n行。

show()

用表格形式显示DataFrame。

take(num)

返回DataFrame中的前num行。

表5 基本的DataFrame Functions

方法

说明

explain()

打印出SQL语句的逻辑计划和物理计划。

printSchema()

打印schema信息到控制台。

registerTempTable(name)

将DataFrame注册为一张临时表,命名为name,其周期和SQLContext绑定在一起。

toDF()

返回一个列重命名的DataFrame。

support.huaweicloud.com/devg-mrs/mrs_06_0240.html